Как работает краулер
Алгоритм обхода
Краулер использует BFS (обход в ширину) — начинает с указанного URL и рекурсивно переходит по всем найденным внутренним ссылкам.
- Загружается стартовый URL.
- Из HTML извлекаются все
<a href="...">ссылки. - Отбираются только ссылки на тот же домен (внутренние).
- Каждая новая ссылка добавляется в очередь.
- Процесс повторяется до достижения лимита страниц или исчерпания ссылок.
blog.example.com) считаются отдельным сайтом и не краулятся при обходе example.com.Что собирается на каждой странице
Для каждого URL краулер сохраняет:
- HTTP-статус (200, 301, 404, 5xx…)
- Title — текст тега
<title>и его длина - Meta description и её длина
- H1 — первый заголовок H1, количество H1 на странице
- Canonical — значение
<link rel="canonical"> - OG-теги — og:title, og:description, og:image
- Meta robots — содержимое
<meta name="robots"> - Lang — атрибут
<html lang="..."> - Изображения без alt — количество
<img>без атрибута alt - Внутренние и внешние ссылки — количество
- Количество слов в видимом тексте
- Время ответа (TTFB в мс)
- Количество редиректов до финального URL
- Размер страницы в байтах
- Глубина — количество переходов от стартового URL
Для точечной проверки отдельных параметров без полного обхода воспользуйтесь онлайн-инструментами.
Статусы задачи
| Статус | Описание |
|---|---|
| В очереди | Задача создана и ожидает начала обхода |
| Выполняется | Краулинг идёт прямо сейчас — страницы загружаются и анализируются |
| Останавливается | Вы нажали «Стоп» — краулер завершает текущие запросы |
| Завершено | Обход завершён, результаты доступны для просмотра и экспорта |
| Ошибка | Обход не удался — причина указана в описании задачи |
Ограничения краулера
- Скорость: не более 1 запроса в секунду на сайт (задержка между запросами).
- Таймаут: 15 секунд на страницу. Если сервер не ответил — страница помечается ошибкой.
- Лимит страниц: Free — 50 страниц, Pro/Trial — 500.
- JavaScript: краулер не выполняет JS. Контент, который рендерится на клиенте (SPA, React, Vue), не будет виден.
- Авторизация: краулер обходит только публично доступные страницы без cookie/токенов.
- robots.txt: соблюдается автоматически. Страницы, запрещённые
Disallow, не обходятся.
Параллельность
На сервере одновременно могут выполняться несколько задач обхода. Если все слоты заняты, новая задача ждёт в очереди и автоматически запустится, когда появится свободный слот.
Частые вопросы
Как SEO Crawler обходит сайт?
Краулер использует алгоритм BFS (обход в ширину). Начинает со стартовой страницы, находит все внутренние ссылки и переходит по ним. Поддомены считаются отдельным сайтом и не обходятся.
Какие данные собирает краулер на каждой странице?
Title, H1, meta description, canonical, Open Graph теги, meta robots, HTTP-статус, время ответа сервера (TTFB), количество редиректов, количество слов, внутренние и внешние ссылки, изображения без alt.
Сколько страниц может обойти краулер?
На бесплатном тарифе — до 50 страниц за один обход. На Pro и Trial — до 500 страниц. Скорость обхода ограничена одним запросом в секунду, чтобы не нагружать сервер сайта.