Как работает краулер

Принцип обхода, сбор данных и ограничения

Алгоритм обхода

Краулер использует BFS (обход в ширину) — начинает с указанного URL и рекурсивно переходит по всем найденным внутренним ссылкам.

Загружается стартовый URL.
Из HTML извлекаются все <a href="..."> ссылки.
Отбираются только ссылки на тот же домен (внутренние).
Каждая новая ссылка добавляется в очередь.
Процесс повторяется до достижения лимита страниц или исчерпания ссылок.

💡

Поддомены (blog.example.com) считаются отдельным сайтом и не краулятся при обходе example.com.

Что собирается на каждой странице

Для каждого URL краулер сохраняет:

HTTP-статус (200, 301, 404, 5xx…)
Title — текст тега <title> и его длина
Meta description и её длина
H1 — первый заголовок H1, количество H1 на странице
Canonical — значение <link rel="canonical">
OG-теги — og:title, og:description, og:image
Meta robots — содержимое <meta name="robots">
Lang — атрибут <html lang="...">
Изображения без alt — количество <img> без атрибута alt
Внутренние и внешние ссылки — количество
Количество слов в видимом тексте
Время ответа (TTFB в мс)
Количество редиректов до финального URL
Размер страницы в байтах
Глубина — количество переходов от стартового URL

Для точечной проверки отдельных параметров без полного обхода воспользуйтесь онлайн-инструментами.

Статусы задачи

Статус	Описание
В очереди	Задача создана и ожидает начала обхода
Выполняется	Краулинг идёт прямо сейчас — страницы загружаются и анализируются
Останавливается	Вы нажали «Стоп» — краулер завершает текущие запросы
Завершено	Обход завершён, результаты доступны для просмотра и экспорта
Ошибка	Обход не удался — причина указана в описании задачи

Ограничения краулера

Скорость: не более 1 запроса в секунду на сайт (задержка между запросами).
Таймаут: 15 секунд на страницу. Если сервер не ответил — страница помечается ошибкой.
Лимит страниц: Free — 50 страниц, Pro/Trial — 500.
JavaScript: краулер не выполняет JS. Контент, который рендерится на клиенте (SPA, React, Vue), не будет виден.
Авторизация: краулер обходит только публично доступные страницы без cookie/токенов.
robots.txt: соблюдается автоматически. Страницы, запрещённые Disallow, не обходятся.

⚠️

Краулер не обходит localhost и приватные IP-диапазоны (10.x, 192.168.x, 172.16–31.x) — это защита от SSRF-атак.

Параллельность

На сервере одновременно могут выполняться несколько задач обхода. Если все слоты заняты, новая задача ждёт в очереди и автоматически запустится, когда появится свободный слот.

Частые вопросы

Как SEO Crawler обходит сайт?

Краулер использует алгоритм BFS (обход в ширину). Начинает со стартовой страницы, находит все внутренние ссылки и переходит по ним. Поддомены считаются отдельным сайтом и не обходятся.

Какие данные собирает краулер на каждой странице?

Title, H1, meta description, canonical, Open Graph теги, meta robots, HTTP-статус, время ответа сервера (TTFB), количество редиректов, количество слов, внутренние и внешние ссылки, изображения без alt.

Сколько страниц может обойти краулер?

На бесплатном тарифе — до 50 страниц за один обход. На Pro и Trial — до 500 страниц. Скорость обхода ограничена одним запросом в секунду, чтобы не нагружать сервер сайта.