Перейти к содержимому
Попробовать

Как работает краулер

Алгоритм обхода

Краулер использует BFS (обход в ширину) — начинает с указанного URL и рекурсивно переходит по всем найденным внутренним ссылкам.

  1. Загружается стартовый URL.
  2. Из HTML извлекаются все <a href="..."> ссылки.
  3. Отбираются только ссылки на тот же домен (внутренние).
  4. Каждая новая ссылка добавляется в очередь.
  5. Процесс повторяется до достижения лимита страниц или исчерпания ссылок.
💡
Поддомены (blog.example.com) считаются отдельным сайтом и не краулятся при обходе example.com.

Что собирается на каждой странице

Для каждого URL краулер сохраняет:

  • HTTP-статус (200, 301, 404, 5xx…)
  • Title — текст тега <title> и его длина
  • Meta description и её длина
  • H1 — первый заголовок H1, количество H1 на странице
  • Canonical — значение <link rel="canonical">
  • OG-теги — og:title, og:description, og:image
  • Meta robots — содержимое <meta name="robots">
  • Lang — атрибут <html lang="...">
  • Изображения без alt — количество <img> без атрибута alt
  • Внутренние и внешние ссылки — количество
  • Количество слов в видимом тексте
  • Время ответа (TTFB в мс)
  • Количество редиректов до финального URL
  • Размер страницы в байтах
  • Глубина — количество переходов от стартового URL

Для точечной проверки отдельных параметров без полного обхода воспользуйтесь онлайн-инструментами.

Статусы задачи

Статус Описание
В очереди Задача создана и ожидает начала обхода
Выполняется Краулинг идёт прямо сейчас — страницы загружаются и анализируются
Останавливается Вы нажали «Стоп» — краулер завершает текущие запросы
Завершено Обход завершён, результаты доступны для просмотра и экспорта
Ошибка Обход не удался — причина указана в описании задачи

Ограничения краулера

  • Скорость: не более 1 запроса в секунду на сайт (задержка между запросами).
  • Таймаут: 15 секунд на страницу. Если сервер не ответил — страница помечается ошибкой.
  • Лимит страниц: Free — 50 страниц, Pro/Trial — 500.
  • JavaScript: краулер не выполняет JS. Контент, который рендерится на клиенте (SPA, React, Vue), не будет виден.
  • Авторизация: краулер обходит только публично доступные страницы без cookie/токенов.
  • robots.txt: соблюдается автоматически. Страницы, запрещённые Disallow, не обходятся.
⚠️
Краулер не обходит localhost и приватные IP-диапазоны (10.x, 192.168.x, 172.16–31.x) — это защита от SSRF-атак.

Параллельность

На сервере одновременно могут выполняться несколько задач обхода. Если все слоты заняты, новая задача ждёт в очереди и автоматически запустится, когда появится свободный слот.

Частые вопросы

Как SEO Crawler обходит сайт?

Краулер использует алгоритм BFS (обход в ширину). Начинает со стартовой страницы, находит все внутренние ссылки и переходит по ним. Поддомены считаются отдельным сайтом и не обходятся.

Какие данные собирает краулер на каждой странице?

Title, H1, meta description, canonical, Open Graph теги, meta robots, HTTP-статус, время ответа сервера (TTFB), количество редиректов, количество слов, внутренние и внешние ссылки, изображения без alt.

Сколько страниц может обойти краулер?

На бесплатном тарифе — до 50 страниц за один обход. На Pro и Trial — до 500 страниц. Скорость обхода ограничена одним запросом в секунду, чтобы не нагружать сервер сайта.