Сайт не обходится

Краулинг / Диагностика проблем

Если задача завершилась с ошибкой, обошла 0 страниц или нашла меньше страниц, чем ожидалось — ниже перечислены наиболее частые причины и способы их устранения.

💡

Проверить конкретный URL можно в браузере через инструменты разработчика (F12 → Network). Если сайт открывается в браузере, но не краулится — читайте дальше.

🔍 Проверить URL нашим ботом

Введите URL — краулер сделает один запрос и покажет реальный код ответа.

Возможные причины

🤖 robots.txt запрещает краулинг ▾

Перед обходом краулер загружает /robots.txt и соблюдает директивы Disallow для группы User-agent: *. Если весь сайт закрыт — страниц будет 0.

Как проверить: откройте https://ваш-сайт.ru/robots.txt и найдите строки вида:

User-agent: *
Disallow: /

Запись Disallow: / закрывает весь сайт. Disallow: /admin/ закрывает только раздел /admin/.

Решение: если вы владелец сайта — скорректируйте robots.txt. Краулер всегда соблюдает директивы robots.txt и не игнорирует их.

🚫 Сайт отдаёт 403 Forbidden ▾

Сервер отклоняет запросы от краулера. Это может быть сделано намеренно (WAF, CDN-правила, Cloudflare Bot Management) или случайно (неверная настройка прав).

Признак: в столбце «Код» в таблице результатов стоит 403.

Частые причины:

Cloudflare или другой WAF блокирует автоматические запросы
Сайт требует авторизации для просмотра страниц
IP-адрес сервера заблокирован
Геоблокировка (сайт доступен только из определённых стран)

Решение: проверьте, открывается ли URL в браузере без авторизации. Если нет — краулер не сможет обойти защищённый контент.

⏱️ Сайт блокирует за слишком частые запросы (429) ▾

Код 429 Too Many Requests означает, что сервер временно ограничил доступ. Краулер делает паузу между запросами (минимум 0,5 сек), но некоторые сайты имеют более строгие ограничения.

Решение: если сайт имеет директиву Crawl-delay в robots.txt — краулер её соблюдает. Если сайт всё равно блокирует — уменьшите Макс. страниц при создании задачи, чтобы снизить нагрузку.

⚙️ Контент отрисовывается через JavaScript (SPA) ▾

SEO Crawler загружает HTML-ответ сервера напрямую, без выполнения JavaScript. Если сайт построен на React, Vue, Angular или других SPA-фреймворках и рендерит контент на клиенте — краулер увидит пустую страницу или минимальный HTML.

Признаки:

Title и H1 пустые, хотя в браузере они есть
Количество слов = 0 или очень мало
Внутренних ссылок 0, хотя навигация присутствует

Решение: для SPA-сайтов настройте Server-Side Rendering (SSR) или Static Site Generation (SSG). Это полезно не только для краулера, но и для индексации в Google и Яндексе.

🐌 Таймаут — сервер отвечает слишком медленно ▾

Краулер ждёт ответа максимум 10 секунд. Если сервер не ответил за это время — страница помечается как ошибка «Сервер не ответил вовремя (таймаут)».

Решение:

Проверьте TTFB сайта — если он регулярно превышает 3–4 секунды, это проблема сервера
Попробуйте запустить обход в нерабочее время (ночью), когда нагрузка ниже
Убедитесь, что сервер не перегружен параллельными запросами

↪️ Бесконечный редирект или редирект-петля ▾

Краулер следует редиректам автоматически (301, 302, 307, 308), но если возникает петля или редиректов слишком много — соединение прерывается с ошибкой Too many redirects.

Признак: ошибка в столбце «Ошибка» содержит текст Too many redirects.

Решение: проверьте настройки редиректов на сервере (Nginx, Apache) и в CMS.

🔒 Ошибка SSL/TLS сертификата ▾

Если у сайта истёкший, самоподписанный или неверно настроенный SSL-сертификат — краулер не сможет установить HTTPS-соединение.

Признак: ошибка «Не удалось проверить SSL-сертификат сайта».

Решение: обновите SSL-сертификат. Проверить можно через SSL Labs.

🌐 DNS не резолвится — домен недоступен ▾

Если домен не существует, не привязан к IP или DNS-записи не распространились — краулер не сможет подключиться к серверу.

Признак: ошибка «Не удалось найти сервер — проверьте домен».

Решение: проверьте DNS-настройки домена. Распространение DNS может занимать до 48 часов после изменений.

🔗 Страниц мало: nofollow или noindex на главной ▾

Если главная страница или большинство страниц содержат <meta name="robots" content="nofollow"> или <meta name="robots" content="none"> — краулер не будет переходить по ссылкам с этих страниц.

Аналогично, ссылки с атрибутом rel="nofollow" не добавляются в очередь.

Как проверить: посмотрите столбец «Robots» в таблице результатов.

🏠 Сайт на localhost или в локальной сети ▾

Из соображений безопасности краулер блокирует запросы к внутренним адресам:

localhost, 127.x.x.x
Приватные диапазоны: 192.168.x.x, 10.x.x.x, 172.16–31.x.x
AWS/GCP metadata: 169.254.169.254, metadata.google.internal

Это стандартная SSRF-защита. Для проверки локальных сайтов используйте инструменты вроде ngrok для публичного туннеля.

Диагностика по коду ответа

Код	Значение	Что делать
`200`	Успешно	Всё в порядке
`301 / 302`	Редирект	Краулер следует автоматически, счётчик редиректов увеличивается
`403`	Доступ запрещён	WAF / авторизация / геоблокировка
`404`	Страница не найдена	Битая ссылка — нужно исправить или удалить
`429`	Слишком много запросов	Сайт ограничивает краулеры — попробуйте позже
`500 / 503`	Ошибка сервера	Сервер сайта не работает или перегружен
пусто	Сетевая ошибка	Таймаут, DNS-ошибка, SSL-проблема — смотрите столбец «Ошибка»

Ограничения краулера

JavaScript не выполняется. Краулер работает с исходным HTML-ответом сервера.
Авторизация не поддерживается. Закрытые зоной логина страницы не обходятся.
Только HTTP и HTTPS. Схемы ftp://, file:// и другие блокируются.
Максимальный размер страницы: 5 МБ. Более крупные страницы не скачиваются.
Таймаут: 10 секунд на страницу.
Только внутренние ссылки. Краулер обходит только страницы в рамках одного домена.
Лимит страниц задаётся при создании задачи (Free: до 50, Pro/Trial: до 500).

✅

Если ни одна из причин не объяснила проблему — нажмите 💬 Фидбэк в шапке и опишите ситуацию. Укажите URL сайта и что вы видите в результатах.

Частые вопросы

Почему краулер не может обойти мой сайт?

Самые частые причины: robots.txt блокирует доступ, сервер возвращает ошибку 403 или 429, сайт полностью построен на JavaScript (SPA), сервер не отвечает в течение 10 секунд или происходит бесконечный редирект.

Что делать, если краулер показывает 0 страниц?

Проверьте robots.txt — директива Disallow: / закрывает весь сайт. Убедитесь, что сайт отвечает на запросы без JavaScript. Попробуйте открыть URL в приватном окне браузера — если сайт не загружается, проблема на стороне сервера.

Краулер обходит не все страницы — почему?

Возможные причины: достигнут лимит страниц тарифа (50 на Free, 500 на Pro), часть страниц закрыта в robots.txt, ссылки на страницы содержат атрибут nofollow, или страницы доступны только через JavaScript-навигацию.