Сайт не обходится
Если задача завершилась с ошибкой, обошла 0 страниц или нашла меньше страниц, чем ожидалось — ниже перечислены наиболее частые причины и способы их устранения.
Введите URL — краулер сделает один запрос и покажет реальный код ответа.
Возможные причины
Перед обходом краулер загружает /robots.txt и соблюдает директивы
Disallow для группы User-agent: *.
Если весь сайт закрыт — страниц будет 0.
Как проверить: откройте https://ваш-сайт.ru/robots.txt
и найдите строки вида:
User-agent: *
Disallow: /
Запись Disallow: / закрывает весь сайт.
Disallow: /admin/ закрывает только раздел /admin/.
Решение: если вы владелец сайта — скорректируйте robots.txt. Краулер всегда соблюдает директивы robots.txt и не игнорирует их.
Сервер отклоняет запросы от краулера. Это может быть сделано намеренно (WAF, CDN-правила, Cloudflare Bot Management) или случайно (неверная настройка прав).
Признак: в столбце «Код» в таблице результатов стоит 403.
Частые причины:
- Cloudflare или другой WAF блокирует автоматические запросы
- Сайт требует авторизации для просмотра страниц
- IP-адрес сервера заблокирован
- Геоблокировка (сайт доступен только из определённых стран)
Решение: проверьте, открывается ли URL в браузере без авторизации. Если нет — краулер не сможет обойти защищённый контент.
Код 429 Too Many Requests означает, что сервер временно ограничил доступ.
Краулер делает паузу между запросами (минимум 0,5 сек), но некоторые сайты имеют
более строгие ограничения.
Решение: если сайт имеет директиву Crawl-delay в robots.txt —
краулер её соблюдает. Если сайт всё равно блокирует — уменьшите Макс. страниц
при создании задачи, чтобы снизить нагрузку.
SEO Crawler загружает HTML-ответ сервера напрямую, без выполнения JavaScript. Если сайт построен на React, Vue, Angular или других SPA-фреймворках и рендерит контент на клиенте — краулер увидит пустую страницу или минимальный HTML.
Признаки:
- Title и H1 пустые, хотя в браузере они есть
- Количество слов = 0 или очень мало
- Внутренних ссылок 0, хотя навигация присутствует
Решение: для SPA-сайтов настройте Server-Side Rendering (SSR) или Static Site Generation (SSG). Это полезно не только для краулера, но и для индексации в Google и Яндексе.
Краулер ждёт ответа максимум 10 секунд. Если сервер не ответил за это время — страница помечается как ошибка «Сервер не ответил вовремя (таймаут)».
Решение:
- Проверьте TTFB сайта — если он регулярно превышает 3–4 секунды, это проблема сервера
- Попробуйте запустить обход в нерабочее время (ночью), когда нагрузка ниже
- Убедитесь, что сервер не перегружен параллельными запросами
Краулер следует редиректам автоматически (301, 302, 307, 308), но если возникает петля
или редиректов слишком много — соединение прерывается с ошибкой
Too many redirects.
Признак: ошибка в столбце «Ошибка» содержит текст
Too many redirects.
Решение: проверьте настройки редиректов на сервере (Nginx, Apache) и в CMS.
Если у сайта истёкший, самоподписанный или неверно настроенный SSL-сертификат — краулер не сможет установить HTTPS-соединение.
Признак: ошибка «Не удалось проверить SSL-сертификат сайта».
Решение: обновите SSL-сертификат. Проверить можно через SSL Labs.
Если домен не существует, не привязан к IP или DNS-записи не распространились — краулер не сможет подключиться к серверу.
Признак: ошибка «Не удалось найти сервер — проверьте домен».
Решение: проверьте DNS-настройки домена. Распространение DNS может занимать до 48 часов после изменений.
Если главная страница или большинство страниц содержат
<meta name="robots" content="nofollow"> или
<meta name="robots" content="none"> — краулер не будет переходить
по ссылкам с этих страниц.
Аналогично, ссылки с атрибутом rel="nofollow" не добавляются в очередь.
Как проверить: посмотрите столбец «Robots» в таблице результатов.
Из соображений безопасности краулер блокирует запросы к внутренним адресам:
localhost,127.x.x.x- Приватные диапазоны:
192.168.x.x,10.x.x.x,172.16–31.x.x - AWS/GCP metadata:
169.254.169.254,metadata.google.internal
Это стандартная SSRF-защита. Для проверки локальных сайтов используйте инструменты вроде ngrok для публичного туннеля.
Диагностика по коду ответа
| Код | Значение | Что делать |
|---|---|---|
200 |
Успешно | Всё в порядке |
301 / 302 |
Редирект | Краулер следует автоматически, счётчик редиректов увеличивается |
403 |
Доступ запрещён | WAF / авторизация / геоблокировка |
404 |
Страница не найдена | Битая ссылка — нужно исправить или удалить |
429 |
Слишком много запросов | Сайт ограничивает краулеры — попробуйте позже |
500 / 503 |
Ошибка сервера | Сервер сайта не работает или перегружен |
| пусто | Сетевая ошибка | Таймаут, DNS-ошибка, SSL-проблема — смотрите столбец «Ошибка» |
Ограничения краулера
- JavaScript не выполняется. Краулер работает с исходным HTML-ответом сервера.
- Авторизация не поддерживается. Закрытые зоной логина страницы не обходятся.
- Только HTTP и HTTPS. Схемы
ftp://,file://и другие блокируются. - Максимальный размер страницы: 5 МБ. Более крупные страницы не скачиваются.
- Таймаут: 10 секунд на страницу.
- Только внутренние ссылки. Краулер обходит только страницы в рамках одного домена.
- Лимит страниц задаётся при создании задачи (Free: до 50, Pro/Trial: до 500).
Частые вопросы
Почему краулер не может обойти мой сайт?
Самые частые причины: robots.txt блокирует доступ, сервер возвращает ошибку 403 или 429, сайт полностью построен на JavaScript (SPA), сервер не отвечает в течение 10 секунд или происходит бесконечный редирект.
Что делать, если краулер показывает 0 страниц?
Проверьте robots.txt — директива Disallow: / закрывает весь сайт. Убедитесь, что сайт отвечает на запросы без JavaScript. Попробуйте открыть URL в приватном окне браузера — если сайт не загружается, проблема на стороне сервера.
Краулер обходит не все страницы — почему?
Возможные причины: достигнут лимит страниц тарифа (50 на Free, 500 на Pro), часть страниц закрыта в robots.txt, ссылки на страницы содержат атрибут nofollow, или страницы доступны только через JavaScript-навигацию.