Перейти к содержимому
Попробовать

Сайт не обходится

Если задача завершилась с ошибкой, обошла 0 страниц или нашла меньше страниц, чем ожидалось — ниже перечислены наиболее частые причины и способы их устранения.

💡
Проверить конкретный URL можно в браузере через инструменты разработчика (F12 → Network). Если сайт открывается в браузере, но не краулится — читайте дальше.
🔍 Проверить URL нашим ботом

Введите URL — краулер сделает один запрос и покажет реальный код ответа.

Возможные причины

🤖 robots.txt запрещает краулинг

Перед обходом краулер загружает /robots.txt и соблюдает директивы Disallow для группы User-agent: *. Если весь сайт закрыт — страниц будет 0.

Как проверить: откройте https://ваш-сайт.ru/robots.txt и найдите строки вида:

User-agent: *
Disallow: /

Запись Disallow: / закрывает весь сайт. Disallow: /admin/ закрывает только раздел /admin/.

Решение: если вы владелец сайта — скорректируйте robots.txt. Краулер всегда соблюдает директивы robots.txt и не игнорирует их.

🚫 Сайт отдаёт 403 Forbidden

Сервер отклоняет запросы от краулера. Это может быть сделано намеренно (WAF, CDN-правила, Cloudflare Bot Management) или случайно (неверная настройка прав).

Признак: в столбце «Код» в таблице результатов стоит 403.

Частые причины:

  • Cloudflare или другой WAF блокирует автоматические запросы
  • Сайт требует авторизации для просмотра страниц
  • IP-адрес сервера заблокирован
  • Геоблокировка (сайт доступен только из определённых стран)

Решение: проверьте, открывается ли URL в браузере без авторизации. Если нет — краулер не сможет обойти защищённый контент.

⏱️ Сайт блокирует за слишком частые запросы (429)

Код 429 Too Many Requests означает, что сервер временно ограничил доступ. Краулер делает паузу между запросами (минимум 0,5 сек), но некоторые сайты имеют более строгие ограничения.

Решение: если сайт имеет директиву Crawl-delay в robots.txt — краулер её соблюдает. Если сайт всё равно блокирует — уменьшите Макс. страниц при создании задачи, чтобы снизить нагрузку.

⚙️ Контент отрисовывается через JavaScript (SPA)

SEO Crawler загружает HTML-ответ сервера напрямую, без выполнения JavaScript. Если сайт построен на React, Vue, Angular или других SPA-фреймворках и рендерит контент на клиенте — краулер увидит пустую страницу или минимальный HTML.

Признаки:

  • Title и H1 пустые, хотя в браузере они есть
  • Количество слов = 0 или очень мало
  • Внутренних ссылок 0, хотя навигация присутствует

Решение: для SPA-сайтов настройте Server-Side Rendering (SSR) или Static Site Generation (SSG). Это полезно не только для краулера, но и для индексации в Google и Яндексе.

🐌 Таймаут — сервер отвечает слишком медленно

Краулер ждёт ответа максимум 10 секунд. Если сервер не ответил за это время — страница помечается как ошибка «Сервер не ответил вовремя (таймаут)».

Решение:

  • Проверьте TTFB сайта — если он регулярно превышает 3–4 секунды, это проблема сервера
  • Попробуйте запустить обход в нерабочее время (ночью), когда нагрузка ниже
  • Убедитесь, что сервер не перегружен параллельными запросами
↪️ Бесконечный редирект или редирект-петля

Краулер следует редиректам автоматически (301, 302, 307, 308), но если возникает петля или редиректов слишком много — соединение прерывается с ошибкой Too many redirects.

Признак: ошибка в столбце «Ошибка» содержит текст Too many redirects.

Решение: проверьте настройки редиректов на сервере (Nginx, Apache) и в CMS.

🔒 Ошибка SSL/TLS сертификата

Если у сайта истёкший, самоподписанный или неверно настроенный SSL-сертификат — краулер не сможет установить HTTPS-соединение.

Признак: ошибка «Не удалось проверить SSL-сертификат сайта».

Решение: обновите SSL-сертификат. Проверить можно через SSL Labs.

🌐 DNS не резолвится — домен недоступен

Если домен не существует, не привязан к IP или DNS-записи не распространились — краулер не сможет подключиться к серверу.

Признак: ошибка «Не удалось найти сервер — проверьте домен».

Решение: проверьте DNS-настройки домена. Распространение DNS может занимать до 48 часов после изменений.

🔗 Страниц мало: nofollow или noindex на главной

Если главная страница или большинство страниц содержат <meta name="robots" content="nofollow"> или <meta name="robots" content="none"> — краулер не будет переходить по ссылкам с этих страниц.

Аналогично, ссылки с атрибутом rel="nofollow" не добавляются в очередь.

Как проверить: посмотрите столбец «Robots» в таблице результатов.

🏠 Сайт на localhost или в локальной сети

Из соображений безопасности краулер блокирует запросы к внутренним адресам:

  • localhost, 127.x.x.x
  • Приватные диапазоны: 192.168.x.x, 10.x.x.x, 172.16–31.x.x
  • AWS/GCP metadata: 169.254.169.254, metadata.google.internal

Это стандартная SSRF-защита. Для проверки локальных сайтов используйте инструменты вроде ngrok для публичного туннеля.

Диагностика по коду ответа

Код Значение Что делать
200 Успешно Всё в порядке
301 / 302 Редирект Краулер следует автоматически, счётчик редиректов увеличивается
403 Доступ запрещён WAF / авторизация / геоблокировка
404 Страница не найдена Битая ссылка — нужно исправить или удалить
429 Слишком много запросов Сайт ограничивает краулеры — попробуйте позже
500 / 503 Ошибка сервера Сервер сайта не работает или перегружен
пусто Сетевая ошибка Таймаут, DNS-ошибка, SSL-проблема — смотрите столбец «Ошибка»

Ограничения краулера

  • JavaScript не выполняется. Краулер работает с исходным HTML-ответом сервера.
  • Авторизация не поддерживается. Закрытые зоной логина страницы не обходятся.
  • Только HTTP и HTTPS. Схемы ftp://, file:// и другие блокируются.
  • Максимальный размер страницы: 5 МБ. Более крупные страницы не скачиваются.
  • Таймаут: 10 секунд на страницу.
  • Только внутренние ссылки. Краулер обходит только страницы в рамках одного домена.
  • Лимит страниц задаётся при создании задачи (Free: до 50, Pro/Trial: до 500).
Если ни одна из причин не объяснила проблему — нажмите 💬 Фидбэк в шапке и опишите ситуацию. Укажите URL сайта и что вы видите в результатах.

Частые вопросы

Почему краулер не может обойти мой сайт?

Самые частые причины: robots.txt блокирует доступ, сервер возвращает ошибку 403 или 429, сайт полностью построен на JavaScript (SPA), сервер не отвечает в течение 10 секунд или происходит бесконечный редирект.

Что делать, если краулер показывает 0 страниц?

Проверьте robots.txt — директива Disallow: / закрывает весь сайт. Убедитесь, что сайт отвечает на запросы без JavaScript. Попробуйте открыть URL в приватном окне браузера — если сайт не загружается, проблема на стороне сервера.

Краулер обходит не все страницы — почему?

Возможные причины: достигнут лимит страниц тарифа (50 на Free, 500 на Pro), часть страниц закрыта в robots.txt, ссылки на страницы содержат атрибут nofollow, или страницы доступны только через JavaScript-навигацию.