robots.txt и noindex

Как краулер следует директивам и что попадает в отчёт

robots.txt

Перед началом обхода краулер загружает /robots.txt сайта и соблюдает его директивы для user-agent *.

Что поддерживается

Disallow — страницы и пути, которые не будут обходиться.
Allow — разрешения, которые перекрывают Disallow (используется приоритет длинного совпадения).
Crawl-delay — если указан, краулер добавляет паузу между запросами.
Wildcards * и символ конца пути $.

Поведение при недоступности

Если /robots.txt вернул ошибку (4xx, 5xx, таймаут) — краулер продолжит обход без ограничений (fail-open). Это стандартное поведение большинства краулеров.

💡

Страницы, пропущенные из-за Disallow, не попадают в результаты и не учитываются в счётчике краулированных страниц.

🤖 Проверить, разрешена ли страница

Введите URL страницы — краулер загрузит robots.txt сайта и проверит, разрешён ли этот адрес.

Пример robots.txt

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /admin/public/
Crawl-delay: 2

В этом примере краулер не зайдёт на /admin/ (кроме /admin/public/) и /private/, и будет делать паузу 2 секунды между запросами.

Meta robots

Тег <meta name="robots" content="..."> влияет на индексацию, но не на обход. Краулер всё равно посетит страницу с noindex — это позволяет вам найти такие страницы в отчёте.

В отчёте страницы с noindex отображаются в отдельной вкладке «Noindex». Это полезно для аудита: вы можете убедиться, что нужные страницы проиндексированы, а ненужные — нет. Проверить мета-теги отдельной страницы можно с помощью инструмента анализа мета-тегов.

Значения meta robots

Значение	Смысл
`noindex`	Не индексировать страницу
`nofollow`	Не переходить по ссылкам (краулер соблюдает)
`noindex, nofollow`	Не индексировать и не переходить
`none`	Эквивалент `noindex, nofollow`

⚠️

Если страница содержит meta robots: nofollow — краулер не будет переходить по ссылкам с неё. Внутренние страницы, доступные только через такую страницу, могут не попасть в обход.

X-Robots-Tag

HTTP-заголовок X-Robots-Tag в текущей версии не обрабатывается. Учитывается только <meta name="robots">.

Частые вопросы

Что будет, если robots.txt недоступен?

SEO Crawler использует стратегию fail-open: если robots.txt не удалось получить (ошибка сервера, таймаут), краулер считает, что ограничений нет, и обходит сайт полностью. Это стандартное поведение большинства краулеров.

Как проверить, блокирует ли robots.txt краулер?

Откройте файл по адресу yoursite.ru/robots.txt в браузере. Найдите секцию User-agent: * и проверьте директивы Disallow. Если указано Disallow: /, весь сайт закрыт для обхода. Используйте виджет проверки на этой странице для быстрой диагностики.

Учитывает ли краулер meta robots noindex?

Да. Если на странице стоит meta robots с директивой noindex, краулер отмечает это в результатах. Страница будет обойдена и проанализирована, но в отчёте появится предупреждение о noindex. Директива nofollow также учитывается — краулер не переходит по ссылкам с таких страниц.