robots.txt и noindex
robots.txt
Перед началом обхода краулер загружает /robots.txt сайта и соблюдает его директивы для user-agent *.
Что поддерживается
Disallow— страницы и пути, которые не будут обходиться.Allow— разрешения, которые перекрывают Disallow (используется приоритет длинного совпадения).Crawl-delay— если указан, краулер добавляет паузу между запросами.- Wildcards
*и символ конца пути$.
Поведение при недоступности
Если /robots.txt вернул ошибку (4xx, 5xx, таймаут) — краулер продолжит обход без ограничений (fail-open). Это стандартное поведение большинства краулеров.
Disallow, не попадают в результаты и не учитываются в счётчике краулированных страниц.Введите URL страницы — краулер загрузит robots.txt сайта и проверит, разрешён ли этот адрес.
Пример robots.txt
User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /admin/public/
Crawl-delay: 2
В этом примере краулер не зайдёт на /admin/ (кроме /admin/public/) и /private/, и будет делать паузу 2 секунды между запросами.
Meta robots
Тег <meta name="robots" content="..."> влияет на индексацию, но не на обход. Краулер всё равно посетит страницу с noindex — это позволяет вам найти такие страницы в отчёте.
В отчёте страницы с noindex отображаются в отдельной вкладке «Noindex». Это полезно для аудита: вы можете убедиться, что нужные страницы проиндексированы, а ненужные — нет. Проверить мета-теги отдельной страницы можно с помощью инструмента анализа мета-тегов.
Значения meta robots
| Значение | Смысл |
|---|---|
noindex |
Не индексировать страницу |
nofollow |
Не переходить по ссылкам (краулер соблюдает) |
noindex, nofollow |
Не индексировать и не переходить |
none |
Эквивалент noindex, nofollow |
meta robots: nofollow — краулер не будет переходить по ссылкам с неё. Внутренние страницы, доступные только через такую страницу, могут не попасть в обход.X-Robots-Tag
HTTP-заголовок X-Robots-Tag в текущей версии не обрабатывается. Учитывается только <meta name="robots">.
Частые вопросы
Что будет, если robots.txt недоступен?
SEO Crawler использует стратегию fail-open: если robots.txt не удалось получить (ошибка сервера, таймаут), краулер считает, что ограничений нет, и обходит сайт полностью. Это стандартное поведение большинства краулеров.
Как проверить, блокирует ли robots.txt краулер?
Откройте файл по адресу yoursite.ru/robots.txt в браузере. Найдите секцию User-agent: * и проверьте директивы Disallow. Если указано Disallow: /, весь сайт закрыт для обхода. Используйте виджет проверки на этой странице для быстрой диагностики.
Учитывает ли краулер meta robots noindex?
Да. Если на странице стоит meta robots с директивой noindex, краулер отмечает это в результатах. Страница будет обойдена и проанализирована, но в отчёте появится предупреждение о noindex. Директива nofollow также учитывается — краулер не переходит по ссылкам с таких страниц.