Экспорт отчётов в SEO Crawler

Q: Откуда берутся данные для экспорта?

Все три формата формируются из одной таблицы crawl_results — страниц, обойдённых краулером. В CSV и на листе «All pages» XLSX попадают все 23 поля: URL, статус, title, H1, canonical, robots, OG, TTFB, ссылки, изображения, word_count, глубина и ошибки. В PDF берутся агрегаты и топы проблемных страниц.

Q: Можно ли выгрузить только битые ссылки или только проблемы title?

В XLSX проблемы уже разложены по листам: 4xx errors, 5xx errors, Missing title, Title length issues, Duplicate titles и так далее — всего 19 листов. Просто откройте нужный лист, выделите диапазон и скопируйте в свою таблицу. Отдельной «селективной» выгрузки одной проверки нет — но изолированные листы закрывают эту задачу.

Q: Что содержит лист «All pages» в XLSX-отчёте?

Все страницы, обойдённые краулером, с 23 колонками: url, status_code, title, title_length, meta_description, description_length, h1, h1_count, lang, canonical, meta_robots, og_title, images_without_alt, internal_links_count, external_links_count, word_count, response_time_ms, redirect_count, has_redirect_loop, redirect_chain, page_size_bytes, depth, error.

Три формата на выбор — CSV для интеграций, XLSX с 19 листами для работы и PDF для клиента

После завершения обхода все данные можно выгрузить из SEO Crawler в трёх форматах: CSV — простая таблица всех страниц, XLSX — многолистовая Excel-книга с разбивкой проблем по 18 категориям плюс общим листом, и PDF — готовый отчёт с обложкой и резюме для передачи клиенту или руководителю. Файлы создаются на лету из текущего состояния обхода и не хранятся на сервере — каждый экспорт формируется заново.

Где посмотреть. Откройте отчёт об аудите (клик по строке задачи на /dashboard) — в шапке справа появятся три кнопки CSV, XLSX, PDF сразу после того, как обход перешёл в статус «Завершено».

Кнопки экспорта CSV, XLSX и PDF в шапке отчёта аудита SEO Crawler — Три кнопки экспорта в шапке отчёта появляются, когда обход завершён. Рядом — кнопка «Поделиться» для публичной ссылки.

Формат CSV — для интеграций и свободной обработки

CSV — простой текстовый формат в одну таблицу: 23 колонки, одна строка на страницу. Подходит, когда вы хотите подключить данные аудита к внешнему инструменту: выгрузить в Google Sheets для совместной работы, отдать аналитику в Python/R, залить в Superset или Metabase, сравнить с выгрузкой из Search Console или положить рядом с ключами из Key Collector.

Кодировка. Файл отдаётся в UTF-8 с BOM (\ufeff в самом начале) — это «подсказка» для Excel, которая заставляет его правильно прочитать кириллицу без ручной настройки. Content-Type в ответе — text/csv; charset=utf-8-sig. В современных версиях Excel (2016+), Google Sheets, Numbers и LibreOffice Calc такой файл открывается двойным кликом.

Разделитель. Запятая — стандартный для CSV. Строковые поля, внутри которых встречается запятая или перенос строки, автоматически оборачиваются в двойные кавычки. Значения с формулами (начинающиеся с =, +, -, @) защищены от formula injection — SEO Crawler добавляет к ним префикс, чтобы Excel не выполнил выражение как формулу.

Что в колонках. Порядок колонок фиксирован и совпадает с порядком HEADERS в коде экспорта:

Колонка	Описание
`url`	Полный URL страницы — первичный ключ строки
`status_code`	Код HTTP финального ответа (200, 301, 404, 5xx)
`title`	Текст тега <title>
`title_length`	Длина title в символах
`meta_description`	Текст meta description
`description_length`	Длина description в символах
`h1`	Первый H1 на странице
`h1_count`	Сколько H1 найдено (ожидается 1)
`lang`	Атрибут lang в <html>
`canonical`	Значение <link rel="canonical">
`meta_robots`	Директивы robots из meta или X-Robots-Tag
`og_title` / `og_description` / `og_image`	Open Graph для превью в соцсетях
`images_without_alt`	Сколько <img> без alt на странице
`internal_links_count` / `external_links_count`	Количество ссылок каждого типа
`word_count`	Слов в видимом тексте
`response_time_ms`	TTFB в миллисекундах
`redirect_count` / `has_redirect_loop` / `redirect_chain`	Цепочка редиректов и признак петли
`page_size_bytes`	Размер HTML в байтах
`depth`	Кратчайшее число кликов от стартового URL
`error`	Текст ошибки, если страницу не удалось загрузить

Скачивание CSV работает в стриминговом режиме: сервер отдаёт файл построчно, не загружая весь список в память. Благодаря этому экспорт обхода на 5 000 страниц (максимум для тарифа Max) не создаёт пиковой нагрузки и начинает скачиваться сразу после нажатия кнопки.

Формат XLSX — многолистовой отчёт с разбивкой по типам проблем

XLSX — самый богатый формат. SEO Crawler формирует Excel-книгу из 19 листов: один лист All pages со всеми обойдёнными URL и ещё 18 тематических листов, на каждом из которых лежат страницы с конкретной проблемой. Такая раскладка экономит время: чтобы найти все 404, не нужно фильтровать общий список — откройте лист 4xx errors и получите готовую выборку.

Файл создаётся библиотекой openpyxl в режиме write_only — это экономит память, так что даже обход на 5 000 страниц собирается без пиков ОЗУ. Результат сохраняется во временный файл и сразу отдаётся в ответе; после ответа временный файл удаляется.

Страница отчёта аудита SEO Crawler с Health Score и кнопками экспорта CSV XLSX PDF — Кнопки экспорта находятся в правом верхнем углу отчёта — рядом с Health Score и числом проблем.

Все 19 листов XLSX

Имена листов и их содержимое зафиксированы в коде — вот полная таблица:

Лист	Что содержит	Как собирается
`All pages`	Все страницы обхода — те же 23 колонки, что и в CSV	Стриминг по всем URL
`4xx errors`	Страницы с кодом ответа 400–499: 404 Not Found, 403 Forbidden, 410 Gone	`400 ≤ status_code < 500`
`5xx errors`	Серверные ошибки: 500, 502, 503, 504	`status_code ≥ 500`
`Unreachable`	URL, до которых краулер не смог достучаться: таймаут, DNS, SSL-ошибка	Поле `error` заполнено
`Missing title`	Страницы без тега <title> или с пустым title	`title` пустой
`Missing description`	Страницы без meta description	`meta_description` пустое
`Missing h1`	Страницы без <h1>	`h1` пустой
`Missing canonical`	Страницы без <link rel="canonical">	`canonical` пустой
`Imgs without alt`	Страницы с изображениями без атрибута alt	`images_without_alt > 0`
`Duplicate titles`	Группы страниц с одинаковым title	Counter по всем title → те, что встречаются ≥ 2 раз
`Duplicate descriptions`	Страницы с одинаковым meta description	Counter по описаниям
`Thin content`	Страницы с менее чем 300 словами в видимом тексте	`word_count < 300`
`Title length issues`	Слишком короткие (<30) или слишком длинные (>60) title	Подробнее — в Title и H1
`Desc length issues`	Description короче 70 или длиннее 160 символов	`description_length < 70` или `> 160`
`Noindex`	Страницы с meta robots noindex — не попадут в поиск	В `meta_robots` есть «noindex»
`Redirects`	Страницы, которые отдали редирект перед финальным ответом	`redirect_count > 0`
`Slow TTFB >800ms`	Медленные страницы: время до первого байта больше 800 мс	`response_time_ms > 800`
`Multiple H1`	Страницы с двумя и более <h1>	`h1_count > 1`
`Missing lang`	Страницы без атрибута lang в <html>	`lang` пустой

Колонки на каждом из 18 проблемных листов одинаковые — те же 23 поля, что и на All pages. Это удобно, если вы потом сводите данные VLOOKUP-ом или PivotTable — колонки везде в одном порядке.

Детали о проблемах title и H1 — в статье Проверка Title и H1 в SEO Crawler. О структуре ссылок и canonical — Ссылки и canonical. О TTFB и скорости — Скорость и редиректы.

Формат PDF — для клиента и руководителя

PDF — единственный формат, который можно отдать заказчику без пояснений. Аккуратный A4-документ с обложкой, оглавлением и сквозным оформлением, собранный из фирменного HTML-шаблона. Шрифт — Inter, фирменная типографика SEO Crawler.

Обложка PDF-отчёта SEO Crawler с Health Score, URL сайта и счётчиками проблем — Обложка PDF: Health Score, URL, число проверенных страниц и общее количество найденных проблем.

Структура PDF — 9 логических разделов с собственными главами в оглавлении:

Обложка — бренд, URL, дата, Health Score из 100, число страниц и критических проблем. На white-label — логотип агентства и «Подготовлено для клиента».
Содержание — нумерованный список разделов с точками-заполнителями.
Параметры сканирования — дата обхода, количество URL, настройки краулера (скорость, глубина, User-Agent).
Резюме — верхнеуровневая выжимка: ключевые метрики и главные выводы по сайту.
Что нужно исправить — приоритизированный план действий (показывается, если найдены проблемы).
Обзор аудита — сводка по всем категориям проверок с числом ошибок и предупреждений.
Проверка домена — SSL-сертификат, robots.txt, sitemap, редиректы с www/без www — если включена.
Чеклист проверок — список всех проведённых проверок с результатом pass/fail.
Найденные проблемы — таблицы страниц с ошибками 4xx/5xx, без title/description/H1, топ медленных по TTFB.
Итоги и следующие шаги — рекомендации и приоритетные задачи (подраздел «Приоритетные задачи»).
Приложение «Без замечаний» — список пройденных проверок, если их много.

Итоговый размер PDF для обхода на 500 страниц — от 200 КБ до 1–2 МБ в зависимости от числа проблемных страниц (больше проблем → больше таблиц). Файл открывается в любом PDF-ридере — Acrobat, Preview на macOS, Edge, Foxit — и распечатывается без потери оформления.

PDF — только Pro, Max и триал. На бесплатном тарифе кнопка PDF выдаст сообщение о необходимости апгрейда. Это связано с тем, что генерация PDF заметно нагружает сервер, и на Free она отключена. CSV и XLSX доступны на всех тарифах.

Какой формат когда выбирать

Кратко — простая матрица сценария и оптимального формата:

Сценарий	Формат	Почему
Передать отчёт клиенту или руководителю	PDF	Обложка, резюме, Health Score — понятно без пояснений
Отдать задачу разработчику или контент-менеджеру	XLSX	Каждая проверка на отдельном листе — легко фильтровать и сортировать
Загрузить в Google Sheets для совместной работы	XLSX	Все 19 листов переносятся без потерь
Подключить к внешнему инструменту (BI, Python, R)	CSV	Минимум оверхеда, читается любой библиотекой
Сохранить исторический снапшот обхода	PDF + XLSX	PDF — для визуального архива, XLSX — для будущего diff-а
Быстро прислать ссылку заказчику	Поделиться PDF	Кнопка «Поделиться» даёт публичный URL без регистрации
Провести свой анализ данных	CSV	Стриминг, работает для самых больших обходов

Права доступа и тарифы

Доступ к форматам экспорта зависит от тарифа. Проверить свой тариф можно в шапке — бейдж рядом с аватаром, либо в настройках.

Формат	Free	Pro	Max	Триал (7 дней)
CSV	Да	Да	Да	Да
XLSX (19 листов)	Да	Да	Да	Да
PDF	—	Да	Да	Да
White-label PDF	—	—	Да	—
Кнопка «Поделиться» (публичный URL)	—	Да	Да	Да

Подробнее о тарифах — в статье Free, Pro и Max или на странице тарифов. White-label PDF (логотип агентства, имя клиента в поле «Подготовлено для») доступен только на Max и настраивается в разделе «Настройки» → «Брендинг PDF».

Автоматизация экспорта через расписания

Если вы следите за сайтом на длинной дистанции, ручной экспорт каждый раз — лишняя рутина. SEO Crawler умеет запускать обходы по расписанию и уведомлять по email о завершении — в письме есть прямая ссылка на отчёт, откуда один клик до любого из трёх форматов экспорта.

Расписания доступны на Pro (ежемесячно) и Max (ежедневно, еженедельно, ежемесячно). Как запустить — в статье Как работает краулер, раздел «Начало обхода». После завершения планового обхода scheduler-воркер отправляет письмо с темой «Обход сайта завершён» и ссылкой на отчёт — оттуда вы или ваш клиент жмёте CSV/XLSX/PDF в один клик.

Прямых «автоотправок файла на почту» у SEO Crawler нет — письмо содержит ссылку на отчёт, а не приложенный файл. Это защищает почтовые ящики от тяжёлых вложений: даже крупные PDF + XLSX вместе могут весить 5–10 МБ, а по ссылке пользователь скачивает только нужный формат.

Совместимость с Excel, Google Sheets и LibreOffice

Все три формата тестируются на популярных ридерах:

Microsoft Excel 2016+ — открывает CSV и XLSX без настроек. BOM в CSV обеспечивает корректную кириллицу.
Google Sheets — загрузите XLSX через «Файл → Импорт» и выберите «Заменить таблицу» или «Новый лист». Все 19 листов переносятся.
LibreOffice Calc и OnlyOffice — читают и XLSX, и CSV без нюансов. При импорте CSV выберите кодировку UTF-8.
Apple Numbers — открывает XLSX, но некоторые сложные форматы ячеек упрощает. Для сложной работы лучше Excel или Sheets.
PDF — любой современный ридер: Acrobat, Preview, Edge, Chrome, Foxit, Adobe Reader.

Старые версии Excel (2010 и ранее) могут не справиться с UTF-8 с BOM — в этом случае используйте XLSX или импортируйте CSV через «Данные → Из текста» с явным указанием кодировки 65001 (UTF-8). Но в 2026 году доля таких клиентов — считаные проценты.

Размер файлов: чего ожидать

Ориентировочные размеры для обходов разного масштаба:

Страниц в обходе	CSV	XLSX	PDF
50 (Free)	~20–50 КБ	~40–80 КБ	~150–300 КБ
500 (Pro)	~200–500 КБ	~300–700 КБ	~250–600 КБ
1 000	~400 КБ – 1 МБ	~700 КБ – 1,5 МБ	~350–900 КБ
5 000 (Max)	~2–5 МБ	~3–10 МБ	~500 КБ – 2 МБ

Реальный размер зависит от длины title, description и URL вашего сайта — а главное, от того, сколько найдено проблем: в XLSX каждая проблема увеличивает соответствующий лист, а в PDF — увеличивает раздел «Найденные проблемы». PDF весит меньше XLSX, потому что в него попадают только агрегаты и топы (а не все 5 000 строк).

Для экспортов на тысячи страниц дайте файлу пару секунд на скачивание — XLSX собирается в два прохода по БД и сохраняется во временный файл перед отдачей. CSV, в отличие от XLSX, стримится — вы увидите иконку загрузки в браузере сразу.

Экспорт из шапки задачи и из таблицы «Задачи»

Те же три кнопки доступны и на /dashboard — в каждой строке таблицы «Задачи» справа есть action-группа с CSV, XLSX и PDF. Это удобно, когда вы ведёте несколько сайтов и хотите выгрузить отчёт, не открывая каждый по отдельности.

Таблица задач на дашборде SEO Crawler с кнопками экспорта справа в каждой строке — Строки завершённых обходов на /dashboard — справа кнопки экспорта дублируют те, что в шапке аудита.

Частые вопросы

Какой формат экспорта лучше отправлять клиенту?

PDF — он самый наглядный: обложка с Health Score, резюме, раздел «Что нужно исправить» и таблицы проблем. Файл A4 в альбомной ориентации, его удобно распечатать или переслать без дополнительных инструкций. PDF доступен на тарифах Pro и Max, а также во время триала.

Можно ли кастомизировать PDF под свой бренд?

Да, но только на тарифе Max — там доступен white-label PDF: логотип агентства, название бренда и имя клиента в поле «Подготовлено для». На Pro PDF выходит с брендингом SEO Crawler. Все настройки задаются в разделе «Настройки» → «Брендинг PDF».

Почему CSV открывается в Excel с кракозябрами?

SEO Crawler выдаёт CSV в UTF-8 с BOM — современные версии Excel (2016+) и LibreOffice читают его без проблем. Если в старом Excel всё равно ломается кодировка, откройте файл через «Данные → Получить данные → Из текста/CSV», выберите кодировку UTF-8 и разделитель «запятая».

Откуда берутся данные для экспорта?

Все три формата формируются из одной таблицы crawl_results — страниц, обойдённых краулером. В CSV и на листе All pages XLSX попадают все 23 поля: URL, статус, title, H1, canonical, robots, OG, TTFB, ссылки, изображения, word_count, глубина и ошибки. В PDF берутся агрегаты и топы проблемных страниц.

Открывается ли XLSX в Google Sheets и LibreOffice?

Да. Файл формируется библиотекой openpyxl в формате Office Open XML (.xlsx) — он совместим с Excel 2007+, Google Sheets, LibreOffice Calc, Apple Numbers и онлайн-редакторами вроде OnlyOffice. При загрузке в Google Sheets все 19 листов переносятся без потерь.

Сколько хранится файл экспорта на сервере?

Нигде не хранится. Все три формата генерируются на лету при нажатии кнопки: CSV стримится частями, XLSX и PDF создаются во временном файле и отдаются в ответ, после чего временный файл удаляется. Если нужно сохранить отчёт — скачайте его себе на компьютер.

Можно ли выгрузить только битые ссылки или только проблемы title?

В XLSX проблемы уже разложены по листам: 4xx errors, 5xx errors, Missing title, Title length issues, Duplicate titles и так далее — всего 19 листов. Просто откройте нужный лист, выделите диапазон и скопируйте в свою таблицу. Отдельной «селективной» выгрузки одной проверки нет — но изолированные листы закрывают эту задачу.

Доступен ли экспорт на бесплатном тарифе?

CSV — да, на всех тарифах, включая Free. XLSX — также доступен на Free и выгружает все 19 листов. PDF — только на Pro и Max и на активном триале, потому что генерация PDF нагрузочная. На Free кнопка PDF открывает окно с предложением апгрейда.

Как отправить готовый PDF заказчику?

Самый быстрый способ — нажать кнопку «Поделиться» рядом с PDF на странице аудита: получите публичную ссылку, которую можно отправить по email или в мессенджере без регистрации на стороне клиента. Либо скачайте PDF, приложите к письму и отправьте вручную — файл весит 200–600 КБ.

Что содержит лист «All pages» в XLSX-отчёте?

Все страницы, обойдённые краулером, с 23 колонками: url, status_code, title, title_length, meta_description, description_length, h1, h1_count, lang, canonical, meta_robots, og_title, images_without_alt, internal_links_count, external_links_count, word_count, response_time_ms, redirect_count, has_redirect_loop, redirect_chain, page_size_bytes, depth, error.