Robots.txt — это текстовый файл, размещённый в корневой директории сайта, который указывает поисковым краулерам, к каким страницам или директориям им разрешён или запрещён доступ. Он следует протоколу Robots Exclusion Protocol — стандарту, который уважают все основные поисковые системы. Файл содержит правила для конкретных user-agent (имён краулеров) вместе с директивами Allow и Disallow, контролирующими доступ к различным URL-путям. Хотя robots.txt является рекомендацией, а не механизмом контроля доступа — краулеры технически могут его игнорировать — авторитетные поисковые системы, такие как Google, Bing, и ИИ-краулеры последовательно соблюдают эти директивы.
Почему это важно
Без корректно настроенного robots.txt поисковые системы могут краулить и индексировать страницы, которые вы хотите сохранить приватными — административные панели, тестовые среды, API-эндпоинты или дублированный контент. И наоборот, блокировка неправильных путей может помешать вашим публичным флипбукам и публикациям появляться в результатах поиска. Грамотно составленный robots.txt помогает поисковым системам сфокусировать краулинговый бюджет — количество страниц, которые краулер посетит на вашем сайте за определённый период — на контенте, который вы действительно хотите сделать обнаруживаемым. Для издателей, размещающих флипбуки, это означает обеспечение полной доступности лендинг-страниц, [SEO-метаданных](/glossary/seo) и страниц предпросмотра для краулеров.
Как это работает в FlipLink
Маркетинговый сайт FlipLink использует robots.txt, который разрешает краулинг всех публичных страниц, блог-постов, страниц функций, статей глоссария и руководств, блокируя внутренние API-маршруты и пути приложения. Файл также явно разрешает доступ ИИ-краулерам — GPTBot, ClaudeBot, Google-Extended, PerplexityBot и Applebot-Extended — чтобы контент о флипбуках появлялся в ответах поисковых систем на основе ИИ. При публикации флипбуков на [пользовательском домене](/features/custom-domains) вы можете настроить собственный robots.txt на этом домене, чтобы контролировать, как поисковые системы обрабатывают ваши размещённые публикации. Функция [SEO и социальные превью](/features/seo-and-social-previews) работает совместно с robots.txt, обеспечивая предоставление оптимизированных метаданных как для традиционных, так и для ИИ-поисковых систем.
Технические детали
Файл robots.txt использует простой синтаксис. Каждый блок начинается со строки `User-agent`, указывающей, к какому краулеру применяются правила, за которой следуют директивы `Disallow` и `Allow`:
- **User-agent: \*** — применяет правила ко всем краулерам
- **Disallow: /api/** — запрещает краулерам доступ ко всему в /api/
- **Allow: /blog/** — явно разрешает доступ к директории блога
- **[Sitemap](/glossary/sitemap):** — объявляет расположение XML-[карты сайта](/glossary/sitemap) для обнаружения краулерами
Правила оцениваются сверху вниз, а более конкретные пути имеют приоритет. Файл должен быть доступен по точному URL `https://вашдомен.com/robots.txt` — никакое другое расположение не работает. Обратите внимание, что robots.txt не предотвращает индексацию страниц, если другие сайты ссылаются на них; для этого нужны мета-теги `noindex` или HTTP-заголовки.
Распространённые заблуждения
- **«Robots.txt блокирует страницы в результатах поиска.»** Не совсем. Хотя он предотвращает посещение страницы краулерами, если другие сайты ссылаются на этот URL, поисковые системы всё равно могут отображать его с ограниченной информацией. Используйте мета-теги `noindex` для страниц, которые вы действительно хотите исключить из результатов поиска.
- **«Мне нужны правила только для Googlebot.»** Bing, Яндекс, DuckDuckGo и ИИ-краулеры тоже читают robots.txt. Игнорирование их означает потерю трафика из альтернативных поисковых систем и инструментов ИИ-ответов.
- **«Настроил один раз — и больше обновлять не нужно.»** Ваш robots.txt должен развиваться по мере роста сайта. Новые разделы, инструменты и пути контента необходимо проверять на доступность для краулинга. User-agent ИИ-краулеров тоже постоянно расширяются.
- **«Robots.txt — это мера безопасности.»** Это не так. Файл общедоступен для чтения и не обеспечивает контроль доступа. Конфиденциальные пути должны быть защищены аутентификацией, а не только директивой Disallow.
Контрольный список настройки
1. **Определите все публичные пути** — перечислите каждый раздел сайта, который должен появляться в результатах поиска (блог, функции, глоссарий, лендинг-страницы).
2. **Перечислите все приватные пути** — API-эндпоинты, административные маршруты, тестовые страницы, эндпоинты встраивания и внутренние инструменты.
3. **Напишите правила user-agent** — создайте блок `User-agent: *` с директивами Disallow для приватных путей.
4. **Добавьте разрешения для ИИ-краулеров** — включите явные блоки `User-agent` для GPTBot, ClaudeBot, Google-Extended, PerplexityBot и других ИИ-краулеров с соответствующими правилами Allow.
5. **Объявите карту сайта** — добавьте строку `Sitemap:`, указывающую на URL вашей XML-карты сайта.
6. **Протестируйте через Google Search Console** — используйте тестер robots.txt для проверки, что важные страницы доступны, а приватные — заблокированы.
7. **Пересматривайте ежеквартально** — по мере добавления новых разделов или инструментов на сайт обновляйте robots.txt, чтобы отразить текущую структуру.