InícioRecursosCasos de UsoPreçosFerramentas grátisBlogFAQContatoDesenvolvedores
Robots.txt
Técnico e Infraestrutura
Um arquivo que informa aos rastreadores de busca quais páginas indexar e quais ignorar no seu site.
Definição
Robots.txt é um arquivo de texto colocado na raiz de um site que instrui os rastreadores de mecanismos de busca sobre quais páginas ou diretórios podem ou não acessar. Segue o Protocolo de Exclusão de Robôs, um padrão respeitado por todos os principais mecanismos de busca. O arquivo contém regras para user agents específicos (nomes de rastreadores) junto com diretivas Allow e Disallow que controlam o acesso a diferentes caminhos de URL. Embora robots.txt seja uma recomendação e não um mecanismo de controle de acesso — rastreadores podem tecnicamente ignorá-lo — mecanismos de busca confiáveis como Google, Bing e rastreadores de IA consistentemente respeitam essas diretivas.
Por Que É Importante
Sem um robots.txt configurado corretamente, os mecanismos de busca podem rastrear e indexar páginas que você deseja manter privadas, como painéis administrativos, ambientes de staging, endpoints de API ou conteúdo duplicado. Por outro lado, bloquear os caminhos errados pode impedir que seus flipbooks e publicações públicas apareçam nos resultados de busca. Um robots.txt bem mantido ajuda os mecanismos de busca a focar seu orçamento de rastreamento — o número de páginas que um rastreador visitará no seu site em um determinado período — no conteúdo que você realmente deseja que seja descoberto. Para editores que hospedam flipbooks, isso significa garantir que landing pages, [metadados SEO](/glossary/seo) e páginas de prévia sejam totalmente acessíveis aos rastreadores.
Como Funciona no FlipLink
O site de marketing do FlipLink usa um robots.txt que permite o rastreamento de todas as páginas públicas, posts do blog, páginas de recursos, entradas do glossário e guias, enquanto bloqueia rotas internas de API e caminhos de aplicação. Também permite explicitamente rastreadores de IA como GPTBot, ClaudeBot, Google-Extended, PerplexityBot e Applebot-Extended para que conteúdo relacionado a flipbooks apareça em respostas de busca alimentadas por IA. Quando você publica flipbooks em um [Domínio Personalizado](/features/custom-domains), pode configurar seu próprio robots.txt nesse domínio para controlar como os mecanismos de busca tratam suas publicações hospedadas. O recurso [SEO e Prévias Sociais](/features/seo-and-social-previews) trabalha junto com o robots.txt para garantir que páginas indexadas apresentem metadados otimizados tanto para mecanismos de busca tradicionais quanto para os de IA.
Detalhes Técnicos
Um arquivo robots.txt usa uma sintaxe simples. Cada bloco começa com uma linha `User-agent` especificando a qual rastreador as regras se aplicam, seguida por diretivas `Disallow` e `Allow`:
- **User-agent: \*** — aplica regras a todos os rastreadores
- **Disallow: /api/** — impede rastreadores de acessar qualquer coisa sob /api/
- **Allow: /blog/** — permite explicitamente acesso ao diretório do blog
- **[Sitemap](/glossary/sitemap):** — declara a localização do [sitemap](/glossary/sitemap) XML para descoberta pelos rastreadores
As regras são avaliadas de cima para baixo, e caminhos mais específicos têm prioridade. O arquivo deve ser acessível na URL exata `https://seudominio.com/robots.txt` — nenhuma outra localização funciona. Note que robots.txt não impede que páginas sejam indexadas se outros sites linkarem para elas; para isso, você precisa de [meta tags](/glossary/meta-tags) `noindex` ou cabeçalhos HTTP.
Equívocos Comuns
- **"Robots.txt bloqueia páginas dos resultados de busca."** Não completamente. Embora impeça rastreadores de visitar a página, se outros sites linkarem para aquela URL, mecanismos de busca podem ainda listá-la com informações limitadas. Use meta tags `noindex` para páginas que você realmente quer excluir dos resultados de busca.
- **"Só preciso de regras para o Googlebot."** Bing, Yandex, DuckDuckGo e rastreadores de IA todos leem robots.txt. Ignorá-los significa perder tráfego de mecanismos de busca alternativos e ferramentas de resposta de IA.
- **"Uma vez configurado, nunca preciso atualizar."** Seu robots.txt deve evoluir conforme seu site cresce. Novas seções, ferramentas e caminhos de conteúdo precisam ser revisados para garantir que sejam rastreáveis. Os user agents de rastreadores de IA também estão em constante expansão.
- **"Robots.txt é uma medida de segurança."** Não é. O arquivo é publicamente legível e não fornece controle de acesso. Caminhos sensíveis devem ser protegidos com autenticação, não apenas com uma diretiva Disallow.
Lista de Verificação
1. **Identifique todos os caminhos públicos** — liste cada seção do seu site que deve aparecer nos resultados de busca (blog, recursos, glossário, landing pages).
2. **Liste todos os caminhos privados** — endpoints de API, rotas administrativas, páginas de staging, endpoints embed e ferramentas internas.
3. **Escreva regras de user agent** — crie um bloco `User-agent: *` com suas diretivas Disallow para caminhos privados.
4. **Adicione permissões para rastreadores de IA** — inclua blocos `User-agent` explícitos para GPTBot, ClaudeBot, Google-Extended, PerplexityBot e outros rastreadores de IA com regras Allow apropriadas.
5. **Declare seu sitemap** — adicione uma linha `Sitemap:` apontando para a URL do seu sitemap XML.
6. **Teste com o Google Search Console** — use o testador de robots.txt para verificar que páginas importantes estão acessíveis e páginas privadas estão bloqueadas.
7. **Revise trimestralmente** — conforme seu site adiciona novas seções ou ferramentas, atualize robots.txt para refletir a estrutura atual.
Junte-se a milhares de empresas que usam o FlipLink para criar conteúdo envolvente e interativo a partir de seus PDFs. Comece grátis — sem cartão de crédito.