Un file che indica ai crawler dei motori di ricerca quali pagine indicizzare e quali ignorare sul tuo sito.
Definizione
Robots.txt è un file di testo posizionato alla radice di un sito web che istruisce i crawler dei motori di ricerca su quali pagine o directory possono o non possono accedere. Segue il Protocollo di Esclusione dei Robot, uno standard rispettato da tutti i principali motori di ricerca. Il file contiene regole per user agent specifici (nomi dei crawler) insieme a direttive Allow e Disallow che controllano l'accesso a diversi percorsi URL. Sebbene robots.txt sia una raccomandazione piuttosto che un meccanismo di controllo degli accessi — i crawler possono tecnicamente ignorarlo — i motori di ricerca affidabili come Google, Bing e i crawler basati su IA rispettano costantemente queste direttive.
Perché È Importante
Senza un robots.txt configurato correttamente, i motori di ricerca possono crawlare e indicizzare pagine che volete mantenere private, come pannelli di amministrazione, ambienti di staging, endpoint API o contenuti duplicati. Al contrario, bloccare i percorsi sbagliati può impedire ai vostri [flipbook](/glossary/flipbook) e pubblicazioni pubbliche di apparire nei risultati di ricerca. Un robots.txt ben mantenuto aiuta i motori di ricerca a concentrare il loro budget di crawling — il numero di pagine che un crawler visiterà sul vostro sito in un dato periodo — sul contenuto che volete effettivamente far scoprire. Per gli editori che ospitano flipbook, questo significa garantire che le [landing page](/glossary/landing-page), i [metadati SEO](/glossary/seo) e le pagine di anteprima siano completamente accessibili ai crawler.
Come Funziona in FlipLink
Il sito marketing di FlipLink utilizza un robots.txt che consente il crawling di tutte le pagine pubbliche, post del blog, pagine funzionalità, voci del glossario e guide, bloccando le route API interne e i percorsi applicativi. Permette esplicitamente anche ai crawler IA come GPTBot, ClaudeBot, Google-Extended, PerplexityBot e Applebot-Extended, affinché i contenuti relativi ai flipbook appaiano nelle risposte di ricerca basate su IA. Quando pubblicate flipbook su un [Dominio Personalizzato](/features/custom-domains), potete configurare il vostro robots.txt su quel dominio per controllare come i motori di ricerca trattano le vostre pubblicazioni ospitate. La funzionalità [SEO e Anteprime Social](/features/seo-and-social-previews) lavora insieme al robots.txt per garantire che le pagine indicizzate presentino metadati ottimizzati sia ai motori di ricerca tradizionali che a quelli basati su IA.
Dettagli Tecnici
Un file robots.txt utilizza una sintassi semplice. Ogni blocco inizia con una riga `User-agent` che specifica a quale crawler si applicano le regole, seguita da direttive `Disallow` e `Allow`:
- **User-agent: \*** — applica le regole a tutti i crawler
- **Disallow: /api/** — impedisce ai crawler di accedere a qualsiasi cosa sotto /api/
- **Allow: /blog/** — permette esplicitamente l'accesso alla directory del blog
- **[Sitemap](/glossary/sitemap):** — dichiara la posizione della [mappa del sito](/glossary/sitemap) XML per la scoperta da parte dei crawler
Le regole vengono valutate dall'alto verso il basso e i percorsi più specifici hanno la priorità. Il file deve essere accessibile all'URL esatto `https://vostrodominio.com/robots.txt` — nessuna altra posizione funziona. Si noti che robots.txt non impedisce l'indicizzazione delle pagine se altri siti hanno link verso di esse; per questo servono i meta tag `noindex` o gli header HTTP.
Equivoci Comuni
- **"Robots.txt blocca le pagine dai risultati di ricerca."** Non del tutto. Sebbene impedisca ai crawler di visitare la pagina, se altri siti hanno link verso quell'URL, i motori di ricerca possono comunque elencarla con informazioni limitate. Usate i meta tag `noindex` per le pagine che volete davvero escludere dai risultati di ricerca.
- **"Ho bisogno solo di regole per Googlebot."** Bing, Yandex, DuckDuckGo e i crawler IA leggono tutti robots.txt. Ignorarli significa perdere traffico da motori di ricerca alternativi e strumenti di risposta IA.
- **"Una volta configurato, non devo mai aggiornarlo."** Il vostro robots.txt dovrebbe evolversi con la crescita del sito. Nuove sezioni, strumenti e percorsi di contenuto devono essere verificati per garantire che siano crawlabili. Gli user agent dei crawler IA si espandono costantemente.
- **"Robots.txt è una misura di sicurezza."** Non lo è. Il file è pubblicamente leggibile e non fornisce alcun controllo degli accessi. I percorsi sensibili devono essere protetti con autenticazione, non solo con una direttiva Disallow.
Checklist di Configurazione
1. **Identificate tutti i percorsi pubblici** — elencate ogni sezione del sito che deve apparire nei risultati di ricerca (blog, funzionalità, glossario, landing page).
2. **Elencate tutti i percorsi privati** — endpoint API, route di amministrazione, pagine di staging, endpoint embed e strumenti interni.
3. **Scrivete le regole per user agent** — create un blocco `User-agent: *` con le direttive Disallow per i percorsi privati.
4. **Aggiungete i permessi per i crawler IA** — includete blocchi `User-agent` espliciti per GPTBot, ClaudeBot, Google-Extended, PerplexityBot e altri crawler IA con regole Allow appropriate.
5. **Dichiarate la vostra sitemap** — aggiungete una riga `Sitemap:` che punti all'URL della vostra sitemap XML.
6. **Testate con Google Search Console** — usate il tester robots.txt per verificare che le pagine importanti siano accessibili e quelle private siano bloccate.
7. **Revisionate trimestralmente** — man mano che il sito aggiunge nuove sezioni o strumenti, aggiornate robots.txt per riflettere la struttura attuale.
Unisciti a migliaia di aziende che usano FlipLink per creare contenuti coinvolgenti e interattivi dai propri PDF. Inizia gratis — non serve la carta di credito.