Een bestand dat zoekmachinecrawlers vertelt welke pagina's ze moeten indexeren en welke ze moeten negeren.
Definitie
Robots.txt is een tekstbestand in de hoofddirectory van een website dat webcrawlers van zoekmachines instrueert welke pagina's of directory's ze wel of niet mogen bezoeken. Het volgt het Robots Exclusion Protocol, een standaard die door alle grote zoekmachines wordt gerespecteerd. Het bestand bevat regels voor specifieke user agents (crawlernamen) samen met Allow- en Disallow-richtlijnen die de toegang tot verschillende URL-paden regelen. Hoewel robots.txt een aanbeveling is en geen toegangscontrolemechanisme — crawlers kunnen het technisch negeren — houden gerenommeerde zoekmachines zoals Google, Bing en AI-crawlers zich consequent aan deze richtlijnen.
Waarom Het Belangrijk Is
Zonder een correct geconfigureerd robots.txt-bestand kunnen zoekmachines pagina's crawlen en indexeren die je privé wilt houden, zoals admin-panelen, staging-omgevingen, API-eindpunten of gedupliceerde content. Andersom kan het blokkeren van verkeerde paden voorkomen dat je openbare flipbooks en publicaties in zoekresultaten verschijnen. Een goed onderhouden robots.txt helpt zoekmachines hun crawlbudget — het aantal pagina's dat een crawler in een bepaalde periode op je site bezoekt — te richten op de content die je daadwerkelijk wilt laten ontdekken. Voor uitgevers die flipbooks hosten, betekent dit ervoor zorgen dat landingspagina's, [SEO-metadata](/glossary/seo) en voorbeeldpagina's volledig toegankelijk zijn voor crawlers.
Hoe Het Werkt in FlipLink
De FlipLink-marketingsite gebruikt een robots.txt die het crawlen van alle openbare pagina's, blogposts, functiepagina's, woordenlijstentries en gidsen toestaat, terwijl interne API-routes en applicatiepaden worden geblokkeerd. Het bestand geeft ook expliciet toestemming aan AI-crawlers zoals GPTBot, ClaudeBot, Google-Extended, PerplexityBot en Applebot-Extended, zodat [flipbook](/glossary/flipbook)-gerelateerde content verschijnt in AI-gestuurde zoekantwoorden. Wanneer je flipbooks publiceert op een [Aangepast Domein](/features/custom-domains), kun je je eigen robots.txt op dat domein configureren om te bepalen hoe zoekmachines je gehoste publicaties behandelen. De functie [SEO & Sociale Previews](/features/seo-and-social-previews) werkt samen met robots.txt om ervoor te zorgen dat geïndexeerde pagina's geoptimaliseerde metadata presenteren aan zowel traditionele als AI-zoekmachines.
Technische Details
Een robots.txt-bestand gebruikt een eenvoudige syntaxis. Elk blok begint met een `User-agent`-regel die aangeeft voor welke crawler de regels gelden, gevolgd door `Disallow`- en `Allow`-richtlijnen:
- **User-agent: \*** — past regels toe op alle crawlers
- **Disallow: /api/** — voorkomt dat crawlers toegang krijgen tot alles onder /api/
- **Allow: /blog/** — staat expliciet toegang toe tot de blog-directory
- **[Sitemap](/glossary/sitemap):** — verklaart de locatie van je XML-[sitemap](/glossary/sitemap) voor crawlerontdekking
Regels worden van boven naar beneden geëvalueerd, waarbij specifiekere paden voorrang krijgen. Het bestand moet toegankelijk zijn op de exacte URL `https://jouwdomein.com/robots.txt` — geen andere locatie werkt. Let op dat robots.txt niet voorkomt dat pagina's worden geïndexeerd als andere sites ernaar linken; daarvoor heb je `noindex`-metatags of HTTP-headers nodig.
Veelvoorkomende Misverstanden
- **"Robots.txt blokkeert pagina's uit zoekresultaten."** Niet helemaal. Hoewel het crawlers verhindert de pagina te bezoeken, kunnen zoekmachines de pagina toch vermelden met beperkte informatie als andere sites naar die URL linken. Gebruik `noindex`-metatags voor pagina's die je echt wilt uitsluiten van zoekresultaten.
- **"Ik heb alleen regels nodig voor Googlebot."** Bing, Yandex, DuckDuckGo en AI-crawlers lezen allemaal robots.txt. Ze negeren betekent verkeer mislopen van alternatieve zoekmachines en AI-antwoordtools.
- **"Eenmaal ingesteld, hoef ik het nooit bij te werken."** Je robots.txt moet meegroeien met je site. Nieuwe secties, tools en contentpaden moeten worden gecontroleerd op crawlbaarheid. AI-crawler user agents breiden zich ook voortdurend uit.
- **"Robots.txt is een beveiligingsmaatregel."** Dat is het niet. Het bestand is publiek leesbaar en biedt geen toegangscontrole. Gevoelige paden moeten worden beschermd met authenticatie, niet alleen met een Disallow-richtlijn.
Installatie Checklist
1. **Identificeer alle openbare paden** — maak een lijst van elke sectie van je site die in zoekresultaten moet verschijnen (blog, functies, woordenlijst, landingspagina's).
2. **Lijst alle privé-paden** — API-eindpunten, admin-routes, staging-pagina's, embed-eindpunten en interne tools.
3. **Schrijf user-agent-regels** — maak een `User-agent: *`-blok met je Disallow-richtlijnen voor privé-paden.
4. **Voeg AI-crawler-toestemmingen toe** — neem expliciete `User-agent`-blokken op voor GPTBot, ClaudeBot, Google-Extended, PerplexityBot en andere AI-crawlers met passende Allow-regels.
5. **Declareer je sitemap** — voeg een `Sitemap:`-regel toe die verwijst naar de URL van je XML-sitemap.
6. **Test met Google Search Console** — gebruik de robots.txt-tester om te verifiëren dat belangrijke pagina's toegankelijk zijn en privé-pagina's geblokkeerd.
7. **Beoordeel elk kwartaal** — als je site nieuwe secties of tools toevoegt, werk robots.txt bij om de huidige structuur weer te geven.
Sluit je aan bij duizenden bedrijven die FlipLink gebruiken om boeiende, interactieve content van hun PDF's te maken. Begin gratis — geen creditcard nodig.