AI-Crawlers Negeren llms.txt — Maar AI-Agents Niet
Dries Buytaert, oprichter van Drupal, publiceerde onlangs een datagedreven analyse van llms.txt en markdown-adoptie door AI-crawlers. Z'n conclusie: nul AI-crawlers benaderden zijn llms.txt-bestand, markdown-pagina's verhoogden het totale crawlverkeer met 7%, en geen enkele crawler gebruikte HTTP content negotiation. Hij noemde llms.txt "een oplossing op zoek naar een probleem."
De data klopt. De conclusie niet, want hij mat het verkeerde.
Wat de Data Werkelijk Laat Zien
Dries analyseerde z'n Cloudflare-logs nadat hij al z'n pagina's beschikbaar had gemaakt als markdown-bestanden. De bevindingen zijn serieus:
Over Acquia's volledige hosting-infrastructuur, een van de grootste Drupal-hostingplatformen, vertegenwoordigde llms.txt slechts 0,001% van 400 miljoen verzoeken. Alle 52 verzoeken aan llms.txt kwamen van SEO-audittools, niet van AI-systemen.
Leon Furze voerde een vergelijkbaar experiment uit op zijn WordPress-blog. Hetzelfde resultaat: markdown- en HTML-pagina's werden ongeveer even vaak gecrawld, geen meetbaar verkeersverschil, en llms.txt had geen zichtbare impact op crawlergedrag.
De data is glashelder: AI-crawlers gebruiken llms.txt niet. Maar dat is alsof je meet hoeveel vrachtwagens je fietspad gebruiken en concludeert dat fietspaden nutteloos zijn.
Crawlers en Agents Zijn Fundamenteel Verschillend
Dries' analyse heeft een blinde vlek: hij kijkt maar naar de helft van het verhaal. Crawling en training is niet de enige manier waarop AI-systemen met webcontent omgaan. Het onderscheid dat ertoe doet:
| AI-Crawlers | AI-Agents | |
|---|---|---|
| Doel | Content scrapen voor trainingsdata | Een taak voltooien voor een specifieke gebruiker |
| Gedrag | Massaal crawlen, alles pakken | Gericht ophalen, alleen wat nodig is |
| Token-efficiëntie | Irrelevant — data wordt offline verwerkt | Cruciaal — elke token kost tijd en geld |
| Contentformaat | HTML is prima, ze strippen het toch | Markdown bespaart 80% aan tokens |
| Discovery | Sitemaps, link crawling | llms.txt, content negotiation, tool-manifesten |
| Voorbeelden | GPTBot, ClaudeBot, Google-Extended | Claude Code, Cursor, Windsurf, Bun |
AI-crawlers zijn gebouwd om het web leeg te zuigen. Ze hebben pipelines die geoptimaliseerd zijn voor HTML-scraping, jaren geleden gebouwd. Ze zouden gek zijn om hun setup te veranderen alleen omdat een paar sites nu raw markdown aanbieden.
AI-agents zijn het tegenovergestelde. Ze halen specifieke pagina's op om een specifieke taak op te lossen, en elke token telt. Een blogpost die 20% content en 80% navigatie-HTML is? Verspilling. Markdown en llms.txt lossen dat probleem direct op.
Coding Agents Gebruiken Deze Standaarden Al
Als je voorbij crawlerlogs kijkt, is er al concrete agent-adoptie:
Claude Code
Anthropic's coding-agent stuurt Accept-headers die markdown prefereren bij het ophalen van documentatie. Het zoekt ook naar llms.txt om relevante content op een site te ontdekken.
Bun
De JavaScript-runtime begon content negotiation-headers te sturen bij het ophalen van documentatiepagina's, met voorkeur voor markdown wanneer beschikbaar.
Cursor & Windsurf
AI-gedreven code-editors halen documentatie op om ontwikkelaars te helpen. Ze profiteren direct van markdown-versies die structuur behouden zonder HTML-ruis.
Cloudflare
Biedt nu content negotiation en markdown-transformatie in betaalde abonnementen — een duidelijk signaal dat platformaanbieders vraag zien van de agent-kant.
Sommige documentatieplatformen plaatsen al "agent-richtlijnen" op pagina's die agents naar llms.txt verwijzen voor contentdiscovery. Het patroon is duidelijk: content negotiation en llms.txt-adoptie wordt gedreven door de agentische developer tooling-ruimte. Niet door de trainingspipeline.
Adoptie Is Branchespecifiek
Nog een factor die Dries' analyse mist: llms.txt en markdown-adoptie is sterk gericht op developer-documentatie. Dries heeft een persoonlijke blog, geen docs-site. Het gebruik is anders.
Developer-documentatie is waar coding agents het meeste tijd doorbrengen. Als Claude Code een library-API moet begrijpen, of Cursor de configuratieopties van een framework moet opzoeken, halen ze documentatiepagina's op. Precies de pagina's waar:
- Markdown-versies de meeste tokens besparen (docs-pagina's zijn zwaar qua navigatie en sidebars)
- llms.txt een gecureerd startpunt biedt naar de meest relevante pagina's
- Content negotiation agents in staat stelt schone content te krijgen zonder de UI-schil
Vercel, Cloudflare, Stripe en andere developer-gerichte bedrijven hebben deze standaarden al geïmplementeerd. Het Vercel State of AEO-rapport beveelt llms.txt expliciet aan als onderdeel van een uitgebreide AI-zichtbaarheidsstrategie. Vercel heeft zelfs AEO-tracking voor coding agents gebouwd om deze adoptie te meten.
Waarom Crawlers llms.txt Waarschijnlijk Nooit Zullen Gebruiken
Begrijpen waarom crawlers llms.txt negeren maakt het verschil alleen maar duidelijker:
- Schaaleconomie. Crawlers verwerken miljarden pagina's. Een gecureerde discovery-stap per domein toevoegen voegt complexiteit toe voor minimale winst. Ze hebben al sitemaps en linkgrafen
- Trainingsprikkels. Meer data is beter voor training. Een gecureerde llms.txt die naar 20 belangrijke pagina's wijst is het tegenovergestelde van wat een trainingspipeline wil
- Bestaande infrastructuur. HTML-scrapingpipelines zijn volwassen en beproefd. Er is geen business case om ze opnieuw te bouwen voor markdown
- Inhoudscontrole. Waarom zouden ze moeite doen met een gecureerde lijst? Ze krijgen meer context als ze alles pakken. De prikkels zijn verkeerd afgestemd
Dit is geen falen van llms.txt. Het is een bevestiging dat llms.txt nooit bedoeld was voor crawlers.
Readiness Gaat Niet over ROI van Vandaag
Dries' artikel sluit af met praktisch advies: focus op "helder schrijven, gezaghebbende content en tijdige publicatie" in plaats van llms.txt. Dat advies is niet verkeerd. Maar het is onvolledig.
Hetzelfde argument werd gemaakt over mobiele optimalisatie in 2010, over HTTPS in 2014 en over gestructureerde data in 2018. Elke keer werden early adopters beloond toen de adoptie kantelde. De sites die wachtten mochten achteraf inhalen.
Het agent-ecosysteem groeit snel. Coding agents worden de standaardmanier waarop ontwikkelaars met documentatie omgaan, en AI-gedreven browsingagents zoals ChatGPT Search en Claude Search worden volwassener. Sites die al machine-leesbaar zijn hebben dan een structureel voordeel.
Wat Je Eigenlijk Moet Implementeren
Op basis van waar agent-adoptie daadwerkelijk staat, niet waar crawler-adoptie staat, is dit wat ertoe doet:
1. llms.txt
Maak een gecureerd startpunt voor agents. Lijst je belangrijkste pagina's op met korte beschrijvingen. Weinig moeite, sterk signaal voor elke agent die ernaar zoekt.
2. Content Negotiation
Serveer markdown wanneer agents het opvragen via Accept-headers. Cloudflare biedt dit kant-en-klaar aan. Bespaart agents 80% aan token-overhead.
3. Gestructureerde Data
JSON-LD, Schema.org-types en FAQPage-schema helpen zowel crawlers als agents je content te begrijpen. Dit is table stakes, 8x zichtbaarheidsverschil voor ChatGPT.
4. Crawlertoegang
Sta AI-crawlers toe in robots.txt. Blokkeer trainingsbots als je wilt, maar houd zoekbots open. Dit is de basis. Geen toegang betekent geen zichtbaarheid.
De eerste twee zijn agent-specifiek. De laatste twee helpen zowel crawlers als agents. Samen dekken ze het volledige spectrum van hoe AI-systemen met je content omgaan.
De Conclusie
Dries' data is accuraat: AI-crawlers gebruiken llms.txt niet. Maar llms.txt-adoptie meten aan crawlergedrag is als het succes van een API meten aan hoeveel webbrowsers hem benaderen. Het publiek is anders.
AI-agents, coding-assistenten, browsingagents, taakautomatiseringstools, zijn de daadwerkelijke gebruikers van llms.txt en content negotiation. Ze zijn kleiner in volume dan crawlers maar groeien snel. Ze vertegenwoordigen de toekomst van hoe software met webcontent omgaat.
"Gebruiken AI-crawlers llms.txt vandaag?" is de verkeerde vraag. De juiste vraag: wanneer agents de primaire manier worden waarop gebruikers met je content omgaan, is je site dan klaar?
Bronnen
- Dries Buytaert: Markdown, llms.txt, and AI Crawlers — Oorspronkelijke analyse van crawlergedrag met Cloudflare-logdata
- Leon Furze: Letting the Robots In — Onafhankelijke replicatie op WordPress met vergelijkbare bevindingen
- llms.txt-specificatie — Het oorspronkelijke voorstel van Jeremy Howard
- Hoe Vercel AEO-tracking voor Coding Agents Bouwde — Vercel's aanpak om agent-adoptie te meten
- Cloudflare: Markdown for Agents — Content negotiation en markdown-transformatiefunctie
- IsAgentReady: De Staat van AEO — Belangrijkste Inzichten uit Vercel's 2026 Rapport