AI-Crawlers Negeren llms.txt — Maar AI-Agents Niet

7 maart 2026 • 9 min leestijd

Bart Waardenburg

AI Agent Readiness Expert & Oprichter

Dries Buytaert, oprichter van Drupal, publiceerde onlangs een datagedreven analyse van llms.txt en markdown-adoptie door AI-crawlers. Z'n conclusie: nul AI-crawlers benaderden zijn llms.txt-bestand, markdown-pagina's verhoogden het totale crawlverkeer met 7%, en geen enkele crawler gebruikte HTTP content negotiation. Hij noemde llms.txt "een oplossing op zoek naar een probleem."

De data klopt. De conclusie niet, want hij mat het verkeerde.

Wat de Data Werkelijk Laat Zien

Dries analyseerde z'n Cloudflare-logs nadat hij al z'n pagina's beschikbaar had gemaakt als markdown-bestanden. De bevindingen zijn serieus:

AI-CRAWLERS DIE LLMS.TXT BEZOCHTEN

TOENAME CRAWLVERKEER DOOR .MD-PAGINA'S

+7%

CRAWLERS MET CONTENT NEGOTIATION

PAGINA'S GECRAWLD PER TERUGGESTUURDE CITATIE

1.241

Over Acquia's volledige hosting-infrastructuur, een van de grootste Drupal-hostingplatformen, vertegenwoordigde llms.txt slechts 0,001% van 400 miljoen verzoeken. Alle 52 verzoeken aan llms.txt kwamen van SEO-audittools, niet van AI-systemen.

Leon Furze voerde een vergelijkbaar experiment uit op zijn WordPress-blog. Hetzelfde resultaat: markdown- en HTML-pagina's werden ongeveer even vaak gecrawld, geen meetbaar verkeersverschil, en llms.txt had geen zichtbare impact op crawlergedrag.

De data is glashelder: AI-crawlers gebruiken llms.txt niet. Maar dat is alsof je meet hoeveel vrachtwagens je fietspad gebruiken en concludeert dat fietspaden nutteloos zijn.

Crawlers en Agents Zijn Fundamenteel Verschillend

Dries' analyse heeft een blinde vlek: hij kijkt maar naar de helft van het verhaal. Crawling en training is niet de enige manier waarop AI-systemen met webcontent omgaan. Het onderscheid dat ertoe doet:

	AI-Crawlers	AI-Agents
Doel	Content scrapen voor trainingsdata	Een taak voltooien voor een specifieke gebruiker
Gedrag	Massaal crawlen, alles pakken	Gericht ophalen, alleen wat nodig is
Token-efficiëntie	Irrelevant — data wordt offline verwerkt	Cruciaal — elke token kost tijd en geld
Contentformaat	HTML is prima, ze strippen het toch	Markdown bespaart 80% aan tokens
Discovery	Sitemaps, link crawling	llms.txt, content negotiation, tool-manifesten
Voorbeelden	GPTBot, ClaudeBot, Google-Extended	Claude Code, Cursor, Windsurf, Bun

AI-crawlers zijn gebouwd om het web leeg te zuigen. Ze hebben pipelines die geoptimaliseerd zijn voor HTML-scraping, jaren geleden gebouwd. Ze zouden gek zijn om hun setup te veranderen alleen omdat een paar sites nu raw markdown aanbieden.

AI-agents zijn het tegenovergestelde. Ze halen specifieke pagina's op om een specifieke taak op te lossen, en elke token telt. Een blogpost die 20% content en 80% navigatie-HTML is? Verspilling. Markdown en llms.txt lossen dat probleem direct op.

Coding Agents Gebruiken Deze Standaarden Al

Als je voorbij crawlerlogs kijkt, is er al concrete agent-adoptie:

Claude Code

Anthropic's coding-agent stuurt Accept-headers die markdown prefereren bij het ophalen van documentatie. Het zoekt ook naar llms.txt om relevante content op een site te ontdekken.

Bun

De JavaScript-runtime begon content negotiation-headers te sturen bij het ophalen van documentatiepagina's, met voorkeur voor markdown wanneer beschikbaar.

Cursor & Windsurf

AI-gedreven code-editors halen documentatie op om ontwikkelaars te helpen. Ze profiteren direct van markdown-versies die structuur behouden zonder HTML-ruis.

Cloudflare

Biedt nu content negotiation en markdown-transformatie in betaalde abonnementen — een duidelijk signaal dat platformaanbieders vraag zien van de agent-kant.

Sommige documentatieplatformen plaatsen al "agent-richtlijnen" op pagina's die agents naar llms.txt verwijzen voor contentdiscovery. Het patroon is duidelijk: content negotiation en llms.txt-adoptie wordt gedreven door de agentische developer tooling-ruimte. Niet door de trainingspipeline.

Adoptie Is Branchespecifiek

Nog een factor die Dries' analyse mist: llms.txt en markdown-adoptie is sterk gericht op developer-documentatie. Dries heeft een persoonlijke blog, geen docs-site. Het gebruik is anders.

Developer-documentatie is waar coding agents het meeste tijd doorbrengen. Als Claude Code een library-API moet begrijpen, of Cursor de configuratieopties van een framework moet opzoeken, halen ze documentatiepagina's op. Precies de pagina's waar:

Markdown-versies de meeste tokens besparen (docs-pagina's zijn zwaar qua navigatie en sidebars)
llms.txt een gecureerd startpunt biedt naar de meest relevante pagina's
Content negotiation agents in staat stelt schone content te krijgen zonder de UI-schil

Vercel, Cloudflare, Stripe en andere developer-gerichte bedrijven hebben deze standaarden al geïmplementeerd. Het Vercel State of AEO-rapport beveelt llms.txt expliciet aan als onderdeel van een uitgebreide AI-zichtbaarheidsstrategie. Vercel heeft zelfs AEO-tracking voor coding agents gebouwd om deze adoptie te meten.

Waarom Crawlers llms.txt Waarschijnlijk Nooit Zullen Gebruiken

Begrijpen waarom crawlers llms.txt negeren maakt het verschil alleen maar duidelijker:

Schaaleconomie. Crawlers verwerken miljarden pagina's. Een gecureerde discovery-stap per domein toevoegen voegt complexiteit toe voor minimale winst. Ze hebben al sitemaps en linkgrafen
Trainingsprikkels. Meer data is beter voor training. Een gecureerde llms.txt die naar 20 belangrijke pagina's wijst is het tegenovergestelde van wat een trainingspipeline wil
Bestaande infrastructuur. HTML-scrapingpipelines zijn volwassen en beproefd. Er is geen business case om ze opnieuw te bouwen voor markdown
Inhoudscontrole. Waarom zouden ze moeite doen met een gecureerde lijst? Ze krijgen meer context als ze alles pakken. De prikkels zijn verkeerd afgestemd

Dit is geen falen van llms.txt. Het is een bevestiging dat llms.txt nooit bedoeld was voor crawlers.

Readiness Gaat Niet over ROI van Vandaag

Dries' artikel sluit af met praktisch advies: focus op "helder schrijven, gezaghebbende content en tijdige publicatie" in plaats van llms.txt. Dat advies is niet verkeerd. Maar het is onvolledig.

Hetzelfde argument werd gemaakt over mobiele optimalisatie in 2010, over HTTPS in 2014 en over gestructureerde data in 2018. Elke keer werden early adopters beloond toen de adoptie kantelde. De sites die wachtten mochten achteraf inhalen.

Het agent-ecosysteem groeit snel. Coding agents worden de standaardmanier waarop ontwikkelaars met documentatie omgaan, en AI-gedreven browsingagents zoals ChatGPT Search en Claude Search worden volwassener. Sites die al machine-leesbaar zijn hebben dan een structureel voordeel.

Wat Je Eigenlijk Moet Implementeren

Op basis van waar agent-adoptie daadwerkelijk staat, niet waar crawler-adoptie staat, is dit wat ertoe doet:

1. llms.txt

Maak een gecureerd startpunt voor agents. Lijst je belangrijkste pagina's op met korte beschrijvingen. Weinig moeite, sterk signaal voor elke agent die ernaar zoekt.

2. Content Negotiation

Serveer markdown wanneer agents het opvragen via Accept-headers. Cloudflare biedt dit kant-en-klaar aan. Bespaart agents 80% aan token-overhead.

3. Gestructureerde Data

JSON-LD, Schema.org-types en FAQPage-schema helpen zowel crawlers als agents je content te begrijpen. Dit is table stakes, 8x zichtbaarheidsverschil voor ChatGPT.

4. Crawlertoegang

Sta AI-crawlers toe in robots.txt. Blokkeer trainingsbots als je wilt, maar houd zoekbots open. Dit is de basis. Geen toegang betekent geen zichtbaarheid.

De eerste twee zijn agent-specifiek. De laatste twee helpen zowel crawlers als agents. Samen dekken ze het volledige spectrum van hoe AI-systemen met je content omgaan.

De Conclusie

Dries' data is accuraat: AI-crawlers gebruiken llms.txt niet. Maar llms.txt-adoptie meten aan crawlergedrag is als het succes van een API meten aan hoeveel webbrowsers hem benaderen. Het publiek is anders.

AI-agents, coding-assistenten, browsingagents, taakautomatiseringstools, zijn de daadwerkelijke gebruikers van llms.txt en content negotiation. Ze zijn kleiner in volume dan crawlers maar groeien snel. Ze vertegenwoordigen de toekomst van hoe software met webcontent omgaat.

"Gebruiken AI-crawlers llms.txt vandaag?" is de verkeerde vraag. De juiste vraag: wanneer agents de primaire manier worden waarop gebruikers met je content omgaan, is je site dan klaar?

Bronnen

Dries Buytaert: Markdown, llms.txt, and AI Crawlers — Oorspronkelijke analyse van crawlergedrag met Cloudflare-logdata
Leon Furze: Letting the Robots In — Onafhankelijke replicatie op WordPress met vergelijkbare bevindingen
llms.txt-specificatie — Het oorspronkelijke voorstel van Jeremy Howard
Hoe Vercel AEO-tracking voor Coding Agents Bouwde — Vercel's aanpak om agent-adoptie te meten
Cloudflare: Markdown for Agents — Content negotiation en markdown-transformatiefunctie
IsAgentReady: De Staat van AEO — Belangrijkste Inzichten uit Vercel's 2026 Rapport

AI-Crawlers Negeren llms.txt — Maar AI-Agents Niet

Wat de Data Werkelijk Laat Zien

Crawlers en Agents Zijn Fundamenteel Verschillend

Coding Agents Gebruiken Deze Standaarden Al

Claude Code

Bun

Cursor & Windsurf

Cloudflare

Adoptie Is Branchespecifiek

Waarom Crawlers llms.txt Waarschijnlijk Nooit Zullen Gebruiken

Readiness Gaat Niet over ROI van Vandaag

Wat Je Eigenlijk Moet Implementeren

1. llms.txt

2. Content Negotiation

3. Gestructureerde Data

4. Crawlertoegang

De Conclusie

Bronnen

SCAN JE WEBSITE

GERELATEERDE ARTIKELEN

Content Negotiation voor AI Agents: Waarom Sentry Markdown Serveert in Plaats van HTML

Cloudflare /crawl-Endpoint: Eén API-Call om Elke Website te Crawlen

Anthropic's AI Exposure Index: Wat Echte Gebruiksdata Betekent voor je Website

ONTDEK MEER

RANGLIJST

VERGELIJKEN

OVER ONS