Ga naar inhoud

AI-Crawlers Negeren llms.txt — Maar AI-Agents Niet

9 min leestijd
Bart Waardenburg

Bart Waardenburg

AI Agent Readiness Expert & Oprichter

Dries Buytaert, oprichter van Drupal, publiceerde onlangs een datagedreven analyse van llms.txt en markdown-adoptie door AI-crawlers. Z'n conclusie: nul AI-crawlers benaderden zijn llms.txt-bestand, markdown-pagina's verhoogden het totale crawlverkeer met 7%, en geen enkele crawler gebruikte HTTP content negotiation. Hij noemde llms.txt "een oplossing op zoek naar een probleem."

De data klopt. De conclusie niet, want hij mat het verkeerde.

Wat de Data Werkelijk Laat Zien

Dries analyseerde z'n Cloudflare-logs nadat hij al z'n pagina's beschikbaar had gemaakt als markdown-bestanden. De bevindingen zijn serieus:

AI-CRAWLERS DIE LLMS.TXT BEZOCHTEN
0
TOENAME CRAWLVERKEER DOOR .MD-PAGINA'S
+7%
CRAWLERS MET CONTENT NEGOTIATION
0
PAGINA'S GECRAWLD PER TERUGGESTUURDE CITATIE
1.241

Over Acquia's volledige hosting-infrastructuur, een van de grootste Drupal-hostingplatformen, vertegenwoordigde llms.txt slechts 0,001% van 400 miljoen verzoeken. Alle 52 verzoeken aan llms.txt kwamen van SEO-audittools, niet van AI-systemen.

Leon Furze voerde een vergelijkbaar experiment uit op zijn WordPress-blog. Hetzelfde resultaat: markdown- en HTML-pagina's werden ongeveer even vaak gecrawld, geen meetbaar verkeersverschil, en llms.txt had geen zichtbare impact op crawlergedrag.

De data is glashelder: AI-crawlers gebruiken llms.txt niet. Maar dat is alsof je meet hoeveel vrachtwagens je fietspad gebruiken en concludeert dat fietspaden nutteloos zijn.

Crawlers en Agents Zijn Fundamenteel Verschillend

Dries' analyse heeft een blinde vlek: hij kijkt maar naar de helft van het verhaal. Crawling en training is niet de enige manier waarop AI-systemen met webcontent omgaan. Het onderscheid dat ertoe doet:

AI-Crawlers AI-Agents
Doel Content scrapen voor trainingsdata Een taak voltooien voor een specifieke gebruiker
Gedrag Massaal crawlen, alles pakken Gericht ophalen, alleen wat nodig is
Token-efficiëntie Irrelevant — data wordt offline verwerkt Cruciaal — elke token kost tijd en geld
Contentformaat HTML is prima, ze strippen het toch Markdown bespaart 80% aan tokens
Discovery Sitemaps, link crawling llms.txt, content negotiation, tool-manifesten
Voorbeelden GPTBot, ClaudeBot, Google-Extended Claude Code, Cursor, Windsurf, Bun

AI-crawlers zijn gebouwd om het web leeg te zuigen. Ze hebben pipelines die geoptimaliseerd zijn voor HTML-scraping, jaren geleden gebouwd. Ze zouden gek zijn om hun setup te veranderen alleen omdat een paar sites nu raw markdown aanbieden.

AI-agents zijn het tegenovergestelde. Ze halen specifieke pagina's op om een specifieke taak op te lossen, en elke token telt. Een blogpost die 20% content en 80% navigatie-HTML is? Verspilling. Markdown en llms.txt lossen dat probleem direct op.

Coding Agents Gebruiken Deze Standaarden Al

Als je voorbij crawlerlogs kijkt, is er al concrete agent-adoptie:

Claude Code

Anthropic's coding-agent stuurt Accept-headers die markdown prefereren bij het ophalen van documentatie. Het zoekt ook naar llms.txt om relevante content op een site te ontdekken.

Bun

De JavaScript-runtime begon content negotiation-headers te sturen bij het ophalen van documentatiepagina's, met voorkeur voor markdown wanneer beschikbaar.

Cursor & Windsurf

AI-gedreven code-editors halen documentatie op om ontwikkelaars te helpen. Ze profiteren direct van markdown-versies die structuur behouden zonder HTML-ruis.

Cloudflare

Biedt nu content negotiation en markdown-transformatie in betaalde abonnementen — een duidelijk signaal dat platformaanbieders vraag zien van de agent-kant.

Sommige documentatieplatformen plaatsen al "agent-richtlijnen" op pagina's die agents naar llms.txt verwijzen voor contentdiscovery. Het patroon is duidelijk: content negotiation en llms.txt-adoptie wordt gedreven door de agentische developer tooling-ruimte. Niet door de trainingspipeline.

Adoptie Is Branchespecifiek

Nog een factor die Dries' analyse mist: llms.txt en markdown-adoptie is sterk gericht op developer-documentatie. Dries heeft een persoonlijke blog, geen docs-site. Het gebruik is anders.

Developer-documentatie is waar coding agents het meeste tijd doorbrengen. Als Claude Code een library-API moet begrijpen, of Cursor de configuratieopties van een framework moet opzoeken, halen ze documentatiepagina's op. Precies de pagina's waar:

  • Markdown-versies de meeste tokens besparen (docs-pagina's zijn zwaar qua navigatie en sidebars)
  • llms.txt een gecureerd startpunt biedt naar de meest relevante pagina's
  • Content negotiation agents in staat stelt schone content te krijgen zonder de UI-schil

Vercel, Cloudflare, Stripe en andere developer-gerichte bedrijven hebben deze standaarden al geïmplementeerd. Het Vercel State of AEO-rapport beveelt llms.txt expliciet aan als onderdeel van een uitgebreide AI-zichtbaarheidsstrategie. Vercel heeft zelfs AEO-tracking voor coding agents gebouwd om deze adoptie te meten.

Waarom Crawlers llms.txt Waarschijnlijk Nooit Zullen Gebruiken

Begrijpen waarom crawlers llms.txt negeren maakt het verschil alleen maar duidelijker:

  • Schaaleconomie. Crawlers verwerken miljarden pagina's. Een gecureerde discovery-stap per domein toevoegen voegt complexiteit toe voor minimale winst. Ze hebben al sitemaps en linkgrafen
  • Trainingsprikkels. Meer data is beter voor training. Een gecureerde llms.txt die naar 20 belangrijke pagina's wijst is het tegenovergestelde van wat een trainingspipeline wil
  • Bestaande infrastructuur. HTML-scrapingpipelines zijn volwassen en beproefd. Er is geen business case om ze opnieuw te bouwen voor markdown
  • Inhoudscontrole. Waarom zouden ze moeite doen met een gecureerde lijst? Ze krijgen meer context als ze alles pakken. De prikkels zijn verkeerd afgestemd

Dit is geen falen van llms.txt. Het is een bevestiging dat llms.txt nooit bedoeld was voor crawlers.

Readiness Gaat Niet over ROI van Vandaag

Dries' artikel sluit af met praktisch advies: focus op "helder schrijven, gezaghebbende content en tijdige publicatie" in plaats van llms.txt. Dat advies is niet verkeerd. Maar het is onvolledig.

Hetzelfde argument werd gemaakt over mobiele optimalisatie in 2010, over HTTPS in 2014 en over gestructureerde data in 2018. Elke keer werden early adopters beloond toen de adoptie kantelde. De sites die wachtten mochten achteraf inhalen.

Het agent-ecosysteem groeit snel. Coding agents worden de standaardmanier waarop ontwikkelaars met documentatie omgaan, en AI-gedreven browsingagents zoals ChatGPT Search en Claude Search worden volwassener. Sites die al machine-leesbaar zijn hebben dan een structureel voordeel.

Wat Je Eigenlijk Moet Implementeren

Op basis van waar agent-adoptie daadwerkelijk staat, niet waar crawler-adoptie staat, is dit wat ertoe doet:

1. llms.txt

Maak een gecureerd startpunt voor agents. Lijst je belangrijkste pagina's op met korte beschrijvingen. Weinig moeite, sterk signaal voor elke agent die ernaar zoekt.

2. Content Negotiation

Serveer markdown wanneer agents het opvragen via Accept-headers. Cloudflare biedt dit kant-en-klaar aan. Bespaart agents 80% aan token-overhead.

3. Gestructureerde Data

JSON-LD, Schema.org-types en FAQPage-schema helpen zowel crawlers als agents je content te begrijpen. Dit is table stakes, 8x zichtbaarheidsverschil voor ChatGPT.

4. Crawlertoegang

Sta AI-crawlers toe in robots.txt. Blokkeer trainingsbots als je wilt, maar houd zoekbots open. Dit is de basis. Geen toegang betekent geen zichtbaarheid.

De eerste twee zijn agent-specifiek. De laatste twee helpen zowel crawlers als agents. Samen dekken ze het volledige spectrum van hoe AI-systemen met je content omgaan.

De Conclusie

Dries' data is accuraat: AI-crawlers gebruiken llms.txt niet. Maar llms.txt-adoptie meten aan crawlergedrag is als het succes van een API meten aan hoeveel webbrowsers hem benaderen. Het publiek is anders.

AI-agents, coding-assistenten, browsingagents, taakautomatiseringstools, zijn de daadwerkelijke gebruikers van llms.txt en content negotiation. Ze zijn kleiner in volume dan crawlers maar groeien snel. Ze vertegenwoordigen de toekomst van hoe software met webcontent omgaat.

"Gebruiken AI-crawlers llms.txt vandaag?" is de verkeerde vraag. De juiste vraag: wanneer agents de primaire manier worden waarop gebruikers met je content omgaan, is je site dan klaar?

Bronnen

Klaar om te checken?

SCAN JE WEBSITE

Ontvang je AI-agentgereedheidscore met bruikbare aanbevelingen over 5 categorieën.

  • Gratis directe scan met lettercijfer
  • 5 categorieën, 47 checkpoints
  • Codevoorbeelden bij elke aanbeveling

GERELATEERDE ARTIKELEN

Lees verder over AI-agentgereedheid en weboptimalisatie.

Content Negotiation voor AI Agents: Waarom Sentry Markdown Serveert in Plaats van HTML
9 min leestijd

Content Negotiation voor AI Agents: Waarom Sentry Markdown Serveert in Plaats van HTML

Sentry-medeoprichter David Cramer laat zien hoe content negotiation — een 25 jaar oude HTTP-standaard — AI agents 80% tokens bespaart. We ontleden de implementatie: Accept-headers, markdown-levering, redirects voor beveiligde pagina's, en wat dit betekent voor elke website die zich voorbereidt op agent-verkeer.

ai-agents seo getting-started
Cloudflare /crawl-Endpoint: Eén API-Call om Elke Website te Crawlen
9 min leestijd

Cloudflare /crawl-Endpoint: Eén API-Call om Elke Website te Crawlen

Cloudflare lanceerde een /crawl-endpoint dat hele websites crawlt met één API-call — met als output HTML, Markdown of AI-geëxtraheerde JSON. We ontleden wat dit betekent voor AI agent readiness: waarom je robots.txt, sitemap, semantische HTML en server-side rendering nu belangrijker zijn dan ooit.

ai-agents seo getting-started
Anthropic's AI Exposure Index: Wat Echte Gebruiksdata Betekent voor je Website
12 min leestijd

Anthropic's AI Exposure Index: Wat Echte Gebruiksdata Betekent voor je Website

Anthropic's nieuwe 'observed exposure'-metriek onthult een kloof van 61 punten tussen theoretische AI-capaciteit en daadwerkelijk gebruik. We ontleden de data — van 75% taakdekking voor programmeurs tot 14% wervingsvertraging voor jonge werknemers — en leggen uit waarom deze adoptiekloof een aftelling is voor AI-agentgereedheid van websites.

ai-agents seo getting-started

ONTDEK MEER

De meeste websites scoren onder de 45. Ontdek waar jij staat.

RANGLIJST
BEKIJK HOE ANDEREN SCOREN

RANGLIJST

Bekijk AI-gereedheidsscores van gescande websites.
VERGELIJKEN
VERGELIJKEN

VERGELIJKEN

Vergelijk twee websites zij-aan-zij over alle 5 categorieën en 47 checkpoints.
OVER ONS
HOE WIJ METEN

OVER ONS

Lees meer over onze scoringsmethodologie met 5 categorieën.