Cloudflare /crawl-Endpoint: Eén API-Call om Elke Website te Crawlen
Cloudflare lanceerde zojuist een nieuw /crawl-endpoint voor zijn Browser Rendering-service. Eén POST-request, één URL, en Cloudflare crawlt je volledige site — met als output HTML, Markdown of AI-geëxtraheerde gestructureerde JSON. Het is in open bèta sinds 10 maart 2026, beschikbaar op zowel gratis als betaalde Workers-plannen.
Voor AI agent readiness is dit een belangrijke ontwikkeling. Cloudflare bouwt de infrastructuur die het voor iedereen triviaal maakt om crawling agents te bouwen. De machine-leesbaarheid van je site is nu op schaal te testen.
Hoe het /crawl-Endpoint Werkt
Het endpoint is asynchroon. Je dient een start-URL in, krijgt een job-ID terug en pollt voor resultaten terwijl pagina's worden verwerkt. Het is ontworpen voor volledige site-crawls, niet voor het ophalen van losse pagina's.
# 1. Start een crawl
curl -X POST \
https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl \
-H "Authorization: Bearer {token}" \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com", "limit": 100, "formats": ["markdown"]}'
# Response: {"success": true, "result": "c7f8s2d9-a8e7-..." }
# 2. Poll voor resultaten
curl https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}
De configuratie-opties zijn waar het interessant wordt voor agent readiness:
Drie Outputformaten — En Waarom Markdown Ertoe Doet
Het /crawl-endpoint ondersteunt drie outputformaten, elk voor een ander gebruik:
HTML
Ruwe pagina-HTML inclusief alle markup. Handig voor traditioneel scrapen, archiveren of wanneer je de volledige DOM-structuur nodig hebt.
Markdown
Schone content zonder navigatie, headers en boilerplate. Ideaal voor AI-agents en LLM-contextvensters — bespaart tot 80% aan tokens.
JSON (AI-geëxtraheerd)
Gestructureerde data geëxtraheerd door Workers AI met een custom prompt. Definieer je schema en laat het model precies de velden extraheren die je nodig hebt.
De Markdown-optie is het meest relevant voor AI agent readiness. Wanneer een agent je site crawlt met formats: ["markdown"], krijgt het schone content die efficiënt past in het contextvenster van een LLM. Sites met duidelijke semantische HTML, een goede heading-hiërarchie en zinvolle contentstructuur produceren betere markdown-output dan sites die zwaar leunen op JavaScript-gerenderde widgets en geneste divs.
Het JSON-formaat gaat nog verder — het gebruikt Workers AI om gestructureerde data te extraheren met een custom prompt en schema. Dit is in wezen geautomatiseerde gestructureerde data-extractie op crawlschaal:
{
"url": "https://example.com/products",
"limit": 500,
"formats": ["json"],
"jsonOptions": {
"prompt": "Extract product name, price, and availability",
"response_format": {
"type": "json_schema",
"json_schema": {
"name": "product",
"properties": {
"name": "string",
"price": "number",
"inStock": "boolean"
}
}
}
}
}
Crawlbereik en Discovery
Het endpoint biedt fijnmazige controle over wat gecrawld wordt en hoe URL's worden ontdekt:
| Parameter | Standaard | Doel |
|---|---|---|
limit |
10 | Max pagina's om te crawlen (tot 100.000) |
depth |
100.000 | Max linkdiepte vanaf start-URL |
source |
all | Ontdekkingsmethode: sitemaps, links of all |
render |
true | JavaScript uitvoeren (false = snelle statische HTML-fetch) |
includePatterns |
— | Wildcardpatronen om mee te nemen (bijv. /blog/**) |
excludePatterns |
— | Patronen om over te slaan (heeft voorrang op includes) |
De source-parameter is veelzeggend. Instellen op sitemaps
betekent dat de crawler pagina's ontdekt via je XML-sitemaps — precies hoe zoekmachinecrawlers werken. Sites met uitgebreide, actuele sitemaps worden vollediger gecrawld. Sites zonder sitemaps vallen terug op linkdiscovery, wat mogelijk verweesde pagina's mist.
De render-toggle is even belangrijk. render: false
instellen slaat de headless browser over en fetcht statische HTML. Dit is sneller en goedkoper, maar het betekent dat JavaScript-gerenderde content onzichtbaar is. Sites die client-side rendering gebruiken voor hun hoofdcontent leveren lege pagina's in statische modus. Server-side gerenderde sites werken perfect.
robots.txt Is Je Eerste Verdedigingslinie — En Je Grootste Kans
Het /crawl-endpoint respecteert robots.txt volledig, inclusief crawl-delay-richtlijnen. URL's geblokkeerd door robots.txt verschijnen in resultaten met "status": "disallowed". Dit betekent:
- Als je AI-crawlers blokkeert, benadert het /crawl-endpoint die pagina's niet. Jij bepaalt wat geïndexeerd wordt
- Als je robots.txt verkeerd geconfigureerd is, blokkeer je mogelijk legitieme agenttoegang zonder het te weten. Veel sites blokkeren per ongeluk alle bots om trainingsdata-scraping te voorkomen, en verliezen daarbij agentzichtbaarheid
- Als je crawl-delay instelt, respecteert het endpoint dat. Dit geeft je snelheidscontrole over geautomatiseerde toegang
Dit is de eerste grote crawlingservice die expliciet als gesigneerde bot opereert — het identificeert zichzelf als geautomatiseerd en kan botdetectie, CAPTCHA's of Cloudflare-bescherming niet omzeilen. Het is precies het soort conforme crawler waarvoor robots.txt ontworpen is.
Wat Dit Betekent voor AI Agent Readiness
Cloudflare's /crawl-endpoint is infrastructuur, geen agent op zichzelf. Maar het verlaagt dramatisch de drempel voor het bouwen van agentsystemen die hele websites moeten begrijpen. Dit is waarom het ertoe doet:
Gedemocratiseerd crawlen
Iedereen met een Cloudflare-account kan nu tot 100.000 pagina's crawlen met één API-call. Het bouwen van een RAG-pipeline, kennisbank of concurrentieanalysetool is nu triviaal. Je site zal gecrawld worden.
Markdown als standaard
De markdown-outputoptie signaleert dat schone, gestructureerde content het verwachte formaat is voor AI-consumptie. Sites met goede semantische HTML produceren automatisch betere markdown.
Gestructureerde data-extractie
AI-gedreven JSON-extractie betekent dat de structuur van je content direct beïnvloedt welke data geëxtraheerd kan worden. Schema.org-markup, duidelijke koppen en consistente patronen maken extractie nauwkeuriger.
Conform by design
Anders dan scraping-libraries is dit een bot die robots.txt en crawl-delay respecteert. De agent readiness-signalen die je instelt — crawlerrichtlijnen, rate limiting, toegangsbeleid — werken hier daadwerkelijk.
Agent Readiness Checklist voor het /crawl-Tijdperk
Met crawling-infrastructuur die zo toegankelijk is, is dit wat je moet prioriteren:
- Audit je robots.txt. Zorg dat je niet per ongeluk conforme AI-crawlers blokkeert. Blokkeer trainingsbots als je wilt, maar houd agenttoegang open
-
Onderhoud je sitemap. De
source: "sitemaps"-optie betekent dat je sitemap een directe input is voor hoe volledig je site gecrawld wordt -
Gebruik server-side rendering. De
render: false-optie is sneller en goedkoper. Sites die zonder JavaScript werken worden efficiënter gecrawld - Verbeter semantische HTML. Schone heading-hiërarchie, juiste landmarks, beschrijvende linktekst — dit alles produceert betere markdown-output wanneer je site gecrawld wordt
- Voeg gestructureerde data toe. JSON-LD en Schema.org-types helpen zowel de HTML-naar-markdown-conversie als AI-gedreven JSON-extractie nauwkeurigere resultaten te produceren
- Serveer llms.txt. Hoewel het /crawl-endpoint sitemaps en links gebruikt voor discovery, beginnen agents die de gecrawlde content consumeren vaak met llms.txt om te begrijpen wat een site biedt
Het Grotere Plaatje
Cloudflare's /crawl-endpoint past in een patroon waarin grote platformen investeren in agent-infrastructuur. Cloudflare biedt al MCP-integratie via zijn Workers AI-platform, en ondersteunt Playwright MCP voor browserautomatisering. Het /crawl-endpoint voegt het ontbrekende stuk toe: schaalbare, conforme, volledige site-crawling met AI-native outputformaten.
We bewegen van een web waar crawlers HTML scrapeten voor zoekindexen naar een web waar agents crawlen voor begrip. De output is geen zoekranking — het is een kennisbank, een RAG-pipeline, een gestructureerde dataset. Sites die al geoptimaliseerd zijn voor machine-leesbaarheid produceren van nature betere resultaten in dit nieuwe paradigma.
De vraag is niet óf je site gecrawld wordt door AI-gedreven tools. Het is of de output nauwkeurig weergeeft wat je site te bieden heeft.
Bronnen
- Cloudflare Changelog: Browser Rendering /crawl Endpoint (Open Beta) — Officiële aankondiging, 10 maart 2026
- Cloudflare Docs: /crawl Endpoint Technische Documentatie — Volledige API-referentie met configuratieopties
- Cloudflare Browser Rendering Overzicht — Productoverzicht en use cases
- IsAgentReady: AI-Crawlers Negeren llms.txt — Maar AI-Agents Niet — Waarom het onderscheid crawler vs agent ertoe doet