Cloudflare /crawl-Endpoint: Eén API-Call om Elke Website te Crawlen

11 maart 2026 • 9 min leestijd

Bart Waardenburg

AI Agent Readiness Expert & Oprichter

Cloudflare lanceerde zojuist een nieuw /crawl-endpoint voor zijn Browser Rendering-service. Eén POST-request, één URL, en Cloudflare crawlt je volledige site — met als output HTML, Markdown of AI-geëxtraheerde gestructureerde JSON. Het is in open bèta sinds 10 maart 2026, beschikbaar op zowel gratis als betaalde Workers-plannen.

Voor AI agent readiness is dit een belangrijke ontwikkeling. Cloudflare bouwt de infrastructuur die het voor iedereen triviaal maakt om crawling agents te bouwen. De machine-leesbaarheid van je site is nu op schaal te testen.

Hoe het /crawl-Endpoint Werkt

Het endpoint is asynchroon. Je dient een start-URL in, krijgt een job-ID terug en pollt voor resultaten terwijl pagina's worden verwerkt. Het is ontworpen voor volledige site-crawls, niet voor het ophalen van losse pagina's.

# 1. Start een crawl
curl -X POST \
  https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl \
  -H "Authorization: Bearer {token}" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com", "limit": 100, "formats": ["markdown"]}'

# Response: {"success": true, "result": "c7f8s2d9-a8e7-..." }

# 2. Poll voor resultaten
curl https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}

De configuratie-opties zijn waar het interessant wordt voor agent readiness:

MAX PAGINA'S PER CRAWL

100K

OUTPUTFORMATEN

MAX LOOPTIJD JOB

7 dagen

RESULTAATRETENTIE

14 dagen

Drie Outputformaten — En Waarom Markdown Ertoe Doet

Het /crawl-endpoint ondersteunt drie outputformaten, elk voor een ander gebruik:

HTML

Ruwe pagina-HTML inclusief alle markup. Handig voor traditioneel scrapen, archiveren of wanneer je de volledige DOM-structuur nodig hebt.

Markdown

Schone content zonder navigatie, headers en boilerplate. Ideaal voor AI-agents en LLM-contextvensters — bespaart tot 80% aan tokens.

JSON (AI-geëxtraheerd)

Gestructureerde data geëxtraheerd door Workers AI met een custom prompt. Definieer je schema en laat het model precies de velden extraheren die je nodig hebt.

De Markdown-optie is het meest relevant voor AI agent readiness. Wanneer een agent je site crawlt met formats: ["markdown"], krijgt het schone content die efficiënt past in het contextvenster van een LLM. Sites met duidelijke semantische HTML, een goede heading-hiërarchie en zinvolle contentstructuur produceren betere markdown-output dan sites die zwaar leunen op JavaScript-gerenderde widgets en geneste divs.

Het JSON-formaat gaat nog verder — het gebruikt Workers AI om gestructureerde data te extraheren met een custom prompt en schema. Dit is in wezen geautomatiseerde gestructureerde data-extractie op crawlschaal:

{
  "url": "https://example.com/products",
  "limit": 500,
  "formats": ["json"],
  "jsonOptions": {
    "prompt": "Extract product name, price, and availability",
    "response_format": {
      "type": "json_schema",
      "json_schema": {
        "name": "product",
        "properties": {
          "name": "string",
          "price": "number",
          "inStock": "boolean"
        }
      }
    }
  }
}

Crawlbereik en Discovery

Het endpoint biedt fijnmazige controle over wat gecrawld wordt en hoe URL's worden ontdekt:

Parameter	Standaard	Doel
`limit`	10	Max pagina's om te crawlen (tot 100.000)
`depth`	100.000	Max linkdiepte vanaf start-URL
`source`	all	Ontdekkingsmethode: `sitemaps`, `links` of `all`
`render`	true	JavaScript uitvoeren (false = snelle statische HTML-fetch)
`includePatterns`	—	Wildcardpatronen om mee te nemen (bijv. `/blog/**`)
`excludePatterns`	—	Patronen om over te slaan (heeft voorrang op includes)

De source-parameter is veelzeggend. Instellen op sitemaps betekent dat de crawler pagina's ontdekt via je XML-sitemaps — precies hoe zoekmachinecrawlers werken. Sites met uitgebreide, actuele sitemaps worden vollediger gecrawld. Sites zonder sitemaps vallen terug op linkdiscovery, wat mogelijk verweesde pagina's mist.

De render-toggle is even belangrijk. render: false instellen slaat de headless browser over en fetcht statische HTML. Dit is sneller en goedkoper, maar het betekent dat JavaScript-gerenderde content onzichtbaar is. Sites die client-side rendering gebruiken voor hun hoofdcontent leveren lege pagina's in statische modus. Server-side gerenderde sites werken perfect.

robots.txt Is Je Eerste Verdedigingslinie — En Je Grootste Kans

Het /crawl-endpoint respecteert robots.txt volledig, inclusief crawl-delay-richtlijnen. URL's geblokkeerd door robots.txt verschijnen in resultaten met "status": "disallowed". Dit betekent:

Als je AI-crawlers blokkeert, benadert het /crawl-endpoint die pagina's niet. Jij bepaalt wat geïndexeerd wordt
Als je robots.txt verkeerd geconfigureerd is, blokkeer je mogelijk legitieme agenttoegang zonder het te weten. Veel sites blokkeren per ongeluk alle bots om trainingsdata-scraping te voorkomen, en verliezen daarbij agentzichtbaarheid
Als je crawl-delay instelt, respecteert het endpoint dat. Dit geeft je snelheidscontrole over geautomatiseerde toegang

Dit is de eerste grote crawlingservice die expliciet als gesigneerde bot opereert — het identificeert zichzelf als geautomatiseerd en kan botdetectie, CAPTCHA's of Cloudflare-bescherming niet omzeilen. Het is precies het soort conforme crawler waarvoor robots.txt ontworpen is.

Wat Dit Betekent voor AI Agent Readiness

Cloudflare's /crawl-endpoint is infrastructuur, geen agent op zichzelf. Maar het verlaagt dramatisch de drempel voor het bouwen van agentsystemen die hele websites moeten begrijpen. Dit is waarom het ertoe doet:

Gedemocratiseerd crawlen

Iedereen met een Cloudflare-account kan nu tot 100.000 pagina's crawlen met één API-call. Het bouwen van een RAG-pipeline, kennisbank of concurrentieanalysetool is nu triviaal. Je site zal gecrawld worden.

Markdown als standaard

De markdown-outputoptie signaleert dat schone, gestructureerde content het verwachte formaat is voor AI-consumptie. Sites met goede semantische HTML produceren automatisch betere markdown.

Gestructureerde data-extractie

AI-gedreven JSON-extractie betekent dat de structuur van je content direct beïnvloedt welke data geëxtraheerd kan worden. Schema.org-markup, duidelijke koppen en consistente patronen maken extractie nauwkeuriger.

Conform by design

Anders dan scraping-libraries is dit een bot die robots.txt en crawl-delay respecteert. De agent readiness-signalen die je instelt — crawlerrichtlijnen, rate limiting, toegangsbeleid — werken hier daadwerkelijk.

Agent Readiness Checklist voor het /crawl-Tijdperk

Met crawling-infrastructuur die zo toegankelijk is, is dit wat je moet prioriteren:

Audit je robots.txt. Zorg dat je niet per ongeluk conforme AI-crawlers blokkeert. Blokkeer trainingsbots als je wilt, maar houd agenttoegang open
Onderhoud je sitemap. De source: "sitemaps"-optie betekent dat je sitemap een directe input is voor hoe volledig je site gecrawld wordt
Gebruik server-side rendering. De render: false-optie is sneller en goedkoper. Sites die zonder JavaScript werken worden efficiënter gecrawld
Verbeter semantische HTML. Schone heading-hiërarchie, juiste landmarks, beschrijvende linktekst — dit alles produceert betere markdown-output wanneer je site gecrawld wordt
Voeg gestructureerde data toe. JSON-LD en Schema.org-types helpen zowel de HTML-naar-markdown-conversie als AI-gedreven JSON-extractie nauwkeurigere resultaten te produceren
Serveer llms.txt. Hoewel het /crawl-endpoint sitemaps en links gebruikt voor discovery, beginnen agents die de gecrawlde content consumeren vaak met llms.txt om te begrijpen wat een site biedt

Het Grotere Plaatje

Cloudflare's /crawl-endpoint past in een patroon waarin grote platformen investeren in agent-infrastructuur. Cloudflare biedt al MCP-integratie via zijn Workers AI-platform, en ondersteunt Playwright MCP voor browserautomatisering. Het /crawl-endpoint voegt het ontbrekende stuk toe: schaalbare, conforme, volledige site-crawling met AI-native outputformaten.

We bewegen van een web waar crawlers HTML scrapeten voor zoekindexen naar een web waar agents crawlen voor begrip. De output is geen zoekranking — het is een kennisbank, een RAG-pipeline, een gestructureerde dataset. Sites die al geoptimaliseerd zijn voor machine-leesbaarheid produceren van nature betere resultaten in dit nieuwe paradigma.

De vraag is niet óf je site gecrawld wordt door AI-gedreven tools. Het is of de output nauwkeurig weergeeft wat je site te bieden heeft.

Bronnen

Cloudflare Changelog: Browser Rendering /crawl Endpoint (Open Beta) — Officiële aankondiging, 10 maart 2026
Cloudflare Docs: /crawl Endpoint Technische Documentatie — Volledige API-referentie met configuratieopties
Cloudflare Browser Rendering Overzicht — Productoverzicht en use cases
IsAgentReady: AI-Crawlers Negeren llms.txt — Maar AI-Agents Niet — Waarom het onderscheid crawler vs agent ertoe doet

Cloudflare /crawl-Endpoint: Eén API-Call om Elke Website te Crawlen

Hoe het /crawl-Endpoint Werkt

Drie Outputformaten — En Waarom Markdown Ertoe Doet

HTML

Markdown

JSON (AI-geëxtraheerd)

Crawlbereik en Discovery

robots.txt Is Je Eerste Verdedigingslinie — En Je Grootste Kans

Wat Dit Betekent voor AI Agent Readiness

Gedemocratiseerd crawlen

Markdown als standaard

Gestructureerde data-extractie

Conform by design

Agent Readiness Checklist voor het /crawl-Tijdperk

Het Grotere Plaatje

Bronnen

SCAN JE WEBSITE

GERELATEERDE ARTIKELEN

Content Negotiation voor AI Agents: Waarom Sentry Markdown Serveert in Plaats van HTML

AI-Crawlers Negeren llms.txt — Maar AI-Agents Niet

Anthropic's AI Exposure Index: Wat Echte Gebruiksdata Betekent voor je Website

ONTDEK MEER

RANGLIJST

VERGELIJKEN

OVER ONS