Ga naar inhoud

Cloudflare /crawl-Endpoint: Eén API-Call om Elke Website te Crawlen

9 min leestijd
Bart Waardenburg

Bart Waardenburg

AI Agent Readiness Expert & Oprichter

Cloudflare lanceerde zojuist een nieuw /crawl-endpoint voor zijn Browser Rendering-service. Eén POST-request, één URL, en Cloudflare crawlt je volledige site — met als output HTML, Markdown of AI-geëxtraheerde gestructureerde JSON. Het is in open bèta sinds 10 maart 2026, beschikbaar op zowel gratis als betaalde Workers-plannen.

Voor AI agent readiness is dit een belangrijke ontwikkeling. Cloudflare bouwt de infrastructuur die het voor iedereen triviaal maakt om crawling agents te bouwen. De machine-leesbaarheid van je site is nu op schaal te testen.

Hoe het /crawl-Endpoint Werkt

Het endpoint is asynchroon. Je dient een start-URL in, krijgt een job-ID terug en pollt voor resultaten terwijl pagina's worden verwerkt. Het is ontworpen voor volledige site-crawls, niet voor het ophalen van losse pagina's.

# 1. Start een crawl
curl -X POST \
  https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl \
  -H "Authorization: Bearer {token}" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com", "limit": 100, "formats": ["markdown"]}'

# Response: {"success": true, "result": "c7f8s2d9-a8e7-..." }

# 2. Poll voor resultaten
curl https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}

De configuratie-opties zijn waar het interessant wordt voor agent readiness:

MAX PAGINA'S PER CRAWL
100K
OUTPUTFORMATEN
3
MAX LOOPTIJD JOB
7 dagen
RESULTAATRETENTIE
14 dagen

Drie Outputformaten — En Waarom Markdown Ertoe Doet

Het /crawl-endpoint ondersteunt drie outputformaten, elk voor een ander gebruik:

HTML

Ruwe pagina-HTML inclusief alle markup. Handig voor traditioneel scrapen, archiveren of wanneer je de volledige DOM-structuur nodig hebt.

Markdown

Schone content zonder navigatie, headers en boilerplate. Ideaal voor AI-agents en LLM-contextvensters — bespaart tot 80% aan tokens.

JSON (AI-geëxtraheerd)

Gestructureerde data geëxtraheerd door Workers AI met een custom prompt. Definieer je schema en laat het model precies de velden extraheren die je nodig hebt.

De Markdown-optie is het meest relevant voor AI agent readiness. Wanneer een agent je site crawlt met formats: ["markdown"], krijgt het schone content die efficiënt past in het contextvenster van een LLM. Sites met duidelijke semantische HTML, een goede heading-hiërarchie en zinvolle contentstructuur produceren betere markdown-output dan sites die zwaar leunen op JavaScript-gerenderde widgets en geneste divs.

Het JSON-formaat gaat nog verder — het gebruikt Workers AI om gestructureerde data te extraheren met een custom prompt en schema. Dit is in wezen geautomatiseerde gestructureerde data-extractie op crawlschaal:

{
  "url": "https://example.com/products",
  "limit": 500,
  "formats": ["json"],
  "jsonOptions": {
    "prompt": "Extract product name, price, and availability",
    "response_format": {
      "type": "json_schema",
      "json_schema": {
        "name": "product",
        "properties": {
          "name": "string",
          "price": "number",
          "inStock": "boolean"
        }
      }
    }
  }
}

Crawlbereik en Discovery

Het endpoint biedt fijnmazige controle over wat gecrawld wordt en hoe URL's worden ontdekt:

Parameter Standaard Doel
limit 10 Max pagina's om te crawlen (tot 100.000)
depth 100.000 Max linkdiepte vanaf start-URL
source all Ontdekkingsmethode: sitemaps, links of all
render true JavaScript uitvoeren (false = snelle statische HTML-fetch)
includePatterns Wildcardpatronen om mee te nemen (bijv. /blog/**)
excludePatterns Patronen om over te slaan (heeft voorrang op includes)

De source-parameter is veelzeggend. Instellen op sitemaps betekent dat de crawler pagina's ontdekt via je XML-sitemaps — precies hoe zoekmachinecrawlers werken. Sites met uitgebreide, actuele sitemaps worden vollediger gecrawld. Sites zonder sitemaps vallen terug op linkdiscovery, wat mogelijk verweesde pagina's mist.

De render-toggle is even belangrijk. render: false instellen slaat de headless browser over en fetcht statische HTML. Dit is sneller en goedkoper, maar het betekent dat JavaScript-gerenderde content onzichtbaar is. Sites die client-side rendering gebruiken voor hun hoofdcontent leveren lege pagina's in statische modus. Server-side gerenderde sites werken perfect.

robots.txt Is Je Eerste Verdedigingslinie — En Je Grootste Kans

Het /crawl-endpoint respecteert robots.txt volledig, inclusief crawl-delay-richtlijnen. URL's geblokkeerd door robots.txt verschijnen in resultaten met "status": "disallowed". Dit betekent:

  • Als je AI-crawlers blokkeert, benadert het /crawl-endpoint die pagina's niet. Jij bepaalt wat geïndexeerd wordt
  • Als je robots.txt verkeerd geconfigureerd is, blokkeer je mogelijk legitieme agenttoegang zonder het te weten. Veel sites blokkeren per ongeluk alle bots om trainingsdata-scraping te voorkomen, en verliezen daarbij agentzichtbaarheid
  • Als je crawl-delay instelt, respecteert het endpoint dat. Dit geeft je snelheidscontrole over geautomatiseerde toegang

Dit is de eerste grote crawlingservice die expliciet als gesigneerde bot opereert — het identificeert zichzelf als geautomatiseerd en kan botdetectie, CAPTCHA's of Cloudflare-bescherming niet omzeilen. Het is precies het soort conforme crawler waarvoor robots.txt ontworpen is.

Wat Dit Betekent voor AI Agent Readiness

Cloudflare's /crawl-endpoint is infrastructuur, geen agent op zichzelf. Maar het verlaagt dramatisch de drempel voor het bouwen van agentsystemen die hele websites moeten begrijpen. Dit is waarom het ertoe doet:

Gedemocratiseerd crawlen

Iedereen met een Cloudflare-account kan nu tot 100.000 pagina's crawlen met één API-call. Het bouwen van een RAG-pipeline, kennisbank of concurrentieanalysetool is nu triviaal. Je site zal gecrawld worden.

Markdown als standaard

De markdown-outputoptie signaleert dat schone, gestructureerde content het verwachte formaat is voor AI-consumptie. Sites met goede semantische HTML produceren automatisch betere markdown.

Gestructureerde data-extractie

AI-gedreven JSON-extractie betekent dat de structuur van je content direct beïnvloedt welke data geëxtraheerd kan worden. Schema.org-markup, duidelijke koppen en consistente patronen maken extractie nauwkeuriger.

Conform by design

Anders dan scraping-libraries is dit een bot die robots.txt en crawl-delay respecteert. De agent readiness-signalen die je instelt — crawlerrichtlijnen, rate limiting, toegangsbeleid — werken hier daadwerkelijk.

Agent Readiness Checklist voor het /crawl-Tijdperk

Met crawling-infrastructuur die zo toegankelijk is, is dit wat je moet prioriteren:

  1. Audit je robots.txt. Zorg dat je niet per ongeluk conforme AI-crawlers blokkeert. Blokkeer trainingsbots als je wilt, maar houd agenttoegang open
  2. Onderhoud je sitemap. De source: "sitemaps"-optie betekent dat je sitemap een directe input is voor hoe volledig je site gecrawld wordt
  3. Gebruik server-side rendering. De render: false-optie is sneller en goedkoper. Sites die zonder JavaScript werken worden efficiënter gecrawld
  4. Verbeter semantische HTML. Schone heading-hiërarchie, juiste landmarks, beschrijvende linktekst — dit alles produceert betere markdown-output wanneer je site gecrawld wordt
  5. Voeg gestructureerde data toe. JSON-LD en Schema.org-types helpen zowel de HTML-naar-markdown-conversie als AI-gedreven JSON-extractie nauwkeurigere resultaten te produceren
  6. Serveer llms.txt. Hoewel het /crawl-endpoint sitemaps en links gebruikt voor discovery, beginnen agents die de gecrawlde content consumeren vaak met llms.txt om te begrijpen wat een site biedt

Het Grotere Plaatje

Cloudflare's /crawl-endpoint past in een patroon waarin grote platformen investeren in agent-infrastructuur. Cloudflare biedt al MCP-integratie via zijn Workers AI-platform, en ondersteunt Playwright MCP voor browserautomatisering. Het /crawl-endpoint voegt het ontbrekende stuk toe: schaalbare, conforme, volledige site-crawling met AI-native outputformaten.

We bewegen van een web waar crawlers HTML scrapeten voor zoekindexen naar een web waar agents crawlen voor begrip. De output is geen zoekranking — het is een kennisbank, een RAG-pipeline, een gestructureerde dataset. Sites die al geoptimaliseerd zijn voor machine-leesbaarheid produceren van nature betere resultaten in dit nieuwe paradigma.

De vraag is niet óf je site gecrawld wordt door AI-gedreven tools. Het is of de output nauwkeurig weergeeft wat je site te bieden heeft.

Bronnen

Klaar om te checken?

SCAN JE WEBSITE

Ontvang je AI-agentgereedheidscore met bruikbare aanbevelingen over 5 categorieën.

  • Gratis directe scan met lettercijfer
  • 5 categorieën, 47 checkpoints
  • Codevoorbeelden bij elke aanbeveling

GERELATEERDE ARTIKELEN

Lees verder over AI-agentgereedheid en weboptimalisatie.

Content Negotiation voor AI Agents: Waarom Sentry Markdown Serveert in Plaats van HTML
9 min leestijd

Content Negotiation voor AI Agents: Waarom Sentry Markdown Serveert in Plaats van HTML

Sentry-medeoprichter David Cramer laat zien hoe content negotiation — een 25 jaar oude HTTP-standaard — AI agents 80% tokens bespaart. We ontleden de implementatie: Accept-headers, markdown-levering, redirects voor beveiligde pagina's, en wat dit betekent voor elke website die zich voorbereidt op agent-verkeer.

ai-agents seo getting-started
AI-Crawlers Negeren llms.txt — Maar AI-Agents Niet
9 min leestijd

AI-Crawlers Negeren llms.txt — Maar AI-Agents Niet

Dries Buytaerts data toont dat nul AI-crawlers llms.txt gebruiken. Maar hij mat het verkeerde. Crawlers scrapen voor trainingsdata — agents voltooien taken. We ontleden waarom het onderscheid crawler vs agent ertoe doet, welke coding agents llms.txt en content negotiation al gebruiken, en wat je vandaag moet implementeren.

ai-agents seo getting-started
Anthropic's AI Exposure Index: Wat Echte Gebruiksdata Betekent voor je Website
12 min leestijd

Anthropic's AI Exposure Index: Wat Echte Gebruiksdata Betekent voor je Website

Anthropic's nieuwe 'observed exposure'-metriek onthult een kloof van 61 punten tussen theoretische AI-capaciteit en daadwerkelijk gebruik. We ontleden de data — van 75% taakdekking voor programmeurs tot 14% wervingsvertraging voor jonge werknemers — en leggen uit waarom deze adoptiekloof een aftelling is voor AI-agentgereedheid van websites.

ai-agents seo getting-started

ONTDEK MEER

De meeste websites scoren onder de 45. Ontdek waar jij staat.

RANGLIJST
BEKIJK HOE ANDEREN SCOREN

RANGLIJST

Bekijk AI-gereedheidsscores van gescande websites.
VERGELIJKEN
VERGELIJKEN

VERGELIJKEN

Vergelijk twee websites zij-aan-zij over alle 5 categorieën en 47 checkpoints.
OVER ONS
HOE WIJ METEN

OVER ONS

Lees meer over onze scoringsmethodologie met 5 categorieën.