Ga naar inhoud

Hoe ChatGPT Search bepaalt welke websites worden geciteerd

10 min leestijd
Bart Waardenburg

Bart Waardenburg

AI Agent Readiness Expert & Oprichter

ChatGPT Search heeft in korte tijd veranderd hoe mensen online informatie vinden. Geen tien blauwe links meer, maar een samengesteld antwoord met inline-bronvermeldingen. De websites die geciteerd worden vangen een nieuw type organisch verkeer. Maar hoe bepaalt ChatGPT welke sites het citeert?

Ik heb de officiële documentatie van OpenAI doorgespit, meerdere grootschalige citatiestudies geanalyseerd en empirische data bekeken. Wat ik vond: ChatGPT's bronselectie werkt verrassend anders dan traditioneel zoeken, en het begrijpen van die verschillen levert een echt concurrentievoordeel op. Voor een breder overzicht van hoe AI-optimalisatie verschilt van traditionele SEO, bekijk de gids over SEO vs AEO .

De zoekinfrastructuur achter ChatGPT

ChatGPT Search crawlt het web niet in real-time wanneer je een vraag stelt. Het vertrouwt op een vooraf opgebouwde zoekindex. En dat is waar het interessant wordt.

ChatGPT Search was oorspronkelijk gebouwd op de zoekindex van Bing . Twee onafhankelijke studies uit medio 2025 vonden echter bewijs dat de betaalde versie van ChatGPT ook Google Search-resultaten gebruikt. Vanaf mei 2025 voegde OpenAI bovendien Shopify toe als externe zoekprovider voor commerciële zoekopdrachten. ChatGPT is dus niet gebonden aan een enkele zoekbackend. Het aggregeert uit meerdere bronnen.

De drie crawlers die je moet kennen

OpenAI beheert drie webcrawlers, elk met een ander doel. Dit goed instellen is de eerste voorwaarde voor zichtbaarheid in ChatGPT. De indeling volgens de officiële crawler-documentatie van OpenAI :

OAI-SEARCHBOT

Indexeert content specifiek voor ChatGPT Search-resultaten. Als je deze bot blokkeert, verschijnt je site niet in ChatGPT-zoekantwoorden.

GPTBOT

Crawlt content voor AI-modeltraining. Je kunt deze blokkeren zonder je zoekzichtbaarheid te beïnvloeden.

CHATGPT-USER

Haalt pagina's op wanneer een gebruiker ChatGPT expliciet vraagt om een specifieke URL te bekijken.

Een detail dat je makkelijk mist in de documentatie: OAI-SearchBot en GPTBot delen crawldata. Als je site beide bots toelaat, kan OpenAI een enkele crawl voor beide doeleinden gebruiken om dubbele verzoeken te voorkomen.

De aanbevolen robots.txt -configuratie voor maximale ChatGPT-zichtbaarheid:

robots.txt plain
# ChatGPT search indexing (required for search visibility)
User-agent: OAI-SearchBot
Allow: /

# AI model training (optional - blocking this does NOT affect search)
User-agent: GPTBot
Allow: /

# User-initiated browsing (robots.txt ignored since Dec 2025)
User-agent: ChatGPT-User
Allow: /

Uit de Publishers FAQ van OpenAI : "Any public website can appear in ChatGPT search." Je kunt dus in de zoekresultaten verschijnen zelfs als je je afmeldt voor AI-training door GPTBot te blokkeren. De crawlers werken onafhankelijk.

Domeinautoriteit is de #1 factor

De meest uitgebreide studie over ChatGPT-citaties komt van Wellows (7.785 zoekopdrachten, 485.000+ citaties). De conclusie is helder: verwijzende domeinen (backlinks) zijn de sterkste voorspeller van of ChatGPT een website citeert.

2.500 VERW. DOMEINEN
1,6
350.000+ VERW. DOMEINEN
8,4
GEM. CITATIES/QUERY
~5

Sites met 2.500 verwijzende domeinen hadden gemiddeld 1,6 citaties per zoekopdracht. Sites met 350.000+ verwijzende domeinen: 8,4. Vijf keer zoveel. Domeinverkeer is de tweede factor, maar die correlatie verschijnt pas bij heel hoge volumes.

Bevestigd door de analyse van Search Engine Journal op dezelfde dataset: autoriteit op domeinniveau weegt zwaarder dan statistieken op paginaniveau. ChatGPT vertrouwt het domein meer dan de individuele pagina.

Google-rankingpositie correleert wel met ChatGPT-citaties. Positie 1-45 had gemiddeld 5 citaties versus 3,1 voor posities 64-75. Maar dat komt waarschijnlijk doordat dezelfde signalen (backlinks, autoriteit) beide aandrijven.

De long tail-kans

Goed nieuws als je geen Wikipedia bent. Het Wellows-rapport vond dat de top 50 websites slechts 48% van alle vermeldingen pakken. De overige 52% gaat naar kleinere, gespecialiseerde sites.

TOP 50 DOMEINEN
0
LONG TAIL
0

De Profound AI Search Shift-studie voegt daar iets bemoedigends aan toe: slechts een klein deel van ChatGPT's citaties komt overeen met Google-zoekresultaten. ChatGPT hanteert een grotendeels onafhankelijke bronselectie. Scoor je niet goed op Google? Dan kun je alsnog geciteerd worden door ChatGPT, mits je autoriteit en goede contentstructuur hebt.

Hoe je content structureert voor ChatGPT-citaties

Een studie van Search Engine Land analyseerde 3 miljoen ChatGPT-antwoorden en 30 miljoen citaties. De bevindingen zijn het lezen waard:

Zet je belangrijkste informatie vooraan

44,2% van de citaties komt uit de eerste 30% van de content in een consistent "ski-helling"-patroon. Informatie bovenaan je artikel wordt veel vaker geciteerd dan content onderaan. Het tegenovergestelde van de "omgekeerde piramide" uit de journalistiek, meer een encyclopedische opening.

Gebruik een vraag-en-antwoord-koppenstructuur

Een conversationele Q&A-structuur verdubbelt de kans op citatie. 78,4% van de citaties gekoppeld aan vragen kwam van H2-koppen. ChatGPT behandelt je H2's als prompts en de paragraaf eronder als het antwoord. Schrijf je koppen als vragen ("Hoe werkt X?" of "Wat is Y?") en je sluit direct aan bij hoe gebruikers ChatGPT bevragen.

Gebruik specifieke entiteiten

Geciteerde tekst bevatte gemiddeld 20,6% eigennamen (versus 5-8% in typisch Engels). Specifieke merken, tools, personen en plaatsnamen verminderen ambiguïteit en maken je content makkelijker te verifiëren en citeren. Niet "veel bedrijven gebruiken deze aanpak," maar "Stripe, Shopify en HubSpot gebruiken deze aanpak."

Vind de juiste toon

Geciteerde tekst clusterde bij een subjectiviteitsscore van 0,47. Niet droog feitelijk, niet emotioneel beoordelend. De sweet spot is analisten-commentaar: feiten plus interpretatie. Het Flesch-Kincaid-leesniveau van 16 presteerde beter dan dicht academisch proza met 19,1. Zakelijke helderheid wint van academische complexiteit.

CHATGPT-GECITEERDE BRONNEN
Niveau 16
NIET-GECITEERDE BRONNEN
Niveau 19,1

Optimaliseer content- en sectielengte

Meer bevindingen uit het Wellows-rapport:

  • Totale lengte: Artikelen onder 800 woorden hadden gemiddeld 3,2 citaties; boven 2.900 woorden gemiddeld 5,1
  • Sectielengte: 120-180 woorden tussen koppen presteerde het best (gemiddeld 4,6 citaties)
  • Expertcitaten: Pagina's met expertcitaten hadden gemiddeld 4,1 citaties versus 2,4 zonder
  • Statistische data: Content met 19+ datapunten had gemiddeld 5,4 citaties versus 2,8 met minimale data
  • Versheid: Content die binnen 30 dagen is bijgewerkt krijgt 3,2x meer citaties
WOORDEN = 3,2 CITATIES
800
WOORDEN = HOOGSTE DICHTHEID
1500-2000
WOORDEN = 5,1 CITATIES
2900+

Het FAQPage Schema-voordeel

Een studie over ChatGPT-zichtbaarheid vond een opvallend sterke correlatie tussen gestructureerde data en citatiepercentages:

MET FAQ SCHEMA
0
ZONDER FAQ SCHEMA
0

6,2% van de voor ChatGPT zichtbare websites had FAQPage schema versus slechts 0,8% van de niet-zichtbare websites . Bijna 8x verschil. JSON-LD helpt LLM's de contentcontext te snappen: is dit een expertartikel, een product met reviews, of een direct antwoord? Gestructureerde data is een van de sleutelfactoren voor AI agent readiness .

Voor e-commerce-sites gaat OpenAI nog een stap verder. Ze accepteren gestructureerde productfeeds (titel, beschrijving, afbeelding, merk, SKU, prijs, beschikbaarheid, GTIN) voor ChatGPT Shopping. Dit is een directe pipeline naar de productaanbevelingen van ChatGPT.

Wie wordt het meest geciteerd?

Meerdere studies hebben gekeken welke domeinen de ChatGPT-citaties domineren:

De Ahrefs-studie (9,6 miljoen zoekopdrachten) vond dat de meest geciteerde domeinen in de VS Reddit, Wikipedia, Amazon, Forbes en Business Insider zijn. Wikipedia wordt door ChatGPT geciteerd bij 16,3% (versus 12,5% op Perplexity en 8,4% op Google AI Overviews).

De Profound-studie (730.000 gesprekken, Q4 2025) voegt context toe:

  • Wikipedia verschijnt in ~1 op de 6 gesprekken met citaties (18%)
  • Reddit verschijnt in 13%
  • Reuters en NIH elk op 4%
  • Beurt 1 heeft 2,5x meer kans om citaties te triggeren dan beurt 10, en 4x meer dan beurt 20

De Visual Capitalist / Ahrefs-analyse (78,6 miljoen zoekopdrachten) vond dat Reddit alle AI-modellen leidt met 40,1% citatiefrequentie, gevolgd door Wikipedia met 26,3%.

Hoe ChatGPT Search verschilt van Google

De verschillen kennen helpt je om voor beide te optimaliseren:

Factor Google Search ChatGPT Search
Uitvoerformaat Lijst van 10 blauwe links Samengesteld antwoord met inline-citaties
Bronconcentratie Miljarden geïndexeerde pagina's Top 50 domeinen krijgen 48% van de vermeldingen
Contentversheid Belangrijk voor nieuws 3,2x meer citaties voor content die binnen 30 dagen is bijgewerkt
Brononafhankelijkheid N.v.t. Grotendeels onafhankelijk van Google-rankings
Lager gerankte pagina's Positie 10 krijgt ~2,5% clicks Positie 10 krijgt ~4% citatiepercentage (meer kans)
Contentformaat Beloont diverse formats Geeft voorkeur aan gestructureerde koppen, opsommingen, tabellen

Wat je vandaag kunt doen

Op basis van het onderzoek, de acties met de meeste impact, gerangschikt op bewijskracht:

1. STA OAI-SEARCHBOT TOE

Dit is de binaire poort. Geen toegang = geen citaties. Controleer je robots.txt en CDN-firewallregels.

2. VOEG FAQPAGE SCHEMA TOE

Het sterkste gestructureerde data-signaal. 6,2% van de zichtbare sites heeft het versus 0,8% van de niet-zichtbare sites — een 8x verschil.

3. ZET CONTENT VOORAAN

Plaats je kernboodschap in het eerste derde deel. 44% van de citaties komt uit de eerste 30% van de content.

4. GEBRUIK Q&A-KOPPEN

Schrijf H2's als vragen. ChatGPT behandelt H2's als prompts en de paragraaf eronder als het antwoord.

  • Voeg expertcitaten en statistieken toe . Datarijke content krijgt bijna 2x meer citaties
  • Houd secties op 120-180 woorden. De optimale lengte tussen koppen
  • Werk content regelmatig bij . Versheid binnen 30 dagen geeft een 3,2x citatieboost
  • Gebruik specifieke entiteiten . Eigennamen, merknamen en toolnamen verminderen ambiguïteit
  • Render je content server-side . De crawlers van ChatGPT kunnen geen client-side JavaScript uitvoeren. Lees meer over hoe AI-agents je website zien via de accessibility tree

Samenvatting

ChatGPT's bronselectie beloont een specifieke combinatie: hoge domeinautoriteit, goed gestructureerde content met Q&A-koppen, rijke gestructureerde data en regelmatige updates. Het is geen kopie van Google-rankings. Ander spel, andere regels.

De sites die vandaag in deze signalen investeren, bouwen een voorsprong op. En met 52% van de citaties die naar sites buiten de top 50 gaan, is er een echte kans voor gespecialiseerde content om door te breken. Alle bevindingen op een rij in de analyse van het AEO-rapport van Vercel uit 2026 .

Benieuwd hoe andere AI-systemen bronnen kiezen? Lees ook over hoe Claude bronnen selecteert en hoe Google AI Overviews bronnen selecteert .

Bronnen

Klaar om te checken?

SCAN JE WEBSITE

Ontvang je AI-agentgereedheidscore met bruikbare aanbevelingen over 5 categorieën.

  • Gratis directe scan met lettercijfer
  • 5 categorieën, 47 checkpoints
  • Codevoorbeelden bij elke aanbeveling

GERELATEERDE ARTIKELEN

Lees verder over AI-agentgereedheid en weboptimalisatie.

Content Negotiation voor AI Agents: Waarom Sentry Markdown Serveert in Plaats van HTML
9 min leestijd

Content Negotiation voor AI Agents: Waarom Sentry Markdown Serveert in Plaats van HTML

Sentry-medeoprichter David Cramer laat zien hoe content negotiation — een 25 jaar oude HTTP-standaard — AI agents 80% tokens bespaart. We ontleden de implementatie: Accept-headers, markdown-levering, redirects voor beveiligde pagina's, en wat dit betekent voor elke website die zich voorbereidt op agent-verkeer.

ai-agents seo getting-started
Cloudflare /crawl-Endpoint: Eén API-Call om Elke Website te Crawlen
9 min leestijd

Cloudflare /crawl-Endpoint: Eén API-Call om Elke Website te Crawlen

Cloudflare lanceerde een /crawl-endpoint dat hele websites crawlt met één API-call — met als output HTML, Markdown of AI-geëxtraheerde JSON. We ontleden wat dit betekent voor AI agent readiness: waarom je robots.txt, sitemap, semantische HTML en server-side rendering nu belangrijker zijn dan ooit.

ai-agents seo getting-started
AI-Crawlers Negeren llms.txt — Maar AI-Agents Niet
9 min leestijd

AI-Crawlers Negeren llms.txt — Maar AI-Agents Niet

Dries Buytaerts data toont dat nul AI-crawlers llms.txt gebruiken. Maar hij mat het verkeerde. Crawlers scrapen voor trainingsdata — agents voltooien taken. We ontleden waarom het onderscheid crawler vs agent ertoe doet, welke coding agents llms.txt en content negotiation al gebruiken, en wat je vandaag moet implementeren.

ai-agents seo getting-started

ONTDEK MEER

De meeste websites scoren onder de 45. Ontdek waar jij staat.

RANGLIJST
BEKIJK HOE ANDEREN SCOREN

RANGLIJST

Bekijk AI-gereedheidsscores van gescande websites.
VERGELIJKEN
VERGELIJKEN

VERGELIJKEN

Vergelijk twee websites zij-aan-zij over alle 5 categorieën en 47 checkpoints.
OVER ONS
HOE WIJ METEN

OVER ONS

Lees meer over onze scoringsmethodologie met 5 categorieën.