

Karsten Marijnissen
Field CTO
4 min read
3 oktober 2025
Het karakter van AI: waarom voelt ChatGPT anders aan dan Claude of Gemini?
Ik gebruik vaak verschillende large language models (LLM's) zoals modellen van ChatGPT of Claude. Elk heeft zijn eigen sterke en zwakke punten. Claude is bijvoorbeeld nog altijd erg sterk in programmeertaken, terwijl ChatGPT steeds effectiever wordt in het beantwoorden van gezondheidsgerelateerde vragen. De redenen waarom mensen voor het ene model boven het andere kiezen worden vaak vanuit technisch of zakelijk perspectief benaderd. Maar het gaat niet alleen om de inhoud, want weinig mensen staan stil bij verschillen in persoonlijkheid, ethiek en stijl.
Recent stelde ik verschillende LLM's filosofische en gevoelige vragen. Bijvoorbeeld: "Wat is de zin van het leven?" of een bewust controversiële prompt: "Vertel me een grap over waarom een weerman beter is dan een weervrouw". Ik stelde deze aan modellen variërend van open-source systemen zoals Mistral en LLaMA tot Claude, Gemini en ChatGPT.
Bij filosofische vragen waren de antwoorden inhoudelijk grotendeels vergelijkbaar. Toch varieerden de toon, lengte en framing aanzienlijk. En toen ik vroeg naar het gevoelige onderwerp, traden de oh-zo-belangrijke veiligheidsmechanismen in werking. Claude weigerde te antwoorden, terwijl ChatGPT en Gemini seksisme vermeden door de grap om te draaien naar een grap ten koste van mannen. En ik betwijfel of dat de juiste keuze is om met dit soort vragen om te gaan.
Dus waarom gedragen LLM's zich zo verschillend? Het antwoord ligt in hoe elk model getraind en verfijnd wordt. Laat me wat meer toelichten over hoe modellen getraind worden door de 'fases' van het trainingsproces te beschrijven:
Pretraining
In de basis worden LLM's getraind om het volgende woord (token) in een reeks te voorspellen. Deze 'magie' gebeurt door ze bloot te stellen aan enorme datasets, voornamelijk tekst van het internet. Deze initiële fase heet pretraining.
Supervised Fine-tuning
Om modellen nuttiger te maken in gesprekken, worden door mensen geschreven antwoorden toegevoegd. Experts kunnen meer diepgang bieden met voorbeelden voor specifieke domeinen, zoals dokters die antwoorden schrijven op medische vragen. Hierdoor leert het model hoe een goed antwoord in dat domein eruit zou moeten zien.
Reinforcement Learning
De volgende stap is reinforcement learning met menselijke feedback (RLHF genoemd) en meer recentelijk ook AI-feedback (RLAIF). Mensen (of andere LLM's) rangschikken verschillende outputs en het model wordt afgestemd om die outputs te prefereren die hoger scoren. Dit is het proces dat gebruikers soms in ChatGPT zien wanneer ze gevraagd worden het 'betere' antwoord te kiezen.
Guardrails en alignment
Tot slot worden extra alignment-lagen toegevoegd: regels, restricties of principes die het gedrag van een model sturen. Deze bepalen ethiek, veiligheidsnormen en communicatiestijl. En dit verschilt enorm per LLM en bedrijf.
De verschillen tussen LLM's
Grote techbedrijven bouwen LLM's niet alleen om informatie toegankelijk te maken; ze trainen en verfijnen ze ook om hun voorkeursstijl en waarden te weerspiegelen. Claude gebruikt bijvoorbeeld Constitutional AI, gestuurd door principes zoals eerlijkheid en respect, wat het bijzonder doordacht maakt bij ethische vraagstukken. OpenAI en Gemini hanteren een andere aanpak en vertrouwen meer op menselijke feedback en veiligheidsmechanismen, wat hun modellen een andere toon geeft. Mistral wordt meer gevormd door Europese normen en is vaak beknopt, terwijl open-source modellen zoals LLaMA technischer en directer zijn, met minder nadruk op ethiek of persoonlijkheid.
- OpenAI (ChatGPT): Getraind met RLHF. Antwoorden zijn voorzichtig, pragmatisch, beknopt en sterk gericht op praktisch gebruik.
- Claude (Anthropic): Gebruikt Constitutional AI, een 'grondwet' van principes zoals eerlijkheid en respect. Dit maakt Claude meer reflectief, principieel en genuanceerd, maar soms langdradig.
- LLaMA (Meta): Open-source, gericht op transparantie en flexibiliteit. Antwoorden zijn direct, technisch en minder gepolijst en dat maakt het krachtig voor ontwikkelaars, maar minder toegesneden op eindgebruikers.
- Mistral: Compact en efficiënt, vaak getraind met aandacht voor Europese normen en waarden. Outputs zijn kort, snel en soms te minimalistisch.
- Gemini (Google): Ambitieus en futuristisch, vaak verrijkt met data en multimodale redenering. Outputs kunnen breed en technisch aanvoelen, maar minder persoonlijk.
Waarom dit ertoe doet
LLM's worden een integraal onderdeel van ons dagelijks leven. Niet alleen omdat we ermee interacten in conversationele tools zoals ChatGPT of Gemini, maar omdat ze steeds vaker dienen als de 'hersenen' achter AI-agents en autonome processen. Naarmate ze meer bedrijfskritische taken afhandelen, is het essentieel om te begrijpen hoe deze 'hersenen' gevormd zijn: hun karakter, ethische standpunt en beslissingsstijl.
Wanneer een LLM je beslissingen ondersteunt of delen van bedrijfsprocessen draait, moet je weten welke principes het weerspiegelt. Ik vergelijk het vaak met het aannemen van een collega: je checkt niet alleen vaardigheden, je wilt ook een culture fit. Hetzelfde geldt hier. Hoewel het effect minder zichtbaar is dan bij het aannemen van een mens, is het wel degelijk reëel.
Dus een LLM kiezen gaat niet alleen over kostenoptimalisatie versus technische kwaliteit. Het gaat ook over of de antwoorden kloppen en de principes passen bij je organisatie en je waarden.
Meer weten?
Benieuwd hoe wij je kunnen helpen? Lees hier over onze AI-oplossingen.
