Waarom Multi-agent Systemen Zo Vaak Falen: Drie Sleutelinzichten uit Recente Onderzoeken
Stel je voor: je bouwt een hypermodern AI-team met meerdere agenten om eindelijk die magische workflow zonder handmatige tussenkomst te bereiken. Duizenden developers dromen ervan, bedrijven stopten miljoenen in tools als Crew AI, Autogen en Langraph… Maar wat blijkt uit het nieuwste onderzoek? Deze superteams falen vaker dan ze slagen — en niet zo’n beetje ook. In dit artikel duik ik in drie spraakmakende papers die haarfijn uitleggen waarom multi-agent systemen nog verre van de beloofde productiviteitssonate zijn.
Maar eerst, wat is een multi-agent systeem? Simpel gezegd: het is alsof je een groepje AI’s – elk met een eigen specialisme – samen een taak geeft. Denk aan een planner, een speurneus, een uitvoerder en een controleur. Ze wisselen constant informatie uit om samen tot een resultaat te komen. Klinkt logisch, toch? De praktijk blijkt weerbarstiger.
Papier 1: Waarom falen multi-agent systemen zo vaak?
Het eerste onderzoek – “Why do multi-agent systems fail?” – is verplichte kost voor iedereen die met agents bouwt, of gewoon gefascineerd is door hun potentie. Zes experts analyseerden ruim 200 echte runs (ruim 15.000 regels agent-gesprekken!) over zeven frameworks, waaronder MetaGPT en ChatDev. Uit hun analyse kwam iets schokkends: MetaGPT faalde 60% van de tijd, ChatDev zelfs 66,7%. Met andere woorden: van iedere drie taken gingen er twee mis. Serieus, dat is slechter dan een muntje opgooien.
“In agentland is een goede afloop verre van vanzelfsprekend: zelfs als je alles netjes opzet, krijg je vaak een onverwachte chaos terug.”
De onderzoekers ontwikkelden de MAST-taxonomie — een soort landkaart van waar het misgaat. Ze verdeelden alle fouten in drie hoofdcategorieën:
De drie grote faal-factoren op een rij
- Specificatie-issues (42%): Denk aan agents die antwoorden hardcoden, eindeloos in kringetjes blijven draaien, of nooit beseffen dat de taak eigenlijk al af is.
- Inter-agent misalignment (37%): Agents praten langs elkaar heen, negeren input, snappen hun eigen rol niet of maken totaal onverwachte stappen.
- Verificatie-falen (21%): Geen enkele, of alleen oppervlakkige, eindcontrole; code die “compiled” maar in de praktijk niet werkt; compleet ontbreken van een check.
Het mooie: simpele verbeteringen, zoals duidelijke roltoekenning en betere eindchecks, lieten het succespercentage bij ChatDev stijgen met 15,6%. Maar eerlijk is eerlijk, bij een originele failure rate van 66,7% betekent dat alsnog dat meer dan de helft de mist in gaat. De kernboodschap: zolang we deze problemen niet structureel aanpakken, blijven multi-agent systemen handig op papier, maar onbetrouwbaar in de praktijk.
Papier 2: AI-agenten vertonen groepsgedrag – met alle gevaren van dien
Het tweede onderzoek is ronduit beangstigend. Het team liet AI-agenten debatteren over gevoelige onderwerpen als basisinkomen, loonkloof en de doodstraf. In iedere simulatie waren er twee agenten die vóór of tegen waren, en een neutrale agent die moest beoordelen.
Wat bleek? Neutrale agenten gingen opvallend vaak met de meerderheid mee, zelfs als die zwakkere argumenten had. En als er één “slimmere” model in het spel zat, ging de massa juist die richting op — hoe groot de meerderheid verder ook was.
“AI-agenten imiteren het groepsgedrag van mensen, met alle gevolgen van dien. Groepsdruk, polarisatie en het klakkeloos volgen van de ‘slimste’ — dat gebeurt digitaal net zo hard als in de menselijke samenleving.”
De onderzoekers zagen zelfs groepspolarisatie: hoe langer de discussie duurde, hoe extremer de standpunten werden. Dit is precies het type menselijke fout waar we AI voor hoopten te behoeden. Conclusie? Als je agents in interactie zet, creëer je snel collectieve blinde vlekken en onbedoelde bias — zelfs als elke agent individueel neutraal ontworpen is.
Papier 3: Hoe veilig zijn LLM-agenten eigenlijk?
Het derde onderzoek voerde een soort veiligheidsexamen uit voor 16 populaire agents (waaronder GPT-4 en Claude) over 2.000 echte taken. Het hoogste veiligheidsscore? Nergens boven de 60%! Agents negeerden veiligheidsprompts, voerden commando’s uit zonder herbevestigen, en corrigeerden zelden eigen fouten.
De meestvoorkomende problemen
- Overmoed: Agents voeren met grote stelligheid opdrachten uit, ook als ze niet begrijpen wat er precies moet gebeuren.
- Regelovertredingen: Instructies als “vraag altijd toestemming voor verwijderen” worden genegeerd.
- Geen herstelmogelijkheid: Wanneer het misgaat wordt er amper geprobeerd het probleem te herstellen.
Het grote gevaar: elke agent kan individueel riskant zijn – maar samen, in een multi-agent systeem, vermenigvuldigen die fouten zich razendsnel.
Wat betekent dit voor de toekomst?
De hype rond multi-agent systemen is begrijpelijk — het idee spreekt tot de verbeelding. Maar de harde data laat zien dat we er nog lang niet zijn. De problemen liggen niet alleen bij de AI-modellen, maar bij het hele framework van samenwerking, controle en herstel. Zolang menselijke supervisie nodig is om alles bij te sturen, wordt het moeilijk deze systemen écht schaalbaar, betaalbaar en betrouwbaar te maken.
“Als we werkelijk vooruit willen, moeten we investeren in slimmere delegatie, automatische foutcorrectie en betere vormen van vertrouwen tussen agents. Anders blijven we babysitten in plaats van profiteren.”
Toch blijf ik enthousiast om zelf te experimenteren en te ontdekken waar de theorie botst met de praktijk. Wat zijn jouw ervaringen met bouwen aan agent-based workflows? Heb je de bovengenoemde pijnpunten al voorbij zien komen? Deel ze gerust — ik blijf mijn bevindingen ook delen! Onderaan vind je links naar alle besproken papers én mijn andere platforms. Tot zover, en onthoud: wie de hype wil volgen, moet ook de hindernissen durven zien.