“`html
Meerdere AI Samen: Hoe Anthropic Multi-Agent Systemen Revolutioneert voor Onderzoek
Stel je voor dat je miljoenen dollars krijgt aangeboden om van baan te wisselen. Voor de meesten van ons is dat pure fantasie, maar voor een selecte groep AI-onderzoekers is het dagelijkse kost. Welkom bij de duurste talentenoorlog in de tech-geschiedenis, waar bedrijven top-AI-geesten behandelen alsof het vrije agenten in de sportwereld zijn. Vandaag duiken we in een recent artikel van Anthropic dat uitlegt hoe zij hun baanbrekende multi-agent onderzoekssysteem hebben gebouwd. Dit is meer dan alleen theorie; het is een blauwdruk voor de toekomst van AI-samenwerking.
De Krachtpatser: Waarom Multi-Agent Systemen De Enige Weg Vooruit Zijn
Voordat we de diepte induiken, is het cruciaal te begrijpen waarom Anthropic kiest voor een multi-agent aanpak. Niet elke AI-taak heeft zo’n complex systeem nodig. Er zijn drie hoofdcategorieën:
- Enkele “one-shot” AI-taken: Eenvoudige verzoeken die met één enkele query kunnen worden opgelost.
- Agentische taken (single agent): Vraagt om een reeks stappen, maar kan door één AI-agent worden afgehandeld.
- Agentische taken (multi-agent): Complexe, gelaagde problemen die profiteren van meerdere AI-agenten die in harmonie samenwerken.
Anthropic ontdekte dat onderzoek bij uitstek geschikt is voor een multi-agent systeem. De sleutel hier is parallellisatie. Ze bouwden een systeem waarin een 'orchestrator'-agent (Claudius Opus 4) subtaken delegeert aan meerdere 'sub-agenten' (Claudius Sonnet 4). Terwijl de sub-agenten hun deel van het onderzoek uitvoeren, werkt de orchestrator later alle bevindingen samen tot een coherent geheel.
Een Verbluffend Resultaat: 90,2% Beter!
Hier komt de schok: een multi-agent systeem met Opus 4 als orchestrator en Sonnet 4 sub-agenten presteerde maar liefst 90,2% beter dan een enkelvoudige Opus 4-agent die alles alleen deed. Dit is contra-intuïtief, aangezien Sonnet 4 minder krachtig is dan Opus 4.
De reden? Het zit hem allemaal in het tokengebruik. Meer tokens leiden over het algemeen tot betere resultaten. Wanneer een enkelvoudige agent alles probeert te doen, moet het de context van alle taken tegelijkertijd bijhouden, wat de hoeveelheid bruikbare tokens per specifieke taak vermindert. Multi-agent systemen, daarentegen, initializeren meerdere agents met zeer specifieke taken, waardoor elke agent zijn volledige tokenbudget kan besteden aan zijn niche. Dit leidt tot een superieure algehele prestatie.
“We vonden dat een multi-agent systeem met Claudius Opus 4 als de hoofdagents en Claudius Sonnet 4 sub-agents een enkelvoudige Claudius Opus 4-agent met 90,2% overtrof op onze interne onderzoeks-evaluatie.”
De Architectuur Achter Het Succes: Een Orkest van AI
De architectuur van Anthropic’s systeem is een meesterwerk van coördinatie. Aan de linkerkant staat je client-interface (bijvoorbeeld Claudius AI chat), en aan de rechterkant het multi-agent onderzoekssysteem zelf. Dit is hoe het werkt:
- De Hoofdagents (Orchestrator): Dit is de Claudius Opus 4-agent die fungeert als het brein achter de operatie. Het heeft toegang tot tools, geheugen en cruciaal: de
run_sub_agent
tool en decomplete_task
tool. Het delegeert taken door sub-agenten te creëren. - Initiële Planning: Wanneer een gebruiker een query indient, begint de lead-onderzoeker met 'nadenken'. Het stelt een gedetailleerd onderzoeksplan op en slaat dit op in het geheugen. Dit zorgt ervoor dat de initiële context behouden blijft, zelfs als de onderzoeker later door zijn contextvenster heen loopt.
- Sub-agent Initiatie: Zodra het plan is bepaald, initialiseert de hoofdagents zoveel sub-agenten als nodig is. Elke sub-agent (Sonnet 4) krijgt een specifieke taak en begint met 'nadenken' en het uitvoeren van zijn onderzoek.
- Synthese en Controle: Na voltooiing sturen de sub-agenten hun bevindingen terug naar de lead-onderzoeker. Deze synthetiseert alle resultaten. Een speciale 'citation sub-agent' controleert bovendien alle beweringen en zorgt ervoor dat deze worden ondersteund door betrouwbare bronnen.
Dit systeem doet denken aan het 'Storm'-papier over het genereren van Wikipedia-achtige artikelen, waarin ook meerdere AI-agenten samenwerken aan onderzoek. Een interessant verschil: Anthropic’s sub-agenten zijn enkelvoudig, terwijl Storm twee sub-agenten (expert en onderzoeker) per taak heeft, die communiceren om betere resultaten te produceren. Dit roept de vraag op of interne gesprekken tussen deel-agenten de effectiviteit verder zouden kunnen verhogen.
De Kunst van het Prompten: Slimmer Werken, Niet Harder
Prompt Engineering is de levensader van elk AI-systeem, en voor multi-agent systemen is het nog belangrijker. Hier zijn de cruciale tips die Anthropic ons geeft:
1. Denk als je agenten
De eerste stap naar effectief prompten is een accuraat mentaal model van je agenten te ontwikkelen. Observeren hoe agenten stap voor stap werken en waar ze vastlopen, is essentieel. Dit betekent dat je een duidelijk observatieplatform moet hebben om te zien wat er achter de schermen gebeurt.
2. Leer de Orchestrator delegeren
Agenten hebben moeite met het bepalen van taakmoeilijkheid en het aantal benodigde sub-agenten als dit niet specifiek wordt geprompt. Anthropic ontdekte dat hun orchestrator aanvankelijk 50 agents spawnte voor een simpele taak. Hun oplossing: specifieke instructies toevoegen aan de prompt:
- Simpele feitenquizzen: Eén agent, 3-10 tool calls.
- Directe vergelijkingen: Twee tot vier sub-agenten, elk 10-15 tool calls.
- Complex onderzoek: Meer dan 10 sub-agenten met duidelijk verdeelde verantwoordelijkheden.
3. Slim Toolontwerp en -selectie
Tools zijn de handen van een agent. Cruciaal is dat je de agent prompt om eerst alle beschikbare tools te overwegen voordat deze een keuze maakt. Zorg ervoor dat de toolbeschrijvingen niet als documentatie dienen, maar als duidelijke instructies voor het specifieke gebruik. Bijvoorbeeld: in plaats van “Haal de laatste items in een takenlijst op”, schrijf je “Gebruik deze tool om de laatste items in de takenlijst van de gebruiker op te halen,”.
Een fascinerende innovatie is een 'tool-testing agent' die probeert defecte tools te gebruiken en de beschrijving ervan herschrijft om mislukkingen te voorkomen. Dit resulteerde in een indrukwekkende 40% toename in taakvoltooiingstijd.
4. Begin Breed, Vernauw Progressief
Agenten neigen ertoe te beginnen met te lange en specifieke queries, wat weinig resultaten oplevert. Prompt ze om te beginnen met korte, brede queries, de resultaten te evalueren en vervolgens de focus stapsgewijs te vernauwen.
5. Geïmplementeerd Denken: De Kracht van Interne Monoloog
Het concept van ‘nadenken’ of ’thinking’ is essentieel geworden in agentische systemen. Dit is de interne monoloog van de AI voordat het een antwoord of actie genereert. Anthropic heeft dit in twee cruciale gebieden geïntegreerd:
- Loodagent Planning: De Opus 4-agent gebruikt een uitgebreide denkmodus om zijn aanpak te plannen, tools te beoordelen, querycomplexiteit te bepalen en sub-agentrollen te definiëren. Dit verbeterde het volgen van instructies en de efficiëntie aanzienlijk.
- Sub-agent Evaluatie: Sub-agenten gebruiken 'interleaved thinking' (nadenken tussen tool calls) om queryresultaten te evalueren, hiaten te identificeren en hun volgende query te verfijnen. Dit is een geavanceerde vorm van het React-prompting patroon (Reason, Act, Observe).
Deze denkprocessen zijn niet zomaar interne gesprekken; ze zijn de ruggengraat van het redeneervermogen van de agent, waardoor beslissingen bewuster en effectiever worden.
6. Parallelle Tool Calls: Snelheid is Alles
Naast de parallellisatie van sub-agenten, is er ook een sterke focus op parallelle tool calls binnen elke agent. Dit betekent dat meerdere tools tegelijkertijd kunnen worden aangeroepen, wat de snelheid en prestaties van het multi-agent systeem aanzienlijk verbetert.
De algemene filosofie van Anthropic’s prompting strategie is: “Onze prompting strategie richt zich op het inbrengen van goede heuristieken in plaats van rigide regels.” Dit betekent dat agenten flexibel moeten zijn en zich moeten aanpassen aan nieuwe informatie, in plaats van vast te zitten aan vooraf gedefinieerde, inflexibele paden. Ze moeten samenwerken met de gebruiker binnen een gedefinieerd kader, niet alleen maar strikte instructies opvolgen.
Effectieve Evaluatie: Meten is Weten, Zelfs voor Black Boxes
Het evalueren van AI-agenten is berucht moeilijk. Agenten zijn per definitie 'black boxes', en een systeem van meerdere onderling verbonden black boxes is een nachtmerrie voor debughulpmiddelen. Anthropic’s aanpak richt zich op flexibele evaluatiehulpmiddelen die beoordelen of agenten de juiste resultaten behalen, terwijl ze redelijke processen volgen.
1. Vroegtijdige Evaluatie
Begin met evalueren in de vroege stadia van ontwikkeling. Zelfs kleine tweaks kunnen dan drastische verbeteringen opleveren (bijvoorbeeld van 30% naar 80% succes). Anthropic begon met een set van ongeveer 20 queries om de impact van veranderingen te testen, wat aantoont dat je geen honderden testcases nodig hebt om waardevolle inzichten te verkrijgen.
2. LLM als Beoordelaar (LLM as a Judge)
Dit is een paradepaardje van moderne AI-evaluatie. Een toegewezen LLM (taalmodel) fungeert als rechter die de output van andere LLM’s (agenten) onderschept, beoordeelt op basis van objectieve criteria (feitelijke nauwkeurigheid, citaatnauwkeurigheid, volledigheid, redelijk toolgebruik) en alleen doorgang geeft als de output aan de vereisten voldoet. Dit zorgt voor consistente en menselijke beoordelingen.
3. Menselijke Evaluatie is Cruciaal
Ondanks de kracht van LLM-beoordelaars, blijft menselijke evaluatie onmisbaar. Mensen kunnen edge cases en subtiele fouten opmerken die LLM’s missen. Een voorbeeld: menselijke testers merkten dat Anthropic’s vroege agents consequent geoptimaliseerde 'content farms' kozen boven gezaghebbende, maar minder hoog gerankte bronnen zoals academische pdf's. De oplossing? Een prompt toevoegen die de agent instrueert om bronkwaliteit te beoordelen. Bijvoorbeeld: “Wanneer je een bron vindt, identificeer dan of het een SEO-geoptimaliseerde content farm is of een hoogwaardige bron zoals een academische PDF of een persoonlijk blog, en geef de voorkeur aan het gebruik van die van academische PDF’s en persoonlijke blogs boven SEO-geoptimaliseerde.”
Productie Realiteit: De Laatste Kilometer is het Langst
AI-agenten zijn nog moeilijker te bouwen en te onderhouden dan reguliere software. De complexiteit en het 'stateful' karakter van agentische systemen zorgen voor unieke uitdagingen in productieomgevingen.
1. Fouttolerantie en Herstel
Wanneer een fout optreedt in een langlopend multi-agent proces, kun je niet zomaar helemaal opnieuw beginnen. Dit is duur en frustrerend voor gebruikers. Anthropic bouwt systemen die kunnen hervatten vanaf het punt waar de fout optrad, in plaats van de hele workflow te resetten.
2. Debugging Vereist Nieuwe Aanpakken
Een betrouwbaar tracing- en monitoring-systeem (observability) is absoluut essentieel. Het stelt ontwikkelaars in staat precies te zien waar een agent misging en problemen systematisch op te lossen. Dit gaat verder dan standaard monitoring; het omvat het bijhouden van beslissingspatronen en interactiestructuren van agenten.
3. Voorzichtige Coördinatie bij Deployment
Agent-systemen zijn 'stateful' en lopen bijna continu. Een update pushen tijdens een 15 minuten durend proces kan alles breken. Anthropic gebruikt 'rainbow deployments' (vergelijkbaar met 'blue/green deployments') om het verkeer geleidelijk van oude naar nieuwe versies te verschuiven, terwijl beide versies gelijktijdig draaien. Zo worden lopende agenten niet verstoord.
4. Synchrone Executie Creëert Flessenhalzen
Ondanks de reeds geïmplementeerde parallellisatie, zijn er nog steeds knelpunten. Als een sub-agent zijn taak veel sneller voltooit dan andere, moet hij wachten tot alle andere sub-agenten klaar zijn voordat de hoofdagents nieuwe instructies kan uitgeven. Dit is een gebied waar Anthropic verder aan wil werken om de efficiëntie te maximaliseren.
Conclusie: De Toekomst is Multi-Agent
Anthropic’s artikel benadrukt een kritieke waarheid: de 'laatste kilometer' in de ontwikkeling van AI-agenten is vaak het grootste deel van de reis. Wat op de ontwikkelmachine werkt, vereist aanzienlijke engineering om betrouwbaar te worden in productiesystemen. Kleine fouten die in traditionele software triviaal zouden zijn, kunnen hele agentische systemen laten ontsporen. De kloof tussen prototype en productie is veel groter dan vaak wordt verwacht.
Maar het goede nieuws is dat agentische systemen steeds vaker worden toegepast in de praktijk. De vooruitgang die Anthropic boekt met multi-agent onderzoeks-systemen, toont aan dat we aan de vooravond staan van een nieuw tijdperk van AI-mogelijkheden. De synergie tussen gespecialiseerde AI-agenten belooft complexere problemen op te lossen en ongekende productiviteit te ontsluiten.
“`