“`html
Ontdekking: Hoe Anthropic’s Multi-Agent Systeem de AI-Onderzoekswereld Revolueert
Stel je voor dat je $100 miljoen wordt aangeboden om van baan te wisselen. Voor de meesten van ons is dat pure fantasie, maar voor een selecte groep AI-onderzoekers is het dagelijkse kost. Welkom bij de duurste talentenoorlog in de techgeschiedenis, waar bedrijven top-AI-geesten behandelen als free agents in professionele sporten.
De Kracht van Synergie: Waarom Multi-Agent Systemen?
Anthropic heeft recentelijk een intrigerend artikel gepubliceerd getiteld “How we built our multi-agent research system,” dat diep ingaat op de voordelen, architectuur en uitdagingen van het bouwen van multi-agent AI-systemen. De kernvraag die zij beantwoorden, is wanneer een multi-agent systeem superieur is aan een single-agent systeem of zelfs een simpel ‘one-shot’ AI-verzoek.
Niet Elke Taak Vereist een Multi-Agent Systeem
Anthropic benadrukt dat niet elke AI-taak een agentisch systeem vereist, en niet elke agentische taak een multi-agent systeem. Er zijn verschillende categorieën:
- Reguliere AI-taken: Eenvoudige verzoeken die met één enkele query aan een AI-model kunnen worden beantwoord.
- Agentische taken:
- Single-agent: Taken die een stapsgewijze benadering vereisen door één AI-agent.
- Multi-agent: Complexere taken die baat hebben bij de samenwerking van meerdere AI-agenten.
Wat Anthropic heeft ontdekt, is dat onderzoek bij uitstek geschikt is voor een multi-agent aanpak, met name vanwege de mogelijkheid tot parallellisatie.
Parallellisatie: De Sleutel tot Superieure Prestaties
Het Anthropic-systeem maakt gebruik van een hiërarchische structuur: een Claude Opus 4 model fungeert als de Lead Orchestrator. Deze orchestrator delegeert taken aan meerdere sub-agenten, die doorgaans Claude Sonnet 4 modellen zijn. Elke sub-agent werkt onafhankelijk aan een specifiek deel van de onderzoekstaak. Dit lijkt op een onderzoeksteam waar verschillende onderzoekers aan verschillende aspecten van hetzelfde project werken en de resultaten vervolgens worden samengevoegd door de hoofdonderzoeker.
We vonden dat een multi-agent systeem met Claude Opus 4 als de leidende agent en Claude Sonnet 4 sub-agenten beter presteerde dan een single-agent Claude Opus 4 met 90.2% op onze interne onderzoeks-evaluatie.
Dit is een verbazingwekkende bevinding. Het betekent dat een systeem waarin een superieur model (Opus 4) het werk delegeert aan kleinere, minder krachtige modellen (Sonnet 4) significant beter presteert dan wanneer het superieure model de taak alleen probeert uit te voeren. De reden hiervoor is voornamelijk te wijten aan het token-gebruik. Hoe meer tokens er gebruikt kunnen worden door het systeem, hoe beter de resultaten, en een georganiseerd multi-agent systeem optimaliseert dit gebruik.
Wanneer is een Multi-Agent Systeem NIET Geschikt?
Niet alle domeinen zijn geschikt voor deze aanpak. Bijvoorbeeld, veel coderingstaken vereisen dat alle agenten dezelfde context delen en omvatten veel afhankelijkheden tussen agenten. Dit is momenteel geen goede match voor multi-agent systemen, omdat LLM-agenten nog niet geweldig zijn in het coördineren en delegeren aan andere agenten in real-time voor taken die constante synchronisatie vereisen.
De Architectuur Achter de Magie
De architectuur van Anthropic’s multi-agent onderzoeksysteem is ontworpen voor efficiëntie en accuratesse. Het begint met een gebruiker die een query indient bij het systeem. Dit initieert een iteratief proces:
Het Iteratieve Proces: Van Vraag tot Antwoord
- Lead Researcher (Opus 4) initiatie: Het systeem begint met het creëren van de lead researcher.
- Denkfase en Plan opslaan: De lead researcher ‘denkt’ na over het onderzoeksprobleem en stelt een gedetailleerd plan op. Dit plan wordt opgeslagen in een geheugensysteem, cruciaal voor het behouden van context, vooral bij lange processen.
- Sub-agent initiatie: Op basis van het plan initieert de lead researcher net zoveel sub-agenten als nodig (bijvoorbeeld twee in een voorbeeldscenario).
- Gedetailleerd onderzoek door Sub-agenten: Elke sub-agent denkt na over zijn specifieke toegewezen taak, evalueert beschikbare informatie en voert gericht onderzoek uit.
- Resultaten samenvoegen: Zodra de sub-agenten hun onderzoek hebben voltooid, brengen ze hun bevindingen terug naar de lead researcher.
- Synthese en Verificatie: De lead researcher ‘denkt’ opnieuw, synthetiseert alle resultaten en zorgt voor coherentie. Daarvoor is er ook een speciale “citation sub-agent” die ervoor zorgt dat alle claims worden ondersteund door betrouwbare bronnen van het internet.
- Output: De finaal samengestelde en geverifieerde informatie wordt aan de gebruiker geleverd.
Dit model vertoont overeenkomsten met concepten als het Storm-papier over het automatisch genereren van Wikipedia-achtige artikelen, dat ook een gedetailleerde onderzoeksbenadering hanteert. Een interessant verschil is dat Anthropic’s sub-agenten onafhankelijk werken, terwijl “Storm” een conversatie-aspect introduceert tussen een “expert” en een “onderzoeker” agent, wat blijkbaar zeer effectief is.
Prompt Engineering: De Kunst van het Delegeren
De effectiviteit van multi-agent systemen hangt grotendeels af van nauwkeurige prompt engineering. Anthropic deelt waardevol advies over hoe je de prompts van je agents kunt optimaliseren:
1. Denk als je Agent
Het is essentieel om de stappen van je agenten te volgen en een duidelijk mentaal model op te bouwen van hun besluitvorming. Een robuust observatieplatform is hiervoor cruciaal.
2. Leer de Orchestrator te Delegeren
De orchestrator moet duidelijke richtlijnen krijgen over hoe hij taken moet delegeren. Anthropic ontdekte dat agenten, zonder specifieke instructies, soms tientallen sub-agenten spawnen voor triviale taken. Daarom hebben ze instructies toegevoegd zoals:
- Eenvoudige feitenqueries: één agent, 3-10 tool calls.
- Directe vergelijkingen: 2-4 sub-agenten, 10-15 tool calls elk.
- Complexe onderzoek: meer dan 10 sub-agenten met duidelijk verdeelde verantwoordelijkheden.
3. Tool Design en Selectie
Agenten moeten worden geprompt om eerst alle beschikbare tools te overwegen, toolgebruik af te stemmen op de gebruikersintentie, en gespecialiseerde tools te verkiezen boven generieke. De beschrijvingen van tools moeten uiterst duidelijk zijn, gericht op het doel van de tool vanuit het perspectief van de agent (bijv. “Gebruik deze tool om…”, in plaats van generieke documentatie). Anthropic heeft zelfs een “tool-testing agent” ontwikkeld die tool-beschrijvingen herschrijft om mislukkingen te voorkomen, wat resulteerde in een 40% toename in taakvoltooiing.
4. Breed Beginnen, dan Verfijnen
Agenten hebben de neiging om te beginnen met te specifieke queries. Prompts moeten agenten aanmoedigen om te beginnen met korte, brede queries en vervolgens geleidelijk hun focus te verfijnen.
5. “Thinking Mode” Implementeren
Anthropic heeft ‘denk’-fasen geïntegreerd in zowel de lead- als sub-agenten. Deze extra tokens voor het daadwerkelijke antwoord laten de agenten eerst nadenken over hun benadering, hulpmiddelen en complexiteit, wat de instructieopvolging en het redeneren verbetert. Dit is een meer gecontroleerde benadering van het al bekende ReAct prompting pattern (Reason, Action, Observation).
6. Parallelle Tool-aanroepen
De mogelijkheid om meerdere tools tegelijkertijd aan te roepen, zowel tussen sub-agenten als binnen de individuele sub-agenten, versnelt de prestaties aanzienlijk.
Onze promptingstrategie richt zich op het inbrengen van goede heuristieken in plaats van rigide regels.
Dit betekent dat prompts agents flexibel en adaptief moeten maken, zodat ze kunnen omgaan met onverwachte output van tools zonder vast te lopen op strikte, vooraf gedefinieerde regels.
Effectieve Evaluatie: De Uitdaging van Black Boxes
Het evalueren van multi-agent systemen is complex, gezien de aard van ‘black box’ taalmodellen. Anthropic deelt hierover essentieel advies:
1. Vroegtijdige Evaluatie
Begin met evalueren in een vroeg stadium van de ontwikkeling. Kleine veranderingen kunnen dan al een dramatische impact hebben. Anthropic begon met slechts 20 queries, wat in tegenspraak is met de gangbare opvatting dat honderden testcases nodig zijn.
2. LLM als Judge
Anthropic heeft met succes het paradigma van “LLM as a judge” geïmplementeerd. Een apart taalmodel beoordeelt de output van de agenten op basis van criteria zoals feitelijke nauwkeurigheid, citatie-accuratesse en volledigheid. Alleen als een respons een voldoende scoort op alle aspecten, mag deze door naar de volgende stap of de eindgebruiker.
3. Menselijke Evaluatie is Onmisbaar
Ondanks de kracht van LLM-evaluatoren blijven menselijke testers cruciaal. Mensen kunnen edge cases identificeren die taalmodellen missen. Zo ontdekten menselijke testers dat vroege agenten vaak geoptimaliseerde “content farms” verkozen boven gezaghebbende bronnen zoals academische PDF’s. Dit leidde tot de toevoeging van “source quality heuristics” in de prompts.
Productie-uitdagingen: Agenten zijn Geen Gewone Software
Het uitrollen van multi-agent systemen in productie brengt unieke uitdagingen met zich mee die verder gaan dan traditionele softwareontwikkeling.
1. Fouttolerantie en Herstel
Als een fout optreedt in een langdurig agent-proces, kun je niet zomaar opnieuw beginnen. Restarts zijn duur en frustrerend. Systemen moeten ontworpen zijn om te kunnen hervatten vanaf het punt waar de fout optrad.
2. Nieuwe Debugging-benaderingen
Een robuust tracing- en monitoring-systeem is essentieel. Het stelt ontwikkelaars in staat om te diagnosticeren waarom agenten falen en problemen systematisch aan te pakken. Naast standaardwaarneming monitort Anthropic agent’s beslissingspatronen en interactiestructuren.
3. Gecoördineerde Deployment
Agent-systemen zijn zeer ‘stateful’ en draaien soms bijna continu. Het implementeren van updates kan processen verstoren. Anthropic gebruikt “rainbow deployments” om verkeer geleidelijk van oude naar nieuwe versies te verschuiven zonder lopende agenten te onderbreken.
4. Asynchrone Uitvoering: Een Toekomstvisie
Hoewel er al veel parallellisatie is, ontstaan er nog steeds knelpunten. Als een sub-agent snel klaar is maar een andere langzaam, moet de snelle agent wachten op de langzame. Anthropic erkent dit als een gebied voor verdere verbetering, om nog meer asynchrone uitvoering mogelijk te maken.
“`