Teknik

Claude Opus 4.8 fångar fyra gånger fler av sina egna kodfel

Susan Hill

Anthropic har uppgraderat sin mest kapabla modell till Claude Opus 4.8, och den viktigaste förändringen är inte en större hjärna utan en försiktigare. Företaget säger att modellen är ungefär fyra gånger mindre benägen än sin föregångare att låta fel i sin egen kod passera utan kommentar, och att den hellre pekar ut de delar av en uppgift den är osäker på. För den som lämnar riktigt arbete till en AI, vare sig det gäller att koda, göra en analys eller styra en dator, är den tillförlitligheten den egenskap som faktiskt räknas.

Dagens AI-agenters svaghet är inte dumhet utan självsäkerhet. De levererar resultat som ser färdiga ut och läses smidigt medan de tyst bär på fel, och ett system som får löpa på egen hand bygger gärna nästa steg på det förra felet. Ge en agent en uppgift i flera steg, så kan ett enda felaktigt antagande i början sprida sig genom allt som följer, så att arbetet kommer in med en min av att vara klart och visar sig vara trasigt utan att det syns. En modell som visar sina egna tvivel, i stället för att måla över dem, är lättare att övervaka, eftersom människan vet var hon ska titta.

Det tydligaste beviset finns i koden. Anthropic uppger att Opus 4.8 låter långt färre fel i den kod den skapar passera utan att märka ut dem, den tysta bugg som dyker upp i drift och inte i granskning. Investeringsbolaget Bridgewater Associates, en av de första att testa, sade att modellen på eget initiativ pekade ut problem både i indata och i resultaten av en analys, något som andra system regelmässigt missade. I kunskapsarbete och finans är det farliga felet just det som ingen fångar i tid.

Benchmark-siffrorna stöder ramen utan att vara kärnan. Opus 4.8 ska ha fått 69,2 procent på SWE-Bench Pro, ett test byggt av verkliga mjukvaruuppgifter, före OpenAI:s GPT-5.5 och Googles Gemini 3.1 Pro. I Anthropics egna mätningar slår den varje tidigare Opus-modell på ett kodtest på varje ansträngningsnivå och satte företagets högsta noterade resultat på ett test i juridiskt resonemang. Försprången är verkliga men knappa, och benchmark-segrar förutsäger dåligt hur en modell beter sig när den gör grått arbete hela dagen.

Modellen kommer med nya verktyg. En funktion i forskningsförhandsvisning i Claude Code, kallad dynamic workflows, låter Opus planera ett stort jobb och sedan köra hundratals delagenter parallellt i en enda session, tänkt för migreringar som spänner över hundratusentals rader kod och med projektets befintliga testsvit som måttstock. Dessutom låter en ny reglage i Claude.ai och företagets Cowork-miljö användaren ställa in hur mycket ansträngning, och hur många tokens, modellen lägger på ett svar.

Förbehållen sitter tätt intill löftena. Vinsterna i tillförlitlighet vilar till stor del på Anthropics egna tester, och en siffra som fyra gånger mindre är en egen mätning, inte en oberoende granskad. Ärlighet är också svår att kontrollera utifrån, för en modell kan annonsera sin osäkerhet och ändå ha fel, eller höja flaggan för fel sak. Dynamic workflows kommer bara som förhandsvisning, inte som färdig funktion, och berättelsen om hastighet är mindre generös än den låter, eftersom det snabba läget kostar dubbelt mot standardtaxan och kallas billigare bara jämfört med tidigare premiumpriser.

För den som ser på kostnaden ligger standardåtkomsten kvar på fem dollar per miljon indata-tokens och tjugofem per miljon utdata, samma som förra Opus. Det snabba läget kör i ungefär två och en halv gångers hastighet för tio och femtio dollar per miljon, vilket gör det nya ansträngningsreglaget till lika mycket ett budgetverktyg som en kvalitetsratt. Claude Opus 4.8 finns från och med nu via Anthropics utvecklar-API under namnet claude-opus-4-8, och företaget säger att det rullas ut överallt samma dag. Den kom på torsdagen, ungefär sex veckor efter Opus 4.7, ett ovanligt kort mellanrum som följde på ett ljummet mottagande av den versionen och en rad konkurrerande släpp från OpenAI och Google. Det verkliga provet är om en modell tränad att tvivla på sig själv visar sig nyttigare i det dagliga arbetet än en tränad att glänsa på en lista, och den domen kommer från de agenter folk faktiskt låter köra.

Diskussion

Det finns 0 kommentarer.