Teknik

Två poäng efter Opus 4.6, fem gånger billigare: Gemini 3.5 Flash skriver om kalkylen

Susan Hill

Google släppte Gemini 3.5 Flash på måndagen till 1,50 dollar per miljon ingångstokens och 9 dollar per miljon utgångstokens. Den nya modellen håller över 280 utgångstokens per sekund, behåller samma kontextfönster på en miljon tokens som föregångaren och landar i Artificial Analysis Intelligence Index på 55 poäng, nio över Gemini 3 Flash. På tisdag morgon hade en r/Anthropic-tråd redan placerat diagrammet bredvid Claude Opus 4.6 och ställt frågan som marknaden cirklat runt i sex månader: när slutar två benchmark-poäng vara värda ett femfaldigt pris?

Intelligence Index aggregerar en korg av publika utvärderingar — resonemang, kunskap, kodning, matematik och agentiska uppgifter — till ett enda värde mellan 1 och 100. Claude Opus 4.6 i adaptivt resonemangsläge ligger på 57. Gemini 3.5 Flash, släppt den 19 maj, ligger på 55. Niopoängshoppet mellan versioner är det största enskilda kliv Flash någonsin har gjort, tillräckligt för att den nya modellen ska matcha Anthropics föregående Sonnet på rå intelligens till en bråkdel av Sonnets kostnad.

Inramningen ”smartare” som Reddit-tråden använde överdriver gapet till Flashs fördel. På det rena Intelligence-Indexet leder Opus 4.6 fortfarande med två poäng. Diagrammet som sprängde tråden är inte Intelligence Index isolerat. Det är vyn intelligens-effektivitet mot kostnad, där axeln gör ett annat jobb och där Flash 3.5 inte bara slår Opus 4.6. Den befinner sig i en klass där ingen annan finns i närheten.

Opus 4.6 tar omkring 6,25 dollar per miljon ingångstokens och 25 per miljon utgångstokens. Flash tar 1,50 och 9. För en chattlast viktad två-mot-ett till förmån för utgång hamnar det effektiva förhållandet närmare 4,5x än det runda ”fem gånger” trådens rubrik valde. Avrundningen är ärlig. Hastigheten gör bilden värre för flaggskeppet: Flash 3.5 håller över 280 utgångstokens per sekund medan Opus 4.6 i resonemangsläge med maximal ansträngning rör sig kring en tiondel av tempot på samma testsvit. För produkter där en användare stirrar på en markör — kodassistenter, supportagenter, vilket interaktivt flöde som helst — är latens en egenskap som priset inte köper tillbaka.

För ett år sedan rymdes argumentet att köpa den dyraste modellen i en rad. Kvalitetshoppet till nästa nivå var brant nog att prisskillnaden var ett avrundningsfel mot levererat värde. Diagrammet tråden klistrade in är ett annat diagram. Marginalkostnaden för de sista två intelligenspoängen har blivit hela prisbeslutet för produktionslaster, och avrundningsfelet landar nu närmare 4,75 dollar av varje sex utgivna.

Det finns ett rent argument för att behålla Opus 4.6 i stacken. Långkontextresonemang över hundratals sidor, agentslingor där fel adderas steg för steg, dokumentanalys där två poängs skillnad i en aggregerad nota döljer mycket större uppgiftsspecifika försprång. Opus är fortfarande modellen som ingenjörer går till när felläget är ”svaret var fel”, inte ”svaret kom sent”. Andelen produktionslaster som ser ut så krymper. Den är inte noll, och det är just den remsa där 25 dollar per miljon tjänar lönen.

Chattvarven som driver merparten av fakturerbara tokens — författande, sammanfattning, klassificering, översättning, kodautocomplete, kundvänt resonemang — ryms alla inom Flash. Frågan ingenjörsteamen ställer varje kvartal är inte längre ”vilken modell är bäst”. Den är ”vilken modell ger mest per dollar vid acceptabel latens”. Den andra frågan vinner Flash nu med en marginal som inte kräver finstilta tolkningar.

Trådens sekundära inramning, att konsensus överallt är att Opus 4.6 är bättre än 4.7, förtjänar en mjukare hantering. Den är anekdotisk. Anthropics två senaste Opus-versioner har fått delade recensioner i kodutvärderingar och i hur strikt verktygsanvändning hanteras, med team som rapporterar regressioner i långa agentslingor på 4.7 och andra som rapporterar rena segrar på identiska laster. Båda observationerna kan vara sanna samtidigt när beteende justeras på många axlar mellan mindre versioner. De två modellerna ligger dessutom mindre än en poäng från varandra i det publika indexet, så communityts klyvning liknar mer en smaksak än en kapacitetsfråga. Det som inte är till diskussion är att priset för någon av Opus-versionerna inte rör sig.

Den djupare signalen i Reddit-samtalet är vad användarna inte bråkade om. Ingen i tråden försvarade Opus-priset i grunden. Försvaren som dök upp var lastspecifika. ”Opus vinner fortfarande min agentslinga.” ”Opus stannar i vår dokumentgranskningspipeline.” De är reella, men de är lastförsvar, inte flaggskeppsförsvar. Ett flaggskepp ska vinna över spektrumet, inte på ett enskilt spår.

Två poängs intelligensskillnad. Femfaldigt pris. Sexfaldig hastighetsfördel i den andra riktningen. Ett kontextfönster på en miljon tokens till 1,50 dollar per miljon ingång. Multimodalt input, Elo på agentiska uppgifter över 1650, nittio procents rabatt på cachad ingång. Anthropics svar nästa kvartal kommer att berätta sin egen historia. Svårare att skriva, i maj 2026, är argumentet som en säljare måste bära in i ett kundmöte.

Diskussion

Det finns 0 kommentarer.