Teknik

OpenAI:s nya röstmodell tänker inne i ljudslingan, och tystnaden som avslöjade AI försvinner

Pausen är det som avslöjar. Hittills fungerade röst-AI så — den transkriberade tal, skickade texten till en språkmodell, fick svaret tillbaka och syntetiserade det till ljud igen. Varje steg tar tid. Användaren hör tystnad, vet att något bearbetas på andra sidan, känner sömmen. OpenAI:s nya GPT-Realtime-2 fäller ihop hela den pipelinen till en enda modell där resonemanget sker inne i själva ljudslingan — och sömmen försvinner.
Susan Hill

OpenAI lanserade i veckan tre nya ljudmodeller i sitt Realtime API — GPT-Realtime-2, GPT-Realtime-Translate och GPT-Realtime-Whisper. Affischnamnet är den första. Företaget beskriver den som den första röstmodellen med ”resonemang av GPT-5-klass”, byggd så att en enda modell hanterar ljud in och ljud ut — med tänkandet invävt i samtalet i stället för inklämt mellan transkriptions- och syntessteg. Siffrorna som bär det är konkreta. Big Bench Audio-resultatet hoppade från 81,4 procent till 96,6 procent jämfört med tidigare referensmodell. Audio MultiChallenge klättrade från 34,7 procent till 48,5 procent. Kontextfönstret växte från 32 000 till 128 000 token — tillräckligt med plats för att rymma en hel kundhistorik under ett samtal.

Den strukturella förskjutningen syns sämre i benchmarkar. I tre år har den som byggt en röstagent för produktion fått sy ihop stacken för hand — Whisper eller Deepgram för transkription, en LLM för resonemang, ElevenLabs eller Cartesia för rösten, och promptarbete för att maskera latensen. Varje hopp mellan delar kostade millisekunder och tydlighet. Användaren hörde ett ”låt mig kolla det där” instuvat av ett skript, sedan ingenting medan modellen tänkte, och till sist svaret. GPT-Realtime-2 levererar de ställningarna som inbyggt beteende. Preambler låter agenten säga ”låt mig kolla det där” medan den anropar verktyg, så att användaren inte sitter i tystnaden. Parallella verktygsanrop låter modellen avlossa flera backendförfrågningar samtidigt och berätta vilken som körs. Återhämtningsbeteendet fångar fel och lyfter dem i stället för att frysa samtalet.

Den styrytan som öppnas för utvecklare är den intressantaste delen. ”Resonemangsansträngning” går att konfigurera — minimal, low, medium, high och xhigh — med low som standard för att hålla latensen låg vid enkla förfrågningar. En agent som svarar ”när stänger ni?” behöver inget resonemang av GPT-5-klass. En agent som följer en kund genom en återbetalningstvist gör det. Samma modell kan instrueras hur hårt den ska tänka turn-by-turn, vilket är en verklig förändring jämfört med föregående modell, där resonemangsdjupet var fast och utvecklaren valde mellan snabb och smart vid driftsättning.

Skepsis hör hemma. ”Resonemang av GPT-5-klass” är en marknadsföringslinje, inte ett verifierbart påstående — utan oberoende benchmarkar på realistisk dialog stannar jämförelsen internt. Röstagenter har ett separat felläge som benchmarkar fångar dåligt — ögonblicket då agenten säger något fel med lugn, naturlig röst. Bättre resonemang hjälper men eliminerar inte problemet. Priset väger också. GPT-Realtime-2 kostar 32 dollar per miljon ljud-input-token och 64 per miljon output-token. GPT-Realtime-Translate går på 0,034 dollar per minut, GPT-Realtime-Whisper på 0,017 per minut. Tillräckligt billigt för kundtjänst i hög volym. Inte så billigt att man kör det i konsumentdrivna konversationsprodukter utan att tänka på sessionslängden.

Driftkontexten berättar resten. Zillow startade röstbaserad bostadssökning samma dag. Deutsche Telekom rullade ut röststöd med direktöversättning på fjorton europeiska marknader. Båda är exakt det användningsfall OpenAI prissätter för — långa, transaktionella, kontextrika samtal där användaren tjänar på att agenten faktiskt resonerar i stället för att bara hämta. Priceline bygger system där resenärer hanterar hotellbokningar och spårar flygförseningar enbart med rösten. Mönstret bakom de namn OpenAI släpper först är tydligt — det är de kunder vars tidigare röstsystem fungerade sämst — kundcenter, supportlinjer, transaktionsresor. Platser där användaren i dag skriker ”operatör” in i telefonen.

Modellerna finns tillgängliga i Realtime API nu. Röstuppgraderingarna för ChatGPT är fortfarande på väg — ”Hänger med, vi lagar”, sa OpenAI. Sam Altman ramade in lanseringen kring ett beteendeskifte — användare vänder sig allt oftare till rösten när de pratar med AI och behöver ”dumpa” mycket kontext. Om det mönstret håller börjar gapet mellan röst-AI och text-AI slutas — och sömmen som avslöjade AI i telefonen blir svårare att höra.

Diskussion

Det finns 0 kommentarer.