Googles AI löste matteproblem som varit öppna i 56 år för några hundra dollar

Ett forskningssystem från Google DeepMind har tagit fram fullständiga, maskinkontrollerade bevis för nio öppna problem som matematikern Paul Erdős en gång ställde, två av dem olösta i 56 år. Samma system avgjorde 44 förmodanden hämtade ur den nätbaserade encyklopedin över heltalsföljder, stängde en 15 år gammal fråga i algebraisk geometri och skärpte en känd gräns inom konvex optimering. Den iögonfallande siffran spelar mindre roll än metoden. Vart och ett av dessa bevis kontrollerades av en maskin, inte bara påstods av en.

Erdős, som dog 1996, lämnade efter sig hundratals exakta och envisa frågor, många lätta att formulera och brutalt svåra att stänga. Under decennier blev de ett slags ständigt prov för fältet. Följdförmodandena kommer från en offentlig databas som matematiker letar mönster i, där en gissad formel kan ligga obevisad i åratal. Det är inte konstruerade testuppgifter gjorda för att smickra en modell. Det är den verkliga eftersläpningen i den öppna matematiken.

Den skillnaden är hela historien. Systemet, kallat AlphaProof Nexus, skriver sina argument i Lean, ett formellt språk vars kompilator förkastar varje steg den inte kan bekräfta. Ett bevis går igenom eller gör det inte, utan utrymme för ett självsäkert stycke som senare visar sig fel. För den som vill avgöra om en AI-’upptäckt’ är verklig går här gränsen mellan ett pressmeddelande och ett resultat.

Under huven körs bevisaren på Gemini 3.1 Pro, med en lättare modell som sköter rangordningen. Slingan är nästan tråkig. Modellen skissar ett bevis i Lean, kompilatorn lämnar tillbaka felen, och felen matas in i nästa försök. Det som håller den ärlig är den symboliska återkopplingen, inte den flytande prosan. Teamet byggde fyra versioner av stigande komplexitet, en av dem förmögen att alstra och rangordna konkurrerande bevisskisser. Ändå löste den enklaste versionen, en ren slinga av modell och kompilator, alla nio Erdős-problemen på egen hand.

Ekonomin är den stillsamt häpnadsväckande delen. Varje löst problem kostade några hundra dollar i beräkningstid. Frågor som slukat hela karriärer stängdes för ungefär priset av en helgresa. Det pensionerar inte matematikern. Någon måste fortfarande välja vilka problem som är värda att angripa, formulera dem i en form som systemet kan läsa och avgöra vad ett svar betyder. Det som ändras är räkningen av vad som alls är värt att försöka.

Reservationerna väger tyngre än rubriken. Nio lösta av 353 försökta Erdős-problem är en träffsäkerhet på omkring 2,5 procent. Följdsiffran, 44 av 492, ligger under nio procent. Författarna är öppna med att de flesta av dessa problem förblir utom räckhåll, än mer de som kräver omfattande ny teori, och att framgångarna samlas där Leans matematikbibliotek redan är djupt. Ta bort den människobyggda ställningen och den kurerade listan över mål, och systemet har lite kvar att stå på.

Försiktigheten är förtjänad. I en mycket utskrattad episod meddelade ett konkurrerande labb att dess modell hade löst tio Erdős-problem, tills matematiker påpekade att svaren redan fanns i den publicerade litteraturen. Modellen hade hittat dem, inte bevisat dem. AlphaProof Nexus är byggt för att vara immunt mot det misstaget. Ett Lean-bevis av ett känt resultat är fortfarande ett giltigt bevis, och ett Lean-bevis av något genuint nytt går inte att bluffa fram. Demis Hassabis, som leder DeepMind, var noga med att säga att arbetet inte är artificiell generell intelligens, en ovanligt försiktig notering från ett företag som sällan är blygt med sina modeller.

Det finns en finare vinst som forskarna lyfter fram. Även misslyckandena var till nytta. Eftersom varje delbevis kontrolleras formellt kunde matematiker se exakt vilka delmål systemet kunde och inte kunde stänga, utan att kontrollera om hela argumentet för hand. Maskinen slutar vara ett orakel och blir en outtröttlig medarbetare som visar sitt arbete och pekar på var det svåra fortfarande gömmer sig.

Resultatet står inte ensamt. Det infaller samtidigt som ett separat påstående från en konkurrerande resonemangsmodell, som enligt uppgift motbevisat en ungefär 80 år gammal Erdős-förmodan inom diskret geometri, ett fynd som yrkesverksamma matematiker förfinade och ställde sig bakom. Två labb, två metoder, det ena lutat mot formell verifiering och det andra mot råa resonemangskedjor, nådde samma frontlinje med veckors mellanrum. Tävlingen handlar inte längre om chattbottar som låter smarta.

Arbetet lades fram i en artikel som publicerades den här månaden, och metoderna vilar på öppna verktyg, närmare bestämt Lean och dess gemenskapsbyggda bibliotek, så att utomstående grupper kan granska och köra om bevisen i stället för att lita på en företagsblogg. DeepMind har inte sagt om systemet når forskare utanför företaget. Siffran att hålla ögonen på är inte nio. Det är om de 2,5 procenten blir tio, och sedan tjugo, för den dagen måste samtalet om vad dessa maskiner är till för börja om från början.

Taggar: artificiell intelligens, Google, Gemini, Paul Erdős, AlphaProof Nexus, Automated Theorem Proving