Tweeten raderades av författaren.
Men vi sparade allt 🙂.
Artificiell intelligens rör sig bortom text och bild - den lär sig gradvis att skapa virtuella miljöer och agera i dem. Detta tillvägagångssätt kallas för världsmodeller: system som återskapar utrymme, objekt och regler för interaktion, där varje handling har en konsekvens. Detta paradigm kan bli nyckeln till robotik, autonoma transporter och komplexa AI-agenter - men det finns en hake som för närvarande bromsar utvecklingen.
Denna artikel har översatts från originalet. Läs originalversionen av vår korrespondent här.
De flesta moderna modeller är utmärkta på att analysera data och generera svar, men de saknar en "intuition" för rymden och orsak-verkan-relationer. De kan beskriva vad som bör göras men förstår ofta inte vad som händer efter en åtgärd: exakt var ett objekt hamnar, vad som kolliderar eller hur miljön förändras.
Världsmodeller överbryggar detta gap. De ger AI en träningsplats där beslut kan testas på ett säkert sätt, rutter kan planeras, misstag kan undvikas och resultat kan förutsägas. För robotik, autonoma fordon och AI-agenter är detta inte en bonus - det är en grund, den bas på vilken tillförlitligt beteende i den verkliga världen byggs.
I praktiken används två huvudsakliga metoder idag. Den första är dynamisk simulering i realtid. I det här fallet lagras inte miljön i förväg. Den genereras bildruta för bildruta när en användare eller agent rör sig genom rummet, byter synvinkel eller interagerar med objekt. Modellen förutspår kontinuerligt hur miljöns tillstånd bör förändras, med hänsyn till fysik och objektbeteende.
Det här tillvägagångssättet ger hög flexibilitet och gör det möjligt att skapa miljöer utan stela, fördefinierade scenarier. Samtidigt kräver det betydande beräkningsresurser, vilket är anledningen till att stabiliteten i sådana simuleringar för närvarande är begränsad till bara några minuter.
Det är den vägen Google går med sin forskningsplattform Genie 3, som skapar kortlivade men logiskt konsekventa 3D-miljöer. Ett liknande tillvägagångssätt används av Meta i sin Habitat 3-plattform, utformad för att träna fysiska AI-agenter och robotar.
Det andra tillvägagångssättet fokuserar på ihållande, sparade miljöer. Här omvandlar modellen text, bilder eller video till en fullfjädrad tredimensionell scen med geometri, digitala objekt och metadata som beskriver fysiska processer. En sådan värld kan sparas, importeras till andra programvarumiljöer och återanvändas.
Den här inriktningen utvecklas av World Labs under ledning av Fei-Fei Li. Deras Marble-modell syftar till att skapa portabla 3D-miljöer som är lämpliga för ingenjörs-, vetenskaps- och designuppgifter, där stabilitet och reproducerbarhet av resultat är kritiska.
Utvecklingen av alla dessa modeller kräver stora investeringar, och detta återspeglas redan i de stora teknikföretagens strategier.
Meta Platforms planerar att öka kapitalinvesteringarna till 135 miljarder dollar och satsar på AI som kärninfrastruktur för sina framtida produkter. Efter att ha omstrukturerat sin AI-division förbereder företaget nya modeller och plattformar, samtidigt som ett starkt ekonomiskt resultat i reklamverksamheten gör det möjligt att finansiera dessa investeringar. Marknaden har reagerat positivt på denna strategi.
Tesla och Elon Musks xAI har valt en annan strategi. Företaget planerar att spendera cirka 20 miljarder dollar på AI, autonom körning och robotteknik, med ytterligare investeringar i xAI. Musk har offentligt betonat behovet av egen halvledarinfrastruktur, vilket understryker hans satsning på full kontroll över hela stacken - från modeller till beräkningar.
För båda strategierna är världsmodellerna inte en slutprodukt utan en träningsmiljö utan vilken ytterligare framsteg inom autonoma system saktar ner eller blir för riskabla.
För marknaden är världsmodeller varken en fristående produkt eller ett nytt AI-segment för konsumenter. Investerarna ser dem som ett infrastrukturlager som kommer att avgöra företagens konkurrenskraft i branschens nästa utvecklingscykel.
Detta är en långsiktig satsning. Företag som är först med att lära AI att arbeta med utrymme, rörelse och orsakssamband kommer att få en fördel inom alla autonomirelaterade områden - från robotteknik till industriella applikationer och transport. Det är därför som marknaden idag är villig att tolerera kraftiga ökningar av investeringarna och avsaknaden av snabb avkastning.
Investerarnas reaktion på Metas planer är talande. Trots massiva AI-investeringar steg företagets aktier efter vinstmarknaderna trodde att kärnverksamheten kunde finansiera dessa kostnader utan att förlora stabiliteten. I det här fallet betraktas världsmodeller som en förlängning av en befintlig plattform snarare än ett riskabelt experiment.
Musks satsning har en annan riskprofil. Teslas investerare finansierar i praktiken inte bara AI-utveckling utan också ett försök till vertikal integration - från modeller till chips. Denna strategi är dyrare och mer komplex, men om den lyckas ger den företaget full kontroll över de viktigaste komponenterna i autonoma system.
I slutändan satsar marknaden inte på en specifik teknik utan på ett tillvägagångssätt. Investerarna bedömer om ett företag kan uthärda en lång investeringscykel och om det har en verksamhet som kan finansiera utvecklingen av världsmodeller utan att sätta press på den kortsiktiga lönsamheten.