Il tweet è stato eliminato dall’autore.
Ma abbiamo salvato tutto 🙂.
L'intelligenza artificiale sta andando oltre il testo e le immagini: sta gradualmente imparando a creare ambienti virtuali e ad agire al loro interno. Questo approccio è noto come modelli del mondo: sistemi che ricreano lo spazio, gli oggetti e le regole di interazione, dove ogni azione ha una conseguenza. Questo paradigma potrebbe diventare la chiave per la robotica, il trasporto autonomo e gli agenti AI complessi, ma c'è un ostacolo che attualmente rallenta i progressi.
Questo articolo è stato tradotto dall'originale. Leggi la versione originale del nostro corrispondente qui.
La maggior parte dei modelli moderni sono eccellenti nell'analizzare i dati e nel generare risposte, ma mancano di "intuizione" per lo spazio e le relazioni causa-effetto. Sono in grado di descrivere ciò che dovrebbe essere fatto, ma spesso non capiscono cosa accadrà dopo un'azione: dove finirà esattamente un oggetto, cosa si scontrerà o come cambierà l'ambiente.
I modelli del mondo colmano questa lacuna. Offrono all'intelligenza artificiale un campo di addestramento dove le decisioni possono essere testate in modo sicuro, i percorsi possono essere pianificati, gli errori possono essere evitati e gli esiti possono essere previsti. Per la robotica, i veicoli autonomi e gli agenti di IA, questo non è un bonus: è un fondamento, la base su cui costruire un comportamento affidabile nel mondo reale.
In pratica, oggi si utilizzano due approcci principali. Il primo è la simulazione dinamica in tempo reale. In questo caso, l'ambiente non viene memorizzato in anticipo. Viene generato fotogramma per fotogramma mentre l'utente o l'agente si muove nello spazio, cambia punto di vista o interagisce con gli oggetti. Il modello prevede continuamente come dovrebbe cambiare lo stato dell'ambiente, tenendo conto della fisica e del comportamento degli oggetti.
Questo approccio offre un'elevata flessibilità e consente di creare ambienti senza scenari rigidi e predefiniti. Allo stesso tempo, richiede notevoli risorse computazionali, motivo per cui la stabilità di tali simulazioni è attualmente limitata a pochi minuti.
Questa è la strada intrapresa da Google con la sua piattaforma di ricerca Genie 3, che crea ambienti 3D di breve durata ma logicamente coerenti. Un approccio simile è utilizzato da Meta nella sua piattaforma Habitat 3, progettata per l'addestramento di agenti AI e robot fisici.
Il secondo approccio si concentra su ambienti persistenti e salvati. In questo caso, il modello converte testo, immagini o video in una vera e propria scena tridimensionale con geometria, oggetti digitali e metadati che descrivono i processi fisici. Questo mondo può essere salvato, importato in altri ambienti software e riutilizzato.
Questa direzione è stata sviluppata da World Labs sotto la guida di Fei-Fei Li. Il loro modello Marble mira a creare ambienti 3D portatili adatti a compiti ingegneristici, scientifici e di progettazione, dove la stabilità e la riproducibilità dei risultati sono fondamentali.
Lo sviluppo di tutti questi modelli richiede ingenti spese di capitale e questo si riflette già nelle strategie delle principali aziende tecnologiche.
Meta Platforms prevede di aumentare gli investimenti di capitale a 135 miliardi di dollari, puntando sull'IA come infrastruttura centrale dei suoi prodotti futuri. Dopo aver ristrutturato la sua divisione AI, l'azienda sta preparando nuovi modelli e piattaforme, mentre la forte performance finanziaria della sua attività pubblicitaria le consente di finanziare questi investimenti. Il mercato ha risposto positivamente a questa strategia.
Tesla e la xAI di Elon Musk hanno scelto un approccio diverso. L'azienda prevede di spendere circa 20 miliardi di dollari in IA, guida autonoma e robotica, con ulteriori investimenti in xAI. Musk ha sottolineato pubblicamente la necessità di un'infrastruttura di semiconduttori proprietaria, sottolineando la sua scommessa sul pieno controllo dell'intero stack, dai modelli alla computazione.
Per entrambe le strategie, i modelli mondiali non sono un prodotto finale, ma un ambiente di addestramento senza il quale i progressi nei sistemi autonomi rallentano o diventano troppo rischiosi.
Per il mercato, i modelli mondiali non sono né un prodotto a sé stante né un nuovo segmento di AI per i consumatori. Gli investitori li vedono come un livello di infrastruttura che determinerà la competitività delle aziende nel prossimo ciclo di sviluppo del settore.
Si tratta di una scommessa a lungo termine. Le aziende che per prime insegneranno all'IA a lavorare con lo spazio, il movimento e le relazioni di causa-effetto otterranno un vantaggio in tutti i campi legati all'autonomia, dalla robotica alle applicazioni industriali e ai trasporti. Per questo motivo il mercato oggi è disposto a tollerare forti aumenti delle spese di capitale e l'assenza di ritorni rapidi.
La reazione degli investitori ai piani di Meta è eloquente. Nonostante i massicci investimenti nell'intelligenza artificiale, le azioni dell'azienda sono salite dopo gli utili: i mercati hanno creduto che il core business potesse finanziare questi costi senza perdere stabilità. In questo caso, i modelli mondiali sono considerati un'estensione di una piattaforma esistente piuttosto che un esperimento rischioso.
La scommessa di Musk comporta un profilo di rischio diverso. Gli investitori di Tesla stanno finanziando non solo lo sviluppo dell'intelligenza artificiale, ma anche un tentativo di integrazione verticale, dai modelli ai chip. Questa strategia è più costosa e complessa, ma se avrà successo darà all'azienda il pieno controllo sui componenti chiave dei sistemi autonomi.
In definitiva, il mercato non scommette su una tecnologia specifica, ma su un approccio. Gli investitori valutano se un'azienda è in grado di sopportare un lungo ciclo di investimenti e se ha un'attività in grado di finanziare lo sviluppo di modelli mondiali senza mettere sotto pressione la redditività a breve termine.