Le tweet a été supprimé par son auteur.
Mais nous avons tout sauvegardé 🙂.
L'intelligence artificielle va au-delà du texte et des images : elle apprend progressivement à créer des environnements virtuels et à agir en leur sein. Cette approche est connue sous le nom de modèles de monde : des systèmes qui recréent l'espace, les objets et les règles d'interaction, où chaque action a une conséquence. Ce paradigme pourrait devenir la clé de la robotique, du transport autonome et des agents d'intelligence artificielle complexes, mais il y a un problème qui ralentit actuellement les progrès.
Cet article a été traduit de l'original. Lisez la version originale de notre correspondant ici.
La plupart des modèles modernes sont excellents pour analyser les données et générer des réponses, mais ils manquent d'"intuition" pour l'espace et les relations de cause à effet. Ils peuvent décrire ce qui doit être fait, mais ne comprennent souvent pas ce qui se passera après une action : où exactement un objet se retrouvera-t-il, qu'est-ce qui entrera en collision ou comment l'environnement changera-t-il ?
Les modèles de monde comblent cette lacune. Ils offrent à l'IA un terrain d'entraînement où les décisions peuvent être testées en toute sécurité, les itinéraires peuvent être planifiés, les erreurs peuvent être évitées et les résultats peuvent être prédits. Pour la robotique, les véhicules autonomes et les agents d'IA, il ne s'agit pas d'un bonus, mais d'un fondement, la base sur laquelle un comportement fiable dans le monde réel est construit.
Dans la pratique, deux approches principales sont utilisées aujourd'hui. La première est la simulation dynamique en temps réel. Dans ce cas, l'environnement n'est pas stocké à l'avance. Il est généré image par image au fur et à mesure que l'utilisateur ou l'agent se déplace dans l'espace, change de point de vue ou interagit avec des objets. Le modèle prédit en permanence l'évolution de l'état de l'environnement, en tenant compte de la physique et du comportement des objets.
Cette approche offre une grande flexibilité et permet de créer des environnements sans scénarios rigides et prédéfinis. En même temps, elle nécessite d'importantes ressources informatiques, ce qui explique que la stabilité de ces simulations soit actuellement limitée à quelques minutes.
C'est la voie qu'emprunte Google avec sa plateforme de recherche Genie 3, qui crée des environnements 3D éphémères mais logiquement cohérents. Une approche similaire est utilisée par Meta dans sa plateforme Habitat 3, conçue pour la formation d'agents physiques d'intelligence artificielle et de robots.
La deuxième approche se concentre sur les environnements persistants et sauvegardés. Dans ce cas, le modèle convertit le texte, les images ou la vidéo en une scène tridimensionnelle complète avec une géométrie, des objets numériques et des métadonnées décrivant les processus physiques. Un tel monde peut être sauvegardé, importé dans d'autres environnements logiciels et réutilisé.
Cette orientation est développée par World Labs sous la direction de Fei-Fei Li. Leur modèle Marble vise à créer des environnements 3D portables adaptés aux tâches d'ingénierie, de science et de conception, où la stabilité et la reproductibilité des résultats sont essentielles.
Le développement de tous ces modèles nécessite d'importantes dépenses en capital, ce qui se reflète déjà dans les stratégies des grandes entreprises technologiques.
Meta Platforms prévoit de porter ses investissements à 135 milliards de dollars, en misant sur l'IA comme infrastructure de base de ses futurs produits. Après avoir restructuré sa division IA, l'entreprise prépare de nouveaux modèles et de nouvelles plateformes, tandis que les bonnes performances financières de son activité publicitaire lui permettent de financer ces investissements. Le marché a réagi positivement à cette stratégie.
Tesla et xAI d'Elon Musk ont choisi une approche différente. L'entreprise prévoit de consacrer environ 20 milliards de dollars à l'IA, à la conduite autonome et à la robotique, avec des investissements supplémentaires dans la xAI. Elon Musk a publiquement insisté sur la nécessité d'une infrastructure de semi-conducteurs propriétaire, soulignant ainsi son pari sur le contrôle total de l'ensemble de la pile, des modèles aux calculs.
Pour les deux stratégies, les modèles mondiaux ne sont pas un produit fini mais un environnement de formation sans lequel les progrès dans les systèmes autonomes ralentissent ou deviennent trop risqués.
Pour le marché, les modèles mondiaux ne sont ni un produit autonome ni un nouveau segment de l'IA grand public. Les investisseurs les considèrent comme une couche d'infrastructure qui déterminera la compétitivité des entreprises dans le prochain cycle de développement de l'industrie.
Il s'agit d'un pari à long terme. Les entreprises qui seront les premières à apprendre à l'IA à travailler avec l'espace, le mouvement et les relations de cause à effet auront un avantage dans tous les domaines liés à l'autonomie, de la robotique aux applications industrielles et aux transports. C'est pourquoi le marché est aujourd'hui prêt à tolérer de fortes augmentations des dépenses d'investissement et l'absence de retours rapides.
La réaction des investisseurs aux projets de Meta est révélatrice. Malgré des investissements massifs dans l'IA, les actions de l'entreprise ont augmenté après la publication des résultats, les marchés estimant que l'activité principale pouvait financer ces coûts sans perdre en stabilité. Dans ce cas, les modèles mondiaux sont considérés comme une extension d'une plateforme existante plutôt que comme une expérience risquée.
Le pari de Musk présente un profil de risque différent. Les investisseurs de Tesla financent en effet non seulement le développement de l'IA, mais aussi une tentative d'intégration verticale - des modèles aux puces. Cette stratégie est plus coûteuse et plus complexe, mais si elle réussit, elle donnera à l'entreprise un contrôle total sur les composants clés des systèmes autonomes.
En fin de compte, le marché ne mise pas sur une technologie spécifique, mais sur une approche. Les investisseurs évaluent si une entreprise peut supporter un long cycle d'investissement et si elle dispose d'une activité capable de financer le développement de modèles mondiaux sans peser sur la rentabilité à court terme.