Tweet został usunięty przez autora.
Ale wszystko zapisaliśmy 🙂.
Sztuczna inteligencja wykracza poza tekst i obrazy - stopniowo uczy się tworzyć wirtualne środowiska i działać w nich. Podejście to znane jest jako modele świata: systemy, które odtwarzają przestrzeń, obiekty i zasady interakcji, gdzie każde działanie ma swoje konsekwencje. Ten paradygmat może stać się kluczem do robotyki, autonomicznego transportu i złożonych agentów sztucznej inteligencji - ale jest pewien haczyk, który obecnie spowalnia postęp.
Ten artykuł został przetłumaczony z oryginału. Przeczytaj oryginalną wersję przygotowaną przez naszego korespondenta tutaj.
Większość nowoczesnych modeli doskonale radzi sobie z analizą danych i generowaniem odpowiedzi, ale brakuje im "intuicji" w zakresie przestrzeni i związków przyczynowo-skutkowych. Potrafią opisać, co należy zrobić, ale często nie rozumieją, co stanie się po akcji: gdzie dokładnie skończy obiekt, co się zderzy lub jak zmieni się środowisko.
Modele świata wypełniają tę lukę. Dają sztucznej inteligencji poligon, na którym można bezpiecznie testować decyzje, planować trasy, unikać błędów i przewidywać wyniki. Dla robotyki, autonomicznych pojazdów i agentów AI nie jest to bonus - to fundament, podstawa, na której budowane jest niezawodne zachowanie w prawdziwym świecie.
W praktyce stosowane są obecnie dwa główne podejścia. Pierwszym z nich jest dynamiczna symulacja w czasie rzeczywistym. W tym przypadku środowisko nie jest przechowywane z wyprzedzeniem. Jest ono generowane klatka po klatce, gdy użytkownik lub agent porusza się w przestrzeni, zmienia punkt widzenia lub wchodzi w interakcje z obiektami. Model stale przewiduje, jak powinien zmieniać się stan środowiska, biorąc pod uwagę fizykę i zachowanie obiektów.
Takie podejście oferuje dużą elastyczność i pozwala na tworzenie środowisk bez sztywnych, predefiniowanych scenariuszy. Jednocześnie wymaga znacznych zasobów obliczeniowych, dlatego stabilność takich symulacji jest obecnie ograniczona do zaledwie kilku minut.
Tą drogą podąża Google ze swoją platformą badawczą Genie 3, która tworzy krótkotrwałe, ale logicznie spójne środowiska 3D. Podobne podejście stosuje Meta w swojej platformie Habitat 3, zaprojektowanej do szkolenia fizycznych agentów AI i robotów.
Drugie podejście koncentruje się na trwałych, zapisanych środowiskach. W tym przypadku model przekształca tekst, obrazy lub wideo w pełnoprawną trójwymiarową scenę z geometrią, obiektami cyfrowymi i metadanymi opisującymi procesy fizyczne. Taki świat można zapisać, zaimportować do innych środowisk programistycznych i ponownie wykorzystać.
Kierunek ten jest rozwijany przez World Labs pod kierownictwem Fei-Fei Li. Ich model Marble ma na celu stworzenie przenośnych środowisk 3D odpowiednich do zadań inżynieryjnych, naukowych i projektowych, w których stabilność i powtarzalność wyników ma kluczowe znaczenie.
Opracowanie wszystkich tych modeli wymaga znacznych nakładów kapitałowych, co znajduje już odzwierciedlenie w strategiach głównych firm technologicznych.
Meta Platforms planuje zwiększyć inwestycje kapitałowe do 135 miliardów dolarów, stawiając na sztuczną inteligencję jako podstawową infrastrukturę swoich przyszłych produktów. Po restrukturyzacji działu AI firma przygotowuje nowe modele i platformy, a dobre wyniki finansowe w branży reklamowej pozwalają jej sfinansować te inwestycje. Rynek pozytywnie zareagował na tę strategię.
Tesla i xAI Elona Muska wybrały inne podejście. Firma planuje wydać około 20 miliardów dolarów na sztuczną inteligencję, autonomiczną jazdę i robotykę, z dodatkowymi inwestycjami w xAI. Musk publicznie podkreślił potrzebę posiadania własnej infrastruktury półprzewodnikowej, podkreślając swój zakład na pełną kontrolę nad całym stosem - od modeli po obliczenia.
W przypadku obu strategii, światowe modele nie są produktem końcowym, ale środowiskiem szkoleniowym, bez którego dalszy postęp w systemach autonomicznych spowalnia lub staje się zbyt ryzykowny.
Dla rynku modele świata nie są ani samodzielnym produktem, ani nowym segmentem konsumenckiej sztucznej inteligencji. Inwestorzy postrzegają je jako warstwę infrastruktury, która określi konkurencyjność firm w kolejnym cyklu rozwoju branży.
Jest to zakład długoterminowy. Firmy, które jako pierwsze nauczą sztuczną inteligencję pracy z przestrzenią, ruchem i związkami przyczynowo-skutkowymi, zyskają przewagę we wszystkich dziedzinach związanych z autonomią - od robotyki po zastosowania przemysłowe i transport. Właśnie dlatego rynek jest dziś skłonny tolerować gwałtowny wzrost nakładów inwestycyjnych i brak szybkich zwrotów.
Reakcja inwestorów na plany Meta jest wymowna. Pomimo ogromnych inwestycji w sztuczną inteligencję, akcje spółki wzrosły po zyskach - rynki uwierzyły, że podstawowa działalność może sfinansować te koszty bez utraty stabilności. W tym przypadku światowe modele są uważane za rozszerzenie istniejącej platformy, a nie za ryzykowny eksperyment.
Zakład Muska niesie ze sobą inny profil ryzyka. Inwestorzy Tesli skutecznie finansują nie tylko rozwój sztucznej inteligencji, ale także próbę integracji pionowej - od modeli po chipy. Ta strategia jest droższa i bardziej złożona, ale jeśli się powiedzie, da firmie pełną kontrolę nad kluczowymi komponentami systemów autonomicznych.
Ostatecznie rynek nie stawia na konkretną technologię, ale na podejście. Inwestorzy oceniają, czy firma jest w stanie przetrwać długi cykl inwestycyjny i czy jest w stanie sfinansować rozwój światowych modeli bez wywierania presji na krótkoterminową rentowność.