Proč je očekávání, že nás jazykové modely přivedou k všeobecné umělé inteligenci, mylné

Podívejte se na přiložený komiks – klasický test chybného přesvědčení. Moderní velké jazykové modely jím už projdou, tj. správně odvodí, že chlapec v modrém až se vrátí, bude hledat kočku v košíku, protože “neviděl”, že ji kamarád přendal do krabice. Je to fascinující – systém trénovaný pouze na textu dokáže emergentně modelovat mentální stavy druhých lidí, pracuje s vnímáním času a posloupnosti děje. Vypadá to jako průlom.

A přesto se přikláním k pozici Yanna LeCuna, že to ještě není skutečné pochopení světa a že samotné škálování LLM nás k AGI nedovede. Dovolte mi vysvětlit proč.

LLM se učí ze stovkách miliard slov o světě, ale nikdy svět nezažily. Když model “ví”, že horký hrnek spálí, je to proto, že četl miliony vět o horkých hrnkách a popáleninách. Dokážet to dokonce propojit s infoemacemi z lékařské studie nebo příbalového letáku přípravku na léčbu popálenin. Jenomže…. Když dítě pochopí, že horký hrnek spálí, je to proto, že se jednou dotklo něčeho horkého a pocítilo bolest. Nemuselo o to přečíst ani jedinou větu. Tento rozdíl není triviální – jde o fundamentálně odlišnou kvalitu a způsob poznání.

Vezměme si konkrétní limity slovního popisu reality. Tělesnou bolest můžete popsat tisíci metaforami – “jako když vás píchá nůž”, “pálí to jako oheň”, “tupé dunění” – ale nikdo, kdo nikdy bolest necítil, jí z těchto slov skutečně neporozumí. Totéž platí pro chuť sýra s plísní, pocit vyčerpání po maratonu, nebo zážitek z koncertu Leonarda Cohena. Existuje nepřekonatelná propast mezi “vědět, že západ slunce bývá oranžový” a skutečně vidět tu zářící oranžovou na obloze.

Prostorové vztahy jsou další problematická oblast. Můžete napsat “koule o průměru 10 cm se vejde do krabice 15×15×15 cm”, ale skutečné pochopení, jak se taková koule chová – jak se valí po nakloněné ploše, jak ji uchopíte různými způsoby, jak vypadá z různých úhlů pohledu, perspektiv či vzdáleností – to vyžaduje geometrickou a senzomotorickou intuici, která ze slov ne vždy přímo vyplývá. LLM dokáže správně odpovědět na otázky o geometrii, ale nedokáže si skutečně představit, jak by se objekt choval v prostoru, protože mu chybí ztělesněná zkušenost s trojrozměrným světem.

Kauzalita představuje ještě hlubší problém. Text popisuje kauzální vztahy pomocí slov jako “způsobilo”, “vedlo k”, “vyplynulo z toho”. Ale skutečné pochopení kauzality přichází z aktivní interakce se světem – tlačíte věci a ony se pohybují, zahříváte vodu a ona se vaří, pouštíte míč a on padá. Toto aktivní zkoumání vytváří hluboké intuitivní pochopení, že určité akce mají určité důsledky, které je fundamentálně odlišné od pouhého čtení o těchto vztazích. Dítě, které stokrát pustilo hračku a vidělo ji padat, má jiné pochopení gravitace než systém, který přečetl milion vět o padajících objektech.

Když se tedy LLM naučí rozpoznat false belief z komiksu, je to působivá statistická schopnost – ale není to stejné jako skutečné porozumění mentálním stavům, které máme my. My jsme bytosti, které nejen četly o myslích druhých, ale tisíckrát jsme osobně zažily, že druhá osoba neví, co my víme, protože nebyla přítomna. Náš model mysli druhých je zakotven v naší vlastní zkušenosti bytostí s omezenou perspektivou, v našich vlastních omylech a překvapeních, ne pouze v textových vzorcích o těchto omezeních.

LeCun má pravdu, když říká, že potřebujeme modely světa, ne jen modely jazyka. Jeho Joint Embedding Predictive Architecture se snaží zachytit, jak se svět vyvíjí v čase – ne předpovídat další slovo, ale předpovídat další stav reality v abstraktním reprezentačním prostoru. To je fundamentálně bližší tomu, jak zvířata a lidé chápou svět: neustálým tvořením očekávání o tom, co se stane, a učením se z překvapení, když realita dopadne jinak.

Jeho energetické modely reprezentují jinou epistemologii. Místo “co je pravděpodobné na základě statistiky textu” se ptají “co je konzistentní s fyzikální realitou”. Rozdíl je zásadní: LLM může generovat plynulý text o vodě tekoucí vzhůru, pokud je to statisticky podmíněno předchozím kontextem. Energetický model zakořeněný v pozorování světa by takový scénář měl odmítnout, protože porušuje fyzikální konzistenci.

Proč tedy jazykové modely nejsou cestou k AGI? Protože skutečná obecná inteligence vyžaduje schopnost operovat v realitě, ne jen mluvit o ní. AGI musí být schopna plánovat v nejistém světě, anticipovat fyzikální důsledky akcí, učit se z interakce, a vytvářet nové strategie pro nové situace. To vše vyžaduje vnitřní model toho, jak svět funguje – model, který je ověřený aktivním testováním, ne jen shromážděním textových vzorců.

Neznamená to, že LLM jsou bezcenné – jsou ekonomicky transformativní a užitečné pro mnoho úkolů. Ale zaměňovat schopnost plynule mluvit o světě se schopností skutečně mu porozumět je kategoriální chyba. Je to stejná chyba jako myslet si, že někdo, kdo přečetl všechny knihy o plavání, umí plavat.

Budoucnost podle mě leží tam, kam LeCun dlouhodobě ukazuje: v systémech, které se učí ze samotného světa – z videa, ze senzorických dat, z robotické interakce, z neustálého cyklu predikce a překvapení. Systémy, které nejen mluví o gravitaci, ale “cítí” ji ve svých predikcích pohybu objektů. Systémy, které nejen recitují věty o teple a chladu, ale mají vnitřní reprezentaci těchto vlastností zakořeněnou v pozorovaných fyzikálních procesech.

LeCun tuto pozici zastával téměř osamocen skoro deset let a byl za to často kritizován jako “starý bručoun od konvolučních sítí”. Teď se však situace mění. Nedávno Ilya Sutskever, spoluzakladatel OpenAI a jeden z hlavních architektů éry škálování, v podcastu Dwarkeshe Patela přiznal, že samotné škálování nás k AGI nedovede a že “chybí něco zásadního”. A najdnou to není je “mrmlání dinosaura AI”.

Problém je, že LeCunovy energetické modely a JEPA jsou technicky elegantní, ale zatím nejsou prakticky použitelné v tom měřítku, jako jsou transformery. A trh nezajímá “jednou možná”, zajímá se o přítomnost.

Zdroje: