Dnešní zamyšlení vychází z nedávné úvahy Andreje Karpathy, spoluzakladatele OpenAI a bývalého šéfa AI v Tesle. Karpathy přichází s provokativní myšlenkou: velké jazykové modely (large language models nebo také LLM) možná nemají mnoho společného s jazykem jako takovým. Toto zamyšlení rozvíjí jeho úvahu o LLM jako univerzálních nástrojích a nastiňuje potenciální důsledky tohoto pohledu pro budoucnost umělé inteligence.
Poslechněte si článek si také jako zvukový přepis
Je pozoruhodné a možná i trochu matoucí, že velké jazykové modely ve skutečnosti nemusí mít mnoho společného s jazykem jako takovým; spíše je to historický vývoj, který k této asociaci vedl. To znamená, že ačkoli jsou nazývány „jazykové“, jejich základní principy a mechanismy fungování nejsou zdaleka omezeny pouze na zpracování přirozeného jazyka.
„What I’ve seen though is that the word „language“ is misleading people to think LLMs are restrained to text applications.“ Andrej Karpathy na X.com
Původně byly tyto modely vyvinuty pro práci s textem, což vedlo k jejich pojmenování. Avšak jejich schopnosti přesahují tuto oblast a mohou být aplikovány na různé typy dat. Tyto modely představují vysoce univerzální technologii pro statistické modelování toků tokenů. Tokeny jsou základní jednotky informace, které mohou představovat slova, znaky nebo jiné diskrétní prvky.
V kontextu zpracování přirozeného jazyka mohou být tokeny například slova nebo i jednotlivé znaky. Co považuje za token OpenAI ve svých jazykových modelech zjistíte na jejich stránce. Nicméně v jiných oblastech mohou tokeny představovat například pixely v obrazu, zvukové frekvence v audio nahrávce nebo pohyby v rámci akčního plánu robota.
Přesnější název by podle Karpathyho měl být spíš „autoregresivní transformátory„. To by mnohem lépe vystihovalo jejich skutečnou podstatu a mechanismus fungování. Autoregresivní transformátory jsou modely, které predikují následující token na základě předchozích tokenů v sekvenci, což je základní princip fungování LLM.
Autoregresivní znamená, že model při generování každého nového tokenu vychází z předchozích tokenů. Představme si to na příkladu tvorby věty: když model generuje nové slovo, bere v úvahu všechna předchozí slova, která už vygeneroval, aby správně předpověděl další slovo. Tento postup je podobný tomu, jak bychom my, lidé, skládali větu – každé nové slovo volíme na základě kontextu předchozích slov. Tento přístup je „autoregresivní“, protože model se vrací ke svým vlastním výstupům, aby vytvořil následující krok.
A „transformátor“ nemá nic společného s filmovými roboty z planety Cybertron transformující se v auta a zpět. A dokonce ani z nevzhlednou kostkou se stovkami elektrických drátů, které zvyšují či snižují napětí. Je to jednoduše pojmenování specifické architektury, která zajišťuje, že model může zpracovávat dlouhé sekvence dat efektivně a s minimálními omezeními. Transformátor je základem mnoha moderních LLM vyžadující jejich vysoký výkon.
LLM ve své podstatě nezáleží na tom, zda tokeny představují textové fragmenty, obrazové části, zvukové úseky či akční volby. To znamená, že tyto modely jsou schopny pracovat s jakýmikoli daty, pokud jsou tato data převedena do posloupnosti diskrétních tokenů. Diskrétní token je v podstatě základní jednotka informace, která je oddělená a neměnná, tedy „diskrétní“ v matematickém smyslu. Klíčové tedy je, že data mohou být reprezentována jako posloupnost tokenů, což umožňuje jednotný přístup k jejich zpracování.
Pokud dokážeme svůj problém redukovat na modelování takových toků, můžeme na něj aplikovat LLM. Tato schopnost znamená, že LLM mohou být využity v různých doménách, nejen v oblasti zpracování přirozeného jazyka.
Univerzálnost, o které mluvíme, naznačuje, že potenciál těchto modelů sahá daleko za hranice jazykového zpracování a může ovlivnit širokou škálu oborů a aplikací. Může to vést k novým možnostem v oblastech, od počítačového vidění, zpracování zvuku nebo dokonce bioinformatika. V chemii, kde mohou být molekuly reprezentovány jako sekvence atomů a vazeb, povede použití LLM k predikci nových chemických vlastností nebo syntézních cest.
V biologii při výzkumu proteinů, konkrétně při generování nových sekvencí aminokyselin, můžeme diskrétní tokeny chápat jako jednotlivé aminokyseliny, které tvoří proteinovou sekvenci. Proteiny jsou tvořeny řetězci aminokyselin, přičemž každá aminokyselina může být považována za jeden „token“ v rámci této sekvence. Speciálně proteiny mají složité struktury a funkce, které jsou určeny právě sekvencí aminokyselin. Pomocí LLM modelů lze zkoumat nové proteinové struktury a predikovat, jak budou fungovat nebo jaké budou mít vlastnosti. Nové proteiny se pak vážou na určité molekuly, což je zásadní při vývoji nových léků nebo léčebných metod.
S postupným rozvojem technologie LLM můžeme být svědky konvergence mnoha problémů do tohoto jednotného modelovacího rámce. To znamená, že různé úlohy, které byly dříve řešeny pomocí specifických modelů a technik, mohou nyní být zpracovávány prostřednictvím LLM.
Základní úloha se redukuje na predikci následujícího tokenu, přičemž význam a interpretace těchto tokenů se liší podle konkrétní oblasti. Tato unifikace by mohla usnadnit řešení komplexních problémů prostřednictvím jednotného přístupu. Může to vést ke zjednodušení procesů, snížení nákladů na vývoj a urychlení inovací v různých oborech.
Pokud by se tento trend skutečně prosadil, mohlo by to naznačovat, že současné rámce hlubokého učení, jsou možná příliš obecné pro většinu praktických aplikací. Tyto rámce nabízejí tisíce operací a vrstev pro libovolnou konfiguraci, což poskytuje obrovskou flexibilitu. Avšak pokud by drtivá většina problémů mohla být řešena pomocí LLM, mohla by tato flexibilita být nadbytečná. Takový švýcarský nůž je skvělá věc, ale někdy je vhodnější použít jen šroubovák. To povede k vývoji specializovanějších nástrojů a rámců optimalizovaných pro implementaci a trénování LLM, což zjednoduší proces vývoje a nasazení modelů. Specializované nástroje budou efektivnější, uživatelsky přívětivější a lépe přizpůsobené specifickým potřebám aplikací založených na LLM.
Jeden prsten vládne všem? Ne vždy!
Tvrdit, že tento pohled plně odráží realitu, by bylo zjednodušující. Je pravděpodobné, že je to jen částečně pravdivé. Např. v reálném čase řízené systémy, jako jsou samořídící auta, vyžadují okamžité reakce na měnící se prostředí. Zde se používají modely, které mohou zpracovávat paralelní vstupy ze senzorů a rychle generovat odpovědi, což nemusí být optimální pro sekvenční modely jako LLM.
Další aspekt je struktura dat. Některá data mají složité vztahy, které nejsou lineární. Grafové neuronové sítě jsou například navrženy pro práci s daty, která lze reprezentovat jako uzly a hrany. Tyto struktury nelze snadno převést na sekvenci tokenů bez ztráty důležitých informací.
Ačkoli LLM nabízejí mocný a univerzální nástroj, existují oblasti, kde je potřeba specifických architektur a přístupů, které nelze snadno převést na problém predikce následujícího tokenu. Některé úlohy, jako je modelování fyzikálních systémů, simulace komplexních interakcí nebo řešení problémů s vysokou mírou kauzality, vyžadují hlubší porozumění struktury dat a vztahů mezi nimi. Tyto úlohy přesahují schopnosti současných LLM, které jsou optimalizovány pro sekvenční zpracování dat.
Sekvenční zpracování dat znamená, že data jsou zpracovávána jako posloupnost, kde pořadí jednotlivých prvků (tokenů) je důležité. U textu je to zřejmé, protože význam věty závisí ve většině na pořadí slov. V audio záznamech je to zase posloupnost zvukových frekvencí, díky kterým je zachován smysl řeči nebo hudby. Alternativy k sekvenčnímu zpracování zahrnují například zpracování dat v maticové nebo grafové struktuře, kde vztahy mezi prvky nejsou lineární. V počítačovém vidění se tak třeba používají konvoluční neuronové sítě, které zpracovávají obraz jako dvourozměrné pole pixelů, nikoli jako sekvenci.
Přestože je teoreticky možné reprezentovat různé typy dat jako tokeny, v praxi může dojít ke ztrátě důležitých informací nebo ke zvýšení náročnosti trénování modelu. Optimalizace a přizpůsobení LLM pro specifické úlohy může být složité a nemusí vždy přinést nejlepší výsledky. V některých případech mohou specializované modely jednoduše poskytovat lepší výkon a efektivitu.
Velké jazykové modely představují obrovský krok vpřed díky své schopnosti modelovat širokou škálu problémů prostřednictvím jednotného paradigmatu. Tato univerzálnost otevírá nové možnosti a může urychlit vývoj v mnoha oblastech. Zároveň je ale nezbytné zachovat kritický pohled a uvědomit si jejich omezení.
Budoucnost umělé inteligence tak podle všeho nebude spočívat v jednom univerzálním přístupu, ale v kombinaci různých metod a nástrojů, které budou spolupracovat a doplňovat se. Různé problémy mohou vyžadovat různé přístupy. Proto je důležité mít k dispozici nástroje a rámce, které tyto různé situace zvládnou.
Jen tak budeme schopni efektivně řešit jak obecné, tak i vysoce specifické problémy, a plně využijeme potenciál, který nám tyto skvělé technologie nabízejí!