LLM asi znáte, ale víte i o dalších typech modelů?

Pokud se v posledních letech zajímáte o umělou inteligenci, pravděpodobně jste se setkali s velkými jazykovými modely jako ChatGPT, Claude nebo Gemini. Tyto LLM (Large Language Models) se staly synonymem pro AI v očích veřejnosti, ale realita je mnohem pestřejší a fascinující. Svět umělé inteligence nabízí širokou rodinu specializovaných modelů a architektur, z nichž každý řeší specifické úkoly svým způsobem.

Dnes nebudeme mluvit o klasickém strojovém učení, které je s námi už desítky let a fakticky dnes pracuje možná s větším objemem dat a v mnohem více oblastech našeho života než LLM. Místo toho se v dnešním článku zaměříme na některé typy neuronových modelů a architektur, které vznikly teprve v posledních letech a představují špičku současného výzkumu.

Od multimodálních modelů zpracovávajících současně text a obrázky, přes neuronové sítě analyzující složité vztahy, až po audio modely rozpoznávající řeč a generující hudbu. Od miniaturních modelů běžících klidně ve vašem telefonu po obří systémy s biliony parametrů. Od čistě neuronových přístupů po hybridní systémy kombinující symbolické uvažování s deep learningem.

Proč nestačí jen LLM?

Představte si, že byste na všechny úkoly používali pouze kladivo. Možná by to fungovalo, ale šroubovák by byl na šrouby určitě vhodnější. Podobně je to s AI modely. Zatímco LLM skvěle zvládají práci s textem, generování odpovědí nebo kódu a obecné konverzace, existují úkoly, které vyžadují zcela odlišný přístup.

Tradiční decoder-only LLM fungují na principu transformer architektury s jednosměrnou pozorností. Funguje to tak, že model čte vstupní text zleva doprava a pomocí attention mechanismu se může dívat pouze na předchozí tokeny (ne na budoucí), což se nazývá causal masking. Díky tomu může efektivně generovat souvislý text token po tokenu. Existují však i encoder-decoder LLM, které ve své enkodérové části používají bidirekcionální pozornost. To znamená, že může vidět celý vstupní text najednou. To se hodí např. při překladech, kdy je často potřeba pochopit kontext celé věty nebo odstavce předtím, než začnete překládat. Například německé sloveso často stojí na konci věty, ale pro správný překlad do češtiny potřebujete znát toto sloveso už na začátku. Nebo idiomy a fráze – jejich význam se může změnit podle toho, co následuje později v textu.

Text je v LLM nejdříve rozdělen na tokeny, které jsou převedeny na vektory pomocí embedding vrstev. Představte si to jako rozstříhání věty na jednotlivé kousky – někdy jsou to celá slova, jindy jen části slov nebo dokonce jednotlivé písmena, podle toho, co je pro model nejužitečnější. Každý takový kousek pak dostane svou číselnou „vizitku“ – vektor, který obsahuje informace o tom, co tento kousek znamená a jak se obvykle používá.

Pozornostní mechanismus pak umožňuje modelu zaměřit se na relevantní části vstupu při generování každého nového tokenu. Funguje to podobně jako když čtete knihu a potřebujete si vzpomenout na něco, co bylo napsáno dříve – model si „prohlíží“ všechny předchozí slova a rozhoduje, která z nich jsou důležitá pro to, co chce napsat jako další. Například když píše slovo „ona“, musí si vzpomenout, na koho se to vztahuje ze začátku věty.

Model má vlastně několik takových pozornostních „očí“ současně (multi-head attention), takže může sledovat různé věci najednou – jedno „oko“ může sledovat gramatiku, druhé význam, třetí dlouhodobé souvislosti v textu. Všechny tyto informace se pak zpracovávají přes složité matematické výpočty, které pomohou modelu rozhodnout, jaké slovo má napsat jako další.

Tento přístup je extrémně efektivní pro sekvenční generování textu, ale má svá omezení. Model má omezenou „paměť“ (kontextové okno), a proto si nemůže si zapamatovat nekonečně dlouhý text. Také musí slova (tokeny) generovat jedno za druhým, což je pomalé, a u některých typů modelů nevidí dopředu, což může být problém například při potřebě generovat přesně dlouhý text, kde je užitečné znát celou větu předem.

Multimodální modely: když text nestačí

Jedním z největších průlomů posledních let jsou VLM (Vision-Language Models) jsou modely, které dokážou současně zpracovávat obrázky a text. Tyto modely dokážou současně zpracovávat obrázky a text, což otevírá úplně nové možnosti. Místo toho, abyste museli obrázek nejdříve popsat slovy, může model přímo analyzovat fotografii a odpovědět na otázky o jejím obsahu.

Prakticky to znamená, že můžete nahrát fotku jídla a zeptat se na recept, ukázat modelu diagram a nechat si ho vysvětlit, nebo poslat snímek obrazovky s chybovou hláškou a požádat o pomoc. VLM spojují vizuální vnímání s jazykovým porozuměním způsobem, který se blíží lidskému uvažování.

Technicky VLM kombinují dva odlišné kodéry (kodér je součást neuronové sítě, která převádí vstupní data na vnitřní reprezentaci). Vizuální kodér, často založený na Vision Transformer (ViT) architektuře, převádí obrázek na sekvenci dílčích tokenů (malých částí obrázku převedených na číselnou reprezentaci). Textový kodér zpracovává jazykový vstup podobně jako klasické LLM. Klíčové je propojení těchto modalit (různých typů dat – text, obraz) prostřednictvím křížové pozornosti (technika, která umožňuje modelu sledovat vztahy mezi různými typy vstupů) nebo vícemodálního spojovacího bloku (komponenta, která spojuje informace z různých zdrojů).

Specializace na konkrétní úkoly

Zatímco LLM jsou jako švýcarské nožíky AI světa, některé úkoly vyžadují vysoce specializované nástroje. SAM (Segment Anything Model) je model od společnosti Meta, který je navržen výhradně pro rozpoznávání a oddělování objektů v obrazech. Dokáže s neuvěřitelnou přesností identifikovat hranice různých předmětů, lidí nebo oblastí na fotografii.

SAM používá trojici specializovaných komponentů. Obrazový kodér založený na Vision Transformer zpracovává vstupní obrázek a vytváří hustou reprezentaci obrazových rysů. Kodér výzev umožňuje uživateli specifikovat, co chce segmentovat pomocí bodů, rámečků nebo hrubých masek. Dekodér masek pak generuje finální segmentační masku pomocí křížové pozornosti mezi obrazovými rysy a reprezentacemi výzev.

Podobně fungují modely určené pro generování obrázků, hudby nebo videa. Difusní modely jako Stable Diffusion nebo DALL-E 3 kombinují princip postupného odšumování s klíčovými komponentami transformerové architektury. Pracují s postupným odstraňováním šumu z náhodného signálu, přičemž textový kodér (téměř vždy transformer z CLIP modelu) zpracovává výzvu a U-Net architektura pro odšumování ve svých vnitřních blocích používá mechanismy křížové pozornosti z transformerů, aby “porozuměla”, jak má obrázek vypadat podle textového popisu.

Efektivita a rychlost

Neméně důležité jsou SLM (Small Language Models) jsou menší verze velkých jazykových modelů. Tyto kompaktní verze obětují část schopností výměnou za rychlost a nižší nároky na výpočetní výkon. Jsou ideální pro mobilní aplikace, embedded systémy nebo situace, kde potřebujete okamžitou odpověď.

SLM dosahují efektivity několika způsoby. Kvantizace snižuje přesnost čísel z 32-bit na 8-bit nebo dokonce 4-bit reprezentace, což významně šetří paměť. Prořezávání odstraňuje méně důležité neurony a spojení v síti. Destilace znalostí umožňuje menšímu modelu naučit se chování velkého modelu tím, že napodobuje jeho výstupy. Moderní SLM jako Phi-3 nebo Gemma využívají také architektonické inovace jako seskupenou pozornost dotazů nebo pozornost s posuvným oknem.

SLM dokážou běžet přímo ve vašem telefonu nebo tabletu, aniž by potřebovaly připojení k internetu. Pro mnoho každodenních úkolů jako je překlad, sumarizace nebo jednoduché dotazy poskytují zcela dostačující výsledky.

Když je potřeba extra výkon

Na opačném konci spektra najdeme MoE (Mixture of Experts) modely. Tyto sofistikované systémy obsahují desítky či stovky specializovaných “expertních” sítí, přičemž pro každý konkrétní dotaz aktivují pouze ty nejvhodnější. Výsledkem je obrovský výkon při relativně rozumné spotřebě zdrojů.

MoE architektura zahrnuje směrovací síť, která rozhoduje, kteří experti budou aktivováni pro daný token. Typicky se aktivuje pouze malé procento všech expertů (například 2 z 64). To znamená, že model může mít biliony parametrů, ale pro jeden dopředný průchod použije jen zlomek z nich. Switch Transformer byl jedním z prvních úspěšných MoE modelů, následovaný moderními implementacemi jako Mixtral 8x7B od Mistral AI nebo pravděpodobně i GPT-4.

Představte si to jako specializovanou nemocnici, kde pro každý problém existuje odpovídající expert. MoE modely dokáží poskytovat odpovědi kvality, která by byla nemyslitelná u monolitických modelů podobné velikosti.

Encoder-Decoder modely: nejlepší z obou světů

Mezi decoder-only LLM a encoder-only MLM existuje třetí pilíř transformer architektury: encoder-decoder modely jako T5 (Text-to-Text Transfer Transformer) nebo BART (Bidirectional and Auto-Regressive Transformers). Tyto modely kombinují silné stránky obou přístupů.

Encoder část využívá bidirekcionální pozornost pro hluboké porozumění vstupnímu textu, zatímco decoder část generuje výstup autoregresivně. Tato architektura je extrémně účinná pro sequence-to-sequence úlohy (převod jedné sekvence na druhou) jako strojový překlad, sumarizace textu nebo přepis dat z jednoho formátu do druhého.

Technicky encoder-decoder modely zpracovávají vstup ve dvou fázích. Kodér nejdříve vytvoří bohatou reprezentaci celého vstupního textu pomocí obousměrné pozornosti. Dekodér pak tuto reprezentaci využívá prostřednictvím křížové pozornosti pro generování výstupní sekvence Token po tokenu.

Grafové neuronové sítě: když záleží na vztazích

Graph Neural Networks (GNN) představují zcela odlišný přístup k umělé inteligenci, který se zaměřuje na data strukturovaná jako grafy. Zatímco LLM pracují se sekvencemi a VLM s obrazy, GNN zpracovávají entity a vztahy mezi nimi.

GNN jsou nepostradatelné v oblastech, kde jsou relace mezi objekty klíčové. V sociálních sítích analyzují vztahy mezi uživateli pro doporučovací systémy. V chemii pomáhají porozumět struktuře molekul pro vývoj léků. V dopravě optimalizují trasy v silničních sítích.

Technicky GNN používají algoritmy předávání zpráv, kde každý uzel (entita) v grafu shromažďuje informace od svých sousedů. Tento proces se opakuje v několika vrstvách, což umožňuje uzlům “vidět” stále vzdálenější části grafu. Různé varianty jako grafové konvoluční sítě (GCN) nebo grafové pozornostní sítě (GAT) se liší způsobem, jak shromažďují a váží informace od sousedních uzlů.

Světové modely: učení pozorováním reality

Zcela odlišný přístup představují světové modely (World Models), které se učí pozorováním fyzického světa místo čtení textů. Nejznámějším příkladem je V-JEPA (Video Joint-Embedding Predictive Architecture) od společnosti Meta, která představuje radikální odklon od současných trendů.

V-JEPA se učí z více než milionu hodin internetových videí podobně jako malé děti, které pochopí gravitaci tím, že několikrát upustí lžičku a pozorují, co se stane. Model pozoruje, jak se objekty pohybují, jak reagují na síly, jak spolu interagují, a postupně si buduje vnitřní představu o tom, jak fyzický svět funguje.

Technicky V-JEPA používá společnou vkládací prediktivní architekturu (Joint-Embedding Predictive Architecture), která dělá předpovědi v abstraktním prostoru rysů místo v prostoru surových pixelů. Místo snažení předpovědět přesnou hodnotu každého pixelu v budoucím snímku videa se model učí předpovídat jeho vysokoúrovňovou významovou reprezentaci (vložení). Tento proces umožňuje modelu ignorovat nepředvídatelné detaily jako pohyb listů ve větru a zaměřit se na významově důležité informace jako trajektorii pohybujícího se objektu.

Architektura V-JEPA sestává ze tří komponentů. Kodér zpracovává vizuální vstup a převádí ho na abstraktní reprezentaci. Prediktor pak předpovídá, jak se tato reprezentace bude měnit v čase. Nejzajímavější je třetí komponenta – mechanismus, který umožňuje modelu předpovídat nejen to, co se stane samo od sebe, ale také co se stane jako reakce na konkrétní akci.

Výsledkem je model, který může fungovat jako “simulátor v hlavě”. Když robot “uvažuje” o tom, jakou akci provést, V-JEPA dokáže předpovědět následky různých možností a vybrat tu nejlepší bez nutnosti provádět nebezpečné experimenty v reálném světě.

Audio modely: zvuk jako další modalita

Zpracování zvuku představuje další důležitou oblast AI, kterou článek dosud opomíjal. Audio modely se dělí do několika kategorií podle svého účelu.

Speech-to-Text modely jako Whisper od OpenAI dokážou převést mluvenou řeč na text s překvapivou přesností i v hlučném prostředí a různých jazycích. Používají často kombinaci CNN (konvoluční neuronové sítě) pro zpracování spektrogramů a transformerů pro sekvenční modelování.

Text-to-Speech modely generují lidsky znějící hlas z textového vstupu. Moderní přístupy jako neural vocoders využívají deep learning pro vytváření přirozeně znějících hlasových stop s kontrolou nad emocemi, tónem a stylem řeči.

Generativní zvukové modely jako MusicGen od Meta dokážou vytvářet hudbu na základě textových popisů. Podobně jako obrazové rozptylovací modely pracují s postupným zjemňováním zvukového signálu ve skrytém prostoru.

Logické uvažování a symbolické zpracování

LAM (Logic-Augmented Models) představují zajímavý hybrid neurálních sítí a symbolické umělé inteligence. Tyto modely kombinují schopnost neuronových sítí učit se z dat s přesností formální logiky. Používají externí důvodové motory jako Prolog nebo SMT řešiče pro řešení komplexních logických problémů.

Architektura LAM typicky zahrnuje neuronový modul pro porozumění přirozenému jazyku, symbolický důvodový motor pro logické odvozování a integrační vrstvu, který překládá mezi neuronovými reprezentacemi a symbolickými formulemi. Tato kombinace umožňuje modelům řešit úkoly vyžadující přesné logické uvažování, které jsou pro čisté neuronové sítě obtížné.

Latentní konsistence a strukturované generování

LCM (Latent Consistency Models) představují pokročilý přístup k generativním úkolům. Místo tradičního rozptylovacího procesu používají trénování konzistence ve skrytém prostoru. To znamená, že model se učí generovat konzistentní výstupy z různých úrovní šumu jednokrokovým procesem.

Technicky LCM využívají funkci konzistence, která mapuje jakýkoli bod na trajektorii ze šumu k čistému signálu na stejný konečný bod. Toto umožňuje dramaticky rychlejší generování než tradiční rozptylovací modely, protože eliminuje potřebu iterativního procesu odšumování.

Masked Language Models a bidirekční porozumění

MLM (Masked Language Models) jako BERT používají fundamentálně odlišný přístup než autoregressive LLM. Místo generování textu zleva doprava se MLM učí předpovídat maskované tokeny na základě obousměrného kontextu.

Obousměrná pozornost v MLM umožňuje modelu vidět celou sekvenci současně, což je ideální pro úkoly porozumění textu jako klasifikace, rozpoznávání pojmenovaných entit nebo zodpovídání otázek. Předtrénování probíhá prostřednictvím cíle maskovaného jazykového modelování, kde je náhodně maskováno 15% tokenů a model se učí je předpovídat.

Technické problémy a optimalizace

Vývoj a nasazení pokročilých AI modelů přináší řadu technických problémů, které vyžadují neustálé inovace v oblasti algoritmů, hardwaru a optimalizačních strategií. Liší se v závislosti na typu modelu, ale některé jsou společné pro většinu rozsáhlých systémů.

Velké modely obsahují biliony parametrů, což klade obrovské nároky na paměť grafických karet a výpočetní výkon. Problém s pamětí je kritický zejména během tréninku, kdy je potřeba ukládat nejen parametry modelu, ale i mezivýpočty a stavy optimalizátorů. LLM trpí takzvanou zaujatostí vystavení. Během trénování vidí vždy správné tokeny jako vstup pro další krok generování, ale při skutečném odvozování se model musí spoléhat na své vlastní, potenciálně chybné, předchozí předpovědi, což může vést k hromadění chyb. Řešením jsou techniky jako Teacher Forcing s plánovaným vzorkováním, kde se postupně přechází od podávání referenčních tokenů k vlastním generovaným. U multimodálních modelů, jako jsou VLM a audio modely, je klíčové zajistit správné sladění modalit, aby model správně propojoval informace z různých datových typů. Kontrastní učení je jednou z hlavních technik, která pomáhá modelům naučit se, jak korelují různé modality – například párováním obrázků s jejich popisky tak, aby podobné páry měly podobné vektorové reprezentace.

Efektivita paměti je kritická oblast pro všechny velké modely. Kontrolní body gradientů umožňují kompromis mezi pamětí a výpočetním časem. Místo ukládání všech mezivýpočtů pro zpětnou propagaci se některé aktivace přepočítávají znovu, čímž se snižuje spotřeba paměti na úkor mírného prodloužení tréninku. Trénování se smíšenou přesností využívá 16-bitová čísla s plovoucí čárkou namísto standardních 32-bitových pro většinu výpočtů a ukládání parametrů. Tím se dramaticky snižuje paměťová náročnost a zrychlují výpočty na moderních GPU, které mají speciální jádra pro nižší přesnosti.

Optimalizátor ZeRO, vyvinutý společností Microsoft, distribuuje stavy optimalizátoru, gradienty a parametry modelu napříč několika GPU, což umožňuje trénovat modely příliš velké na to, aby se vešly na jednu GPU. Inovativní algoritmy jako FlashAttention a PagedAttention efektivněji pracují s pamětí pro mechanismus pozornosti, což umožňuje zpracovávat delší sekvence a trénovat větší modely. FlashAttention optimalizuje I/O operace, zatímco PagedAttention vylepšuje efektivitu při inferenci dynamickou správou klíčů a hodnot pozornosti.

Pro nasazení modelů do produkce je klíčová nízká latence a vysoká propustnost, čehož se dosahuje technikami jako model pruning, kvantizace na nižší bitové hloubky a destilace znalostí, kdy se menší model učí napodobovat chování velkého modelu. Trénování bilionových modelů vyžaduje masivní distribuované systémy, což zahrnuje efektivní paralelismus dat, paralelismus modelů a paralelismus rour.

Budoucnost?

Budoucnost umělé inteligence se jeví jako dynamické a mnohostranné pole, kde specializace a hybridní přístupy budou hrát stále důležitější roli.

Současný vývoj ukazuje jasný trend směrem k specializaci. Místo jednoho univerzálního modelu se budeme pravděpodobně setkávat s ekosystémy různých AI nástrojů, z nichž každý bude optimalizován pro konkrétní úkoly. To znamená, že komplexní aplikace nebudou spoléhat pouze na jeden LLM, ale budou inteligentně kombinovat různé modely – například VLM pro vizuální analýzu, GNN pro databáze grafů a specializované SLM pro rychlé lokální operace.

Retrieval-Augmented Generation (RAG) paradigma silně dominuje praktickým aplikacím AI a jeho význam bude nadále růst. RAG systémy používají modely pro vektorové reprezentace pro vyhledávání relevantních dokumentů z rozsáhlých znalostních bází a generativní modely pro formulaci odpovědí na základě získaných informací. Tato hybridní architektura umožňuje využít silné stránky různých přístupů a řeší klíčové problémy jako halucinace nebo zastaralá data, protože model má přístup k aktuálním a ověřeným informacím. V budoucnu můžeme očekávat ještě sofistikovanější RAG systémy, které budou integrovány s komplexnějšími datovými zdroji a logickými odvozovacími mechanismy.

Techniky spojování více modalit se stávají stále sofistikovanějšími a budou klíčové pro vytváření AI, která chápe svět komplexněji. Raná fúze kombinuje modality na úrovni vstupních rysů na začátku zpracování. Pozdní fúze spojuje výstupy samostatných sítí specifických pro modality, kde každá modalita je zpracována samostatným modelem. Střední fúze umožňuje interakci mezi modalitami na různých úrovních zpracovávací linky, což vede k hlubšímu vzájemnému porozumění informací z různých zdrojů. Očekáváme vývoj pokročilejších mechanismů křížové pozornosti a nových architektur, které umožní plynulejší interakci mezi různými datovými typy.

Integrace se symbolickou AI a logickým uvažováním je dalším důležitým směrem. LAM (Logic-Augmented Models) představují teprve začátek trendu, který se bude snažit překlenout propast mezi neuronovými sítěmi a symbolickou AI. Budoucí modely budou pravděpodobně hlouběji integrovat formální logiku, ontologie a znalostní grafy, aby dokázaly lépe řešit úkoly vyžadující plánování, řešení problémů a vysvětlitelnost.

Výzkumníci také neustále experimentují s novými architektonickými inovacemi. Např. Mamba (State Space Models) představuje slibnou alternativu k transformerům pro zpracování dlouhých sekvencí, jelikož využívá stavové prostorové modely, které jsou efektivnější z hlediska paměti a výpočetní náročnosti. RetNet (Retention Networks) je další alternativou k transformerům zaměřenou na zlepšení efektivity tréninku a inference pro dlouhých sekvencí, s lineární komplexitou. Modely se smíšenou hloubkou kombinují vrstvy s různou hloubkou zpracování, což umožňuje efektivněji distribuovat výpočetní zdroje a dosáhnout lepšího výkonu.

Pro většinu běžných uživatelů bude tato diverzita prakticky neviditelná, jelikož aplikace a služby budou v pozadí používat nejvhodnější modely, zatímco uživatelské rozhraní zůstane jednoduché a jednotné. Očekávejme intuitivnější interakce, kde AI bude schopna rozumět komplexním dotazům zahrnujícím různé modality a poskytovat přesnější a kontextově relevantnější odpovědi. Pro vývojáře a výzkumníky bude porozumění různým typům AI modelů a jejich optimalizačním strategiím klíčové pro efektivní vývoj a nasazení nových AI řešení. Svět umělé inteligence je mnohem bohatší, než by se mohlo na první pohled zdát, a jeho diverzita je klíčem k řešení stále složitějších úkolů.

Co to znamená pro běžné uživatele?

Pro většinu lidí bude tato diverzita prakticky neviditelná. Aplikace a služby budou v pozadí používat nejvhodnější modely pro konkrétní úkoly, zatímco uživatelské rozhraní zůstane jednoduché a jednotné.

Nicméně porozumění různým typům AI modelů vám pomůže lépe využívat dostupné nástroje a možná i předvídat, jaké nové možnosti se v budoucnu objeví. Svět umělé inteligence je mnohem bohatší, než by se mohlo na první pohled zdát, a jeho diverzita je klíčem k řešení stále složitějších úkolů.