Token představuje základní, atomickou jednotku informace, na kterou je vstupní text rozdělen během procesu zvaného tokenizace. V kontextu zpracování přirozeného jazyka se jedná o segment textu, který model zpracovává jako jeden celek. V závislosti na použitém tokenizačním algoritmu (např. BPE, WordPiece) může být tokenem celé slovo, jeho část (subword), nebo i jediný znak. Tento proces je nezbytný, protože neuronové sítě nedokážou pracovat s textem v jeho surové podobě; místo toho zpracovávají sekvence Tokenů, které jsou následně převedeny na numerické vektory.
Představte si, že počítač neumí číst celé věty najednou, ale potřebuje si je nejprve rozložit na menší a srozumitelnější dílky, podobně jako když skládáte něco z lega. Token je přesně takový jeden dílek – nejčastěji je to jedno slovo nebo jeho významová část. Model si tedy nejprve celý text pečlivě „naseká“ na tyto základní stavební kameny a teprve potom s nimi začne pracovat. Tento přístup mu umožňuje lépe rozumět jazyku a dokonce si poradit i se slovy, která nikdy neviděl, protože si je dokáže poskládat ze známých menších částí.
Související články
- LLM asi znáte, ale víte i o dalších typech modelů?
- Combining neural networks and logical reasoning in language understanding
- Spojení neuronových sítí a logického uvažování v porozumění jazyku
- Reflection on language models that are not actually language models at all
- Zamyšlení nad jazykovými modely, které vlastně vůbec nejsou jazykové
- Here comes o1: Artificial intelligence that thinks
- Přichází o1: Umělá inteligence, která přemýšlí
- Využijte dotace na školení AI pro vaše zaměstnance
- Setting up CustomGPT step by step
- Zakládáme CustomGPT krok za krokem (česky)
- Návod: Jak generovat popisky pro eshop pomocí AI v Google Sheets
- Jak nastavit „temperature“ pro dotazy přes API