Token

Token představuje základní, atomickou jednotku informace, na kterou je vstupní text rozdělen během procesu zvaného tokenizace. V kontextu zpracování přirozeného jazyka se jedná o segment textu, který model zpracovává jako jeden celek. V závislosti na použitém tokenizačním algoritmu (např. BPE, WordPiece) může být tokenem celé slovo, jeho část (subword), nebo i jediný znak. Tento proces je nezbytný, protože neuronové sítě nedokážou pracovat s textem v jeho surové podobě; místo toho zpracovávají sekvence Tokenů, které jsou následně převedeny na numerické vektory.

Představte si, že počítač neumí číst celé věty najednou, ale potřebuje si je nejprve rozložit na menší a srozumitelnější dílky, podobně jako když skládáte něco z lega. Token je přesně takový jeden dílek – nejčastěji je to jedno slovo nebo jeho významová část. Model si tedy nejprve celý text pečlivě „naseká“ na tyto základní stavební kameny a teprve potom s nimi začne pracovat. Tento přístup mu umožňuje lépe rozumět jazyku a dokonce si poradit i se slovy, která nikdy neviděl, protože si je dokáže poskládat ze známých menších částí.

Související články