Vektorizace

Představte si, že počítač je jako kuchař, který neumí číst recepty napsané slovy, ale rozumí pouze číslům. Vektorizace je proces, při kterém mu „přeložíte“ celý recept do jeho jazyka. Každou ingredienci a každý krok v receptu nahradíte specifickou sadou čísel. Například slovo „sůl“ dostane souřadnice [1, 0, 0] a „pepř“ [0, 1, 0]. Díky tomu může počítač nejenom pochopit jednotlivé ingredience, ale také porovnat, jak moc jsou si recepty podobné, a to jen na základě těchto čísel. Vektorizace tedy převádí informace z našeho světa do číselné podoby, se kterou si umělá inteligence umí poradit.


Vektorizace je v kontextu strojového učení a zpracování dat proces převodu nestrukturovaných nebo kategorických dat do formátu numerických vektorů. Cílem je transformovat data, jako jsou text, obrázky nebo zvuky, do podoby, která je srozumitelná a zpracovatelná pro matematické modely. Tento převod umožňuje algoritmům kvantifikovat a analyzovat vztahy, vzory a sémantické podobnosti mezi jednotlivými datovými body. Techniky jako Bag-of-Words (BoW), TF-IDF nebo pokročilejší metody jako Word2Vec a GloVe jsou příklady vektorizace používané ve zpracování přirozeného jazyka. Vektorizovaná reprezentace je základním předpokladem pro trénování většiny modelů umělé inteligence.