Word2Vec je výpočetně efektivní prediktivní model pro učení sémantických vektorových reprezentací slov, známých jako embeddings, z velkých textových korpusů. Tato technika, publikovaná v roce 2013 českým vědcem Tomášem Mikolovem, je založena na principu, že význam slova lze odvodit z kontextu, ve kterém se objevuje. Word2Vec využívá dvouvrstvou neuronovou síť a implementuje dvě hlavní architektury: Continuous Bag-of-Words (CBOW), který predikuje cílové slovo z okolních kontextových slov, a Skip-gram, jenž naopak predikuje okolní kontextová slova na základě jednoho cílového slova. Výsledné vektory zachycují sémantické vztahy, což umožňuje provádět vektorové operace jako „král“ – „muž“ + „žena“ ≈ „královna“.
Představte si, že chcete pochopit význam slova, aniž byste si přečetli jeho definici ve slovníku. Místo toho se podíváte na desítky vět, ve kterých se slovo vyskytuje. Zjistíte, že slovo „kolo“ se často objevuje vedle slov jako „jet“, „šlapat“, „silnice“ nebo „helma“. Na základě této společnosti slov si utvoříte představu o jeho významu. Word2Vec dělá přesně totéž pro počítače. Analyzuje obrovské množství textu a každému slovu přiřadí sadu čísel (vektor) podle toho, s jakými jinými slovy se kamarádí. Díky tomu umí počítač poznat, že „kolo“ a „bicykl“ jsou si významově blízko, protože se objevují v podobných větách.