Transformerová architektura

Transformerová architektura představuje typ modelu hlubokého učení, který byl původně navržen pro úlohy zpracování přirozeného jazyka. Jeho základním stavebním kamenem je Mechanismus pozornosti„>Mechanismus pozornosti (attention mechanism), který umožňuje modelu vážit důležitost různých částí vstupních dat při vytváření výstupu. Na rozdíl od dříve používaných rekurentních a konvolučních neuronových sítí zpracovává transformer celé vstupní sekvence najednou, což umožňuje významnou paralelizaci výpočtů a efektivnější trénink na velkých datech. Architektura se skládá z kódovací (encoder) a dekódovací (decoder) části, přičemž obě obsahují vrstvy pozornosti a dopředné neuronové sítě.


Představte si, že překládáte dlouhou větu. Místo toho, abyste se dívali na každé slovo postupně jedno po druhém, váš mozek přirozeně zvažuje, která slova ve větě jsou pro význam nejdůležitější a jak spolu souvisí. Přesně tak funguje Transformerová architektura. Je to chytrý systém, který se umí „podívat“ na všechna data najednou a sám se rozhodne, kterým částem dát větší „pozornost“, aby co nejlépe splnil zadaný úkol, ať už jde o překlad textu, odpovídání na otázky, nebo třeba generování obrázků.