Vícehlavá pozornost (Multi-head attention) je klíčovou komponentou architektury Transformer, která paralelně spouští několik mechanismů pozornosti. Místo jediného výpočtu, který se snaží zachytit všechny vztahy v datech, se vstupní dotazy, klíče a hodnoty nejprve rozdělí a lineárně promítnou pro každou „hlavu“ zvlášť. Každá hlava pak provádí výpočet pozornosti nezávisle, což jí umožňuje specializovat se na jiný typ vztahů nebo sémantických rysů v datech. Výstupy ze všech hlav jsou nakonec spojeny a společně transformovány do finálního výstupu, což modelu poskytuje bohatší a komplexnější reprezentaci.
Představte si, že se snažíte porozumět složité větě. Místo toho, abyste si ji přečetli jen jednou, si na pomoc pozvete malý tým expertů. Jeden expert se zaměří na gramatickou stavbu, druhý bude hledat, kdo co ve větě dělá, a třetí se soustředí na celkové téma. Vícehlavá pozornost funguje přesně jako tento tým. Model má několik „hlav“ a každá z nich se na vstupní data dívá z trochu jiného úhlu a hledá jiný druh informací. Nakonec se všechny tyto různé pohledy spojí dohromady, což modelu umožní mnohem hlubší a komplexnější porozumění, než kdyby se na větu díval jen jedním způsobem.