BART

Dnes se podíváme na zoubek modelu jménem BART. Představ si ho jako velmi chytrého studenta jazyků, který se učí tak, že opravuje úmyslně poškozené texty. Když mu dáš větu, kde chybí slova nebo jsou přeházená, on se ji naučí zrekonstruovat do původní, správné podoby. Díky tomuto tréninku se stává mistrem v porozumění kontextu a zároveň i ve vytváření nových, smysluplných textů. Proto je skvělý například pro automatické psaní shrnutí dlouhých článků nebo pro překlady mezi jazyky.


Odborná definice

BART je akronym pro Bidirectional and Auto-Regressive Transformers. Jedná se o sekvence-sekvence (seq2seq) model založený na architektuře Transformer, který byl představen výzkumným týmem společnosti Meta AI v roce 2019. Jeho unikátnost spočívá v kombinaci dvou odlišných přístupů k předtrénování. Využívá obousměrný enkodér, podobně jako model BERT, a autoregresivní dekodér, charakteristický pro modely jako GPT. Tato hybridní architektura umožňuje BARTu excelovat v širokém spektru úloh zpracování přirozeného jazyka (NLP).

Předtrénink modelu probíhá jako tzv. denoising autoencoding. Vstupní text je nejprve záměrně poškozen různými metodami, jako je maskování, odstranění či prohození tokenů (slov nebo jejich částí) a vyplňování chybějících částí textu. Cílem modelu je následně z tohoto poškozeného vstupu zrekonstruovat původní, neporušený text. Tento proces učí model hlubokému porozumění gramatice, sémantice a kontextovým vztahům v textu.

Díky svému enkodéru, který zpracovává informace z celé věty najednou (obousměrně), dokáže BART efektivně porozumět kontextu. Jeho autoregresivní dekodér pak generuje text sekvenčně, token po tokenu, což je ideální pro generativní úlohy. Po fázi předtrénování je model dále dolaďován (fine-tuning) na specifických datasetech pro konkrétní aplikace. Mezi typické příklady použití patří abstraktivní sumarizace textu, strojový překlad, odpovídání na otázky a generování textu. Například při sumarizaci enkodér zpracuje celý zdrojový dokument a dekodér následně vygeneruje jeho stručné a koherentní shrnutí.