Reinforcement Learning

Rozhodnete se , že naučíte psa novému triku, například „přines míček“. Když pes míček přinese, dostane pamlsek (pozitivní odměna). Když místo toho začne okusovat botu, nedostane nic, nebo ho mírně pokáráte (negativní zpětná vazba). Pes postupně sám zjistí, jaké chování vede k odměně, a začne ho opakovat častěji. Zpětnovazební učení funguje na stejném principu. Umělá inteligence (agent) zkouší různé akce ve svém digitálním světě a za každou akci dostává body – kladné za úspěch, záporné za neúspěch. Tímto způsobem se sama, metodou pokusu a omylu, naučí, jaká strategie je nejlepší pro dosažení cíle.

Zpětnovazební učení (Reinforcement Learning) je oblast strojového učení, která se zabývá tím, jak by se měl softwarový agent chovat v daném prostředí, aby maximalizoval kumulativní odměnu. Model není trénován na označených datech, ale učí se prostřednictvím interakce metodou pokusu a omylu. Agent provádí akce v prostředí, které následně přechází do nového stavu a poskytuje agentovi odměnu nebo penalizaci. Cílem agenta je naučit se optimální strategii (policy), což je mapování ze stavů na akce, které vede k nejvyšší celkové odměně v dlouhodobém horizontu. Tento přístup je klíčový pro řešení úloh s dynamickým rozhodováním, jako je hraní her, řízení robotů nebo optimalizace logistických procesů.