Reward

Představte si znovu situaci, kdy učíte psa přinést míček. Samotný pamlsek, který mu dáte přesně ve chvíli, kdy míček pustí u vašich nohou, je odměna. Je to okamžitý a jasný signál: „Tohle jsi udělal správně!“ Stejně tak když pes místo míčku přinese starou botu a vy ho nepohladíte, je to pro něj forma (nulové nebo záporné) odměny, která říká: „Tohle k cíli nevede.“ V jazyce umělé inteligence je odměna přesně tento konkrétní bodový zisk nebo ztráta, kterou model dostane hned po provedení nějaké akce. Je to jednoduchý ukazatel, jestli byl daný krok dobrý, nebo špatný.

Odměna (Reward) je ve zpětnovazebním učení (Reinforcement Learning) klíčový skalární signál, který prostředí posílá agentovi jako zpětnou vazbu na jeho akci provedenou v určitém stavu. Tato numerická hodnota reprezentuje okamžitou žádoucnost dané akce. Kladná odměna signalizuje přiblížení k cíli, zatímco záporná odměna (penalizace) značí nežádoucí výsledek. Odměna je okamžitá a lokální, na rozdíl od celkové hodnoty (value), která odhaduje dlouhodobý kumulativní součet budoucích odměn. Na základě těchto signálů agent upravuje svou strategii (policy) tak, aby maximalizoval celkový součet odměn získaných v průběhu času. Správný návrh funkce odměny (reward function) je kritický pro úspěšné naučení požadovaného chování.