Regrese

Regrese je základní úloha strojového učení a statistiky, jejímž cílem je modelovat vztah mezi proměnnými a předpovídat spojitou číselnou hodnotu. Na rozdíl od Klasifikace„>Klasifikace/“ title=“Klasifikace„>Klasifikace, která datům přiřazuje kategorii (např. „spam“ nebo „ne-spam“), se Regrese snaží odpovědět na otázku „kolik?“ nebo „jaká bude hodnota?“.


Jak Regrese funguje

Představte si, že chcete předpovědět cenu domu. Máte k dispozici data o prodaných domech, která obsahují jejich rozlohu (vstupní proměnná, rys) a prodejní cenu (cílová hodnota). Když tato data vynesete do grafu, pravděpodobně uvidíte nějaký trend – například že s větší rozlohou roste i cena.

Cílem Regrese je najít matematickou funkci, která tento trend co nejpřesněji popisuje. V nejjednodušším případě se snažíme daty proložit přímku (line of best fit), která je co nejblíže všem datovým bodům. Jakmile tuto přímku (model) máme, můžeme ji použít k odhadu ceny nového domu, u kterého známe pouze jeho rozlohu. Jednoduše najdeme bod na přímce odpovídající dané rozloze a jeho hodnota na svislé ose je naše předpověď.


Typy regresních modelů

Existuje mnoho typů Regrese, které se liší podle složitosti vztahu, který dokážou modelovat.

  • Lineární Regrese (Linear Regression): Nejzákladnější typ, který předpokládá, že vztah mezi proměnnými je lineární (lze ho popsat přímkou).
    • Jednoduchá lineární Regrese: Pracuje pouze s jednou vstupní proměnnou (např. cena domu v závislosti na jeho rozloze).
    • Vícenásobná lineární Regrese: Využívá více vstupních proměnných najednou (např. cena domu v závislosti na rozloze, stáří a vzdálenosti od centra).
  • Polynomická Regrese (Polynomial Regression): Používá se, když vztah mezi proměnnými není přímkový, ale má podobu křivky. Umožňuje modelovat složitější, nelineární trendy v datech.
    • Příklad: Vztah mezi množstvím hnojiva a výnosem plodiny, který zpočátku roste, ale po dosažení určitého bodu může začít klesat.
  • Další pokročilé modely: Pro velmi složité vztahy se používají i další algoritmy, jako jsou rozhodovací stromy, náhodné lesy nebo neuronové sítě upravené pro regresní úlohy.

Jak se hodnotí úspěšnost Regrese

U Regrese nemůžeme jednoduše říci, zda je odpověď „správná“ nebo „špatná“ jako u Klasifikace/“ title=“Klasifikace„>Klasifikace. Místo toho měříme, jak blízko je předpověď skutečné hodnotě. K tomu slouží tzv. evaluační metriky:

  • Střední absolutní chyba (Mean Absolute Error, MAE): Průměrná absolutní odchylka mezi předpovězenými a skutečnými hodnotami. Říká nám, o kolik se model v průměru mýlí.
  • Střední kvadratická chyba (Mean Squared Error, MSE): Podobná jako MAE, ale odchylky před zprůměrováním umocňuje. Tím více „trestá“ velké chyby a je citlivější na odlehlé hodnoty.
  • Koeficient determinace (R-kvadrát, R²): Udává, jaký podíl variability v datech dokáže model vysvětlit. Hodnota blízká 1 znamená, že model velmi dobře popisuje data, zatímco hodnota blízká 0 značí, že model data nevysvětluje téměř vůbec.