Regrese je základní úloha strojového učení a statistiky, jejímž cílem je modelovat vztah mezi proměnnými a předpovídat spojitou číselnou hodnotu. Na rozdíl od Klasifikace„>Klasifikace/“ title=“Klasifikace„>Klasifikace, která datům přiřazuje kategorii (např. „spam“ nebo „ne-spam“), se Regrese snaží odpovědět na otázku „kolik?“ nebo „jaká bude hodnota?“.
Jak Regrese funguje
Představte si, že chcete předpovědět cenu domu. Máte k dispozici data o prodaných domech, která obsahují jejich rozlohu (vstupní proměnná, rys) a prodejní cenu (cílová hodnota). Když tato data vynesete do grafu, pravděpodobně uvidíte nějaký trend – například že s větší rozlohou roste i cena.
Cílem Regrese je najít matematickou funkci, která tento trend co nejpřesněji popisuje. V nejjednodušším případě se snažíme daty proložit přímku (line of best fit), která je co nejblíže všem datovým bodům. Jakmile tuto přímku (model) máme, můžeme ji použít k odhadu ceny nového domu, u kterého známe pouze jeho rozlohu. Jednoduše najdeme bod na přímce odpovídající dané rozloze a jeho hodnota na svislé ose je naše předpověď.
Typy regresních modelů
Existuje mnoho typů Regrese, které se liší podle složitosti vztahu, který dokážou modelovat.
- Lineární Regrese (Linear Regression): Nejzákladnější typ, který předpokládá, že vztah mezi proměnnými je lineární (lze ho popsat přímkou).
- Polynomická Regrese (Polynomial Regression): Používá se, když vztah mezi proměnnými není přímkový, ale má podobu křivky. Umožňuje modelovat složitější, nelineární trendy v datech.
- Příklad: Vztah mezi množstvím hnojiva a výnosem plodiny, který zpočátku roste, ale po dosažení určitého bodu může začít klesat.
- Další pokročilé modely: Pro velmi složité vztahy se používají i další algoritmy, jako jsou rozhodovací stromy, náhodné lesy nebo neuronové sítě upravené pro regresní úlohy.
Jak se hodnotí úspěšnost Regrese
U Regrese nemůžeme jednoduše říci, zda je odpověď „správná“ nebo „špatná“ jako u Klasifikace/“ title=“Klasifikace„>Klasifikace. Místo toho měříme, jak blízko je předpověď skutečné hodnotě. K tomu slouží tzv. evaluační metriky:
- Střední absolutní chyba (Mean Absolute Error, MAE): Průměrná absolutní odchylka mezi předpovězenými a skutečnými hodnotami. Říká nám, o kolik se model v průměru mýlí.
- Střední kvadratická chyba (Mean Squared Error, MSE): Podobná jako MAE, ale odchylky před zprůměrováním umocňuje. Tím více „trestá“ velké chyby a je citlivější na odlehlé hodnoty.
- Koeficient determinace (R-kvadrát, R²): Udává, jaký podíl variability v datech dokáže model vysvětlit. Hodnota blízká 1 znamená, že model velmi dobře popisuje data, zatímco hodnota blízká 0 značí, že model data nevysvětluje téměř vůbec.