Redukce dimenzionality

Redukce dimenzionality je proces transformace dat z vysokodimenzionálního prostoru do prostoru s nižší dimenzí tak, aby byla zachována smysluplná informace. V kontextu strojového učení se jedná o soubor technik, které snižují počet vstupních proměnných neboli rysů (features) v datové sadě. Cílem je zjednodušit model, snížit výpočetní náročnost, odstranit redundantní nebo irelevantní rysy a předejít tzv. prokletí dimenzionality, které může zhoršovat výkon modelu. Metody se dělí na výběr rysů (feature selection), kde se vybírá podmnožina původních rysů, a extrakci rysů (feature extraction), která vytváří nové, méně početné rysy jako kombinaci těch původních.


Představte si, že máte tabulku s daty o domech, která má sto sloupců – od barvy fasády, přes typ klik u dveří až po stáří střešní krytiny. Zjistit z takového množství dat něco užitečného je složité a mnohé sloupce jsou zbytečné. Redukce dimenzionality je jako když se na tuto tabulku podívá expert, který řekne: „Pro určení ceny domu nám ve skutečnosti stačí znát jen jeho plochu, lokalitu a celkový stav.“ Místo sta sloupců vám tak najednou stačí jen tři nejdůležitější, se kterými se mnohem lépe pracuje, a přesto jste nepřišli o klíčovou informaci.