Difuzní modely si můžete představit jako umělce, který se učí tvořit tak, že nejprve dokonalý obraz postupně ničí přidáváním šumu, dokud nezbyde jen náhodné zrnění. Poté se učí tento proces obrátit – z náhodného šumu krok za krokem rekonstruuje původní obraz. Když se to naučí, dokáže z jakéhokoli nového šumu vygenerovat zcela originální, ale realistický obrázek, hudbu nebo text, který se podobá datům, na kterých trénoval.
Difuzní modely (anglicky diffusion models) představují třídu generativních pravděpodobnostních modelů v oblasti strojového učení. Jejich princip je založen na postupném ničení datové struktury v trénovacích datech prostřednictvím dopředného difuzního procesu, který systematicky přidává Gaussovský šum. Následně se model učí tento proces obrátit pomocí zpětného (reverzního) procesu, kde se neuronová síť, typicky architektury U-Net, trénuje na odstraňování šumu a rekonstrukci původních dat z jejich zašuměné verze.
Generování nových datových vzorků probíhá tak, že se na vstup modelu přivede čistý šum a model iterativně aplikuje naučený zpětný proces, čímž postupně formuje koherentní výstup. Tento mechanismus umožňuje generovat vysoce kvalitní a rozmanité vzorky, které se podobají trénovací datové sadě. Difuzní modely se uplatňují především v úlohách generování obrazu, zvuku a videa, kde dosahují špičkových výsledků v metrikách kvality a věrnosti. Jejich etymologie vychází z konceptu difúze v termodynamice, který popisuje postupné mísení částic.