Alapozás
Bevezetés: A generatív mesterséges intelligencia fejlődéstörténete és jelenlegi helyzete. A digitális tartalomelőállítás kihívásai és a generatív módszerek lehetséges alkalmazásai. Etikai és jogi szempontok. Az inverz grafika és a differenciálhatóság jelentősége. Válogatott alkalmazások bemutatása.
Optimalizáció és automatikus differenciálás: A szükséges előismeretek felelevenítése. Optimalizációs feladat fogalma, fajtái. Gradiens módszer, stochasztikus gradiens, momentum, ADAM. Newton és kvázi-Newton módszerek. Forward és reverse módú automatikus differenciálás módszerei és szoftveres implementációi.
Mélytanulás alapjai: neurális hálózatok története, aktivációs függvény, lineáris és nemlineáris hálózatok. Multi-Layer Perceptron (MLP). Tanítás, backpropagation algoritmus, nagy adathalmazok kezelése. Konvolúciós neurális hálók. Népszerű architektúrák. Reziduális hálók. Regularizációs módszerek. U-Net architektúra.
Automatikus differenciálás és mélytanulás a gyakorlatban: Bevezetés a PyTorch használatába. Jupyter notebookok, Google Colab használata. Adatok beolvasása és megjelenítése, optimalizációs problémák megoldása, neurális hálózatok tanítása.
Generatív Képszintézis
Matematikai alapok: Valószínűségszámítási és lineáris algebrai előismeretek átismétlése. Valószínűségi változók mintavételezése. Többdimenziós normális eloszlások. Log-likelihood, Gibbs eloszlás, score függvény. Vektormezők, folyamok, közönséges és sztochasztikus differenciálegyenletek. Gradiens és Langevin dinamika.
Generatív módszerek alapjai: Diszkriminatív és generatív tanulás. Explicit és implicit generatív módszerek. Generált eloszlások minősítése: IS, FID. Látens tér fogalma. PCA. Autoenkóderek, VAE. GAN. Feltételes generálás.
Autoregresszív modellek: RNN. Transformer architektúra, figyelemmechanizmus. Vision Transformer. Képgenerálás pixel/látens térben. Kép tokenizálása, VQVAE/GAN.
Diffúziós modellek: A zajcsökkentő autoenkóderektől a diffúziós modellekig. DDPM, DDIM, EDM. Score matching. Zaj ütemezési és mintavételezési technikák. Megvalósítás U-Net és Transformer architektúrákkal. Látens diffúzió.
Folyamillesztés: Valószínűségi folyamok, folyamillesztés (flow matching). Kapcsolat a diffúzióval és egyéb módszerekkel. Integrálási módszerek. Rektifikáció. Sztochasztikus interpolánsok, folyamok általános eloszlások között, összerendelési módszerek.
Vezérelt generálás: Multimodalitás, CLIP beágyazás. Vezérelt diffúziós és folyam-alapú módszerek, classifier-free-guidance. ControlNet. Finomhangolási módszerek: DreamBooth, LoRA. Szöveges inverzió.
Diffúziós képszintézis a gyakorlatban: Esettanulmányok: a Stable Diffusion architektúra fejlődése, kurrens modellek áttekintése. HuggingFace Diffusers könyvtár bemutatása. A 1. házi feladat kiadása.
Haladó diffúziós képszintézis: Gyorsított mintavételezés, disztilláció. Finomhangolás modern módszerei. Feliratok generálása. Diffúziós dekódolás. Diffúziós priorok a képfeldolgozásban. Novel View Synthesis.
Videógenerálás: A videógenerálás kihívásai. Autóregressziv és diffúziós megközelítések. Időbeli konzisztencia biztosítása. Diffusion forcing. Vezérlés képpel, hanggal. Hang generálása. Akció-vezérelt generálás, “világmodell”. Kitekintés.
Generatív 3D és Inverz Grafika
3D generatív modellezés alapjai: 3D geometriai reprezentációk fajtái: pontfelhők, sokszöghálók, parametrikus/implicit felületek, volumetrikus adatok. Reprezentációk közötti konverzió, masírozó kockák és variánsai. Neurális hálók alkalmazása 3D adatokra. Pytorch3D. Pontfelhők, voxelek, hálók generálása, topológiai kihívások.
Neurális implicit reprezentációk: Implicit felületek, távolságmezők, indikátorfüggvények reprezentációja neurális hálókkal. Pozicionális kódolás. Aktivációs függvények megválasztása. Regularizációs módszerek. Hibrid implicit reprezentációk. Neurális implicit kondicionálás és generálás módszerei.
Inverz grafika alapjai: Motiváció. A grafikai képszintézis módszerei. Raszterizáció, sugárkövetés és sphere tracing differenciálhatóvá tétele. Radiant backpropagation. Sziluettek problémája. Nem-differenciálható renderer differenciálhatóvá alakítása.
Inverz grafika alkalmazásai: Explicit és implicit geometria optimalizációja, gradiens mezők szűrése. Differenciálás tesszelláción keresztül. Textúrák, anyagjellemzők, 3D orientációk optimalizációja. NVIDIA Kaolin és Mitsuba szoftverek bemutatása. A 2. Házi Feladat kiadása.
Neurális Radiancia Mezők (NeRF): Volumetrikus renderelés alapjai, ray marching. Radiancia mezők reprezentációja gömbi harmonikusokkal és neurális hálókkal. Dfferenciálható renderelés és optimalizáció. Radiancia mezők konverziója poligonhálóvá. NeRF variánsai.
3D Gaussian Splatting (3DGS): Előzmények: pont-alapú grafika. Gaussi pontfelhőkkel reprezentált radiancia mezők differenciálható renderelése. Tiled rendering, 3DGS optimalizáció. 3DGS variánsai.
NeRF / 3DGS a gyakorlatban: Fotogrammetria alapjai. Bemeneti adatok előkészítése, kamerapozíciók meghatározása. Szoftverek bemutatása: COLMAP, Instant NGP, Nerfstudio, SuperSplat. Dinamikus NeRF / 3DGS. Többkamerás felvételek készítése.
Inverz grafika generatív alkalmazásai: 2D generatív modellek 3D disztillációja: SDS, DreamFusion és továbbfejlesztései. NeRF / 3DGS generálás módszerei. 3D avatárok generálása és vezérlése. Nagy rekonstrukciós modellek.
Kitekintés, lezárás és a hallgatói önálló projektek előadásai