Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Generatív AI és inverz módszerek a képszintézisben

    A tantárgy angol neve: Generative AI and Inverse Methods in Image Synthesis

    Adatlap utolsó módosítása: 2026. február 5.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar
    Mérnök Informatikus
    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VIIIBXAV059-00   4/0/0/v 4  
    3. A tantárgyfelelős személy és tanszék Vaitkus Márton,
    A tantárgy tanszéki weboldala https://vaitkusm.github.io/genai-inverse-graphics-bme-vik-iit/
    4. A tantárgy előadója Dr. Vaitkus Márton
    5. A tantárgy az alábbi témakörök ismeretére épít Számítógépes grafikavalószínűségszámítás, mesterséges intelligencia alapjai. Python nyelv alapfokú ismerete. 
    6. Előtanulmányi rend
    Ajánlott:
    Ajánlott: Számítógépes Grafika (VIIIAB07), Mesterséges Intelligencia (VIMIAC16) 
    7. A tantárgy célkitűzése

    Napjainkban a generatív mesterséges intelligencia (artificial intelligence, AI) forradalmasítani készül a számítógépes grafika és animáció, valamint a digitális tartalomgyártás területét. A korszerű generatív technikákkal valósághű álló- vagy mozgóképek szintetizálása lehetséges akár szöveges leírás alapján. Hasonló módszerekkel a modellező programokban vagy grafikus motorokban közvetlenül felhasználható 3D modellek vagy komplett virtuális környezetek generálása is lehetségessé vált. A generatív módszerek ilyen rohamos fejlődését két fontos alaptechnológia tette lehetővé. Az egyik a mélytanulás, azaz a többrétegű neurális hálózatok alkalmazása a diffúziós és más generatív modellekben. A másik az inverz grafika, ami  megfordítva a grafikai képalkotás szokásos folyamatát  kívánt képi látványból kiindulva szintetizálja a megjelenített 3D színtért elemeit. Mindkét technológia sikerében kulcsszerepet játszik a differenciális optimalizáció és annak megvalósítása párhuzamos (általában grafikus) hardveren. Az olyan kurrens dszerek, mint a “Neural Radiance Field” (NeRF), vagy a “3D Gaussian Splatting” (3DGS) tudományos alapkutatásból igen rövid időn belül gyakorlati technológiává léptek elő és fontos elemei a 3D generatív modellezésnek. 

     

    A tárgy célja bevezetni a hallgatót a 2D és 3generatív AI, valamint az inverz grafika világába. A neurális hálózatokhoz, mélytanuláshoz, optimalizációhoz és 3D geometriához kapcsolódó alapismeretek elsajátítása után a hallgató kompetenciákat szerezhet a diffúziós módszerekkel történő képszintézis, a generatív módszerek 3D grafikai alkalmazásai és a differenciálható renderelés területén. Az elméleti alapokon felül az ismertetett technikák gyakorlati implementációi és alkalmazásai is bemutatásra kerülnek. 

    8. A tantárgy részletes tematikája

    Alapozás 


    Bevezetés: A generatív mesterséges intelligencia fejlődéstörténete és jelenlegi helyzete. A digitális tartalomelőállítás kihívásai és a generatív módszerek lehetséges alkalmazásai. Etikai és jogi szempontok. Az inverz grafika és a differenciálhatóság jelentősége. Válogatott alkalmazások bemutatása. 


    Optimalizáció és automatikus differenciálás: A szükséges előismeretek felelevenítése. Optimalizációs feladat fogalma, fajtái. Gradiens módszer, stochasztikus gradiens, momentum, ADAM. Newton és kvázi-Newton módszerek. Forward és reverse módú automatikus differenciálás módszerei és szoftveres implementációi.  


    Mélytanulás alapjai: neurális hálózatok története, aktivációs függvény, lineáris és nemlineáris hálózatok. Multi-Layer Perceptron (MLP). Tanítás, backpropagation algoritmus, nagy adathalmazok kezelése. Konvolúciós neurális hálók. Népszerű architektúrák. Reziduális hálók. Regularizációs módszerek. U-Net architektúra. 


    Automatikus differenciálás és mélytanulás a gyakorlatban: Bevezetés a PyTorch használatába. Jupyter notebookok, Google Colab használata. Adatok beolvasása és megjelenítése, optimalizációs problémák megoldása, neurális hálózatok tanítása.  


     


    Generatív Képszintézis  


    Matematikai alapok: Valószínűségszámítási és lineáris algebrai előismeretek átismétlése. Valószínűségi változók mintavételezése. Többdimenziós normális eloszlások. Log-likelihood, Gibbs eloszlás, score függvény. Vektormezők, folyamok, közönséges és sztochasztikus differenciálegyenletek. Gradiens és Langevin dinamika.   


    Generatív módszerek alapjai: Diszkriminatív és generatív tanulás. Explicit és implicit generatív módszerek. Generált eloszlások minősítése: IS, FID. Látens tér fogalma. PCA. Autoenkóderek, VAE. GAN. Feltételes generálás.  


    Autoregresszív modellek: RNN. Transformer architektúra, figyelemmechanizmus.  Vision Transformer. Képgenerálás pixel/látens térben. Kép tokenizálása, VQVAE/GAN. 


    Diffúziós modellek: A zajcsökkentő autoenkóderektől a diffúziós modellekig. DDPM, DDIM, EDM. Score matching. Zaj ütemezési és mintavételezési technikák. Megvalósítás U-Net és Transformer architektúrákkal. Látens diffúzió.  


    Folyamillesztés: Valószínűségi folyamok, folyamillesztés (flow matching). Kapcsolat a diffúzióval és egyéb módszerekkel. Integrálási módszerek. Rektifikáció. Sztochasztikus interpolánsok, folyamok általános eloszlások között, összerendelési módszerek.  


    Vezérelt generálás: Multimodalitás, CLIP beágyazás. Vezérelt diffúziós és folyam-alapú módszerek, classifier-free-guidance. ControlNet. Finomhangolási módszerek: DreamBooth, LoRA. Szöveges inverzió.  


    Diffúziós képszintézis a gyakorlatban: Esettanulmányok: a Stable Diffusion architektúra fejlődése, kurrens modellek áttekintése. HuggingFace Diffusers könyvtár bemutatása. A 1. házi feladat kiadása. 


    Haladó diffúziós képszintézis: Gyorsított mintavételezés, disztilláció. Finomhangolás modern módszerei. Feliratok generálása. Diffúziós dekódolás. Diffúziós priorok a képfeldolgozásban. Novel View Synthesis.  


    Videógenerálás: A videógenerálás kihívásai. Autóregressziv és diffúziós megközelítések. Időbeli konzisztencia biztosítása. Diffusion forcing. Vezérlés képpel, hanggal. Hang generálása. Akció-vezérelt generálás, “világmodell”. Kitekintés.  


     


    Generatív 3D és Inverz Grafika 


    3D generatív modellezés alapjai: 3D geometriai reprezentációk fajtái: pontfelhők, sokszöghálók, parametrikus/implicit felületek, volumetrikus adatok. Reprezentációk közötti konverzió, masírozó kockák és variánsai. Neurális hálók alkalmazása 3D adatokra. Pytorch3D. Pontfelhők, voxelek, hálók generálása, topológiai kihívások.  


    Neurális implicit reprezentációk: Implicit felületek, távolságmezők, indikátorfüggvények reprezentációja neurális hálókkal. Pozicionális kódolás. Aktivációs függvények megválasztása. Regularizációs módszerek. Hibrid implicit reprezentációk. Neurális implicit kondicionálás és generálás módszerei. 


    Inverz grafika alapjai: Motiváció. A grafikai képszintézis módszerei. Raszterizáció,  sugárkövetés és sphere tracing differenciálhatóvá tétele. Radiant backpropagation. Sziluettek problémája. Nem-differenciálható renderer differenciálhatóvá alakítása. 


    Inverz grafika alkalmazásai: Explicit és implicit geometria optimalizációja, gradiens mezők szűrése. Differenciálás tesszelláción keresztül. Textúrák, anyagjellemzők, 3D orientációk optimalizációja. NVIDIA Kaolin és Mitsuba szoftverek bemutatása. A 2. Házi Feladat kiadása. 


    Neurális Radiancia Mezők (NeRF): Volumetrikus renderelés alapjai, ray marching. Radiancia mezők reprezentációja gömbi harmonikusokkal és neurális hálókkal. Dfferenciálható renderelés és optimalizáció. Radiancia mezők konverziója poligonhálóvá. NeRF variánsai.  


    3D Gaussian Splatting (3DGS): Előzmények: pont-alapú grafika. Gaussi pontfelhőkkel reprezentált radiancia mezők differenciálható renderelése. Tiled rendering, 3DGS optimalizáció. 3DGS variánsai.  


    NeRF / 3DGS a gyakorlatban: Fotogrammetria alapjai. Bemeneti adatok előkészítése, kamerapozíciók meghatározása. Szoftverek bemutatása: COLMAP, Instant NGP, Nerfstudio, SuperSplat. Dinamikus NeRF / 3DGS. Többkamerás felvételek készítése.  


    Inverz grafika generatív alkalmazásai: 2D generatív modellek 3D disztillációja: SDS, DreamFusion és továbbfejlesztései. NeRF / 3DGS generálás módszerei. 3D avatárok generálása és vezérlése. Nagy rekonstrukciós modellek. 


     


    Kitekintés, lezárás és a hallgatói önálló projektek előadásai 

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Hetente 2 előadás. Az elméleti ismereteken felül gyakorlatban használt programkönyvtárak is bemutatásra kerülneka házi feladatok elvégzéséhez szükséges részletességgel. 
    10. Követelmények
    Szorgalmi Időszakban:
    • Az aláírás feltétele két kisebb házi feladat sikeres elkészítése egy interaktív Python keretrendszerben (kiadás a6.és a 10héten, beadás 9. és 13. héten). A házi feladatok értékelése az érdemjegyet nem befolyásolja.

    • Az érdemjegy szóbeli vizsgán kerül megállapításra. 

    • A félév során a hallgatók önálló projektekre vállalkozhatnak, amely egy szemináriumi előadás megtartását jelenti. Sikeresen bemutatott projektért megajánlott jegy jár, és a hallgató a vizsgakötelezettség alól mentesül.


    Vizsgaidőszakban: Szóbeli vizsga
    11. Pótlási lehetőségek kis házi feladatok indokolt esetben a pótlási héten pótolhatóak.  
    12. Konzultációs lehetőségek Hallgatói igény szerint, előre egyeztetett időpontban, elsősorban a házi feladatokkal és az önálló projektekkel kapcsolatban. 
    13. Jegyzet, tankönyv, felhasználható irodalom

    A tárgyhoz készített írásos jegyzetek. 

     

    Ajánlott irodalom, háttéranyagok: 

    Szemenyei, M.VarnyúD. – Deep Learning a vizuális informatikában - egyetemi jegyzet (2023) 

    Zhang et al – Dive into Deep Learning (2023) 

    Bishop, C.; Bishop H. – Deep LearningFoundations and Concepts (2022) 

    Blondel, M; Roulet, V. - The Elements of Differentiable Programming (2024) 

     

    Holderrieth, PErrives, E.  An Introduction to Flow Matching and Diffusion Models (2025) 

    Po, R. et al. – State of the Art on Diffusion Models for Visual Computing (2024) 

    Wang, Y. et al.   Survey of Video Diffusion Models: Foundations, Implementations, and Applications (2025) 

     

    Wang, C. et al.  Diffusion models for 3D generation: A survey (2025) 

    Spielberg, A et al.  Differentiable visual computing for inverse problems and machine learning (2023) 

    Xie, Y. et al.  Neural Fields in Visual Computing and Beyond (2022) 

    Chen, G.; Wang, W. – A Survey On 3D GaussIan SplattIng (2025)  

    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra56
    Félévközi készülés órákra14
    Felkészülés zárthelyire---
    Házi feladat elkészítése24
    Kijelölt írásos tananyag elsajátítása---
    Vizsgafelkészülés26
    Összesen120
    15. A tantárgy tematikáját kidolgozta Dr. Vaitkus Márton, egyetemi adjunktus, BME-VIK IIT