Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Deep learning alkalmazása a vizuális informatikában

    A tantárgy angol neve: Deep Learning in Visual Computing

    Adatlap utolsó módosítása: 2018. november 6.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar
    Mérnök-informatikus Szak, BSc és MSc képzés
    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VIIIAV20   2/0/2/v 4  
    3. A tantárgyfelelős személy és tanszék Dr. Szirmay-Kalos László, Irányítástechnika és Informatika Tanszék
    4. A tantárgy előadója

    Dr. Harmati István, egyetemi docens

    Tóth Márton József, egyetemi tanársegéd

    Szemenyei Márton, egyetemi tanársegéd

    5. A tantárgy az alábbi témakörök ismeretére épít

    Matematika, Számítógépes grafika

    7. A tantárgy célkitűzése

    A tárgy célja a GPU alapú deep learning technikák alkalmazásának bemutatása a vizuális informatika területén (gépi látás, alakzatfelismerés, textúra és optikai modell szintézis, zajszűrés, szuperfelbontás, tomográfia), megismertetve a hallgatókat a képi információfeldolgozás, valamint a látás alapú robotika feladataival, a GPGPU megközelítés elemeivel, és ezekre a feladatokra a mélytanulás alkalmazásával.

    8. A tantárgy részletes tematikája

    Hét

    Előadás anyaga

    1.

    Bevezetés a gépi látásba, alapfeladatok, nehézségek.

    Képfeldolgozás matematikai alapjai: konvolúció, Fourier transzformáció, szűrés frekvencia tartományban.

    2.

    GPGPU programozás alapjai: a GPU mint általános célú számítási platform.

    Gyakorlat:

    OpenCL/CUDA platform, párhuzamos feldolgozási primitívek, mátrix műveletek, megjelenítés OpenGL-ben.

    3.

    Tanuló látás, mérőszámok. Lineáris osztályozás, költségfüggvények, optimalizálási módszerek. Neurális hálózatok alapjai: moduláris backpropagation, többrétegű neurális hálók.

    Gyakorlat:

    Konvolúció GPU-n.

    4.

    Konvolúciós neurális hálók, Gépi látásban gyakran használt háló architektúrák. Tanuló látás gyakorlati problémái és praktikái.

    Gyakorlat:

    Képfeldolgozási műveletek megvalósítása GPU-n, élkeresés, élesítés, bilaterális szűrés, medián szűrés, hisztogram kiegyenlítés, Hough transzformáció.

    5.

    Neurális hálózatok GPU-n. A tanítást és kiértékelést támogató architektúrális egységek. Optimalizálás masszívan párhuzamos architektúrán.

    Gyakorlat:

    MLP implementálása GPU-n, egyszerű geometriai alakzatok felismerése.

    6.

    Deep Learning 3D-ben, térbeli struktúrák reprezentációja, volumetrikus hálók, kd-hálók, ponthálók.

    Gyakorlat:

    Implementált konvolúciós háló vizsgálata.

    7.

    Videoanalitika, vizuális figyelem, események detektálása videókon, vezető segítő rendszerek.

    Gyakorlat:

    Ismerkedés deep learning keretrendszerekkel.

    8.

    Szegmentációs és detekciós módszerek, önjáró autók vizuális intelligenciája és szenzorai, vezetéshez releváns objektumok felismerése, adatbázisok

    Gyakorlat:

    Közlekedési táblák osztályozása konvolúciós neurális hálózatokkal.

    9.

    Textúra generálás, hiányzó képrészletek kipótlása, objektumok eltüntetése. Fekete-fehér képek színezése, stílus transzfer konvolúciós hálókkal.

    Gyakorlat:

    Szuperfelbontás és stílus transzfer implementálása.

    10.

    Felügyelt tanulás hátrányai és limitációi, vizuális intelligencia. megerősítéses tanulás segítségével, DQN, REINFORCE, Actor-Critic. Számítógépes játékok ágenseinek létrehozása, kemény vizuális figyelem.

    Gyakorlat:

    Objektum detekció, detektált objektumok követése.

    11.

    Neurális hálók alkalmazása a robotikában, megerősítéses tanulás irányítási és kooperációs problémák megoldására

    Gyakorlat:

    Szemantikus szegmentálás robotfoci környezetben.

    12.

    Részecske transzport feladatok megoldása. Monte Carlo képszintézis módszerek alapjai. A Monte Carlo módszerek okozta zaj tulajdonságai. Monte Carlo képszintézis a filmkészítésben.

    Gyakorlat:

    Monte Carlo képszintézis módszerek tipikus zaj mintázatának csökkentése.

    13.

    Mélytanuló módszerek alkalmazása PET rekonstrukcióban. CT/MRI felvételek axiális szeleteinek osztályozása hagyományos módszerekkel illetve neurális hálózatokkal.

    Gyakorlat:

    Konvolúciós hálózatok alkalmazása voxel tömbökre.

    14.

    Neurális hálózatok a modellezésben.

    Gyakorlat:

    Megvilágítás és anyagmodell szétválasztás, BRDF rekonstrukció és generálás.

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

    Előadás, laborgyakorlat

    10. Követelmények

    A szorgalmi időszakban:

    (1) A gyakorlást nagy házi feladat biztosítja, amelynek beadási határideje a szorgalmi időszak vége.

    A vizsgaidőszakban:

    A tantárgy anyagából a hallgatók vizsgát tesznek. A félév végi osztályzatot a házi feladat (50%) és a vizsgajegy (50%) alapján kapják. A vizsgán a hallgatóknak el kell érniük a meghatározott minimum szintet (40%).

    11. Pótlási lehetőségek

    A házi (otthoni) feladatot a szorgalmi időszak végéig be kell adni, annak pótlása a pótlási időszakban lehetséges. A pótlási időszak a kétciklusú képzésben az ún. pótlási hét (a szorgalmi időszak vége és a vizsgaidőszak kezdete közötti hét), az ötéves képzésben a vizsgaidőszak első 3 hete (ld. TVSZ 16. § (2)).

    12. Konzultációs lehetőségek

    Igény szerint előadóval egyeztetve.

    13. Jegyzet, tankönyv, felhasználható irodalom
    • Rajalingappaa Shanmugamani, Deep Learning for Computer Vision, Pack Publishing, ISBN 9781788295628, 2018
    • Ian Goodfellow, Yoshua Bengio and Aaron Courville, Deep Learning, MIT press, 2016, http://www.deeplearningbook.org 
    • John C. Russ, F. Brent Neal, The Image Processing Handbook, 7th edition, CRC Press, ISBN 149874026X, 2016 
    • Jason Sanders, Edward Kandrot, CUDA by Example, Addison-Wesley press, ISBN 0-13-138768-5, 2010
    • GPU Computing Gems – Emerald Edition, Editor: Wen-mei W. Hwu., Morgan Kaufmann Publisher,ISBN: 9780123849885, 2011 
    • Programming Massively Parallel Processors, David B. Kirk, Wen-mei W. Hwu, Morgan Kaufmann Publisher, ISBN 978-0-12-381472-2, 2010
    • N. Mitra et al: Deep learning for graphics, UCL, http://geometry.cs.ucl.ac.uk/dl4g/
    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra56
    Félévközi készülés órákra10
    Felkészülés zárthelyire 
    Házi feladat elkészítése27
    Kijelölt írásos tananyag elsajátítása 
    Vizsgafelkészülés27
    Összesen120
    15. A tantárgy tematikáját kidolgozta

    Dr Szirmay-Kalos László

    egyetemi tanár

    Dr Harmati István

    egyetemi docens

    Tóth Márton József

    egyetemi tanársegéd

    Szemenyei Márton

    egyetemi tanársegéd