Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Multimédia tartalmak intelligens feldolgozása

    A tantárgy angol neve: Multimedia Content Technologies

    Adatlap utolsó módosítása: 2014. október 2.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar
    Mérnökinformatikus szak, MSc képzés,
    Adat- és médiainformatika mellékspecializáció
    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMMB01 3 2/1/0/v 4  
    3. A tantárgyfelelős személy és tanszék Dr. Szűcs Gábor, Távközlési és Médiainformatikai Tanszék
    4. A tantárgy előadója Dr. Szűcs Gábor PhD, egyetemi docens, BME-TMIT
    Dr. Mihajlik Péter PhD, egyetemi adjunktus, BME-TMIT
    5. A tantárgy az alábbi témakörök ismeretére épít Médiainformációs technológiák és eszközök.
    6. Előtanulmányi rend
    Kötelező:
    NEM ( TárgyEredmény( "BMEVITMM138" , "jegy" , _ ) >= 2
    VAGY
    TárgyEredmény("BMEVITMM138", "FELVETEL", AktualisFelev()) > 0)

    A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

    A kötelező előtanulmányi rendek grafikus formában itt láthatók.

    Ajánlott:
    Nincs
    7. A tantárgy célkitűzése A tárgy célkitűzése a multimédia tartalmak automatikus felhasználásához szükséges módszerek oktatása, amelyek segítségével az intelligens rendszerek kezelni, szűrni, felismerni, elemezni, rendezni tudják a multimédia állományokat. A hallgatók részletesen megismerkedhetnek a multimédia tartalmak hatékonyan indexeléséhez, kereséséhez, annotációjához, csoportosításához szükséges technikai apparátussal, hang- kép- és videofeldolgozási algoritmusokkal, platformokkal és gyakorlati alkalmazásokkal, melyek rámutatnak a közvetlen ipari alkalmazhatóság jelentőségére (pl. beszédfelismerés, képi objektumfelismerés). A félév végére a hallgatók elsajátítják azokat a módszereket, melyek alkalmasak arra, hogy a napjaink média-intenzív világában általánossá vált heterogén, zajos és hiányos multimédia tartalmakat is kezeljenek, elemezzenek és biztosítsák gyors kereshetőségüket.
    8. A tantárgy részletes tematikája A tantárgy a tartalomelemzés alapfogalmaitól indulva bemutatja a multimédia tartalmak feldolgozásánál használt módszereket és azok alkalmazásait.
    • Bevezetés: Tartalomelemzés alapfogalmainak ismertetése. Multimédia tartalom elemzési problémák, alkalmazások.
    • Multimédia előfeldolgozás: index (reprezentáció) építés: generikus multimédia indexelő eljárás. 
    • Keresés, multimédia query típusok: hasonlósági küszöbön belüli összes multimédia tartalom keresése, leghasonlóbb keresése, összes pár keresése. Kép keresése mintakép, felhasználói rajz, vagy kép jellemzőinek specifikálása (szín, textura, alak) alapján. Kontextus-függő képkeresés.
    • Hangfeldolgozás, akusztikai lényegkiemelés módszerei: ablakozás, burkolóspektrum számítás, zajok és lineáris torzítások hatásának mérséklése, a beszélők fiziológiai eltéréseinek kompenzálási módszerei. Audio jelek előfeldolgozásának módszerei. Szignálkeresési, zenefelismerési technikák.
    • Statisztikai alapú beszédfelismerés: akusztikai modellek. Koartikuláció-modellezés, fonetikus döntési fák. Rejtett Markov-modellek, Gaussian Mixture Model és mély neuronhálók használata, dekódolás, optimalizálási technikák.
    • Diarizálás, beszélő nemének kategorizálása. Nyelvi, lexikai modellek, nyelvfüggőség/-függetlenség. Konfidencia.
    • Jellemző kinyerési módok. Leírók előállítása, Fisher vektor.
    • Multimédia tartalmak összekapcsolási lehetőségei. Panorámakép összeállítás kisebb képekből. Arcdetektálás és csoportosítás.
    • Videó elemzés. Objektumok követése jellemző pontok alapján, MPEG1 makroblokk elmozdulás becslés.
    • Zene, és mozgóképek automatikus annotációja.
    • Kép (objektum) felismerés, képi szózsák modell. Random Forest és alkalmazása az objektumfelismerésben.
    • Multimédia tartalmak automatikus rendezése: Jellemző kép kiválasztás fényképalbumokból. Kép- videó- és hangállományok automatikus csoportosítása.
    • Különböző típusú médiatartalmak visszakeresése, találati lista diverzifikáció.
    • Multimodális tartalomelemzés, kiértékelési módszerek: Kiértékelési karakterisztikák. Benchmarkok.
    Gyakorlatok:
    • Multimédia index építés
    • Random Forest használata
    • Jellemző kinyerési módok vizsgálata
    • Multimédia elemzési gyakorlat
    • Audio jelek előfeldolgozása
    • Statisztikai alapú beszédfelismerési gyakorlat
    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Heti 2 óra előadás, 1 óra gyakorlat
    10. Követelmények A szorgalmi időszakban: 1 db zárthelyi és 1 nagy házi feladat. A vizsgaidőszakban: A vizsga módja: írásbeli. Az aláírás feltétele a nagy házi feladat és a zárthelyi (beleértve a pótló zárthelyiket is: lásd a következő pontban) legalább elégséges szintre történő megírása.
    11. Pótlási lehetőségek A zárthelyi pótlására a szorgalmi időszakban egy lehetőséget biztosítunk. Azok számára, akiknek nem sikerült sem a zárthelyi, sem a pótzárthelyi: a pótlási időszakban 1 alkalmat biztosítunk egy újabb zárthelyi dolgozatra. Az aláírás feltétele valamelyik zárthelyi (első vagy a pót- vagy a pótpót-zárthelyi) legalább elégséges szintre történő megírása.
    12. Konzultációs lehetőségek A tárgy előadójával személyesen, vagy e-mailben egyeztetett időpontban.
    13. Jegyzet, tankönyv, felhasználható irodalom
    • Francisco Escolano, Pablo Suau, Boyán Bonev: Information Theory in Computer Vision and Pattern Recognition, Springer, Heidelberg, 2009. 
    • Németh G, Olaszy G. (szerk.) A magyar beszéd: Beszédkutatás, beszédtechnológia, beszédinformációs rendszerek, Akadémiai Kiadó, Budapest, 2010.
    • Ajay Divakaran (ed.): Multimedia Content Analysis: Theory and Applications, Springer, 2009.
    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra42
    Félévközi készülés órákra18
    Felkészülés zárthelyire25
    Házi feladat elkészítése0
    Kijelölt írásos tananyag elsajátítása0
    Vizsgafelkészülés35
    Összesen120
    15. A tantárgy tematikáját kidolgozta Dr. Szűcs Gábor PhD, egyetemi docens, BME-TMIT 
    Dr. Mihajlik Péter PhD, egyetemi adjunktus, BME-TMIT 
    Paróczi Zsombor, doktorandusz, BME-TMIT