Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Tartalomelemzés

    A tantárgy angol neve: Content Analysis

    Adatlap utolsó módosítása: 2013. január 22.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Mérnök informatikus szak, MSc képzés
    Médiainformatika szakirány

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMM139 1 2/1/0/v 4  
    3. A tantárgyfelelős személy és tanszék Dr. Szűcs Gábor, Távközlési és Médiainformatikai Tanszék
    4. A tantárgy előadója
    Név:Beosztás:Tanszék, Int.:
    Dr. Szűcs Gábor PhDegyetemi docensBME-TMIT
    Solt Illés
    tudományos segédmunkatárs
    BME-TMIT
    5. A tantárgy az alábbi témakörök ismeretére épít
    • Alapszintű algoritmuselméleti, halmazelméleti és algebrai ismeretek
    • Valószínűségszámítás alapjai

     

    6. Előtanulmányi rend
    Kötelező:
    NEM ( TárgyEredmény( "BMEVITMMA05" , "jegy" , _ ) >= 2
    VAGY
    TárgyEredmény("BMEVITMMA05", "FELVETEL", AktualisFelev()) > 0)

    A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

    A kötelező előtanulmányi rendek grafikus formában itt láthatók.

    7. A tantárgy célkitűzése

    Napjainkban a különböző formátumú (szöveges, képi, audio, video) elektronikus tartalmak számának rohamos növekedésével kiemelt fontosságúvá vált a tartalmak hatékony feldolgozás, amihez nélkülözhetetlen a megfelelő indexelő, annotáló, osztályozó, csoportosító és elemző módszerek, illetve módszertan kidolgozása. A megfelelő technikák alkalmazásával a multimédia dokumentumok tartalmában való keresés, illetve a megfelelő dokumentumok igényszerinti visszakeresése is megvalósítható.
    A tárgy célkitűzése, hogy megismertesse a hallgatókkal a tartalomelemzés alapvető feladatait. Ezek közül elsőként ismertesse a főleg indexeléshez használt metaadatok (jelölők) szerepét, a és jelölőkkel való ellátás megoldási lehetőségeit, különböző médiatípusok esetén. Ezután a szöveges dokumentumokra vonatkozó alapvető tartalomelemző eljárásokat ismertetjük (csoportosítás, osztályozás, kivonatolás), majd audio, álló- és mozgóképek tartalmának elemzési módszereibe nyernek a hallgatók bevezetést. Az előadás sorozatot néhány gyakorlatból vett esettanulmány zárja.

    8. A tantárgy részletes tematikája

    A tartalomelemzés feladatai

    • Leíróadatok, jelölők, feladat-specifikus
    • Tartalmak rendezése: csoportosítás, osztályozás
    • Tartalmak összegzése: kivonatolás

    Metaadatok

    • Miért van szükség metaadatokra?
    • Metaadatok tipizálása: szerkezeti, formázási, hozzáférési, kezelési, referencia jellegű metaadatok
    • Metaadat mezők típusai
    • Metaadat szabványok: Dublin Core (DCMI), Digital Object Identifier (DOI), MPEG-7, MPEG-21
    • Eljárások metaadatok hozzárendelésére: képek annotálása ontológia alapján, vizuális kulcsszavak meghatározása, annotáció vizuális tezaurusszal,
    • Gyakorlat: Metaadat rendszerek integrálása hang, videó, kép, szöveges adatbázisokra vonatkozóan, mérési gyakorlat a NAVA metaadat rendszerében.

    Tartalomelemzés szöveges dokumentumokon

    Szöveges dokumentumok reprezentációja. Metaadatok és dokumentummezők kezelése. Paraméteres és helyfüggő (cím, kivonat, bevezetés, stb.) alapú indexelés és keresés, tf´ idf vektortér.
    Nyelvtechnológiai módszerek alkalmazása a szöveges dokumentumok elemzésénél: szótövesítők, POS-tagger, morfológiai elemző, szintaktikus és szemantikus elemzés alapjai
    Számítási bonyolultság kezelése; dimenziószám csökkentése.
    Szöveges dokumentumok csoportosítása (szegmentálása, klaszterezése). Alulról felfelé, föntről lefelé építkező algoritmusok, K-közép algoritmus, Link alapú csoportosítás. Csoportok tematikus címkézése.
    Szöveges dokumentumok osztályozása (kategorizálása). Osztályozási problémák tipizálása. Alapvető technikák megismerése. Naiv Bayes modell, legközelebbi szomszédok módszer, neurális hálózat alapú módszerek, szupport vektor gépek.
    Tesztdokumentum-gyűjtemények.
    Csoportosítás és kategorizálás összevetése. Alkalmazási példák.
    Szöveges dokumentumok tartalmi összegzése. Generatív és kivonatoló technikák.
    Gyakorlat: Mikro- és makro-átlagolás, pontosság/felidézés görbe előállítása, össze-hasonlító mérések, kombinációs stratégiák, hierarchikus klaszterezés

    Tartalomelemzés képi, audio és video dokumentumokon

    Kontextus-függő képkeresés (Context-Based Image Retrieval)
    Multimédia indexelés és visszakeresés (természetes nyelvű szöveg, hang, és kép feldolgozó módszerek) Szerkezetazonosítás audiovizuális dokumentumokban
    Objektum-alapú videoindexelés

    Gyakorlat: Multimédia indexelés NAVA archívumánál

    Esettanulmányok

    Tartalomelemző módszerek alkalmazásai szabadalmi dokumentumok kezelésénél.
    Keresés támogatása metaadatokal az NDA archívumánál.
    Gyakorlat: Keresés támogatása metaadatokal az NDA archívumánál.

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

    Előadás és tantermi gyakorlat

     

    10. Követelmények
    • A szorgalmi időszakban: egy zárthelyi.
    • A vizsgaidőszakban: elégséges vizsga (írásbeli)
    • Az aláírás feltétele a zárthelyi (beleértve a pótló zárthelyiket is: lásd a következő pontban) legalább elégséges szintre történő megírása.
    11. Pótlási lehetőségek

    A zárthelyi pótlására a szorgalmi időszakban egy lehetőséget biztosítunk. Azok számára, akiknek nem sikerült sem a zárthelyi, sem a pótzárthelyi: a pótlási időszakban lehetséges.1 alkalmat biztosítunk egy újabb zárthelyi dolgozatra. Az aláírás feltétele a valamelyik zárthelyi (első vagy a pót- vagy a pótpót-zárthelyi) legalább elégséges szintre történő megírása.

    12. Konzultációs lehetőségek

    A tárgy előadóival személyesen, vagy e-mailben egyeztetett időpontban.

     

    13. Jegyzet, tankönyv, felhasználható irodalom
    1. Introduction to MPEG 7: Multimedia Content Description Language (Hardcover) by B. S. Manjunath (Editor), Philippe Salembier (Editor), Thomas Sikora (Editor), Phillipe Salembier, John Wiley & Sons; ISBN: 0471486787, 352 oldal
    2. Multimedia Content and the Semantic Web: Standards, Methods and Tools (Hardcover) by Giorgos Stamou (Editor), Stefanos Kollias (Editor), John Wiley & Sons, 2005, ISBN: 0470857536, 414 oldal
    3. Tikk Domonkos (szerk.): Szövegbányászat, Typotex kiadó, 2007.
    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra42
    Félévközi készülés órákra15
    Felkészülés zárthelyire15
    Házi feladat elkészítése 
    Kijelölt írásos tananyag elsajátítása
    Vizsgafelkészülés48
    Összesen120
    15. A tantárgy tematikáját kidolgozta

    Név:Beosztás:Tanszék, Int.:
    Dr. Tikk Domonkos PhDtudományos munkatársBME-TMIT