Tartalomelemzés

A tantárgy angol neve: Content Analysis

Adatlap utolsó módosítása: 2013. január 22.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Mérnök informatikus szak, MSc képzés
Médiainformatika szakirány

Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITMM139 1 2/1/0/v 4  
3. A tantárgyfelelős személy és tanszék Dr. Szűcs Gábor,
4. A tantárgy előadója
Név:Beosztás:Tanszék, Int.:
Dr. Szűcs Gábor PhDegyetemi docensBME-TMIT
Solt Illés
tudományos segédmunkatárs
BME-TMIT
5. A tantárgy az alábbi témakörök ismeretére épít
  • Alapszintű algoritmuselméleti, halmazelméleti és algebrai ismeretek
  • Valószínűségszámítás alapjai

 

6. Előtanulmányi rend
Kötelező:
NEM ( TárgyEredmény( "BMEVITMMA05" , "jegy" , _ ) >= 2
VAGY
TárgyEredmény("BMEVITMMA05", "FELVETEL", AktualisFelev()) > 0)

A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

A kötelező előtanulmányi rendek grafikus formában itt láthatók.

7. A tantárgy célkitűzése

Napjainkban a különböző formátumú (szöveges, képi, audio, video) elektronikus tartalmak számának rohamos növekedésével kiemelt fontosságúvá vált a tartalmak hatékony feldolgozás, amihez nélkülözhetetlen a megfelelő indexelő, annotáló, osztályozó, csoportosító és elemző módszerek, illetve módszertan kidolgozása. A megfelelő technikák alkalmazásával a multimédia dokumentumok tartalmában való keresés, illetve a megfelelő dokumentumok igényszerinti visszakeresése is megvalósítható.
A tárgy célkitűzése, hogy megismertesse a hallgatókkal a tartalomelemzés alapvető feladatait. Ezek közül elsőként ismertesse a főleg indexeléshez használt metaadatok (jelölők) szerepét, a és jelölőkkel való ellátás megoldási lehetőségeit, különböző médiatípusok esetén. Ezután a szöveges dokumentumokra vonatkozó alapvető tartalomelemző eljárásokat ismertetjük (csoportosítás, osztályozás, kivonatolás), majd audio, álló- és mozgóképek tartalmának elemzési módszereibe nyernek a hallgatók bevezetést. Az előadás sorozatot néhány gyakorlatból vett esettanulmány zárja.

8. A tantárgy részletes tematikája

A tartalomelemzés feladatai

  • Leíróadatok, jelölők, feladat-specifikus
  • Tartalmak rendezése: csoportosítás, osztályozás
  • Tartalmak összegzése: kivonatolás

Metaadatok

  • Miért van szükség metaadatokra?
  • Metaadatok tipizálása: szerkezeti, formázási, hozzáférési, kezelési, referencia jellegű metaadatok
  • Metaadat mezők típusai
  • Metaadat szabványok: Dublin Core (DCMI), Digital Object Identifier (DOI), MPEG-7, MPEG-21
  • Eljárások metaadatok hozzárendelésére: képek annotálása ontológia alapján, vizuális kulcsszavak meghatározása, annotáció vizuális tezaurusszal,
  • Gyakorlat: Metaadat rendszerek integrálása hang, videó, kép, szöveges adatbázisokra vonatkozóan, mérési gyakorlat a NAVA metaadat rendszerében.

Tartalomelemzés szöveges dokumentumokon

Szöveges dokumentumok reprezentációja. Metaadatok és dokumentummezők kezelése. Paraméteres és helyfüggő (cím, kivonat, bevezetés, stb.) alapú indexelés és keresés, tf´ idf vektortér.
Nyelvtechnológiai módszerek alkalmazása a szöveges dokumentumok elemzésénél: szótövesítők, POS-tagger, morfológiai elemző, szintaktikus és szemantikus elemzés alapjai
Számítási bonyolultság kezelése; dimenziószám csökkentése.
Szöveges dokumentumok csoportosítása (szegmentálása, klaszterezése). Alulról felfelé, föntről lefelé építkező algoritmusok, K-közép algoritmus, Link alapú csoportosítás. Csoportok tematikus címkézése.
Szöveges dokumentumok osztályozása (kategorizálása). Osztályozási problémák tipizálása. Alapvető technikák megismerése. Naiv Bayes modell, legközelebbi szomszédok módszer, neurális hálózat alapú módszerek, szupport vektor gépek.
Tesztdokumentum-gyűjtemények.
Csoportosítás és kategorizálás összevetése. Alkalmazási példák.
Szöveges dokumentumok tartalmi összegzése. Generatív és kivonatoló technikák.
Gyakorlat: Mikro- és makro-átlagolás, pontosság/felidézés görbe előállítása, össze-hasonlító mérések, kombinációs stratégiák, hierarchikus klaszterezés

Tartalomelemzés képi, audio és video dokumentumokon

Kontextus-függő képkeresés (Context-Based Image Retrieval)
Multimédia indexelés és visszakeresés (természetes nyelvű szöveg, hang, és kép feldolgozó módszerek) Szerkezetazonosítás audiovizuális dokumentumokban
Objektum-alapú videoindexelés

Gyakorlat: Multimédia indexelés NAVA archívumánál

Esettanulmányok

Tartalomelemző módszerek alkalmazásai szabadalmi dokumentumok kezelésénél.
Keresés támogatása metaadatokal az NDA archívumánál.
Gyakorlat: Keresés támogatása metaadatokal az NDA archívumánál.

9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

Előadás és tantermi gyakorlat

 

10. Követelmények
  • A szorgalmi időszakban: egy zárthelyi.
  • A vizsgaidőszakban: elégséges vizsga (írásbeli)
  • Az aláírás feltétele a zárthelyi (beleértve a pótló zárthelyiket is: lásd a következő pontban) legalább elégséges szintre történő megírása.
11. Pótlási lehetőségek

A zárthelyi pótlására a szorgalmi időszakban egy lehetőséget biztosítunk. Azok számára, akiknek nem sikerült sem a zárthelyi, sem a pótzárthelyi: a pótlási időszakban lehetséges.1 alkalmat biztosítunk egy újabb zárthelyi dolgozatra. Az aláírás feltétele a valamelyik zárthelyi (első vagy a pót- vagy a pótpót-zárthelyi) legalább elégséges szintre történő megírása.

12. Konzultációs lehetőségek

A tárgy előadóival személyesen, vagy e-mailben egyeztetett időpontban.

 

13. Jegyzet, tankönyv, felhasználható irodalom
  1. Introduction to MPEG 7: Multimedia Content Description Language (Hardcover) by B. S. Manjunath (Editor), Philippe Salembier (Editor), Thomas Sikora (Editor), Phillipe Salembier, John Wiley & Sons; ISBN: 0471486787, 352 oldal
  2. Multimedia Content and the Semantic Web: Standards, Methods and Tools (Hardcover) by Giorgos Stamou (Editor), Stefanos Kollias (Editor), John Wiley & Sons, 2005, ISBN: 0470857536, 414 oldal
  3. Tikk Domonkos (szerk.): Szövegbányászat, Typotex kiadó, 2007.
14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra42
Félévközi készülés órákra15
Felkészülés zárthelyire15
Házi feladat elkészítése 
Kijelölt írásos tananyag elsajátítása
Vizsgafelkészülés48
Összesen120
15. A tantárgy tematikáját kidolgozta

Név:Beosztás:Tanszék, Int.:
Dr. Tikk Domonkos PhDtudományos munkatársBME-TMIT