Média- és szövegbányászat

A tantárgy angol neve: Media and Text Mining

Adatlap utolsó módosítása: 2017. június 21.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Gazdaságinformatikus szak, MSc képzés

Gazdasági elemző informatika szakirány

Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITMM275   3/0/1/v 5  
3. A tantárgyfelelős személy és tanszék Dr. Szűcs Gábor,
4. A tantárgy előadója

 

 Név: Beosztás: Tanszék, Intézet:
 Szűcs Gábor Ph.D egy. docens TMIT

 

5. A tantárgy az alábbi témakörök ismeretére épít

Matematikai alapismeretek, valószínűségszámítás

6. Előtanulmányi rend
Ajánlott:
Kötelező előtanulmányi rend nincs.
De ajánlott az "Adatbányászati technikák (VISZM185)" című tantárgy kreditjeinek előzetes megszerzése.

 

 

7. A tantárgy célkitűzése

A tárgy célkitűzése a hallgatók bevezetése a tartalom- és információkereső szolgáltatások világába a szövegfeldolgozástól a médiafolyamokig. A hallgatók megismerik a szöveg- és médiakeresési technikákat, elsajátítják a médiaelemzési módszereket és képesek lesznek döntéseket hozni vállalati keresőrendszerek, médiatartalom-kezelő rendszerek kialakításánál.

 

8. A tantárgy részletes tematikája
  1. Felmerülő problémák gazdasági elemző témakörben multinacionális vállalatoknál. Metaadatrendszerek és -szabványok: DC, RDF, MPEG-7.
  2. Tipikus feladattípusok a média- és szövegbányászatban. Keresés, osztályozás, klaszterezés, előrejelzés és ezek kombinációi.
  3. Média- és szöveganalízis módszerei, keresési technikák, indexelés, rangsorolási eljárások. Szózsák modell.
  4. Keresés a weben, webbányászat, hírfigyelés és annak gazdasági jelentősége. PageRank, webgráf módszerek, HITS, Boole-keresés, súlyozási sémák (tf-idf), koszinusz távolság.
  5. A problématér redukciója, jellemző kinyerő és jellemző kiválasztó technikák. Chi-négyzeten, sajátértéken alapuló módszerek, független komponens analízis (ICA).
  6. Médiaosztályozás képekre, videókra. Előfeldolgozás, diszkretizálás. Médiaosztályozás típusai, módszerei. Szupport vektor gépek alkalmazása médiaosztályozásra.
  7. Szöveganalízis. Szótövező algoritmusok, Porter, Lovins szótövezők. Nyelvdetektálás, nyelvfüggőség. Felszíni és mély szintaktikai elemzés. Szófaj-meghatározás. Szintaxis fát, illetve függőségi gráfokat generáló elemzők. Stanford eszközök.  
  8. Szövegosztályozás. Szövegosztályozás típusai, módszerei. Gini index. C4.5, C5.0, Random Forest módszer. Automatikus szövegfeldolgozás a kis és nagyvállalatoknál, ügyfélszolgálati tevékenység.
  9. Média- és szövegklaszterezés. Távolsági mértékek. Távolság kontra hasonlóság. Egyesítő és felosztó csoportosítás. K-átlag klaszterezés. DBscan. Egyszerű, teljes, centroid, medoid, Ward kapcsolódású hierarchikus klaszterezés alkalmazása média- és szövegklaszterezésre.
  10. Relációkinyerés szövegből. A relációkinyerés jellemző megközelítései: együttes előfordulás, mintaillesztéses módszerek, felügyelt gépi tanulási módszerek. Strukturális információt figyelembevevő kernelek felhasználása gépi tanulókban relációkinyerésnél. Gazdasági hírek gyűjtése, információkinyerés a hírekből.
  11. Hierarchikus taxonómia rendszerek, keresés katalógusban, tezaurusz. Folkszonómia, módszerek több felhasználó számára. Fogalombányászat, annotálás. Véleményanalízis, mint a piackutatás modern eszköze.
  12. CBIR (Context-Based Image Retrieval), egyszerű képfeldolgozó eljárások. Éldetektálás, vékonyítás, szkeletonizáció. Kép és idősor-leképezési eljárások.
  13. Médiaindexelés. Valószínűségi modellek a video- és hangkeresésben, rejtett Markov-modellek alkalmazása.
  14. Vállalati keresőrendszerek kidolgozása, marketing alkalmazások, online média alkalmazások. Gazdaságinformatikai alkalmazások.
  15. Laboratóriumi gyakorlatok: Laborgyakorlatok előtt a laborhoz tartozó elmélet mindig elhangzik az előadásokon. A laborgyakorlatokon elvégzendő feladatok analitikai része adatbányászati és szövegbányászati szoftverekkel (pl. a SAS eszközeivel) történik.
  16. Keresési technikák egy előre megadott korpuszban.
  17. Médiaosztályozási feladatok.
  18. Képklaszterezési feladatok.
  19. Szöveganalízis.
  20. Szövegkategorizálás.
  21. Képkinyerési feladatok (CBIR: Context-Based Image Retrieval) nagyszámú képhalmazon.
  22. Mérések az adatbányászati technikák eredményességeire, lift diagram elemzés.

 

 

 

9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

előadás, laboratórium

10. Követelmények

a.  A szorgalmi időszakban: egy zárthelyi.

b.  A vizsgaidőszakban: házi feladat készítése (írásbeli), vizsgán való megvédése (szóbeli).

c.  Az aláírás feltétele a zárthelyi (beleértve a pótló zárthelyiket is: lásd a következő pontban) legalább elégséges szintre történő megírása.  A zárthelyi illetve pót-zárthelyi eredményes, ha a maximális pontszám legalább 40%-t elérte a hallgató.

d.  A laboratóriumi gyakorlatokból legalább öt alkalmon részt kell venni az aláírás megszerzéséhez.

 

11. Pótlási lehetőségek

A zárthelyi pótlására a szorgalmi időszakban egy lehetőséget biztosítunk. Azok számára, akiknek nem sikerült sem a zárthelyi, sem a pótzárthelyi: a pótlási időszakban 1 alkalmat biztosítunk egy újabb zárthelyi dolgozatra. A laboratóriumi gyakorlatok pótlására nincs lehetőség. Az aláírás feltétele valamelyik zárthelyi (első vagy a pót- vagy a pótpót-zárthelyi) legalább elégséges szintre történő megírása és legalább 5 sikeres laboratóriumi gyakorlat.

12. Konzultációs lehetőségek

Előadóknál előre egyeztetett időpontokban.

13. Jegyzet, tankönyv, felhasználható irodalom
  1. Blanken, de Vries, Blok, Fres (eds): Multimedia Retrieval. Springer, 2007.
  2. Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze: Introduction to Information Retrieval. Cambridge University Press, 2008
  3. Ronen Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, 2007

 

14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra 56
Félévközi készülés órákra (előadásra: 10, laborra: 8) 18
Felkészülés zárthelyire 20
Házi feladat elkészítése 16
Kijelölt írásos tananyag elsajátítása  0
Vizsgafelkészülés 40
Összesen150
15. A tantárgy tematikáját kidolgozta

 Név: Beosztás: Tanszék, Intézet:
 Kardkovács Zsolt Tivadar Ph.D egy. adjunktus TMIT
 Szűcs Gábor Ph.D egy. docens TMIT
 Tikk Domonkos Ph.D tud. munkatárs TMIT