Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

  Belépés
  címtáras azonosítással

  vissza a tantárgylistához   nyomtatható verzió    

  Média- és szövegbányászat

  A tantárgy angol neve: Media and Text Mining

  Adatlap utolsó módosítása: 2022. október 22.

  Budapesti Műszaki és Gazdaságtudományi Egyetem
  Villamosmérnöki és Informatikai Kar

  Gazdaságinformatikus szak, MSc képzés

  Gazdasági elemző informatika specializáció

  Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
  VITMM277 2,3 3/0/1/v 6  
  3. A tantárgyfelelős személy és tanszék Dr. Szűcs Gábor,
  4. A tantárgy előadója Dr. Szűcs Gábor, egyetemi docens, TMIT
  5. A tantárgy az alábbi témakörök ismeretére épít matematikai alapismeretek, valószínűségszámítás
  6. Előtanulmányi rend
  Ajánlott:
  Ajánlott: Adatbányászati technikák
  7. A tantárgy célkitűzése A tárgy célkitűzése a hallgatók bevezetése a tartalom- és információkereső szolgáltatások világába a szövegfeldolgozástól a médiafolyamokig. A hallgatók megismerik a szöveg- és médiakeresési technikákat, elsajátítják a mélytanulási technikákat alkalmazó média- és szövegelemzési módszereket, valamint képesek lesznek döntéseket hozni vállalati keresőrendszerek, médiatartalom-kezelő rendszerek kialakításánál.
  8. A tantárgy részletes tematikája
  Előadások:
  Felmerülő problémák gazdasági elemző témakörben multinacionális vállalatoknál. Tipikus feladattípusok a média- és szövegbányászatban. 
  Média- és szöveganalízis módszerei, keresési technikák, indexelés, rangsorolási eljárások. Szózsák modell. Információvisszakeresés modelljei: Boole modell és Vektor modell. Súlyozási sémák (tf-idf), koszinusz hasonlóság. Keresési kifejezés optimalizációja. Keresés a Weben, webbányászat.
  Szövegelőkészítési lépések. Tokenizálás, szótövező algoritmusok, Porter, Lovins szótövezők. Sekély és mély szintaktikai elemzés. Szófaj-meghatározás. Szintaxis fát, illetve függőségi gráfokat generáló elemzők. Stanford eszközök.  
  Nyelvdetektálás, nyelvfüggőség, Zipf törvény. NLP (Natural Language Processing) eszközök.
  Névelemfelismerés, relációkinyerés szövegből. A relációkinyerés jellemző megközelítései: együttes előfordulás, mintaillesztéses módszerek, felügyelt gépi tanulási módszerek. Véleményanalízis, mint a piackutatás modern eszköze.
  Mély neurális hálók használata a szövegelemzésben (LSTM - Long Short-Term Memory) és képi, videó tartalmak elemzésében (CNN - Convolutional Neural Network).
  Médiaosztályozás képekre, videókra. Előfeldolgozási lépések. Médiaosztályozás típusai, módszerei. CBIR (Context-Based Image Retrieval), egyszerű képfeldolgozó eljárások. 
  Képi és szöveg modalitások összekapcsolása. Mélytanuló módszerek, rendszerek. Generative Adversarial Network (GAN).
  A szövegkorpuszok és média adathalmazok problématerének redukciója, jellemző kinyerő és jellemző kiválasztó technikák.
  Szövegosztályozás. Szövegosztályozás típusai, módszerei. Naïve Bayes osztályozó. Rocchio algoritmus. Automatikus szövegfeldolgozás (szöveg generálás mélytanulással). 
  Vállalatoknál használt chatbotok, virtuális asszisztensek.
  Költséghatékony osztályozás. Aktív tanulás. Együttes osztályozók. Média és szöveges adathalmazok klaszterezése.
  Egycímkés és többcímkés szövegosztályozás. Változás követés az osztályozási feladatokban. Concept drift. 
  Média ajánlórendszerek.

  A laboroknál használ programozási nyelv a Python (illetve egyes gyakorlatoknál a RapidMiner eszköz) a megfelelő programkönyvtárakkal. Laborok:
  Súlyozási séma (tf-idf) számolása szöveges korpuszhoz. 
  Szövegelőkészítés, indexelés, szótövezés.
  Véleményanalízis.
  Számjegy felismerési feladat Keras programkönyvtárral.
  Mélytanuló módszerek alkalmazása.
  Hatékony osztályozás (szövegkorpuszokon, média adathalmazokon).
  Szövegbányászati alkalmazás gazdasági területen.
  9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) A laboratóriumi gyakorlatokat kétheti gyakorisággal csoportosítjuk, a többi óra előadás.
  10. Követelmények

  a.  A szorgalmi időszakban: egy zárthelyi.

  b.  A vizsgaidőszakban: a szorgalmi időszakban kiadott házi feladat megoldásának elkészítése (írásbeli), vizsgán való megvédése (szóbeli).

  c.  Az aláírás feltétele a zárthelyi (beleértve a pótló zárthelyiket is: lásd a következő pontban) legalább elégséges szintre történő megírása.  A zárthelyi illetve pót-zárthelyi eredményes, ha a maximális pontszám legalább 40%-t elérte a hallgató.

  d.  A laboratóriumi gyakorlatokból legalább ötöt kell sikeresen megoldani az aláírás megszerzéséhez.

  A vizsga 2 részből áll: szóbeli a félév teljes tananyagából és a korábban írásban benyújtott házi feladat megvédéséből. A jegy kialakításában a 2 rész 50-50%-ban számít bele. 

  11. Pótlási lehetőségek A zárthelyi pótlására a szorgalmi időszakban egy lehetőséget biztosítunk. Azok számára, akiknek nem sikerült sem a zárthelyi, sem a pótzárthelyi: a pótlási időszakban 1 alkalmat biztosítunk egy újabb zárthelyi dolgozatra. A laboratóriumi gyakorlatok pótlására nincs lehetőség. Az aláírás feltétele valamelyik zárthelyi (első vagy a pót- vagy a pótpót-zárthelyi) legalább elégséges szintre történő megírása és legalább 5 sikeres laboratóriumi gyakorlat.
  12. Konzultációs lehetőségek Előadóknál előre egyeztetett időpontokban.
  13. Jegyzet, tankönyv, felhasználható irodalom

  Blanken, de Vries, Blok, Fres (eds): Multimedia Retrieval. Springer, 2007.

  Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze: Introduction to Information Retrieval. Cambridge University Press, 2008

  Ronen Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, 2007
  14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
  Kontakt óra56
  Félévközi készülés órákra18
  Felkészülés zárthelyire20
  Házi feladat elkészítése46
  Kijelölt írásos tananyag elsajátítása0
  Vizsgafelkészülés40
  Összesen180
  15. A tantárgy tematikáját kidolgozta Dr. Szűcs Gábor, egyetemi docens, TMIT