Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Média- és szövegbányászat

    A tantárgy angol neve: Media and Text Mining

    Adatlap utolsó módosítása: 2022. október 22.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Gazdaságinformatikus szak, MSc képzés

    Gazdasági elemző informatika specializáció

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMM277 2,3 3/0/1/v 6  
    3. A tantárgyfelelős személy és tanszék Dr. Szűcs Gábor,
    4. A tantárgy előadója Dr. Szűcs Gábor, egyetemi docens, TMIT
    5. A tantárgy az alábbi témakörök ismeretére épít matematikai alapismeretek, valószínűségszámítás
    6. Előtanulmányi rend
    Ajánlott:
    Ajánlott: Adatbányászati technikák
    7. A tantárgy célkitűzése A tárgy célkitűzése a hallgatók bevezetése a tartalom- és információkereső szolgáltatások világába a szövegfeldolgozástól a médiafolyamokig. A hallgatók megismerik a szöveg- és médiakeresési technikákat, elsajátítják a mélytanulási technikákat alkalmazó média- és szövegelemzési módszereket, valamint képesek lesznek döntéseket hozni vállalati keresőrendszerek, médiatartalom-kezelő rendszerek kialakításánál.
    8. A tantárgy részletes tematikája
    Előadások:
    Felmerülő problémák gazdasági elemző témakörben multinacionális vállalatoknál. Tipikus feladattípusok a média- és szövegbányászatban. 
    Média- és szöveganalízis módszerei, keresési technikák, indexelés, rangsorolási eljárások. Szózsák modell. Információvisszakeresés modelljei: Boole modell és Vektor modell. Súlyozási sémák (tf-idf), koszinusz hasonlóság. Keresési kifejezés optimalizációja. Keresés a Weben, webbányászat.
    Szövegelőkészítési lépések. Tokenizálás, szótövező algoritmusok, Porter, Lovins szótövezők. Sekély és mély szintaktikai elemzés. Szófaj-meghatározás. Szintaxis fát, illetve függőségi gráfokat generáló elemzők. Stanford eszközök.  
    Nyelvdetektálás, nyelvfüggőség, Zipf törvény. NLP (Natural Language Processing) eszközök.
    Névelemfelismerés, relációkinyerés szövegből. A relációkinyerés jellemző megközelítései: együttes előfordulás, mintaillesztéses módszerek, felügyelt gépi tanulási módszerek. Véleményanalízis, mint a piackutatás modern eszköze.
    Mély neurális hálók használata a szövegelemzésben (LSTM - Long Short-Term Memory) és képi, videó tartalmak elemzésében (CNN - Convolutional Neural Network).
    Médiaosztályozás képekre, videókra. Előfeldolgozási lépések. Médiaosztályozás típusai, módszerei. CBIR (Context-Based Image Retrieval), egyszerű képfeldolgozó eljárások. 
    Képi és szöveg modalitások összekapcsolása. Mélytanuló módszerek, rendszerek. Generative Adversarial Network (GAN).
    A szövegkorpuszok és média adathalmazok problématerének redukciója, jellemző kinyerő és jellemző kiválasztó technikák.
    Szövegosztályozás. Szövegosztályozás típusai, módszerei. Naïve Bayes osztályozó. Rocchio algoritmus. Automatikus szövegfeldolgozás (szöveg generálás mélytanulással). 
    Vállalatoknál használt chatbotok, virtuális asszisztensek.
    Költséghatékony osztályozás. Aktív tanulás. Együttes osztályozók. Média és szöveges adathalmazok klaszterezése.
    Egycímkés és többcímkés szövegosztályozás. Változás követés az osztályozási feladatokban. Concept drift. 
    Média ajánlórendszerek.

    A laboroknál használ programozási nyelv a Python (illetve egyes gyakorlatoknál a RapidMiner eszköz) a megfelelő programkönyvtárakkal. Laborok:
    Súlyozási séma (tf-idf) számolása szöveges korpuszhoz. 
    Szövegelőkészítés, indexelés, szótövezés.
    Véleményanalízis.
    Számjegy felismerési feladat Keras programkönyvtárral.
    Mélytanuló módszerek alkalmazása.
    Hatékony osztályozás (szövegkorpuszokon, média adathalmazokon).
    Szövegbányászati alkalmazás gazdasági területen.
    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) A laboratóriumi gyakorlatokat kétheti gyakorisággal csoportosítjuk, a többi óra előadás.
    10. Követelmények

    a.  A szorgalmi időszakban: egy zárthelyi.

    b.  A vizsgaidőszakban: a szorgalmi időszakban kiadott házi feladat megoldásának elkészítése (írásbeli), vizsgán való megvédése (szóbeli).

    c.  Az aláírás feltétele a zárthelyi (beleértve a pótló zárthelyiket is: lásd a következő pontban) legalább elégséges szintre történő megírása.  A zárthelyi illetve pót-zárthelyi eredményes, ha a maximális pontszám legalább 40%-t elérte a hallgató.

    d.  A laboratóriumi gyakorlatokból legalább ötöt kell sikeresen megoldani az aláírás megszerzéséhez.

    A vizsga 2 részből áll: szóbeli a félév teljes tananyagából és a korábban írásban benyújtott házi feladat megvédéséből. A jegy kialakításában a 2 rész 50-50%-ban számít bele. 

    11. Pótlási lehetőségek A zárthelyi pótlására a szorgalmi időszakban egy lehetőséget biztosítunk. Azok számára, akiknek nem sikerült sem a zárthelyi, sem a pótzárthelyi: a pótlási időszakban 1 alkalmat biztosítunk egy újabb zárthelyi dolgozatra. A laboratóriumi gyakorlatok pótlására nincs lehetőség. Az aláírás feltétele valamelyik zárthelyi (első vagy a pót- vagy a pótpót-zárthelyi) legalább elégséges szintre történő megírása és legalább 5 sikeres laboratóriumi gyakorlat.
    12. Konzultációs lehetőségek Előadóknál előre egyeztetett időpontokban.
    13. Jegyzet, tankönyv, felhasználható irodalom

    Blanken, de Vries, Blok, Fres (eds): Multimedia Retrieval. Springer, 2007.

    Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze: Introduction to Information Retrieval. Cambridge University Press, 2008

    Ronen Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, 2007
    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra56
    Félévközi készülés órákra18
    Felkészülés zárthelyire20
    Házi feladat elkészítése46
    Kijelölt írásos tananyag elsajátítása0
    Vizsgafelkészülés40
    Összesen180
    15. A tantárgy tematikáját kidolgozta Dr. Szűcs Gábor, egyetemi docens, TMIT