Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Média- és szövegbányászat

    A tantárgy angol neve: Media and Text Mining

    Adatlap utolsó módosítása: 2017. június 21.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Gazdaságinformatikus szak, MSc képzés

    Gazdasági elemző informatika szakirány

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMM275   3/0/1/v 5  
    3. A tantárgyfelelős személy és tanszék Dr. Szűcs Gábor, Távközlési és Médiainformatikai Tanszék
    4. A tantárgy előadója

     

     Név: Beosztás: Tanszék, Intézet:
     Szűcs Gábor Ph.D egy. docens TMIT

     

    5. A tantárgy az alábbi témakörök ismeretére épít

    Matematikai alapismeretek, valószínűségszámítás

    6. Előtanulmányi rend
    Ajánlott:
    Kötelező előtanulmányi rend nincs.
    De ajánlott az "Adatbányászati technikák (VISZM185)" című tantárgy kreditjeinek előzetes megszerzése.

     

     

    7. A tantárgy célkitűzése

    A tárgy célkitűzése a hallgatók bevezetése a tartalom- és információkereső szolgáltatások világába a szövegfeldolgozástól a médiafolyamokig. A hallgatók megismerik a szöveg- és médiakeresési technikákat, elsajátítják a médiaelemzési módszereket és képesek lesznek döntéseket hozni vállalati keresőrendszerek, médiatartalom-kezelő rendszerek kialakításánál.

     

    8. A tantárgy részletes tematikája
    1. Felmerülő problémák gazdasági elemző témakörben multinacionális vállalatoknál. Metaadatrendszerek és -szabványok: DC, RDF, MPEG-7.
    2. Tipikus feladattípusok a média- és szövegbányászatban. Keresés, osztályozás, klaszterezés, előrejelzés és ezek kombinációi.
    3. Média- és szöveganalízis módszerei, keresési technikák, indexelés, rangsorolási eljárások. Szózsák modell.
    4. Keresés a weben, webbányászat, hírfigyelés és annak gazdasági jelentősége. PageRank, webgráf módszerek, HITS, Boole-keresés, súlyozási sémák (tf-idf), koszinusz távolság.
    5. A problématér redukciója, jellemző kinyerő és jellemző kiválasztó technikák. Chi-négyzeten, sajátértéken alapuló módszerek, független komponens analízis (ICA).
    6. Médiaosztályozás képekre, videókra. Előfeldolgozás, diszkretizálás. Médiaosztályozás típusai, módszerei. Szupport vektor gépek alkalmazása médiaosztályozásra.
    7. Szöveganalízis. Szótövező algoritmusok, Porter, Lovins szótövezők. Nyelvdetektálás, nyelvfüggőség. Felszíni és mély szintaktikai elemzés. Szófaj-meghatározás. Szintaxis fát, illetve függőségi gráfokat generáló elemzők. Stanford eszközök.  
    8. Szövegosztályozás. Szövegosztályozás típusai, módszerei. Gini index. C4.5, C5.0, Random Forest módszer. Automatikus szövegfeldolgozás a kis és nagyvállalatoknál, ügyfélszolgálati tevékenység.
    9. Média- és szövegklaszterezés. Távolsági mértékek. Távolság kontra hasonlóság. Egyesítő és felosztó csoportosítás. K-átlag klaszterezés. DBscan. Egyszerű, teljes, centroid, medoid, Ward kapcsolódású hierarchikus klaszterezés alkalmazása média- és szövegklaszterezésre.
    10. Relációkinyerés szövegből. A relációkinyerés jellemző megközelítései: együttes előfordulás, mintaillesztéses módszerek, felügyelt gépi tanulási módszerek. Strukturális információt figyelembevevő kernelek felhasználása gépi tanulókban relációkinyerésnél. Gazdasági hírek gyűjtése, információkinyerés a hírekből.
    11. Hierarchikus taxonómia rendszerek, keresés katalógusban, tezaurusz. Folkszonómia, módszerek több felhasználó számára. Fogalombányászat, annotálás. Véleményanalízis, mint a piackutatás modern eszköze.
    12. CBIR (Context-Based Image Retrieval), egyszerű képfeldolgozó eljárások. Éldetektálás, vékonyítás, szkeletonizáció. Kép és idősor-leképezési eljárások.
    13. Médiaindexelés. Valószínűségi modellek a video- és hangkeresésben, rejtett Markov-modellek alkalmazása.
    14. Vállalati keresőrendszerek kidolgozása, marketing alkalmazások, online média alkalmazások. Gazdaságinformatikai alkalmazások.
    15. Laboratóriumi gyakorlatok: Laborgyakorlatok előtt a laborhoz tartozó elmélet mindig elhangzik az előadásokon. A laborgyakorlatokon elvégzendő feladatok analitikai része adatbányászati és szövegbányászati szoftverekkel (pl. a SAS eszközeivel) történik.
    16. Keresési technikák egy előre megadott korpuszban.
    17. Médiaosztályozási feladatok.
    18. Képklaszterezési feladatok.
    19. Szöveganalízis.
    20. Szövegkategorizálás.
    21. Képkinyerési feladatok (CBIR: Context-Based Image Retrieval) nagyszámú képhalmazon.
    22. Mérések az adatbányászati technikák eredményességeire, lift diagram elemzés.

     

     

     

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

    előadás, laboratórium

    10. Követelmények

    a.  A szorgalmi időszakban: egy zárthelyi.

    b.  A vizsgaidőszakban: házi feladat készítése (írásbeli), vizsgán való megvédése (szóbeli).

    c.  Az aláírás feltétele a zárthelyi (beleértve a pótló zárthelyiket is: lásd a következő pontban) legalább elégséges szintre történő megírása.  A zárthelyi illetve pót-zárthelyi eredményes, ha a maximális pontszám legalább 40%-t elérte a hallgató.

    d.  A laboratóriumi gyakorlatokból legalább öt alkalmon részt kell venni az aláírás megszerzéséhez.

     

    11. Pótlási lehetőségek

    A zárthelyi pótlására a szorgalmi időszakban egy lehetőséget biztosítunk. Azok számára, akiknek nem sikerült sem a zárthelyi, sem a pótzárthelyi: a pótlási időszakban 1 alkalmat biztosítunk egy újabb zárthelyi dolgozatra. A laboratóriumi gyakorlatok pótlására nincs lehetőség. Az aláírás feltétele valamelyik zárthelyi (első vagy a pót- vagy a pótpót-zárthelyi) legalább elégséges szintre történő megírása és legalább 5 sikeres laboratóriumi gyakorlat.

    12. Konzultációs lehetőségek

    Előadóknál előre egyeztetett időpontokban.

    13. Jegyzet, tankönyv, felhasználható irodalom
    1. Blanken, de Vries, Blok, Fres (eds): Multimedia Retrieval. Springer, 2007.
    2. Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze: Introduction to Information Retrieval. Cambridge University Press, 2008
    3. Ronen Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, 2007

     

    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra 56
    Félévközi készülés órákra (előadásra: 10, laborra: 8) 18
    Felkészülés zárthelyire 20
    Házi feladat elkészítése 16
    Kijelölt írásos tananyag elsajátítása  0
    Vizsgafelkészülés 40
    Összesen150
    15. A tantárgy tematikáját kidolgozta

     Név: Beosztás: Tanszék, Intézet:
     Kardkovács Zsolt Tivadar Ph.D egy. adjunktus TMIT
     Szűcs Gábor Ph.D egy. docens TMIT
     Tikk Domonkos Ph.D tud. munkatárs TMIT