Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Szöveg- és webbányászat

    A tantárgy angol neve: Text and Web Mining

    Adatlap utolsó módosítása: 2014. október 2.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar
    Mérnökinformatikus szak, MSc képzés
    Adat- és médiainformatika 
    mellékspecializáció
    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMMA06 2 2/1/0/v 4  
    3. A tantárgyfelelős személy és tanszék Dr. Szűcs Gábor,
    4. A tantárgy előadója

     Név:

     Beosztás:

     Tanszék, Int.:

     Dr. Szűcs Gábor PhD

     egyetemi docens

     BME-TMIT

     Gáspár Csaba

     egyetemi tanársegéd

     BME-TMIT



    5. A tantárgy az alábbi témakörök ismeretére épít

    Információs technológiák és eszközök. 

    6. Előtanulmányi rend
    Kötelező:
    NEM ( TárgyEredmény( "BMEVITMM225" , "jegy" , _ ) >= 2
    VAGY
    TárgyEredmény( "BMEVIMIM222" , "jegy" , _ ) >= 2
    VAGY
    TárgyEredmény( "BMEVIMIMB01" , "jegy" , _ ) >= 2
    VAGY
    TárgyEredmény("BMEVITMM225", "FELVETEL", AktualisFelev()) > 0
    VAGY
    TárgyEredmény("BMEVIMIM222", "FELVETEL", AktualisFelev()) > 0
    VAGY
    TárgyEredmény("BMEVIMIMB01", "FELVETEL", AktualisFelev()) > 0
    VAGY
    TárgyEredmény( "BMEVITMMA19", "jegy" , _ ) >= 2
    VAGY
    TárgyEredmény("BMEVITMMA19", "FELVETEL", AktualisFelev()) > 0)

    A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

    A kötelező előtanulmányi rend az adott szak honlapján és képzési programjában található.

    7. A tantárgy célkitűzése

    Az elektronikus szöveges és webtartalmak mennyiségének rohamos emelkedésével kiemelt fontosságúvá vált a tartalmak hatékony feldolgozása, amihez nélkülözhetetlen a megfelelő indexelő, annotáló és elemző módszerek használata. A hallgatók elméleti és gyakorlati oktatás keretei között tanulhatják meg az információ visszakeresést, web keresést, információ kinyerést szöveges állományokból, természetes nyelvű feldolgozást, információs hálókban és közösségi hálókban való tudás feltárást. A hallgatók elsajátítják azokat a szöveg- és webbányászati módszereket, melyek segítségével megvalósíthatók a szöveg korpuszokban a keresési és különböző elemzési feladatok, mint az automatikus annotáció, kivonatolás; illetve megoldható a webes felhasználók követése, szokásainak monitorozása és számukra megfelelő ajánlattétel előállítása. 

    8. A tantárgy részletes tematikája

    A tantárgy a szöveg- és webbányászat alapfogalmaitól indulva bemutatja a használt módszereket és azok alkalmazásait.

    Bevezetés: Alapfogalmak, szöveg- és webbányászati problémák, alkalmazások.

    Szövegindexelés: Szózsák modell. Szöveg automatikus előfeldolgozása mondatokra és szavakra bontással, szótövezéssel és index struktúra felépítésével.

    Kifejezés keresés: szópár, valamint pozíció indexelés, permuterm index, írásmódjavítás, nyelvfelismerés.

    Természetes nyelvű feldolgozás: NLP (Natural Language Processing) eszközök. Sekély elemzés. Mély elemzés: szintaktikai fa, függőségi fa. 

    Névelem felismerés, reláció kinyerés, vélemény analízis (sentiment analysis) információs hálókban és közösségi hálókban.

    Szövegbányászat: Szövegelemzés. Lineáris osztályozók. Szupport vektor gép alkalmazása szövegre. Automatikus annotáció.

    Automatikus szöveg kivonatolás (legjellemzőbb mondatok kiválasztása), összegzés készítés.

    Információ visszakeresés: Információ visszakereső rendszerek által használt modellek (Boole modell, vektor modell, klasszikus és valószínűségi modellek), és a rendszerek jóságának mérése (fedés, pontosság, diverzitás). 

    Rangsorolás: szöveges tartalom alapú rangsoroló algoritmusok, link struktúra alapú rangsorolás: PageRank, HITS.

    Webbányászat: web usage mining, felhasználók követési lehetőségei, Google Analytics. 

    Adatelemzési esettanulmányok: elektronikus kereskedelmi oldal elemzése. Kiterjesztett feladatok, esettanulmányok: hírportálok, jegyvásárlás.

    Ajánlórendszerek: célja, felépítése, típusai. Tartalom alapú és kollaboratív ajánló rendszerek: alap és szomszédosság alapú módszerek. 

    Mátrixfaktorizáció alapjai, alapvető algoritmusai. Webes felhasználók számára megfelelő ajánlattétel előállítása.

    Fejlettebb ajánlóalgoritmusok: kontextus modellezés, kontextus-vezérelt megoldások; általános faktorizációs keretrendszerek; a csoportajánlás problémája. Gyakorlati kérdések: online learning, ajánlórendszerek kiértékelése.

     
    Gyakorlatok:
    Szótövezés RapidMiner-rel (tokenizálás reguláris kifejezésekkel + szótövezés)
    Szövegbányászat Weka-val. Mikro, makroátlagoló kiértékelés 
    Sentiment analysis techniques (vélemény bányászat)
    Metakeresés: forrás választás, dokumentum-választás, összeillesztő (merging) algoritmus, rank pozíció, dokumentum visszakeresési pontérték alapján
    Webbányászati gyakorlat
    Ajánlórendszerek tanítása 
    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

    Heti 2 óra előadás, 1 óra gyakorlat

    10. Követelmények
    A szorgalmi időszakban: 1 db zárthelyi és 1 db nagy házi feladat
    A vizsgaidőszakban: A vizsga módja: írásbeli
    Az aláírás feltétele a nagy házi feladat és a zárthelyi (beleértve a pótló zárthelyiket is: lásd a következő pontban) legalább elégséges szintre történő megírása.

    11. Pótlási lehetőségek

    A zárthelyi pótlására a szorgalmi időszakban egy lehetőséget biztosítunk. Azok számára, akiknek nem sikerült sem a zárthelyi, sem a pótzárthelyi: a pótlási időszakban 1 alkalmat biztosítunk egy újabb zárthelyi dolgozatra. Az aláírás feltétele valamelyik zárthelyi (első vagy a pót- vagy a pótpót-zárthelyi) legalább elégséges szintre történő megírása.

    12. Konzultációs lehetőségek

    A tárgy előadójával személyesen, vagy e-mailben egyeztetett időpontban.

    13. Jegyzet, tankönyv, felhasználható irodalom
    Tikk Domonkos: Szövegbányászat, Typotex, Budapest, 2007.
    Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval: The Concepts and Technology behind Search (2nd Edition) (ACM Press Books), Addison-Wesley Professional, 2011.
    Francesco Ricci (Editor), Lior Rokach (Editor), Bracha Shapira (Editor), Paul B. Kantor (Editor): Recommender Systems Handbook, Springer, 2011

    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra42
    Félévközi készülés órákra18
    Felkészülés zárthelyire25
    Házi feladat elkészítése0
    Kijelölt írásos tananyag elsajátítása0
    Vizsgafelkészülés35
    Összesen120
    15. A tantárgy tematikáját kidolgozta

     Név:

     Beosztás:

     Tanszék, Int.:

     Dr. Sallai Gyula DSc

     egyetemi tanár

     BME-TMIT

     Dr. Szűcs Gábor PhD

     egyetemi docens

     BME-TMIT

     Gáspár Csaba

     egyetemi tanársegéd

     BME-TMIT

     Hidasi Balázs

     doktorandusz

     BME-TMIT

     Solt Illés

     doktorandusz

     BME-TMIT