Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Szövegbányászat

    A tantárgy angol neve: Text Mining

    Adatlap utolsó módosítása: 2009. november 12.

    Tantárgy lejárati dátuma: 2011. április 28.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Villamosmérnöki Szak

    Műszaki Informatika Szak

    Egészségügyi Informatika Szak

    Szabadon választható tárgy

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMJV03   3/1/0/v 4  
    3. A tantárgyfelelős személy és tanszék Dr. Tikk Domonkos,
    4. A tantárgy előadója
     Név: Beosztás: Tanszék, Intézet:
     Dr. Tikk Domonkos tud. munkatárs TMIT
     Dr. Kardkovács Zsolt Tivadar Ph.D tanársegéd TMIT
    5. A tantárgy az alábbi témakörök ismeretére épít
    • Valószínűség-számítás alapjai
    • Alapszintű algoritmuselméleti, halmazelméleti és algebrai ismeretek
    6. Előtanulmányi rend
    Kötelező:
    NEM ( TárgyTeljesítve("BMEVITMAV03") )

    A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

    A kötelező előtanulmányi rendek grafikus formában itt láthatók.

    Ajánlott:
    Nem vehetik fel, akik hallgatták a vitmav03 (Szövegbányászat) tárgyat
    7. A tantárgy célkitűzése

    Napjainkban az Internet széleskörű elterjedésével és az ott található dokumentumok számának rohamos növekedésével kiemelt fontosságúvá vált az Internetet való keresés támogatása, az ott található adattömeg strukturált rendszerezése, hatékony tárolása. Ugyanez a probléma fellép nagyobb vállalatok, intézmények, ill. hivatalok belső dokumentumtárolási, -keresési, -rendszerezési, -archiválási feladataiban. A jellemzően nem, vagy kevéssé strukturált szöveges dokumentumok feldolgozásának és rendszerezésének kérdéseivel foglalkozik a szövegbányászat szakterülete.

    A tárgy célja a szövegbányászat és a webes keresés területén alkalmazott modellezési eljárások és algoritmusok ismertetése.

    8. A tantárgy részletes tematikája

    1. hét 

    Szövegbányászati alapfogalmak, szövegbányászat célja, eszköztárának megismerése. Információ-visszakeresés problémája, főbb irányzatai, története.

    2. hét 

    Szintaktikai információk felhasználása. különböző formátumú dokumentumok feldolgozása, index szavak kinyerése, szótövezés (Porter, Lovins), stopszó lista, karakter-átalakítás, írásirányok kezelése.

    3. hét 

    Fizikai szervezés: Invertált indexelés, szófrekvencia és szótár file-ok, ritkamátrixok, ugró pointerek. Paraméteres és helyfüggő (cím, kivonat, bevezetés, stb.) alapú indexelés és keresés, tf×idf vektortér.

    4. hét 

    Hierarchikus és hálós rendezés. Indexelés és keresés XML dokumentumokban, XML „adatbázisok”.
    5. hét 

    Webes keresés. A webes keresés specialitásai, változás, újraindexelés sebessége, rövid történeti áttekintés. Oldal sorrendező algoritmus (Page Rank), téma, illetve viselkedés alapú page rank. Hyperlink-Induced Topic Search (HITS), gyűjtő és tekintély lapok felderítése.

    6. hét 

    (Közel) másolt lapokat felderítő algoritmus, plágiumkeresés. Webgráf tömörítésének eljárása Webes keresés infrastruktúrája.

    7. hét 

    Szemantikai információk felhasználása. Névelem-felismerés, címkék keresése, szóegyértelműsítés, logikai operátorok, kötőelemek kezelése.

    8. hét 

    Szemantikai információk felhasználása II. Topikkeresés, hivatkozás-feloldások, Hobbs-algoritmus, CT-elmélet.

    9. hét 

    Szövegklaszterezési feladatok. Alulról felfelé, fentről lefelé építkező algoritmusok, K-közép algoritmus, link alapú szegmentáció.

    10. hét 

    Hierarchikus szegmentáció, prediktív szegmentáció. Szinonimagenerálás, szinonimatargetálás.

    11. hét 

    Szövegek kategorizálási feladatai. Bináris, többkategóriás, többcímkés, hierarchikus kategorizálás és alkalmazásaik. Szentinement-analízis.

    12. hét 

    Magas szintű nyelvi eszköztárak. Korpusz, korpuszépítés, mondattár – ismert gyűjtemények és sajátosságaik.

    13. hét 

    Zárthelyi dolgozat

    14. hét 

    Fejlesztői eszköztárak, szövegbányászati szoftverek.

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) 3 előadás és 1 gyakorlat
    10. Követelmények
    • A szorgalmi időszakban: nagy zárthelyi a 13. tanítási héten
    • A vizsgaidőszakban: A vizsga módja: írásbeli
    • Megfelelő eredményű ZH és kiselőadás tartása vagy nagy házi feladat készítése esetén vizsgajegyet ajánlunk meg
    11. Pótlási lehetőségek

    Sikertelen zárthelyi a szorgalmi időszakban a pótzárthelyin pótolható. A sikertelen (pót)zárthelyi a pótlási héten különeljárási díj ellenében egy további alkalommal pótolható.

    12. Konzultációs lehetőségek

    A tárgy előadóival személyesen, vagy e-mailben egyeztetett időpontban.

    13. Jegyzet, tankönyv, felhasználható irodalom
    1. Yates and Ribeiro-Neto: Modern Information Retrieval 2001
    2. Witten, Moffat, and Bell: Managing Gigabytes.
    3. Weben található segédanyagok
    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra  42
    Félévközi készülés órákra  14
    Felkészülés zárthelyire    -
    Házi feladat elkészítése  44
    Kijelölt írásos tananyag elsajátítása    -
    Vizsgafelkészülés  20
    Összesen120
    15. A tantárgy tematikáját kidolgozta
     Név: Beosztás: Tanszék, Intézet:
     Dr. Tikk Domonkos tud. munkatárs TMIT
     Dr. Kardkovács Zsolt Tivadar Ph.D tanársegéd TMIT