Szövegbányászat

A tantárgy angol neve: Text Mining

Adatlap utolsó módosítása: 2009. november 12.

Tantárgy lejárati dátuma: 2011. április 28.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Villamosmérnöki Szak

Műszaki Informatika Szak

Egészségügyi Informatika Szak

Szabadon választható tárgy

Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITMJV03   3/1/0/v 4  
3. A tantárgyfelelős személy és tanszék Dr. Tikk Domonkos,
4. A tantárgy előadója
 Név: Beosztás: Tanszék, Intézet:
 Dr. Tikk Domonkos tud. munkatárs TMIT
 Dr. Kardkovács Zsolt Tivadar Ph.D tanársegéd TMIT
5. A tantárgy az alábbi témakörök ismeretére épít
  • Valószínűség-számítás alapjai
  • Alapszintű algoritmuselméleti, halmazelméleti és algebrai ismeretek
6. Előtanulmányi rend
Kötelező:
NEM ( TárgyTeljesítve("BMEVITMAV03") )

A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

A kötelező előtanulmányi rendek grafikus formában itt láthatók.

Ajánlott:
Nem vehetik fel, akik hallgatták a vitmav03 (Szövegbányászat) tárgyat
7. A tantárgy célkitűzése

Napjainkban az Internet széleskörű elterjedésével és az ott található dokumentumok számának rohamos növekedésével kiemelt fontosságúvá vált az Internetet való keresés támogatása, az ott található adattömeg strukturált rendszerezése, hatékony tárolása. Ugyanez a probléma fellép nagyobb vállalatok, intézmények, ill. hivatalok belső dokumentumtárolási, -keresési, -rendszerezési, -archiválási feladataiban. A jellemzően nem, vagy kevéssé strukturált szöveges dokumentumok feldolgozásának és rendszerezésének kérdéseivel foglalkozik a szövegbányászat szakterülete.

A tárgy célja a szövegbányászat és a webes keresés területén alkalmazott modellezési eljárások és algoritmusok ismertetése.

8. A tantárgy részletes tematikája

1. hét 

Szövegbányászati alapfogalmak, szövegbányászat célja, eszköztárának megismerése. Információ-visszakeresés problémája, főbb irányzatai, története.

2. hét 

Szintaktikai információk felhasználása. különböző formátumú dokumentumok feldolgozása, index szavak kinyerése, szótövezés (Porter, Lovins), stopszó lista, karakter-átalakítás, írásirányok kezelése.

3. hét 

Fizikai szervezés: Invertált indexelés, szófrekvencia és szótár file-ok, ritkamátrixok, ugró pointerek. Paraméteres és helyfüggő (cím, kivonat, bevezetés, stb.) alapú indexelés és keresés, tf×idf vektortér.

4. hét 

Hierarchikus és hálós rendezés. Indexelés és keresés XML dokumentumokban, XML „adatbázisok”.
5. hét 

Webes keresés. A webes keresés specialitásai, változás, újraindexelés sebessége, rövid történeti áttekintés. Oldal sorrendező algoritmus (Page Rank), téma, illetve viselkedés alapú page rank. Hyperlink-Induced Topic Search (HITS), gyűjtő és tekintély lapok felderítése.

6. hét 

(Közel) másolt lapokat felderítő algoritmus, plágiumkeresés. Webgráf tömörítésének eljárása Webes keresés infrastruktúrája.

7. hét 

Szemantikai információk felhasználása. Névelem-felismerés, címkék keresése, szóegyértelműsítés, logikai operátorok, kötőelemek kezelése.

8. hét 

Szemantikai információk felhasználása II. Topikkeresés, hivatkozás-feloldások, Hobbs-algoritmus, CT-elmélet.

9. hét 

Szövegklaszterezési feladatok. Alulról felfelé, fentről lefelé építkező algoritmusok, K-közép algoritmus, link alapú szegmentáció.

10. hét 

Hierarchikus szegmentáció, prediktív szegmentáció. Szinonimagenerálás, szinonimatargetálás.

11. hét 

Szövegek kategorizálási feladatai. Bináris, többkategóriás, többcímkés, hierarchikus kategorizálás és alkalmazásaik. Szentinement-analízis.

12. hét 

Magas szintű nyelvi eszköztárak. Korpusz, korpuszépítés, mondattár – ismert gyűjtemények és sajátosságaik.

13. hét 

Zárthelyi dolgozat

14. hét 

Fejlesztői eszköztárak, szövegbányászati szoftverek.

9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) 3 előadás és 1 gyakorlat
10. Követelmények
  • A szorgalmi időszakban: nagy zárthelyi a 13. tanítási héten
  • A vizsgaidőszakban: A vizsga módja: írásbeli
  • Megfelelő eredményű ZH és kiselőadás tartása vagy nagy házi feladat készítése esetén vizsgajegyet ajánlunk meg
11. Pótlási lehetőségek

Sikertelen zárthelyi a szorgalmi időszakban a pótzárthelyin pótolható. A sikertelen (pót)zárthelyi a pótlási héten különeljárási díj ellenében egy további alkalommal pótolható.

12. Konzultációs lehetőségek

A tárgy előadóival személyesen, vagy e-mailben egyeztetett időpontban.

13. Jegyzet, tankönyv, felhasználható irodalom
  1. Yates and Ribeiro-Neto: Modern Information Retrieval 2001
  2. Witten, Moffat, and Bell: Managing Gigabytes.
  3. Weben található segédanyagok
14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra  42
Félévközi készülés órákra  14
Felkészülés zárthelyire    -
Házi feladat elkészítése  44
Kijelölt írásos tananyag elsajátítása    -
Vizsgafelkészülés  20
Összesen120
15. A tantárgy tematikáját kidolgozta
 Név: Beosztás: Tanszék, Intézet:
 Dr. Tikk Domonkos tud. munkatárs TMIT
 Dr. Kardkovács Zsolt Tivadar Ph.D tanársegéd TMIT