Belépés címtáras azonosítással
magyar nyelvű adatlap
Szövegbányászat
A tantárgy angol neve: Text Mining
Adatlap utolsó módosítása: 2009. november 12.
Tantárgy lejárati dátuma: 2011. április 28.
Villamosmérnöki Szak
Műszaki Informatika Szak
Egészségügyi Informatika Szak
Szabadon választható tárgy
A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.
A kötelező előtanulmányi rend az adott szak honlapján és képzési programjában található.
Napjainkban az Internet széleskörű elterjedésével és az ott található dokumentumok számának rohamos növekedésével kiemelt fontosságúvá vált az Internetet való keresés támogatása, az ott található adattömeg strukturált rendszerezése, hatékony tárolása. Ugyanez a probléma fellép nagyobb vállalatok, intézmények, ill. hivatalok belső dokumentumtárolási, -keresési, -rendszerezési, -archiválási feladataiban. A jellemzően nem, vagy kevéssé strukturált szöveges dokumentumok feldolgozásának és rendszerezésének kérdéseivel foglalkozik a szövegbányászat szakterülete.
A tárgy célja a szövegbányászat és a webes keresés területén alkalmazott modellezési eljárások és algoritmusok ismertetése.
1. hét
Szövegbányászati alapfogalmak, szövegbányászat célja, eszköztárának megismerése. Információ-visszakeresés problémája, főbb irányzatai, története.
2. hét
Szintaktikai információk felhasználása. különböző formátumú dokumentumok feldolgozása, index szavak kinyerése, szótövezés (Porter, Lovins), stopszó lista, karakter-átalakítás, írásirányok kezelése.
3. hét
Fizikai szervezés: Invertált indexelés, szófrekvencia és szótár file-ok, ritkamátrixok, ugró pointerek. Paraméteres és helyfüggő (cím, kivonat, bevezetés, stb.) alapú indexelés és keresés, tf×idf vektortér.
4. hét
Hierarchikus és hálós rendezés. Indexelés és keresés XML dokumentumokban, XML „adatbázisok”.5. hét
Webes keresés. A webes keresés specialitásai, változás, újraindexelés sebessége, rövid történeti áttekintés. Oldal sorrendező algoritmus (Page Rank), téma, illetve viselkedés alapú page rank. Hyperlink-Induced Topic Search (HITS), gyűjtő és tekintély lapok felderítése.
6. hét
(Közel) másolt lapokat felderítő algoritmus, plágiumkeresés. Webgráf tömörítésének eljárása Webes keresés infrastruktúrája.
7. hét
Szemantikai információk felhasználása. Névelem-felismerés, címkék keresése, szóegyértelműsítés, logikai operátorok, kötőelemek kezelése.
8. hét
Szemantikai információk felhasználása II. Topikkeresés, hivatkozás-feloldások, Hobbs-algoritmus, CT-elmélet.
9. hét
Szövegklaszterezési feladatok. Alulról felfelé, fentről lefelé építkező algoritmusok, K-közép algoritmus, link alapú szegmentáció.
10. hét
Hierarchikus szegmentáció, prediktív szegmentáció. Szinonimagenerálás, szinonimatargetálás.
11. hét
Szövegek kategorizálási feladatai. Bináris, többkategóriás, többcímkés, hierarchikus kategorizálás és alkalmazásaik. Szentinement-analízis.
12. hét
Magas szintű nyelvi eszköztárak. Korpusz, korpuszépítés, mondattár – ismert gyűjtemények és sajátosságaik.
13. hét
Zárthelyi dolgozat
14. hét
Fejlesztői eszköztárak, szövegbányászati szoftverek.
Sikertelen zárthelyi a szorgalmi időszakban a pótzárthelyin pótolható. A sikertelen (pót)zárthelyi a pótlási héten különeljárási díj ellenében egy további alkalommal pótolható.
A tárgy előadóival személyesen, vagy e-mailben egyeztetett időpontban.