Szövegbányászat

A tantárgy angol neve: Text Mining

Adatlap utolsó módosítása: 2006. október 4.

Tantárgy lejárati dátuma: 2009. november 24.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Villamosmérnöki Szak

Műszaki Informatika Szak

Választható tárgy

Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITMAV03   4/0/0/v 5 1/1
4. A tantárgy előadója

Név:

Beosztás:

Tanszék, Int.:

Dr. Tikk Domonkos

tudományos mts.

TMIT

Szaszkó SándordoktoranduszTMIT
5. A tantárgy az alábbi témakörök ismeretére épít

- Valószínűségszámítás alapjai

- Alapszintű algoritmuselméleti, halmazelméleti és algebrai ismeretek

7. A tantárgy célkitűzése

Napjainkban az Internet széleskörű elterjedésével és az ott található dokumentumok számának rohamos növekedésével kiemelt fontosságúvá vált az Internetet való keresés támogatása, az ott található adattömeg strukturált rendszerezése, hatékony tárolása. Ugyanez a probléma fellép nagyobb vállalatok, intézmények, ill. hivatalok belső dokumentumtárolási, -keresési, -rendszerezési, -archiválási feladataiban. A jellemzően nem, vagy kevéssé strukturált szöveges dokumentumok feldolgozásának és rendszerezésének kérdéseivel foglalkozik a szövegbányászat szakterülete.

A tárgy célja a szövegbányászat és a webes keresés területén alkalmazott modellezési eljárások és algoritmusok ismertetése.

8. A tantárgy részletes tematikája

Információ visszakeresés alapjai

  • Adattárolás célravezető formái: Invertált indexelés, szófrekvencia és szótár file-ok, ritkamátrixok, ugró pointerek
  • Különböző formátumú dokumentumok feldolgozása, index szavak kinyerése, szótövezés (Porter, Lovins), stopszó lista, karakter-átalakítás
  • Keresések: Bool algebra alapúak, NOT kezelése, hierarchikus keresés, keresések optimalizálása, “biword” indexelés
  • Index adtok tömörítése és a Wild-card keresés
  • Paraméteres és helyfüggő (cím, kivonat, bevezetés, stb.) alapú indexelés és keresés, tf´ idf vektortér
  • Indexelés és keresés XML dokumentumokban, XML “adatbázisok”

Webes keresés

  • A webes keresés specialitásai, változás -> újraindexelés sebessége, rövid történeti áttekintés
  • Oldal sorrendező algoritmus (Page Rank), téma, illetve viselkedés alapú page rank
  • Hyperlink-Induced Topic Search (HITS), gyűjtő és tekintély lapok felderítése
  • (közel) másolt lapokat felderítő algoritmus
  • Webgráf tömörítésének eljárása
  • Webes keresés infrastruktúrája

Keresést segítő módszerek: Csoportosítás, kategorizálás és tezaurusz

Csoportosítás (klaszterezés)

  • Alulról felfelé, föntről lefelé építkező algoritmusok, K-közép algoritmus, Link alapú csoportosítás
  • Számítási bonyolultság kezelése; dimenziószám csökkentése
  • Csoportosítás és kategorizálás összevetése, csoportosítás alkalmazásai

Kategorizálás

  • Kategorizálási módszerek osztályozása: bináris, többkategóriás, többcímkés és hierarchikus kategorizálás
  • Hatékonyság mérése különböző kategorizálás-típusok esetén.
  • Alapvető technikák megismerése: Naiv Bayes modell, legközelebbi szomszédok módszer, döntési fa módszerek, neurális hálózat alapú módszerek
  • Tesztdokumentum-gyűjtemények
  • Kategorizálás hierarchikus rendszerekbe

Tezaurusz

  • Szinonima szótárból automatikusan kinyert tezaurusz
  • Cooccurrence alapú tezaurusz, közelítő számítási módszerek
  • Tezauruszok alkalmazása IR-ben, kvázi tezauruszok egyéb alkalmazásai

Információ kinyerés (IE)

  • Különböző típusú információk folyószövegből, HTML oldalakról, stb. kinyerése, rendszerbe rakása
9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

:

Heti 2x2 óra előadás

10. Követelmények

a. A szorgalmi időszakban: nagy zárthelyi a 13. tanítási héten

b. A vizsgaidőszakban: A vizsga módja: írásbeli

Megfelelő eredményű ZH és kiselőadás tartása vagy nagy házi feladat készítése esetén vizsgajegyet ajánlunk meg

11. Pótlási lehetőségek

A zárthelyi pótlására a félév során egy lehetőséget biztosítunk, Vizsgaidőszakban az aláírás gyak. IV jelleggel szerezhető meg.

12. Konzultációs lehetőségek

A tárgy előadóival személyesen, vagy e-mailben egyeztetett időpontban.

13. Jegyzet, tankönyv, felhasználható irodalom

Yates and Ribeiro-Neto: Modern Information Retrieval 2001

Witten, Moffat, and Bell: Managing Gigabytes

Weben található segédanyagok

14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka

(a tantárgyhoz tartozó tanulmányi idő körülbelüli felosztása a tanórák, továbbá a házi feladatok és a zárthelyik között (a felkészülésre, ill. a kidolgozásra átlagosan fordítandó/elvárható idők félévi munkaórában, kredit x 30 óra, pl. 5 kredit esetén 150 óra)):

 

Kontakt óra

60

Félévközi készülés órákra

10

Felkészülés zárthelyire

25

Kijelölt írásos tananyag elsajátítása

30

Vizsgafelkészülés

25

Összesen

150

15. A tantárgy tematikáját kidolgozta

Név:

Beosztás:

Tanszék, Int.:

Dr. Tikk Domonkos

tudományos mts.

TMIT