Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

  Belépés
  címtáras azonosítással

  vissza a tantárgylistához   nyomtatható verzió    

  Szövegbányászat

  A tantárgy angol neve: Text Mining

  Adatlap utolsó módosítása: 2006. október 4.

  Tantárgy lejárati dátuma: 2009. november 24.

  Budapesti Műszaki és Gazdaságtudományi Egyetem
  Villamosmérnöki és Informatikai Kar

  Villamosmérnöki Szak

  Műszaki Informatika Szak

  Választható tárgy

  Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
  VITMAV03   4/0/0/v 5 1/1
  4. A tantárgy előadója

  Név:

  Beosztás:

  Tanszék, Int.:

  Dr. Tikk Domonkos

  tudományos mts.

  TMIT

  Szaszkó SándordoktoranduszTMIT
  5. A tantárgy az alábbi témakörök ismeretére épít

  - Valószínűségszámítás alapjai

  - Alapszintű algoritmuselméleti, halmazelméleti és algebrai ismeretek

  7. A tantárgy célkitűzése

  Napjainkban az Internet széleskörű elterjedésével és az ott található dokumentumok számának rohamos növekedésével kiemelt fontosságúvá vált az Internetet való keresés támogatása, az ott található adattömeg strukturált rendszerezése, hatékony tárolása. Ugyanez a probléma fellép nagyobb vállalatok, intézmények, ill. hivatalok belső dokumentumtárolási, -keresési, -rendszerezési, -archiválási feladataiban. A jellemzően nem, vagy kevéssé strukturált szöveges dokumentumok feldolgozásának és rendszerezésének kérdéseivel foglalkozik a szövegbányászat szakterülete.

  A tárgy célja a szövegbányászat és a webes keresés területén alkalmazott modellezési eljárások és algoritmusok ismertetése.

  8. A tantárgy részletes tematikája

  Információ visszakeresés alapjai

  • Adattárolás célravezető formái: Invertált indexelés, szófrekvencia és szótár file-ok, ritkamátrixok, ugró pointerek
  • Különböző formátumú dokumentumok feldolgozása, index szavak kinyerése, szótövezés (Porter, Lovins), stopszó lista, karakter-átalakítás
  • Keresések: Bool algebra alapúak, NOT kezelése, hierarchikus keresés, keresések optimalizálása, “biword” indexelés
  • Index adtok tömörítése és a Wild-card keresés
  • Paraméteres és helyfüggő (cím, kivonat, bevezetés, stb.) alapú indexelés és keresés, tf´ idf vektortér
  • Indexelés és keresés XML dokumentumokban, XML “adatbázisok”

  Webes keresés

  • A webes keresés specialitásai, változás -> újraindexelés sebessége, rövid történeti áttekintés
  • Oldal sorrendező algoritmus (Page Rank), téma, illetve viselkedés alapú page rank
  • Hyperlink-Induced Topic Search (HITS), gyűjtő és tekintély lapok felderítése
  • (közel) másolt lapokat felderítő algoritmus
  • Webgráf tömörítésének eljárása
  • Webes keresés infrastruktúrája

  Keresést segítő módszerek: Csoportosítás, kategorizálás és tezaurusz

  Csoportosítás (klaszterezés)

  • Alulról felfelé, föntről lefelé építkező algoritmusok, K-közép algoritmus, Link alapú csoportosítás
  • Számítási bonyolultság kezelése; dimenziószám csökkentése
  • Csoportosítás és kategorizálás összevetése, csoportosítás alkalmazásai

  Kategorizálás

  • Kategorizálási módszerek osztályozása: bináris, többkategóriás, többcímkés és hierarchikus kategorizálás
  • Hatékonyság mérése különböző kategorizálás-típusok esetén.
  • Alapvető technikák megismerése: Naiv Bayes modell, legközelebbi szomszédok módszer, döntési fa módszerek, neurális hálózat alapú módszerek
  • Tesztdokumentum-gyűjtemények
  • Kategorizálás hierarchikus rendszerekbe

  Tezaurusz

  • Szinonima szótárból automatikusan kinyert tezaurusz
  • Cooccurrence alapú tezaurusz, közelítő számítási módszerek
  • Tezauruszok alkalmazása IR-ben, kvázi tezauruszok egyéb alkalmazásai

  Információ kinyerés (IE)

  • Különböző típusú információk folyószövegből, HTML oldalakról, stb. kinyerése, rendszerbe rakása
  9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

  :

  Heti 2x2 óra előadás

  10. Követelmények

  a. A szorgalmi időszakban: nagy zárthelyi a 13. tanítási héten

  b. A vizsgaidőszakban: A vizsga módja: írásbeli

  Megfelelő eredményű ZH és kiselőadás tartása vagy nagy házi feladat készítése esetén vizsgajegyet ajánlunk meg

  11. Pótlási lehetőségek

  A zárthelyi pótlására a félév során egy lehetőséget biztosítunk, Vizsgaidőszakban az aláírás gyak. IV jelleggel szerezhető meg.

  12. Konzultációs lehetőségek

  A tárgy előadóival személyesen, vagy e-mailben egyeztetett időpontban.

  13. Jegyzet, tankönyv, felhasználható irodalom

  Yates and Ribeiro-Neto: Modern Information Retrieval 2001

  Witten, Moffat, and Bell: Managing Gigabytes

  Weben található segédanyagok

  14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka

  (a tantárgyhoz tartozó tanulmányi idő körülbelüli felosztása a tanórák, továbbá a házi feladatok és a zárthelyik között (a felkészülésre, ill. a kidolgozásra átlagosan fordítandó/elvárható idők félévi munkaórában, kredit x 30 óra, pl. 5 kredit esetén 150 óra)):

   

  Kontakt óra

  60

  Félévközi készülés órákra

  10

  Felkészülés zárthelyire

  25

  Kijelölt írásos tananyag elsajátítása

  30

  Vizsgafelkészülés

  25

  Összesen

  150

  15. A tantárgy tematikáját kidolgozta

  Név:

  Beosztás:

  Tanszék, Int.:

  Dr. Tikk Domonkos

  tudományos mts.

  TMIT