Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

  Belépés
  címtáras azonosítással

  vissza a tantárgylistához   nyomtatható verzió    

  Szövegadatbázisok és alkalmazott nyelvtechnológiák

  A tantárgy angol neve: Text Databases and Applied Language Technologies

  Adatlap utolsó módosítása: 2012. május 30.

  Tantárgy lejárati dátuma: 2015. június 30.

  Budapesti Műszaki és Gazdaságtudományi Egyetem
  Villamosmérnöki és Informatikai Kar

  Villamosmérnöki szak

  Mérnök Informatikus szak

  Szabadon választható tárgy
  Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
  VITMAV57 6,7, 2/0/0/f 2  
  3. A tantárgyfelelős személy és tanszék Dr. Tikk Domonkos,
  4. A tantárgy előadója

  Név:

  Beosztás:

  Tanszék, Int.:

  dr. Tikk Domonkos

  tudományos munkatárs

  TMIT

  Kardkovács Zsolt Tivadar

  tanársegéd

  TMIT

  Lejtovicz Katalin

  doktorandusz

  TMIT

  5. A tantárgy az alábbi témakörök ismeretére épít

  Alapvető adatbázis-kezelési és programozási ismeret ajánlott, de nem szükséges.

  6. Előtanulmányi rend
  Ajánlott:


  7. A tantárgy célkitűzése

  A szövegadatbázisok a legáltalánosabb adatbázisok közé tartoznak, s az informatika fejlődésével egyre fontosabbá kezd válni. Korunk egyik legnagyobb kihívása az, hogy az informatikai rendszereink minél hatékonyabban képezzék le az emberi tudást, így a szövegben, mondanivalóban rejtett információkat minél hatékonyabban tudják hasznosítani, kezelni.

  A tárgy célkitűzése, hogy egyetemi előadások és laborok keretein belül a hallgatók behatóan tanulmányozhassák a szövegadatbázisok kezelésének alapjait egy konkrét technológia megismerésén keresztül. A félév végére a hallgatók megismerik a dokumentumok kezelésének, magas szintű felhasználásának technikai hátterét és fortélyait.

  8. A tantárgy részletes tematikája

  Alapvető nyelvi jelenségek és fogalmak. Adatbázisok és a szövegadatbázisok összevetése. Segédeszközök megismerése: shell parancsok, nyilvános elérhető programok.

  Szövegadatbázisok kezelése Java és SQL környezetben. Dokumentumok konvertálása (PDF, Word, HTML), nyelvi jellemzőinek kezelése. Indexelési technikák: javított SVM és fuzzy közelítő algoritmus. Keresési eljárások és snippet (részletkiemelés) készítése szövegadatbázisokban.

  Javított indexelési technikák: CT-elmélet, anafora- és ellipsziskeresési eljárások, plágiumkereső alkalmazása. Nyelvi fordulatok feldolgozása. Nyelvtechnológiai nehéz problémák, kockázatok, ismert hibák. Névelemek adatbázisokban: névelem-felismerés, adattisztítás, névterek integrációja. Jellegzetes címkék felismerése, kezelése.

  9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

  Előadás

  10. Követelmények

  A szorgalmi időszakban 6db kiadott gyakorlati problémát kell önállóan és oktatói konzultációkkal megoldani (félévközi ellenőrzés). A félévközi jegy a legjobb 4 sikeres feladatmegoldás számtani átlaga.

  11. Pótlási lehetőségek

   

  Az otthoni feladatok különeljárási díj megfizetése mellett a pótlási időszak végéig adhatóak le késedelmesen.

  12. Konzultációs lehetőségek

  Előre egyeztetett időpontban bármikor és az előadásokon.

  13. Jegyzet, tankönyv, felhasználható irodalom

  Hivatalos Oracle Text tananyagok és kézikönyvek.

  Tikk, D.: Szövegbányászat (Oracle Text fejezet), TypoTeX, 2007.

  Büki, A.: UNIX/Linux héjprogramozás. Kiskapu Kft, 2004.

  Jurafsky, D.-Martin, J.H., Speech and Language Processing (An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition), 2000.

  14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
  Kontakt óra28
  Félévközi készülés órákra 
  Felkészülés zárthelyire 
  Házi feladat elkészítése22
  Kijelölt írásos tananyag elsajátítása10
  Vizsgafelkészülés0
  Összesen60
  15. A tantárgy tematikáját kidolgozta

  Név:

  Beosztás:

  Tanszék, Int.:

  dr. Tikk Domonkos

  tudományos munkatárs

  TMIT

  Kardkovács Zsolt Tivadar

  tanársegéd

  TMIT