Belépés címtáras azonosítással
magyar nyelvű adatlap
Szöveg- és webbányászat
A tantárgy angol neve: Text and Web Mining
Adatlap utolsó módosítása: 2014. október 2.
Név:
Beosztás:
Tanszék, Int.:
Dr. Szűcs Gábor PhD
egyetemi docens
BME-TMIT
Gáspár Csaba
egyetemi tanársegéd
Információs technológiák és eszközök.
A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.
A kötelező előtanulmányi rend az adott szak honlapján és képzési programjában található.
Az elektronikus szöveges és webtartalmak mennyiségének rohamos emelkedésével kiemelt fontosságúvá vált a tartalmak hatékony feldolgozása, amihez nélkülözhetetlen a megfelelő indexelő, annotáló és elemző módszerek használata. A hallgatók elméleti és gyakorlati oktatás keretei között tanulhatják meg az információ visszakeresést, web keresést, információ kinyerést szöveges állományokból, természetes nyelvű feldolgozást, információs hálókban és közösségi hálókban való tudás feltárást. A hallgatók elsajátítják azokat a szöveg- és webbányászati módszereket, melyek segítségével megvalósíthatók a szöveg korpuszokban a keresési és különböző elemzési feladatok, mint az automatikus annotáció, kivonatolás; illetve megoldható a webes felhasználók követése, szokásainak monitorozása és számukra megfelelő ajánlattétel előállítása.
A tantárgy a szöveg- és webbányászat alapfogalmaitól indulva bemutatja a használt módszereket és azok alkalmazásait.
Bevezetés: Alapfogalmak, szöveg- és webbányászati problémák, alkalmazások.
Szövegindexelés: Szózsák modell. Szöveg automatikus előfeldolgozása mondatokra és szavakra bontással, szótövezéssel és index struktúra felépítésével.
Kifejezés keresés: szópár, valamint pozíció indexelés, permuterm index, írásmódjavítás, nyelvfelismerés.
Természetes nyelvű feldolgozás: NLP (Natural Language Processing) eszközök. Sekély elemzés. Mély elemzés: szintaktikai fa, függőségi fa.
Névelem felismerés, reláció kinyerés, vélemény analízis (sentiment analysis) információs hálókban és közösségi hálókban.
Szövegbányászat: Szövegelemzés. Lineáris osztályozók. Szupport vektor gép alkalmazása szövegre. Automatikus annotáció.
Automatikus szöveg kivonatolás (legjellemzőbb mondatok kiválasztása), összegzés készítés.
Információ visszakeresés: Információ visszakereső rendszerek által használt modellek (Boole modell, vektor modell, klasszikus és valószínűségi modellek), és a rendszerek jóságának mérése (fedés, pontosság, diverzitás).
Rangsorolás: szöveges tartalom alapú rangsoroló algoritmusok, link struktúra alapú rangsorolás: PageRank, HITS.
Webbányászat: web usage mining, felhasználók követési lehetőségei, Google Analytics.
Adatelemzési esettanulmányok: elektronikus kereskedelmi oldal elemzése. Kiterjesztett feladatok, esettanulmányok: hírportálok, jegyvásárlás.
Ajánlórendszerek: célja, felépítése, típusai. Tartalom alapú és kollaboratív ajánló rendszerek: alap és szomszédosság alapú módszerek.
Mátrixfaktorizáció alapjai, alapvető algoritmusai. Webes felhasználók számára megfelelő ajánlattétel előállítása.
Fejlettebb ajánlóalgoritmusok: kontextus modellezés, kontextus-vezérelt megoldások; általános faktorizációs keretrendszerek; a csoportajánlás problémája. Gyakorlati kérdések: online learning, ajánlórendszerek kiértékelése.
Heti 2 óra előadás, 1 óra gyakorlat
A zárthelyi pótlására a szorgalmi időszakban egy lehetőséget biztosítunk. Azok számára, akiknek nem sikerült sem a zárthelyi, sem a pótzárthelyi: a pótlási időszakban 1 alkalmat biztosítunk egy újabb zárthelyi dolgozatra. Az aláírás feltétele valamelyik zárthelyi (első vagy a pót- vagy a pótpót-zárthelyi) legalább elégséges szintre történő megírása.
A tárgy előadójával személyesen, vagy e-mailben egyeztetett időpontban.
Dr. Sallai Gyula DSc
egyetemi tanár
Hidasi Balázs
doktorandusz
Solt Illés