Belépés címtáras azonosítással
magyar nyelvű adatlap
Intelligens szövegelemzés a gyakorlatban
A tantárgy angol neve: IntelligentText Analysis in Real-Life Applications
Adatlap utolsó módosítása: 2022. május 13.
Mérnökinformatikus Szak
Szabadon választható tantárgy
A tantárgy gyakorlatorientált. A teljesítéséhez alapvetően egy saját NLP projekt végigvitele szükséges, amelynek a témája szabadon választható (lásd kedvcsinálók a tanszéki lapon). A félév során bemutatunk számos ipari projekteket, ahonnan megoldási ötletek meríthetők, az előadásokon tárgyaljuk az alkalmazható módszerek elméleti hátterét, a laborokon pedig a projektek megvalósításához szükséges eszközöket mutatunk be.
A tantárgy célja természetes nyelvű szövegek tudásalapú feldolgozásával kapcsolatos módszerek és eszközök bemutatása. A hallgatók megismerkedhetnek a szövegbányászat klasszikus módszerein túlmutató, szemantikus technológiákat (RDF, OWL, Linked Open Data, SPARQL), internetes tudástárakat (DBpedia, FactForge), nyelvi elemzőket (ACE PE, NLTK, ANTLR), és autonóm ágensrendszereket alkalmazó szövegelemzési módszerekkel. A tantárgy ipari projektek és kutatói együttműködések tapasztalataira és feladatkészletére épít például az információkeresés, a digitális bölcsészet és az ember-gép kommunikáció területén.
1. hét. A szövegelemzés tipikus problémái az információkeresés, az ember-gép interfészek és a digitális bölcsészet témaköreiből.
2. hét. A szövegelemzés alapvető módszerei: indexkészítés és statisztikai módszerek, természetes nyelvű szövegfeldolgozás (NLP). A módszerek problémái és korlátai.
3. hét. Tudásalapú módszerek bevezetésének területei és lehetőségei: nyelvi, tárgyterületi és alkalmazói tudás. Esettanulmányok.
4-5. hét. Autonóm, tudásalapú ágensek és alkalmazásuk az intelligens szövegelemzésben: természetes nyelvű ember-gép interfészek és több-ágens elemzőrendszerek (előadás és laboratórium).
6-7. hét. Nyelvi tudás reprezentációja, kontrollált természetes nyelvek (CNL) létrehozása és feldolgozása. Alkalmazásuk természetes nyelvű interfészek megvalósításában.
8. hét. Ágensalapú ember-robot természetes nyelvű interfész fejlesztése Android és Robot Operating System környezetben (laboratórium).
9-10. hét. Szakértői tudás reprezentációja: kiterjesztett szótárak, RDF tudásbázisok és ontológiák (OWL), valamint felhasználásuk a szövegelemzésben (normalizálás, entitásfelismerés, szemantikus annotálás).
11. hét. Szakértői tudás bevitele és szerkesztése kontrollált természetes nyelven (laboratórium).
12. hét. Kontrollált természetes nyelvű annotálórendszer (tudásbázis-építés) digitális bölcsészeti rendszerben (laboratórium).
13. hét. Internetes tudásbázisok (DBpedia, FactForge, MusicBrainz, OpenStreetMap stb.) és lekérdező módszereik (REST, SPARQL). Tudásintegrációs technikák (Linked Open Data).
14. hét. Külső tudástárak integrációja és felhasználása az ágensalapú elemzőrendszerben (laboratórium). Esettanulmányok: Apache Stanbol és Marmotta.
A tantárgy előadásokból és laboratóriumi foglalkozásokból épül fel. A laboratóriumi foglalkozásokon a hallgatók egyrészt ipari és kutatási projektek eredményeivel ismerkednek meg, másrészt önállóan választott problémák megoldásán dolgoznak a tantárgyban megismert módszerekkel és eszközökkel.
a. A szorgalmi időszakban: zárthelyi sikeres (legalább 40%-os) teljesítése és egy választott otthoni feladat megoldása.
A zárthelyi az előadások anyagára épít, a hallgatók alapvető tájékozottságát ellenőrzi.
Az otthoni feladat programozási jellegű, pontos részletei az oktatóval egyeztethetők, összehangolhatók témalabor és önálló laboratórium feladattal. Megoldásával a hallgatók a gyakorlati ismeretek elsajátításáról adnak számot.
b. A vizsgaidőszakban: -
A zárthelyi dolgozat pótlására a TVSZ-nek megfelelően egy alkalommal biztosítunk lehetőséget.
Az otthoni feladat különeljárási díj megfizetése mellett a pótlási időszak végéig adható le késedelmesen (TVSZ).
Otthoni feladatok megoldásához órarendi időben.
Tamás Mészáros, „Agent-supported Knowledge Acquisition for Digital Humanities Research", In: A. Szakál (szerk.) IEEE International Conference on Systems, Man, and Cybernetics Conference Proceedings: SMC 2016. Budapest, Hungary, 2016.
C. Bizer, T. Heath, and T. Berners-Lee, „Linked data-the story so far", Semantic Services, Interoperability and Web Applications: Emerging Concepts, pp. 205-227, 2009.
Tamás Mészáros, Tadeusz Dobrowiecki, „Controlled Natural Languages for Interface Agents" In: IFAAMAS AAMAS 2009: 8th international conference on Autonomous agents and multiagent systems. Budapest, Magyarország, 2009
Mészáros Tamás, „Kontrollált természetes nyelvek", tanulmány, BME MIT, 2009.
Dezsényi Csaba, Varga Péter, Mészáros Tamás, Strausz György, Dobrowiecki Tadeusz, „Tudásalapú információkinyerés: az IKF projekt" In: Tudományos és Műszaki Tájékoztatás 51:(5) pp. 193-208., 2004
Mészáros Tamás, „Dokumentum analízis és keresés", tanulmány, I2RT-TR-1341, 2001.
Mészáros Tamás, „Szövegelemzési módszerek és esettanulmányok", tanulmány, I2RT-TR-1342, 2002.
Név:
Beosztás:
Tanszék, Int.:
Dr. Mészáros Tamás
egyetemi docens
BME MIT