Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Intelligens adatelemzés

    A tantárgy angol neve: Intelligent Data Analysis

    Adatlap utolsó módosítása: 2018. április 27.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Mérnök informatikus alapszak

    Mérnök informatikus szak

    Kötelezően választható doktorandusz tárgy
    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VIMMD294   4/0/0/v 5  
    3. A tantárgyfelelős személy és tanszék Dr. Antal Péter, Méréstechnika és Információs Rendszerek Tanszék
    A tantárgy tanszéki weboldala http://www.mit.bme.hu/oktatas/targyak/vimmd294
    4. A tantárgy előadója

    Dr. Antal Péter egyetemi docens, Méréstechnika és Információs Rendszerek Tanszék

    Dr. Pataricza András egyetemi tanár, Méréstechnika és Információs Rendszerek Tanszék

    Dr. Bolgár Bence tudományos segédmunkatárs, Méréstechnika és Információs Rendszerek Tanszék

    5. A tantárgy az alábbi témakörök ismeretére épít Valószínűségszámítás, az MI alapjai.
    7. A tantárgy célkitűzése

    Az utóbbi évtizedek ugrásszerűen megnövekedő adattárolási lehetőségei miatt a vizsgált rend­szerekről, folyamatokról egyre több mérési, megfigyelési adat kerül rögzítésre. Az új lehetőségek olyan új kérdé­seket vetnek fel, mint a megfelelő adatok megszerzését biztosító kísérlettervezés, a mérés megtervezése, valamint a megszerzett - esetenként nagyon nagyszámú és sokdimenziós - adat elemzése: a megfelelő adatelemzési módszerek skálázhatósága, a számítási komplexitás növekedésének kézbentartása, továbbá a sokdimenziós adatok hatékony ábrázolása, vizualizá­ciója.

    Az újabb aspektusok, mint például a változók számának nagyságrendekkel történő növekedése, az adott tárgyterületet több szempontból jellemző adatok, a strukturált tárgyterületek, az aktív tanulás (a kísérlettervezéstől a beavatkozásos adatokig és megerősítéses tanulásig), illetve a különböző reprezentációjú háttértudás felhasználása a tervezéstől az elemzésen át az értelme­zésig, új megközelítéseket igényelnek.

    A tárgy célja, a kísérlettervezéstől a mérési adatok beszerzésén át az adatok komplex feldolgo­zásig és felhasználói modellbe integrálásáig tartó munkafolyamat egészének áttekintése részle­tesen bemutatva az adatábrázolás és -elemzés algoritmusait és eszközeit.

    A tárgyaláshoz több szempontból előnyös, közös nevező a komplex modellek használata, amely­ben kiemelt szerepet kapnak a valószínűségi gráfos modellek (probabilistic graphical models).

    A komplex modellek használata a nagy változószám és viszonylag kis mintaszám mellett az in­duktív követ­kez­tetés pontossága és megbízhatósága miatt szintén új kereteket igényel, amire különböző számításintenzív statisztikai megközelítések jelentek meg (pl. a „bootstrap" vagy permutáció alapú tesztek, a többszörös tesztelési korrekciós eljárások, illetve a Bayes statisztikai keretrendszer, benne a bayesi mo­dell­átlagolással).  

    A tantárgy követelményeit eredményesen teljesítő hallgatóktól elvárható, hogy:

    1. Képesek legyenek az informatika széles területén a kísérletes, illetve a megfigyelésen ala­puló ismeretszerzési folyamatok tervezésére, végrehajtására és eredményük szabatos reprezentációjára. Ismerjék a megfigyelési/beavatkozásos, statisztikai/oksági és struktu­rálatlan/strukturált adatok típusait, a kísérlettervezés, adatminőség-biztosítás, adattisztí­tás, adatelemzés, értelmezés, döntéstámogatás és modellalkotás fázisait.

    2. Ismerjék a klasszikus statisztikai döntéselméleti alapokat, különös tekintettel az optimali­zálási és mintavételi technikákra.

    3. Ismerjék a komplex modellek leírására általános keretet adó valószínűségi gráfos model­le­ket, (probabilistic graphical models), ennek legnépszerűbb osztályait, a Markov hálókat, a rejtett Markov modelleket, és a Bayes hálókat. Ismerjenek számításintenzív statisztikai kereteket, mint például a „bootstrap" vagy permutáció alapú módszereket, és a Bayes sta­tisztikai keretrendszert, illetve hozzájuk tartozó technikák elméleti alapjait és alkalmazá­sát, benne többszörös tesztelési korrekciós eljárásokat és mintavételi technikákat.

    4. Ismerjék az elemzésre szolgáló alkalmas legfontosabb dedikált hardver/szoftver eszközö­ket, valamint a kinyert tudás integrációját a tipikus informatikai kulcsterületeken.

    8. A tantárgy részletes tematikája
    • Bevezetés. A mennyiségi és kvalitatív informatikai modellezés kapcsolata. Kvalitatív modellezési technikák és kapcsolatuk az informatikai rendszerek modellezésével. A két
      féle modellezés kapcsolata: predikátumabsztrakció és hibrid modellezés. Adatelemzés és metamodellezés.
    • Statisztikai alapok: Kísérlettervezés. A statisztikai adatok sokfélesége. Az indukció való­színűségi megközelítése. A klasszikus és a bayesi statisztika célkitűzései, metodológiája. Alapfogalmak bemutatása egyváltozós normális eloszlás esetén és komplex valószínűségi modellek esetén. A valószínűségi következtetések típusai.
    • Adatok vizualizációja. Dimenzió-, topológia- és varianciamegőrző dimenzió-csökkentő leképezések. Sokdimenziós adatok megjelenítése. Vizualizációs eszközök és vizuális ana­lízis. Ggobi, parallel koordináták.
    • Adatelemzés alapú modellalkotás. Korrelációanalízis, Klaszterező és klasszifikációs mód­szerek. Regressziós eljárások. A kiértékelés és értelmezés problémája. Adat­integ­rálás, tudásfúzió. Dimen­zióredukció és alkalmazása az informatikában. Vizuális analízis (pár­huzamos koordi­náták, stb.)
    • Hiányos adatok kezelése. A hiányos adat típusai. Hiányos adatok kezelése (szintaktikus és szemantikus adattisztítás, -pótlás). Expectation-Maximization, Bayesi megközelítés.
    • Kismintás statisztikai módszerek. (Bootstrap és maximum likelihood eljárások. Bayesi következtetés hatékony Monte Carlo módszerekkel: MC, MCMC, MCMCMC, ....)
    • Adatmodellezés. Lineáris és nemlineáris modellek. Dinamikus modellek. Kernel mód­szerek. Bayes hálók, kiterjesztett Bayes hálók. Dinamikus Bayes hálók, rejtett Markov modellek.
    • Modellek tanulása. Feltételes modellek tanulása és használata hiányos adat esetén kiegé­szítő modellekkel.
    • Bayes hálók tanulása és értelmezése. Bayes hálók tanulása hiányos adatok és beavatko­zásos adatok esetén. Nemparametrikus bayesi módszerek.
    • A priori kvalitatív ismeretek felhasználása. Validálás, verifikálás. Érzékenységanalízis. Kinyert modellek általánosítása, metakategorizálási szabályok kinyerése.
    • Eszközök. Statisztikai elemző szoftver rendszerek. MATLAB, R, SPSS, stb. Analízis minták, adatelemzési workflow automatizálás eszközei (KNIME, KEPLER). Log analízis eszközei. Párhuzamosított feldolgozás eszközei. Adatmodellezés és informatikai alkalmazásmodel­lek kapcsolata. Modellek hordozása az adatelemzési és informatikai modelltartományok között (PMML)
    • Alkalmazások. Esettanulmányok. (Biológiai szekvenciák elemzése, orvosbiológiai oksági modellek tanulása, cloud infrastruktúrák monitorozása, szoftver teljesítményanalízis.)
    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Előadás.
    10. Követelmények

    a. Elkészítendő házi feladat. A vizsgára bocsátás feltétele a házi feladatnál a maximális pontszám legalább 50%-ának elérése. A megszerzett aláírás a tárgyfélévben és a továbbiakban a TVSz szerint érvényes.

    b. A vizsgaidőszakban: szóbeli vizsga. A kreditpont megszerzésének feltétele: legalább elég­séges vizsga.

    11. Pótlási lehetőségek

    A házi feladatok - a kiadáskor rögzített - határidőre adandók be, pótlásuk a pótlási hét utolsó munkanapjáig lehetséges.

    12. Konzultációs lehetőségek

    Igény szerint.

    13. Jegyzet, tankönyv, felhasználható irodalom

    R.M. Neal: Bayesian Learning for Neural Networks, Springer, 1996.

    M. Berthold - D.J. Hand: Intelligent Data Analysis, Springer, 1999.

    R.G. Cowel - A.P. Dawid - S.L. Lauritzen - D.J. Spiegelhalter: Probabilistic Networks and Expert Systems, Springer, 1999.

    J.M. Bernardo, A. F. M. Smith: Bayesian Theory, Wiley, 2000.

    T.Hastie - R.Tibshirani - J.Friedman: The Elements of Statistical Learning, Springer, 2001.

    A. Gelman - J.B. Carlin - H.S Stern - D. B. Rubin: Bayesian Data Analysis, Chapman &Hall, 2004.

    C.M. Bishop: Pattern Recognition and Machine Learning, Springer, 2006.

    Bayesian inference Using Gibbs Sampling: http://www.mrc-bsu.cam.ac.uk/bugs/

    S.L. Lauritzen: Graphical Models, Clarendon Press, Oxford, 1996.

    M I. Jordan: Learning in Graphical Models (Adaptive Computation and Machine Learning), The MIT Press, 1998.

    D. Cook, D. F. Swayne: Interactive and Dynamic Graphics for Data Analysis with R and GGobi. Springer, 2007.

    A. Guazzelli-W. Lin-T. Jena-J. Taylor: PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics (2010)

    A. Guazzelli, M. Zeller, W. Lin, and G. Williams. PMML: An Open Standard for Sharing Models. The R Journal, Volume 1/1, May 2009. 

    Hastie-Tibshirani-Friedman: The Elements of Statistical Learning. Data mining, inference and prediction, second edition, Springer, 2009.

    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra56
    Készülés előadásra28
    Házi feladat elkészítése26
    Vizsgafelkészülés40
    Összesen150
    15. A tantárgy tematikáját kidolgozta

    Név:

    Beosztás:

    Tanszék:

    Dr. Antal Péter

    egyetemi docens

    MIT

    Dr. Horváth Gábor

    tudományos tanácsadó

    MIT

    Dr. Pataricza András

    egyetemi tanár

    MIT

    Egyéb megjegyzések A tantárgy angol neve: Intelligent data analysis