Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    'Big Data' elemzési módszerek

    A tantárgy angol neve: Big Data Analysis Techniques

    Adatlap utolsó módosítása: 2016. október 30.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Mérnök informatikus alapszak

    Villamosmérnöki alapszak

    Villamosmérnöki szak

    Mérnök informatikus szak

    Gazdaságinformatikus szak

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VIMIAV02   2/0/0/f 2  
    3. A tantárgyfelelős személy és tanszék Dr. Pataricza András, Méréstechnika és Információs Rendszerek Tanszék
    A tantárgy tanszéki weboldala https://www.mit.bme.hu/oktatas/targyak/vimiav02
    4. A tantárgy előadója

    Dr. Horváth Gábor            tudományos tanácsadó       Méréstechnika és Információs Rendszerek Tsz

    Dr. Pataricza András        egyetemi tanár          Méréstechnika és Információs Rendszerek Tsz.

    Kocsis Imre                          tud. smt.            Méréstechnika és Információs Rendszerek Tsz.

    5. A tantárgy az alábbi témakörök ismeretére épít

    valószínűségszámítás és mesterséges intelligencia/gépi tanulás alapjai

    6. Előtanulmányi rend
    Ajánlott:
    A tárgy tematikája tekintetében komplementer a ’Big Data’ elemzési eszközök nyílt forráskódú platformokon c. tárggyal. Így javasolt a két társtárgy együttes felvétele, vagy egymás után elvégzése (tetszőleges sorrendben). A társtárgyak felvétele egymástól függetlenül is lehetséges
    7. A tantárgy célkitűzése

    Az utóbbi évtizedekben exponenciálisan növekvő mennyiségű mérési, megfigyelési adatot rögzí­tenek az élet minden területén (gazdasági folyamatok, társadalmi viszonyok, tudományos célú vizsgálatok stb.). Az adatelemzés célja a gyakran mintegy melléktermékként létrejövő adatokban rejlő tudás kinyerése, az adatkapcsolatok felderítése, előrejelzési modellek generálása, stb.

    A nagymennyiségű adat elemzésénél, az ún. Big Data problémakörben az adatok óriási mennyi­sége (tera-, peta-, ill. hexabyte méretű adatbázisok) mellett nehézség a legkülönfélébb formában rendelkezésre álló adatok fúziója és homogenizálása is. Az egyre nagyobb feldolgozási kapa­citású számítási eszközök mellett célalgoritmusok és -architektúrák biztosítják az óriási adat­mennyiség elérhető árú és idő alatti hatékony elemzését.

    Az új lehetőségek olyan új kérdéseket vetnek fel, mint a megfelelő adatok megszerzését biztosító kísérlettervezés, a mérés megtervezése, valamint a megszerzett adat elemzése. A Big Data körében kritikus szempont az adatelemzési módszerek megfelelő skálázhatósága, a számítási komplexitás növekedésének kézbentartása, továbbá a sokdimenziós adatok hatékony ábrázo­lása, vizualizációja.

    A tárgy célja, a Big Data problémakör megoldását biztosító eszközök és módszerek áttekintése, a nagy adatmennyiségből adódó speciális problémák kezelése. A tárgyaláshoz több szempontból előnyös, közös nevező a komplex modellek használata, valamint az adatok hatékony ábrázolása, vizualizációja, ide értve a vizuális adatelemzés lehetőségeinek áttekintését is.

    A tantárgy követelményeit eredményesen teljesítő hallgatók:

    1.   Ismerik az elemzésre szolgáló alkalmas legfontosabb dedikált hardver/szoftver eszközö­ket, valamint a kinyert tudás integrációját a tipikus informatikai kulcsterületeken. Ezen belül jártasak az elterjedten használt, nyílt forráskódú R nyelvű eszközök és azok Big Data irányú kiterjesztéseinek használatában.

    2.   Képesek az informatika széles területén az ismeretszerzési folyamatok tervezésére, végrehajtására és eredményük szabatos reprezentációjára. Ismerik a kísérlettervezés, adatminőség-biztosítás, adattisztí­tás, adatelemzés, értelmezés, döntéstámogatás és modellalkotás fázisait.

    3.    Ismerik a klasszikus statisztikai döntéselméleti alapokat, különös tekintettel az optimali­zálási és minta-
           vételi technikákra. Megismernek néhány, a’Big Data’ informatika területén kulcsszerepet játszó területet
           (pl. ritka adat analízis).

     

    8. A tantárgy részletes tematikája
    • 1. hét Bevezetés. A Big Data probléma áttekintése és megfogalmazása különböző alkalmazási területekről származó gyakorlati példákon keresztül. A Big Data analízis céljai. A kiértékelés és értelmezés problémája. Adatintegrálás, tudásfúzió. Adatmodellezés és informatikai alkalmazásmodel­lek kapcsolata.
    • 2. hét. Adatgyűjtés és -kiértékelés alapjai. Kísérlettervezés. A statisztikai adatok sokfélesége. Információfúzió. Megfigyelt változók és kapcsolataik jellemzése: alapvető statisztikai fogalmak.
    • 3. hét Adatfeldolgozó és statisztikai keretrendszerek; az R környezet és adaptálása a Big Data problémára. Példa: számítógépes loganalízis.
    • 4. hét Adatok vizualizációja. Sokdimenziós, bonyolult szerkezetű adatok megjelenítése és vizuális feltáró analízise. Vizuális analízis paradigmák, diagramtípusok és felhasználásuk.
    • 5. hét Statikus és interaktív R vizualizációs csomagok; Mondrian. A felhasználói vizualizáció eszközei (processing.js alapok).  Példák: cloud teljesítményanalízis, számítógépes csalásfelderítés.
    • 6. hét Klasszikus adatelemzés alapú modellalkotás. Korrelációanalízis, klaszterező és klasszifikációs módszerek, adatkapcsolatok. Dimen­zióredukció és alkalmazása az informatikában.
    • 7. hét Lineáris és nemlineáris modellek. Hiányos adatok kezelése. Példa: számítógéprendszer monitorozandó jellemzőinek kiválasztása. Analízis minták, az adatelemzési munkafolyamat-automatizálás eszközei (KNIME, KEPLER).
    • 8. hét Big Data’ statisztikai modellezés. Mintavételezés, szűrés, nagy adattömegre adaptált statisztikai modellezés és eszközei (pl. korrelációk, klaszterező módszerek, neurális hálók, kernel módszerek).
    • 9. hét Modelladaptáció. Modellek alkalmazása futási időben. Példa: szenzorkiválasztás monitorozó rendszerben. 
    • 10. hét Párhuzamosított feldolgozás eszközei. Finom és durva granularitású párhuzamosítás; adattárolás és –feldolgozás algoritmikus harmonizálása. Többmagos, FPGA, GPU, Grid, MapReduce/Hadoop és kapcsolódó eszközök bemutatása.
    • 11. hét Az eszközök beágyazása statisztikai keretrendszerekbe, Revolution, Oracle és IBM R megoldások. Példa: egy benchmark probléma összehasonlítása a különböző platformokon.
    • 12. hét Modellek hordozása az adatelemzési és informatikai modelltartományok között (PMML). A kinyert modellek ellenőrzése és általánosítása. Validálás, verifikálás. Érzékenység­analízis, metakategorizálási szabályok kinyerése. Példa: szoftver és webes alkalmazás teljesítményanalízise.
    • 13. hét Alkalmazások. Esettanulmányok.
    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)
    • előadás
    10. Követelmények
    • Félév közben (kb. 8-9. héten) egy ZH, a szükséges minimum szint a pontok 40%-a.
    • Egy kötelező házi feladat. A házi feladat egy gyakorlati ‘Big Data’ probléma megoldása az előadáson megismert módszerek és eszközök segítségével. A házi feladat bemutatása és értékelése az utolsó oktatási héten történik, egy közös nyilvános bemutató keretében.
    11. Pótlási lehetőségek

    A TVSZ szerint.

    12. Konzultációs lehetőségek

    Igény szerint, előre egyeztetett időpontban.

    13. Jegyzet, tankönyv, felhasználható irodalom

    S.L. Lauritzen: Graphical Models, Clarendon Press, Oxford, 1996, ISBN 0-19-852219-3

    M I. Jordan: Learning in Graphical Models (Adaptive Computation and Machine Learning), The MIT Press, 1998, ISBN 0-262-60032-3

    M. Theus, S. Urbanek: Interactive Graphics for Data Analysis, CRC Press, 2009, ISBN 978-1-58488-594-8.

    C. Chen, W. Härdle, A. Unwin: Handbook of Data Visualization, Springer Verlag Berlin Heidelberg, 2008, ISBN 978-3-540-33036-3

    M.J. Crawley: The R Book, second edition, John Wiley & Sons, 2013, ISBN 978-0-470-97392-9

    L. Torgo: Data Mining with R, Chapman & Hall/CRC, 2011, ISBN 978-1-4398-1018-7

    D. Conway: Machine Learning for Hackers, O’Reilly Media, 2012, ISBN 978-1-449-30371-6

    A.J. Izenman: Modern Multivariate Statistical Techniques, Springer Science+Business Media, 2008, ISBN 978-0-387-78189-1

    J. He: Analysis of Rare Categories, Springer, 2012, ISBN 978-3-642-22813-1

    A. Guazzelli, W. Lin, T. Jena, J. Taylor: PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics, CreateSpace, 2010, ISBN 978-1-452- 85826-5

     

    Az itt megjelölt irodalom mellett a tárgy honlapján elérhetővé tett publikáció-hivatkozások.

     

    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra28
    Félévközi készülés órákra10
    Felkészülés zárthelyire10
    Házi feladat elkészítése

    12

    Kijelölt írásos tananyag elsajátítása 
    Vizsgafelkészülés 
    Összesen 60
    15. A tantárgy tematikáját kidolgozta

    Dr. Horváth Gábor

    egyetemi docens

    MIT

    Dr. Pataricza András

    egyetemi tanár

    MIT

    Kocsis Imre

    tud. smt.

    MIT

    Egyéb megjegyzések A tárgy címe angolul: Big data analysis techniques