'Big Data' elemzési módszerek

A tantárgy angol neve: Big Data Analysis Techniques

Adatlap utolsó módosítása: 2018. április 27.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Mérnök informatikus alapszak

Villamosmérnöki alapszak

Villamosmérnöki szak

Mérnök informatikus szak

Gazdaságinformatikus szak

Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VIMIAV02   2/0/0/f 2  
3. A tantárgyfelelős személy és tanszék Dr. Pataricza András, Méréstechnika és Információs Rendszerek Tanszék
A tantárgy tanszéki weboldala https://www.mit.bme.hu/oktatas/targyak/vimiav02
4. A tantárgy előadója

Dr. Pataricza András egyetemi tanár, Méréstechnika és Információs Rendszerek Tanszék

Kocsis Imre tanársegéd, Méréstechnika és Információs Rendszerek Tanszék

5. A tantárgy az alábbi témakörök ismeretére épít

valószínűségszámítás és mesterséges intelligencia/gépi tanulás alapjai

6. Előtanulmányi rend
Ajánlott:
A tárgy tematikája tekintetében komplementer a ’Big Data’ elemzési eszközök nyílt forráskódú platformokon c. tárggyal. Így javasolt a két társtárgy együttes felvétele, vagy egymás után elvégzése (tetszőleges sorrendben). A társtárgyak felvétele egymástól függetlenül is lehetséges
7. A tantárgy célkitűzése

Az utóbbi évtizedekben exponenciálisan növekvő mennyiségű mérési, megfigyelési adatot rögzí­tenek az élet minden területén (gazdasági folyamatok, társadalmi viszonyok, tudományos célú vizsgálatok stb.). Az adatelemzés célja a gyakran mintegy melléktermékként létrejövő adatokban rejlő tudás kinyerése, az adatkapcsolatok felderítése, előrejelzési modellek generálása, stb.

A nagymennyiségű adat elemzésénél, az ún. Big Data problémakörben az adatok óriási mennyi­sége (tera-, peta-, ill. hexabyte méretű adatbázisok) mellett nehézség a legkülönfélébb formában rendelkezésre álló adatok fúziója és homogenizálása is. Az egyre nagyobb feldolgozási kapa­citású számítási eszközök mellett célalgoritmusok és -architektúrák biztosítják az óriási adat­mennyiség elérhető árú és idő alatti hatékony elemzését.

Az új lehetőségek olyan új kérdéseket vetnek fel, mint a megfelelő adatok megszerzését biztosító kísérlettervezés, a mérés megtervezése, valamint a megszerzett adat elemzése. A Big Data körében kritikus szempont az adatelemzési módszerek megfelelő skálázhatósága, a számítási komplexitás növekedésének kézbentartása, továbbá a sokdimenziós adatok hatékony ábrázo­lása, vizualizációja.

A tárgy célja, a Big Data problémakör megoldását biztosító eszközök és módszerek áttekintése, a nagy adatmennyiségből adódó speciális problémák kezelése. A tárgyaláshoz több szempontból előnyös, közös nevező a komplex modellek használata, valamint az adatok hatékony ábrázolása, vizualizációja, ide értve a vizuális adatelemzés lehetőségeinek áttekintését is.

A tantárgy követelményeit eredményesen teljesítő hallgatók:

1.   Ismerik az elemzésre szolgáló alkalmas legfontosabb dedikált hardver/szoftver eszközö­ket, valamint a kinyert tudás integrációját a tipikus informatikai kulcsterületeken. Ezen belül jártasak az elterjedten használt, nyílt forráskódú R nyelvű eszközök és azok Big Data irányú kiterjesztéseinek használatában.

2.   Képesek az informatika széles területén az ismeretszerzési folyamatok tervezésére, végrehajtására és eredményük szabatos reprezentációjára. Ismerik a kísérlettervezés, adatminőség-biztosítás, adattisztí­tás, adatelemzés, értelmezés, döntéstámogatás és modellalkotás fázisait.

3.    Ismerik a klasszikus statisztikai döntéselméleti alapokat, különös tekintettel az optimali­zálási és minta-
       vételi technikákra. Megismernek néhány, a’Big Data’ informatika területén kulcsszerepet játszó területet
       (pl. ritka adat analízis).

 

8. A tantárgy részletes tematikája
  • 1. hét Bevezetés. A Big Data probléma áttekintése és megfogalmazása különböző alkalmazási területekről származó gyakorlati példákon keresztül. A Big Data analízis céljai. A kiértékelés és értelmezés problémája. Adatintegrálás, tudásfúzió. Adatmodellezés és informatikai alkalmazásmodel­lek kapcsolata.
  • 2. hét. Adatgyűjtés és -kiértékelés alapjai. Kísérlettervezés. A statisztikai adatok sokfélesége. Információfúzió. Megfigyelt változók és kapcsolataik jellemzése: alapvető statisztikai fogalmak.
  • 3. hét Adatfeldolgozó és statisztikai keretrendszerek; az R környezet és adaptálása a Big Data problémára. Példa: számítógépes loganalízis.
  • 4. hét Adatok vizualizációja. Sokdimenziós, bonyolult szerkezetű adatok megjelenítése és vizuális feltáró analízise. Vizuális analízis paradigmák, diagramtípusok és felhasználásuk.
  • 5. hét Statikus és interaktív R vizualizációs csomagok; Mondrian. A felhasználói vizualizáció eszközei (processing.js alapok).  Példák: cloud teljesítményanalízis, számítógépes csalásfelderítés.
  • 6. hét Klasszikus adatelemzés alapú modellalkotás. Korrelációanalízis, klaszterező és klasszifikációs módszerek, adatkapcsolatok. Dimen­zióredukció és alkalmazása az informatikában.
  • 7. hét Lineáris és nemlineáris modellek. Hiányos adatok kezelése. Példa: számítógéprendszer monitorozandó jellemzőinek kiválasztása. Analízis minták, az adatelemzési munkafolyamat-automatizálás eszközei (KNIME, KEPLER).
  • 8. hét Big Data’ statisztikai modellezés. Mintavételezés, szűrés, nagy adattömegre adaptált statisztikai modellezés és eszközei (pl. korrelációk, klaszterező módszerek, neurális hálók, kernel módszerek).
  • 9. hét Modelladaptáció. Modellek alkalmazása futási időben. Példa: szenzorkiválasztás monitorozó rendszerben. 
  • 10. hét Párhuzamosított feldolgozás eszközei. Finom és durva granularitású párhuzamosítás; adattárolás és –feldolgozás algoritmikus harmonizálása. Többmagos, FPGA, GPU, Grid, MapReduce/Hadoop és kapcsolódó eszközök bemutatása.
  • 11. hét Az eszközök beágyazása statisztikai keretrendszerekbe, Revolution, Oracle és IBM R megoldások. Példa: egy benchmark probléma összehasonlítása a különböző platformokon.
  • 12. hét Modellek hordozása az adatelemzési és informatikai modelltartományok között (PMML). A kinyert modellek ellenőrzése és általánosítása. Validálás, verifikálás. Érzékenység­analízis, metakategorizálási szabályok kinyerése. Példa: szoftver és webes alkalmazás teljesítményanalízise.
  • 13. hét Alkalmazások. Esettanulmányok.
9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)
  • előadás
10. Követelmények
  • Egy kötelező házi feladat. A házi feladat egy gyakorlati ‘Big Data' probléma megoldása az előadáson megismert módszerek és eszközök segítségével. A házi feladat bemutatása és értékelése az utolsó oktatási héten történik, egy közös nyilvános bemutató keretében.
11. Pótlási lehetőségek

A TVSZ szerint.

12. Konzultációs lehetőségek

Igény szerint, előre egyeztetett időpontban.

13. Jegyzet, tankönyv, felhasználható irodalom

S.L. Lauritzen: Graphical Models, Clarendon Press, Oxford, 1996, ISBN 0-19-852219-3

M I. Jordan: Learning in Graphical Models (Adaptive Computation and Machine Learning), The MIT Press, 1998, ISBN 0-262-60032-3

M. Theus, S. Urbanek: Interactive Graphics for Data Analysis, CRC Press, 2009, ISBN 978-1-58488-594-8.

C. Chen, W. Härdle, A. Unwin: Handbook of Data Visualization, Springer Verlag Berlin Heidelberg, 2008, ISBN 978-3-540-33036-3

M.J. Crawley: The R Book, second edition, John Wiley & Sons, 2013, ISBN 978-0-470-97392-9

L. Torgo: Data Mining with R, Chapman & Hall/CRC, 2011, ISBN 978-1-4398-1018-7

D. Conway: Machine Learning for Hackers, O’Reilly Media, 2012, ISBN 978-1-449-30371-6

A.J. Izenman: Modern Multivariate Statistical Techniques, Springer Science+Business Media, 2008, ISBN 978-0-387-78189-1

J. He: Analysis of Rare Categories, Springer, 2012, ISBN 978-3-642-22813-1

A. Guazzelli, W. Lin, T. Jena, J. Taylor: PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics, CreateSpace, 2010, ISBN 978-1-452- 85826-5

 

Az itt megjelölt irodalom mellett a tárgy honlapján elérhetővé tett publikáció-hivatkozások.

 

14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontaktóra28
Készülés előadásra6
Házi feladat elkészítése

26

Összesen 60
15. A tantárgy tematikáját kidolgozta

Dr. Horváth Gábor

egyetemi docens

MIT

Dr. Pataricza András

egyetemi tanár

MIT

Kocsis Imre

tud. smt.

MIT

Egyéb megjegyzések A tárgy címe angolul: Big data analysis techniques