'Big Data' elemzési módszerek

A tantárgy angol neve: Big Data Analysis Techniques

Adatlap utolsó módosítása: 2016. október 30.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Mérnök informatikus alapszak

Villamosmérnöki alapszak

Villamosmérnöki szak

Mérnök informatikus szak

Gazdaságinformatikus szak

Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VIMIAV02   2/0/0/f 2  
3. A tantárgyfelelős személy és tanszék Dr. Pataricza András, Méréstechnika és Információs Rendszerek Tanszék
A tantárgy tanszéki weboldala https://www.mit.bme.hu/oktatas/targyak/vimiav02
4. A tantárgy előadója

Dr. Horváth Gábor            tudományos tanácsadó       Méréstechnika és Információs Rendszerek Tsz

Dr. Pataricza András        egyetemi tanár          Méréstechnika és Információs Rendszerek Tsz.

Kocsis Imre                          tud. smt.            Méréstechnika és Információs Rendszerek Tsz.

5. A tantárgy az alábbi témakörök ismeretére épít

valószínűségszámítás és mesterséges intelligencia/gépi tanulás alapjai

6. Előtanulmányi rend
Ajánlott:
A tárgy tematikája tekintetében komplementer a ’Big Data’ elemzési eszközök nyílt forráskódú platformokon c. tárggyal. Így javasolt a két társtárgy együttes felvétele, vagy egymás után elvégzése (tetszőleges sorrendben). A társtárgyak felvétele egymástól függetlenül is lehetséges
7. A tantárgy célkitűzése

Az utóbbi évtizedekben exponenciálisan növekvő mennyiségű mérési, megfigyelési adatot rögzí­tenek az élet minden területén (gazdasági folyamatok, társadalmi viszonyok, tudományos célú vizsgálatok stb.). Az adatelemzés célja a gyakran mintegy melléktermékként létrejövő adatokban rejlő tudás kinyerése, az adatkapcsolatok felderítése, előrejelzési modellek generálása, stb.

A nagymennyiségű adat elemzésénél, az ún. Big Data problémakörben az adatok óriási mennyi­sége (tera-, peta-, ill. hexabyte méretű adatbázisok) mellett nehézség a legkülönfélébb formában rendelkezésre álló adatok fúziója és homogenizálása is. Az egyre nagyobb feldolgozási kapa­citású számítási eszközök mellett célalgoritmusok és -architektúrák biztosítják az óriási adat­mennyiség elérhető árú és idő alatti hatékony elemzését.

Az új lehetőségek olyan új kérdéseket vetnek fel, mint a megfelelő adatok megszerzését biztosító kísérlettervezés, a mérés megtervezése, valamint a megszerzett adat elemzése. A Big Data körében kritikus szempont az adatelemzési módszerek megfelelő skálázhatósága, a számítási komplexitás növekedésének kézbentartása, továbbá a sokdimenziós adatok hatékony ábrázo­lása, vizualizációja.

A tárgy célja, a Big Data problémakör megoldását biztosító eszközök és módszerek áttekintése, a nagy adatmennyiségből adódó speciális problémák kezelése. A tárgyaláshoz több szempontból előnyös, közös nevező a komplex modellek használata, valamint az adatok hatékony ábrázolása, vizualizációja, ide értve a vizuális adatelemzés lehetőségeinek áttekintését is.

A tantárgy követelményeit eredményesen teljesítő hallgatók:

1.   Ismerik az elemzésre szolgáló alkalmas legfontosabb dedikált hardver/szoftver eszközö­ket, valamint a kinyert tudás integrációját a tipikus informatikai kulcsterületeken. Ezen belül jártasak az elterjedten használt, nyílt forráskódú R nyelvű eszközök és azok Big Data irányú kiterjesztéseinek használatában.

2.   Képesek az informatika széles területén az ismeretszerzési folyamatok tervezésére, végrehajtására és eredményük szabatos reprezentációjára. Ismerik a kísérlettervezés, adatminőség-biztosítás, adattisztí­tás, adatelemzés, értelmezés, döntéstámogatás és modellalkotás fázisait.

3.    Ismerik a klasszikus statisztikai döntéselméleti alapokat, különös tekintettel az optimali­zálási és minta-
       vételi technikákra. Megismernek néhány, a’Big Data’ informatika területén kulcsszerepet játszó területet
       (pl. ritka adat analízis).

 

8. A tantárgy részletes tematikája
  • 1. hét Bevezetés. A Big Data probléma áttekintése és megfogalmazása különböző alkalmazási területekről származó gyakorlati példákon keresztül. A Big Data analízis céljai. A kiértékelés és értelmezés problémája. Adatintegrálás, tudásfúzió. Adatmodellezés és informatikai alkalmazásmodel­lek kapcsolata.
  • 2. hét. Adatgyűjtés és -kiértékelés alapjai. Kísérlettervezés. A statisztikai adatok sokfélesége. Információfúzió. Megfigyelt változók és kapcsolataik jellemzése: alapvető statisztikai fogalmak.
  • 3. hét Adatfeldolgozó és statisztikai keretrendszerek; az R környezet és adaptálása a Big Data problémára. Példa: számítógépes loganalízis.
  • 4. hét Adatok vizualizációja. Sokdimenziós, bonyolult szerkezetű adatok megjelenítése és vizuális feltáró analízise. Vizuális analízis paradigmák, diagramtípusok és felhasználásuk.
  • 5. hét Statikus és interaktív R vizualizációs csomagok; Mondrian. A felhasználói vizualizáció eszközei (processing.js alapok).  Példák: cloud teljesítményanalízis, számítógépes csalásfelderítés.
  • 6. hét Klasszikus adatelemzés alapú modellalkotás. Korrelációanalízis, klaszterező és klasszifikációs módszerek, adatkapcsolatok. Dimen­zióredukció és alkalmazása az informatikában.
  • 7. hét Lineáris és nemlineáris modellek. Hiányos adatok kezelése. Példa: számítógéprendszer monitorozandó jellemzőinek kiválasztása. Analízis minták, az adatelemzési munkafolyamat-automatizálás eszközei (KNIME, KEPLER).
  • 8. hét Big Data’ statisztikai modellezés. Mintavételezés, szűrés, nagy adattömegre adaptált statisztikai modellezés és eszközei (pl. korrelációk, klaszterező módszerek, neurális hálók, kernel módszerek).
  • 9. hét Modelladaptáció. Modellek alkalmazása futási időben. Példa: szenzorkiválasztás monitorozó rendszerben. 
  • 10. hét Párhuzamosított feldolgozás eszközei. Finom és durva granularitású párhuzamosítás; adattárolás és –feldolgozás algoritmikus harmonizálása. Többmagos, FPGA, GPU, Grid, MapReduce/Hadoop és kapcsolódó eszközök bemutatása.
  • 11. hét Az eszközök beágyazása statisztikai keretrendszerekbe, Revolution, Oracle és IBM R megoldások. Példa: egy benchmark probléma összehasonlítása a különböző platformokon.
  • 12. hét Modellek hordozása az adatelemzési és informatikai modelltartományok között (PMML). A kinyert modellek ellenőrzése és általánosítása. Validálás, verifikálás. Érzékenység­analízis, metakategorizálási szabályok kinyerése. Példa: szoftver és webes alkalmazás teljesítményanalízise.
  • 13. hét Alkalmazások. Esettanulmányok.
9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)
  • előadás
10. Követelmények
  • Félév közben (kb. 8-9. héten) egy ZH, a szükséges minimum szint a pontok 40%-a.
  • Egy kötelező házi feladat. A házi feladat egy gyakorlati ‘Big Data’ probléma megoldása az előadáson megismert módszerek és eszközök segítségével. A házi feladat bemutatása és értékelése az utolsó oktatási héten történik, egy közös nyilvános bemutató keretében.
11. Pótlási lehetőségek

A TVSZ szerint.

12. Konzultációs lehetőségek

Igény szerint, előre egyeztetett időpontban.

13. Jegyzet, tankönyv, felhasználható irodalom

S.L. Lauritzen: Graphical Models, Clarendon Press, Oxford, 1996, ISBN 0-19-852219-3

M I. Jordan: Learning in Graphical Models (Adaptive Computation and Machine Learning), The MIT Press, 1998, ISBN 0-262-60032-3

M. Theus, S. Urbanek: Interactive Graphics for Data Analysis, CRC Press, 2009, ISBN 978-1-58488-594-8.

C. Chen, W. Härdle, A. Unwin: Handbook of Data Visualization, Springer Verlag Berlin Heidelberg, 2008, ISBN 978-3-540-33036-3

M.J. Crawley: The R Book, second edition, John Wiley & Sons, 2013, ISBN 978-0-470-97392-9

L. Torgo: Data Mining with R, Chapman & Hall/CRC, 2011, ISBN 978-1-4398-1018-7

D. Conway: Machine Learning for Hackers, O’Reilly Media, 2012, ISBN 978-1-449-30371-6

A.J. Izenman: Modern Multivariate Statistical Techniques, Springer Science+Business Media, 2008, ISBN 978-0-387-78189-1

J. He: Analysis of Rare Categories, Springer, 2012, ISBN 978-3-642-22813-1

A. Guazzelli, W. Lin, T. Jena, J. Taylor: PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics, CreateSpace, 2010, ISBN 978-1-452- 85826-5

 

Az itt megjelölt irodalom mellett a tárgy honlapján elérhetővé tett publikáció-hivatkozások.

 

14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra28
Félévközi készülés órákra10
Felkészülés zárthelyire10
Házi feladat elkészítése

12

Kijelölt írásos tananyag elsajátítása 
Vizsgafelkészülés 
Összesen 60
15. A tantárgy tematikáját kidolgozta

Dr. Horváth Gábor

egyetemi docens

MIT

Dr. Pataricza András

egyetemi tanár

MIT

Kocsis Imre

tud. smt.

MIT

Egyéb megjegyzések A tárgy címe angolul: Big data analysis techniques