'Big Data' elemzési eszközök nyílt forráskódú platformokon

A tantárgy angol neve: Big Data Analytics Tools with Open-Source Platforms

Adatlap utolsó módosítása: 2015. március 30.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar
Mérnök informatikus szak
Villamosmérnöki szak
Gazdaságinformatikus szak 
Szabadon választható tárgy
Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITMAV15   2/0/0/f 2  
3. A tantárgyfelelős személy és tanszék Dr. Magyar Gábor Béla, Távközlési és Médiainformatikai Tanszék
4. A tantárgy előadója
 Név: Beosztás: Tanszék, Intézet:
 Prekopcsák Zoltán  ügyvivő szakértő  TMIT
 Gáspár Csaba  egyetemi tanársegéd  TMIT
 
5. A tantárgy az alábbi témakörök ismeretére épít

Alapszintű programozási ismeretek, algoritmuselméleti alapok

6. Előtanulmányi rend
Ajánlott:

A tárgy tematikája tekintetében komplementer a 'Big Data' elemzési módszerek című tárggyal. Így javasolt a két társtárgy együttes felvétele, vagy egymás után elvégzése (tetszőleges sorrrendben). A társtárgyak felvétele egymástól függetlenül is lehetséges.

7. A tantárgy célkitűzése

A tárgy célja, hogy megismertesse a hallgatókkal a big data elemzésére alkalmas módszereket és algoritmusokat, különös tekintettel a széles körben elterjedt nyílt forráskódú technológiákra. A példák és a házi feladatok a Hadoop keretrendszerhez és más hozzá kapcsolódó technológiákhoz nyújtanak gyakorlati ismereteket. A hallgatók képesek lesznek nagy adatok elemzésére alkalmas rendszerek megtervezésére, létrehozására és elemzési feladatok megvalósítására.

8. A tantárgy részletes tematikája
  1. Bevezetés. A nagy adat (big data) fogalma, jelentése. A térnyerést elősegítő trendek: hardver költségek csökkenése, felhő technológiák terjedése. Tipikus üzleti felhasználási területek áttekintése. A leginkább elterjedt adatelemzési platformok bemutatása.
  2. Az Apache Hadoop bemutatása, története. Elterjedt nyílt forráskódú csomagok és lekérdező eszközök áttekintése. A HDFS adattárolási mechanizmusa: blokkok, replikáció, tömörítés, elterjedt fájlformátumok. A Namenode, Secondary Namenode és a Datanode feladata, szerepe.
  3. A MapReduce programozási paradigma bemutatása. Néhány adatelemzési példa MapReduce segítségével. A Hadoop MapReduce működése, programozása. A Jobtracker és a Tasktracker feladata, szerepe.
  4. Hadoop MapReduce programozás Java nyelven. A Streaming API használata, MapReduce programozás további programnyelveken. Tipikus programozási minták, optimalizációs megoldások. A join művelet megvalósítása MapReduce paradigma szerint.
  5. Apache Hadoop klaszterek kiépítése, üzemeltetése, tipikus karbantartási feladatok. Saját gépeken, illetve felhőben futó klaszterek összevetése. Hardver elemek méretezése, főbb konfigurációs paraméterek beállításai. Meghibásodási lehetőségek, nagy rendelkezésreállás biztosítása a Namenode és a Jobtracker esetén.
  6. SQL alapú lekérdező eszközök áttekintése: Hive, Impala. A Hive és az Impala felépítése és működése, különbségek a klasszikus adatbázisokhoz képest. A HiveQL lekérdező nyelv funkciói és hiányosságai. Saját függvények (UDF, UDAF) fejlesztési lehetőségei.
  7. A Pig adatelemzési szkriptnyelv bemutatása, a nyelv tulajdonságai, főbb funkciói. Adattípusok, vezérlési szerkezetek. A Pig és a Hive összehasonlítása.
  8. Zárthelyi dolgozat megírása
  9. Esettanulmány: Nagy méretű log adatok gyűjtése és elemzése Hadoop alapokon. Logok elosztott és megbízható tárolása HDFS-en, azok rendszerezése és elemzése Hive és Pig segítségével. Elemzési és üzemeltetési tapasztalatok.
  10. Az HBase elosztott adatbázis bemutatása. Bloom szűrők használata a gyorsabb kiszolgálás érdekében. Összehasonlítás további elosztott adatbázisokkal: Apache Accumulo, Cassandra.
  11. Gépi tanulási és adatbányászati algoritmusok megvalósítása Hadoop alapokon. A Mahout csomag bemutatása. A MapReduce limitációi, iteratív és memória-alapú kiterjesztései.
  12. Az Apache Giraph és a GraphLab gépi tanulási algoritmusok bemutatása. A gráf alapú implementációk előnyei és korlátai. Tipikus felhasználási területek.
  13. Esettanulmányok: Big data elemzésére vonatkozó referencia architektúrák, technológiai megoldások, üzleti felhasználási területek. Néhány Hadoop alapú architektúra és felhasználás bemutatása.
  14. Zárthelyi dolgozat pótlása, házi feladatok bemutatása
9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Előadás
10. Követelmények A szorgalmi időszakban: zárthelyi dolgozat, illetve házi feladat megoldása. A félévközi jegy a zárthelyi és a házi feladat osztályzatának átlaga.
11. Pótlási lehetőségek A zárthelyi pótlására a szorgalmi időszakban egy lehetőséget biztosítunk. Azok számára, akiknek nem sikerült sem a zárthelyi, sem a pótzárthelyi: a pótlási időszakban 1 alkalmat biztosítunk egy újabb zárthelyi dolgozatra. Az aláírás feltétele valamelyik zárthelyi (első vagy a pót- vagy a pótpót-zárthelyi) legalább elégséges szintre történő megírása. A házi feladat pótlólagos leadása a pótlási időszakban lehetséges.
12. Konzultációs lehetőségek

Az oktatókkal való egyeztetés alapján.

13. Jegyzet, tankönyv, felhasználható irodalom
Kötelező irodalom
  1. Tom White: Hadoop: The Definitive Guide, O’Reilly, 3rd edition, 2012
  2. Edward Capriolo, Dean Wampler, Jason Rutherglen: Programming Hive, O’Reilly, 2012
  3. Lars George: HBase: The Definitive Guide, O’Reilly, 2011
Ajánlott irodalom
  1. Chuck Lam: Hadoop in Action, Manning, 2010
  2. Eric Sammer: Hadoop Operations, O’Reilly, 2012 
  3. Donald Miner, Adam Shook: MapReduce Design Patterns: Building Effective Algorithms and Analytics for Hadoop and Other Systems, O’Reilly, 2012
  4. Sean Owen, Robin Anil, Ted Dunning, Ellen Friedman: Mahout in Action, Manning, 2011
14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra28
Félévközi készülés órákra 7
Felkészülés zárthelyire10
Házi feladat elkészítése15
Kijelölt írásos tananyag elsajátítása 0
Vizsgafelkészülés 0
Összesen60
15. A tantárgy tematikáját kidolgozta
 Név: Beosztás: Tanszék, Intézet:
 Prekopcsák Zoltán ügyvivő szakértő TMIT
 Gáspár-Papanek Csaba egyetemi tanársegéd TMIT
 Dr. Magyar Gábor egyetemi docens TMIT
 Nagy Gábor doktorandusz TMIT
 Kazi Sándor doktorandusz TMIT
 Tóth Zoltán Csaba adatmérnök Prezi
 Szakács Balázs üzleti intelligencia vezető  Ustream