Adatelemzési platformok

A tantárgy angol neve: Data Analytics Platforms

Adatlap utolsó módosítása: 2014. október 3.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Mérnökinformatikus szak, MSc képzés

Adat- és médiainformatikai mellékspecializáció  

Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITMMA05 1 2/1/0/f 4  
3. A tantárgyfelelős személy és tanszék Dr. Magyar Gábor Béla, Távközlési és Médiainformatikai Tanszék
4. A tantárgy előadója

 Gáspár Csaba

 egyetemi tanársegéd

 BME-TMIT

 Nagy István

 tanszéki mérnök

 BME-TMIT

 Prekopcsák Zoltán

 tanszéki mérnök

 BME-TMIT

5. A tantárgy az alábbi témakörök ismeretére épít Alapvető matematikai és algoritmuselméleti ismeretek
6. Előtanulmányi rend
Kötelező:
NEM ( TárgyEredmény( "BMEVITMM139" , "jegy" , _ ) >= 2
VAGY
TárgyEredmény("BMEVITMM139", "FELVETEL", AktualisFelev()) > 0)

A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

A kötelező előtanulmányi rendek grafikus formában itt láthatók.

Ajánlott:
nincs
7. A tantárgy célkitűzése Rendszereinkből kinyerhető adatok mennyiségének növekedésével, a tárolási költségek csökkenésével egyre nagyobb az igény az adatokból kinyerhető összefüggések, tudás kiaknázására. A tárgy elsődleges célja, hogy a hallgatók készség szinten legyenek képesek adatbányászati feladatok megfogalmazására és valós adathalmazok felett ilyen problémák megoldására. Ehhez a tárgy nemcsak az adatbányászat, a gépi tanulás, az adatelemzés elvi hátterét mutatja be, hanem vizuális programozási metodikát használó adatbányászati szoftvereket, platformokat is ismertet, külön figyelmet szentel a ’big data’ elemzési feladatokra megoldást jelentő Hadoop platform bemutatására. Az elméleti hátteret alkalmazási területekhez köthetően, valós adathalmazokon végzett elemzési feladaton keresztül mutatja be. Az alkalmazási területek felölelik az üzleti élethez köthető legfontosabb adatelemzési, adatbányászati problémaköröket, mint az elvándorlás előrejelzés, marketing kampánytámogatás, kockázatbecslés.
8. A tantárgy részletes tematikája

Adatbányászat legújabb trendjei, CRISP-DM (Cross Industry Standard Process for Data Mining) metodika. Osztályozási feladat távközlési hívásadatok churn (lemorzsolódás, elvándorlás) rendszerében.

Hitelbírálati rendszer bemutatása, scoring technika, mintavételezés. Ügyfélérték fogalma.

Bankkártya adatok, keresztértékesítés iránya, a sikeres adatbányászat 6 feltétele.

Ügyfélszegmentálás, klaszterező eljárások, k-közép és k-medoid algoritmus

Kampányoptimalizáció. Biztosítási adatokon történő adatelemzés. Kombinált adatbányászati eljárások, együttes osztályozók

A hálózatelemzés alapjai, hálózat alapú előrejelzés, fertőzési modellek felhasználása

Közösségi hálók hálózati elemzése adatbányászat segítségével.

Társadalmi, környezeti adatok gyűjtése és feldolgozása.

Adattranszformációs és adatmanipulációs lehetőségek és vizuális adatelemzés: adattípusok, adatelemzési problémák áttekintése, visszamérési módszerek.

Adatelőkészítési módszerek: adattisztítási módszerek, adatintegrációs és transzformációs technikák, adatredukciós módszerek, diszkretizációs technikák.

Osztályozási problémák megoldása: döntési technikák, példányalapú mószerek. Metatanuló módszerek.

Klaszterezés és outlier keresés: hasonlósági és távolsági mértékek, particionáló módszerek, hierarchikus klaszterezők, sűrűség alapú klaszterezők, outlier keresési technikák.

Idősoros adatok feldolgozása: lineáris és nem-lineáris módszerek, regressziós fák.

A nagy adat (Big Data) jelensége és fogalma, szerepe. Az Apache Hadoop platform bemutatása.

Elosztott adattárolás és elemzések MapReduce alapokon. MapReduce programozási minták.

Lekérdezési módszerek és programnyelvek nagy adatok esetén (Hive, Pig). Big Data esettanulmányok.

 

Gyakorlati órák tématerületei:

Hitelbírálati feladat adatbányászati megoldása
Keresztértékesítés
Távközlési cég ügyfeleinek elvándorlás (churn) előrejelzése
Kampányoptimalizáció biztosítási környezetben
Vásárlói kártya adatok adatbányászati feldolgozása
Big Data megoldásokhoz kapcsolódó Hadoop alapú technológiák

9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Előadás és gyakorlat
10. Követelmények

A szorgalmi időszakban: 1 db házi feladat és 1 db zárthelyi dolgozat

A kredit-megszerzés feltétele a nagyházi feladat (beleértve a pótló nagyházit is: lásd a következő pontban) és a zárthelyi dolgozat legalább elégséges szintre történő megírása. A félévközi érdemjegy a zárthelyi és a házi feladat osztályzatainak átlaga.

11. Pótlási lehetőségek Sikertelen zárthelyi egy alkalommal (pótZH vagy pót-pótZH alkalmával) pótolható. A házi feladat pótlólagos beadása a pótlási időszakban lehetséges.
12. Konzultációs lehetőségek A tárgy előadójával személyesen, vagy e-mailben egyeztetett időpontban
13. Jegyzet, tankönyv, felhasználható irodalom

Dr. Abonyi János: Adatbányászat a hatékonyság eszköze, Computerbooks, Budapest 2006 

Larose, Daniel T., Discovering Knowledge in Data: An Introduction to Data Mining, Wiley-Interscience, 2004.

Bodon Ferend, Búza Krisztián: Adatbányászat (folyamatosan bővülő elektronikus jegyzet), 2013

Donald Miner, Adam Shook: MapReduce Design Patterns: Building Effective Algorithms and Analytics for Hadoop and Other Systems, O’Reilly, 2012
14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra42
Félévközi készülés órákra15
Felkészülés zárthelyire 
Házi feladat elkészítése33
Kijelölt írásos tananyag elsajátítása 
Vizsgafelkészülés30
Összesen120
15. A tantárgy tematikáját kidolgozta

 Dr. Szűcs Gábor

 egyetemi docens

 BME-TMIT

 Dr. Magyar Gábor

 egyetemi docens

 BME-TMIT

 Gáspár Csaba

 egyetemi tanársegéd

 BME-TMIT

 Nagy István

 tanszéki mérnök

 BME-TMIT

 Prekopcsák Zoltán

 tanszéki mérnök

 BME-TMIT

 Kazi Sándor

 doktorandusz

 BME-TMIT