Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Adatelemzés

    A tantárgy angol neve: Data Analysis

    Adatlap utolsó módosítása: 2014. március 21.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Mérnök Informatikus Szak

    Vállalati információs rendszerek szakirány

    BSc képzés

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VISZAC00 6 3/1/0/v 4  
    3. A tantárgyfelelős személy és tanszék Dr. Ketskeméty László, Számítástudományi és Információelméleti Tanszék
    4. A tantárgy előadója

    Név:

    Beosztás:

    Tanszék, Int.:

    Dr Ketskeméty László

    egy. docens

    Számítástudományi és Információelméleti Tanszék

    Daróczy Bálint

    doktorandusz

    MTA SZTAKI

    Dr Szűcs Gábor

    egy. docens

    Távközlési és Médiainformatikai Tanszék

     

    5. A tantárgy az alábbi témakörök ismeretére épít

    Valószínűségszámítás, Algoritmuselmélet

    6. Előtanulmányi rend
    Kötelező:
    (Szakirany("AMINvallinfrendETT", _) VAGY
    Szakirany("AMINvallinfrendSZIT", _) VAGY
    Szakirany("AMINvallinfrendTMIT", _) )

    VAGY Training.code=("5NAA8")

    A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

    A kötelező előtanulmányi rendek grafikus formában itt láthatók.

    7. A tantárgy célkitűzése

    Az előadások célja, hogy a hallgatók a félév végére elsajátítsák a statisztikai és az üzleti adatbányászati módszerek alapismereteit. A gyakorlatokon különböző valós problémákból származó alkalmazási példák kielemzése és adatintenzív problémák megoldása folyik számítógépes támogatással. Megszerezhető készségek, képességek: A hallgatók képesek lesznek a vállalati szférában felismerni az üzleti intelligenciával megoldható problémákat, készség szinten fogják használni a problémák megoldására a statisztikai és adatbányászati eszközöket, valamint képesek lesznek a vállalathoz kapcsolódó ügyfelek adataira és egyéb céges adatokra építve profitorientált analitikai megoldásokat tervezni és megvalósítani.

    8. A tantárgy részletes tematikája

    Az előadások ütemezése

     

    1.       A hipotéziselmélet alapfogalmai: nullhipotézis, alternatív hipotézis, próbastatisztika, elfogadási tartomány, kritikus tartomány, elsőfajú hiba, másodfajú hiba, erőfüggvény, szignifikancia-szint, erőfüggvény, a próba ereje, torzítatlanság, konzisztencia. A normálisból származtatott eloszlások: Chi-négyzet, Student- és F-eloszlások. Lukács tétele. A paraméter fogalma. Paraméteres hipotézisek.

    2.       A normális eloszlás paramétereire megfogalmazott szignifikancia  próbák: egymintás u- és t- próbák, két független mintás u- és t-próbák, párosított két mintás t-próba, F-próba, Welch-próba, Bartlett-próba.

    3.       Nemparaméteres próbák I. A Chi-négyzet próbák alaptétele. Tiszta és becsléses illeszkedésvizsgálat Chi-négyzet próbával. Függetlenségvizsgálat Chi-négyzet-próbával. Két független minta homogenitásának ellenőrzése Chi-négyzet próbával.

    4.       Nemparaméteres próbák II. Gnegyenko-Koroljuk tétele. Rendstatisztikák, rendpróbák. Illeszkedésvizsgálat egymintás Kolmogorov-Szmirnov-próbával.  Homogenitás-vizsgálat kétmintás Kolmogorov-Szmirnov próbával.

    5.       Homogenitásvizsgálat. Két független minta homogenitásának ellenőrzése Mann-Whitney-próbával. Több független minta homogenitásának ellenőrzése Kruskal-Wallis próbával. Két összetartozó minta homogenitásának ellenőrzése Wilcoxon-próbával. Több összetartozó minta homogenitásának ellenőrzése Friedmann-próbával.

    6.       Kétváltozós regressziós módszerek. Elméleti háttér: a feltételes várható érték. A kétváltozós regresszió fajtái: Lineáris regressziók, polinomiális regresszió, lineárisra visszavezethető kétparaméteres regressziók. Logisztikus regresszió. A legkisebb négyzetek módszere. Szórásanalízis (ANOVA) a modell érvényességének eldöntésére. Meghatározottsági együttható. Nadaraja-módszere.

    7.       Többváltozós lineáris regresszió. Modellépítési technikák. Korrelációs együtthatók: totális-, többszörös-, parciális-. A béta együtthatók. Az adjusztált meghatározottsági együttható. Multikollinearitás. Heteroszkedaszticitás. Outlier pontok detektálása, elemzése.

    8.       Üzleti adatok elemzésének célja. Üzleti intelligencia a gyakorlatban. Adatvezérelt probléma megoldás CRISP-DM (CRoss Industry Standard Process for Data Mining) segítségével. Ügyfélkapcsolat menedzsment rendszer (CRM) analitikai megoldásai.

    9.       Vállalati adatok előkészítésének lépései az elemzéshez. Termékhalmazok gyakorisága, vásárlói kosárelemzés ismertetése, asszociációs szabályok bevezetése. Alkalmazási területek hipermarketekben, bevásárlói kártyák, gyakori szekvenciák fogalma.

    10.    Felügyelt gépi tanulás. Tanulási hibák súlyozása, profit mátrix. Egyszerű osztályozó algoritmusok, (kNN, Naive-Bayes), metrikák.

    11.    Statisztika alapú döntések elősegítése döntési fákkal. Döntési fa tanuló algoritmusai (C4.5, tisztasági mértékek, vágások, elő és utó fa metszés), vezetői döntések meghozatala a megtanult modell alapján.

    12.    Osztályozás és regresszió. Ügyfélérték számítás, lemorzsolódás (churn) predikció. Hiteligénylők osztályozási feladata. Vásárlási hajlandóság predikálása direkt marketing kampányoknál.

    13.    Ügyfélszegmentáció és egyéb csoportosítási feladatok klaszterezéssel. A k-Means algoritmus és továbbfejlesztett változatai (pl. bisecting és adaptív k-Means). Sűrűség alapú módszerek (DBSCAN, OPTICS) illetve hierarchikus klaszterezés eredményeinek vizsgálata üzleti szempontból.

    14.    Pár ismert és/vagy nyílt forráskódú adatbányászati szoftverek használata, modellépítés a gyakorlatban, osztályozó és klaszterező algoritmusok korlátai.

     

    A gyakorlatok ütemezése

     

    1.       A felhasznált statisztikai szoftver működésének átfogó ismertetése. Leíró statisztikák definíciói, értelmezése. Grafikonok: oszlop-, torta-grafikonok, boxdiagramm, hisztogramm, P-P-, Q-Q-grafikon, szóródásábrák. Konfidencia-intervallumok értelmezése, paraméteres próbák végrehajtása és kiértékelése közgazdasági adatmátrixokon.

    2.       Vállalati és üzleti adatokon végzett illeszkedésvizsgálat, függetlenségvizsgálat és homogenitásvizsgálat szignifikancia próbákkal. Grafikus és statisztikai elemzések.

    3.       Üzleti adatmátrix változói közötti kapcsolatfeltárás regresszióanalízissel. A modellépítési technikák gyakorlása, összehasonlítása. A modellek utólagos kiértékelése: multikollinearitás, heteroszkedaszticitás feltárása, érzékenységvizsgálat, outlierek feltárása, értelmezése.

    4.       Statisztikai adatok felhasználása adatbányászati feladatokra. Hitelkérelem bináris döntésének profit mátrixa, döntési feladatok megoldása egyszerű algoritmusokkal.

    5.       Vásárolt könyvek adatbázisán kosárelemzési feladatok. Döntési fa segítségével elérhető „lift” számítása.

    6.       Modell építés egy webshopban böngésző potenciális vásárló vásárlási hajlandóság becslésére.

    7.       Cég ügyfélkörének szegmentálása az ügyfelek adatai (pl. kor, vásárlások gyakorisága és összértéke) alapján. Valós adatelemzési problémák megoldása csoportmunkában a megismert eszközök segítségével.

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

    heti 3 óra előadás + 1 óra számítógépes gyakorlat, mely utóbbi 7 db dupla óra keretében kerül megvalósításra

    10. Követelmények

    a. A szorgalmi időszakban:

    A számítógépes gyakorlatokon való részvétel kötelező, melyekre az előadás illetve a kiadott ütemterv alapján felkészülten kell megjelenni. A felkészülést beugró jelleggel mérjük. A gyakorlaton végzett munkát dokumentálni kell, a dokumentációt az óra végén be kell adni. A beadott dokumentációt és az elvégzett munkát osztályozzuk. Az aláírás megszerzésének feltétele: A gyakorlati foglalkozások 70%-ának sikeres teljesítése. Nem kötelező jelleggel lehetőség van féléves házi feladat beadására is. A házi feladatra plusz pont adható legalább elégséges teljesítmény esetén.

    b. A vizsgaidőszakban: írásbeli vizsga. A vizsgajegy megállapításának módja: A laboratóriumi gyakorlatokon megszerzett jegyek legjobb 70%-ának (legjobb 5 gyakorlat) átlaga 50%-ban és az írásbeli vizsga eredményének 50%-ban, ha a vizsga legalább elégséges szintű.

    11. Pótlási lehetőségek

    A számítógépes gyakorlatok pótlására nincs lehetőség.

    12. Konzultációs lehetőségek

    Az előadó fogadóórája idejében konzultációs lehetőséget biztosítunk.

    13. Jegyzet, tankönyv, felhasználható irodalom

    1. Fazekas I. (szerk.): Bevezetés a matematikai statisztikába, Kossuth Egyetemi Kiadó, Debrecen, 2000.

    2. Ketskeméty, Pintér: Bevezetés a matematikai statisztikába.  Egyetemi jegyzet. www.szit.bme.hu/~kela/ind3.html

    3. Ketskeméty, Izsó, Könyves-Tóth: Bevezetés az IBM SPSS Statistics programrendszerbe. Arteria Studió, 2011.

    4. Bolla Marianna, Krámli András: Statisztikai következtetések elmélete, Typotex, 2005

    5. P. Tan, M. Steinbach, V. Kumar: Introduction to Data Mining, Addison-Wesley, 2006, Cloth; 769 pp, ISBN-10: 0321321367, ISBN-13: 9780321321367

    http://www-users.cs.umn.edu/~kumar/dmbook/index.php

    6. Bodon Ferenc: Adatbányászati algoritmusok

    http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/tanulmany/index.html

    7. Leskovic, Rajraman, Ullmann: Mining of Massive Datasets

    http://infolab.stanford.edu/~ullman/mmds.html

    8. Cser László, Fajszi Bulcsú, Fehér Tamás: Üzleti haszon az adatok mélyén - Az adatbányászat mindennapjai, Alinea Kiadó, 2010.

    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra56
    Félévközi készülés órákra40
    Felkészülés zárthelyire 
    Házi feladat elkészítése 
    Kijelölt írásos tananyag elsajátítása 
    Vizsgafelkészülés24
    Összesen120
    15. A tantárgy tematikáját kidolgozta

    Név:

    Beosztás:

    Tanszék, Int.:

    Dr Ketskeméty László

    egy. docens

    Számítástudományi és Információelméleti Tanszék

    Daróczy Bálint

    doktorandusz

    MTA SZTAKI

    Dr Szűcs Gábor

    egy. docens

    Távközlési és Médiainformatikai Tanszék