Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Alkalmazott adatelemzés

    A tantárgy angol neve: Applied Data Analysis

    Adatlap utolsó módosítása: 2015. március 30.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar
    Mérnök informatikus szak
    Villamosmérnöki szak
    Gazdaságinformatikus szak 
    Szabadon választható tárgy
    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMAV14   2/0/2/v 4  
    3. A tantárgyfelelős személy és tanszék Dr. Magyar Gábor Béla, Távközlési és Médiainformatikai Tanszék
    4. A tantárgy előadója

     Név: Beosztás: Tanszék, Intézet:
     Gáspár Csaba egyetemi tanársegéd  TMIT
     Nagy István tanszéki mérnök  TMIT

     

     

    5. A tantárgy az alábbi témakörök ismeretére épít

    Alapszintű programozási ismeretek, alapvető adat- és algoritmuselméleti alapfogalmak

    6. Előtanulmányi rend
    Ajánlott:
    nincs
    7. A tantárgy célkitűzése

    A tárgy célja, hogy gyakorlati oldalról mutassa be a hallgatóknak az adatelemzés során leggyakrabban használt nyelveket és eszközöket. Az előadások, laboratóriumi foglalkozások, valamint a házi feladatok során bemutatott és megoldott valós esettanulmányokon keresztül olyan alkalmazott tudáshoz jutnak, amellyel a jövőben képesek lesznek bármilyen adatelemzési feladat megoldására.

    8. A tantárgy részletes tematikája
    1. Előadás: Bevezetés. A leginkább elterjedt adatelemzési nyelvek és megoldások bemutatása. Shell script, mint adatelemzési eszköz. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
    2. Előadás: Awk és sed, reguláris kifejezések. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
    3. Előadás: Az R nyelv alapjainak bemutatása: használt programozási paradigma, változók, értékadás és egyszerű típusok, fontosabb operátorok, vektorok, szekvenciák. R vezérlési szerkezetek és függvények. Adatbevitel, adat transzformációk és adatok csoportosítása, valószínűségi operátorok, alapstatisztikák. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
    4. Előadás: R-ben használt további adatstruktúrák és használatukhoz szükséges operátorok: listák, faktorok, mátrixok, data frame. Speciális adattípusok és használatukhoz szükséges operátorok: sztringek és dátumok. R modellezési eljárások (osztályozás, regresszió), optimalizálás, feature extraction és selection módszerek.  Labor: alapvető operátorok, struktúrák és vezérlési szerkezetek begyakorlása egy valós telekommunikációs adatsoron.
    5. Előadás: A SAS nyelv alapjainak bemutatása: programozási paradigma, data lépés, alapvető adattárolási struktúrák és vezérlési szerkezetek, táblaegyesítési módszerek (set join). Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
    6. Előadás: SAS eljárások és statisztikai megjelenítések. Adattisztítási módszerek. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
    7. Előadás: SAS makró nyelv, makró változók, makró programok, program író makrók. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
    8. Előadás: SAS nyelv használata regressziós és klaszterezési problémák esetében. Labor: alapvető operátorok, struktúrák és vezérlési szerkezetek begyakorlása egy valós banki adathalmazon.
    9. Előadás: A Python nyelv alapjainak bemutatása: programozási paradigma, adattárolási struktúrák (pandas) és a feldolgozásukhoz szükséges operátorok. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
    10. Előadás: Python vezérlési szerkezetek és függvények. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
    11. Előadás: Idősorok elemzése Pythonnal: tartományok és kezelésük, időzónák kezelése, mintavételezés és frekvenciakonverzió, modellezési és megjelenítési kérdések. Labor: alapvető operátorok, struktúrák és vezérlési szerkezetek begyakorlása egy valós tőzsdei adatsoron.
    12. Előadás: Eddigi nyelvek összehasonlítása, az egyes nyelvek előnyeinek és hátrányainak összefoglalása. Labor: valós adatelemzési problémák megoldása csoportmunkában a megismert eszközök segítségével.
    13. Előadás: Kitekintés, nagy adathalmazok kezelésére szánt technológiák (MapReduce, Pig, Hive), speciális adatszerkezetek kezelésére létrehozott technológiák (GraphLab), egyéb adatfeldolgozási paradigmák áttekintése.  Labor: valós adatelemzési problémák megoldása csoportmunkában a megismert eszközök segítségével.
    14. Előadás: Esettanulmányok: valós üzleti problémák megoldásának bemutatása az előadás során ismertetett eszközökkel. Labor: példa vizsgafeladatok megoldása közösen.
    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Heti 2 óra előadás és 2 óra laboratórium.

     

    10. Követelmények
    • A szorgalmi időszakban minden nagyobb blokkhoz (3) gyakorlati kisházi feladat kapcsolódik, amelynek keretében a hallgatónak valós adathalmazokon kell, valós adatelemzési feladatokat megoldani. Az elfogadott (legalább elégséges szintű) házifeladatok a félévvégi aláírás feltételei.
    • A vizsgaidőszakban írásbeli vizsga. A végső vizsgajegy megállapítása: 50%-ban a kisházi feladatok átlagos eredménye + 50%-ban a vizsgán nyújtott teljesítmény. 
    11. Pótlási lehetőségek A házi feladatok közül egy késedelmes pótlása a pótlási héten, annak végéig történhet.
    12. Konzultációs lehetőségek

    Az oktatókkal való egyeztetés alapján.

    13. Jegyzet, tankönyv, felhasználható irodalom
    1. Dale Dougherty and Arnold Robbins: sed & awk, 2nd edition. 1997, O'Reilly Media. ISBN 978-1-56592-225-9
    2. Philipp K. Janert: Data Analysis with Open Source Tools. A hands-on guide for programmers and data scientists. 2010, O'Reilly Media. ISBN 978-0-596-80235-6
    3. W. N. Venables, D. M. Smith: An Introduction to R.  URL http://cran.r-project.org/doc/R-intro.pdf
    4. Lora D. Delwiche, Susan J. Slaughter: The Little SASŸ Book: A Primer, Fourth Edition. Cary, NC, USA, 2008, SAS Institute Inc. ISBN 978-1-59994-725-9
    5. Wes McKinney: Python for Data Analysis. Agile Tools for Real World Data. 2012, O'Reilly Media. ISBN 978-1-4493-1979-3
    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra  56
    Félévközi készülés órákra  14
    Felkészülés zárthelyire   0
    Házi feladat elkészítése  35
    Kijelölt írásos tananyag elsajátítása   0
    Vizsgafelkészülés  15
    Összesen120
    15. A tantárgy tematikáját kidolgozta

     
     Név: Beosztás: Tanszék, Intézet:
     Nagy István tanszéki mérnök TMIT
     Gáspár-Papanek Csaba  egyetemi tanársegéd  TMIT
     Dr. Magyar Gábor PhD  egyetemi docens TMIT
     Barta Gergő PhD hallgató TMIT
     Kazi Sándor PhD hallgató TMIT
     Nagy Gábor PhD hallgató TMIT