Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Nagyméretű adathalmazok kezelése

    A tantárgy angol neve: Very Large Databases

    Adatlap utolsó módosítása: 2014. október 1.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Mérnökinformatikus szak, MSc képzés

    Számításelmélet mellékspecializáció

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VISZMA01 2 2/1/0/v 4  
    3. A tantárgyfelelős személy és tanszék Dr. Katona Gyula, Számítástudományi és Információelméleti Tanszék
    A tantárgy tanszéki weboldala cs.bme.hu/nagyadat
    4. A tantárgy előadója

    Név:

    Beosztás:

    Tanszék, Int.:

    Dr. Katona Gyula

    egyetemi docens

    Számítástudományi és Információelméleti Tanszék

    Daróczy Bálint

    Megbízott előadó

    MTA SZTAKI


    5. A tantárgy az alábbi témakörök ismeretére épít

    Adatbázisok elmélete, gráfelmélet, alapvető algoritmikus technikák

    6. Előtanulmányi rend
    Kötelező:
    NEM ( TárgyEredmény( "BMEVISZM144" , "jegy" , _ ) >= 2
    VAGY
    TárgyEredmény("BMEVISZM144", "FELVETEL", AktualisFelev()) > 0)

    A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

    A kötelező előtanulmányi rendek grafikus formában itt láthatók.

    7. A tantárgy célkitűzése

    A tárgy célja a nagy adathalmazok esetében felmerülő különleges elméleti és gyakorlati problémák áttekintése. A hallgatók betekintést kapnak a témakör modern irányzataiba, az adatbányászat, relációs adatbázisok, nagy gráfok, adatfolyamok elméleti és gyakorlati kérdésibe.

    8. A tantárgy részletes tematikája

    1.      Gépi tanulás alapvető feladatai, diszkriminatív és generatív modellek, attribútum típusok,

    2.      Legközelebbi szomszéd keresés: normalizáció, távolság.

    3.      Döntési fák: faépítés modelljei (C4.5, regressziós fák), tisztasági mértékek, vágások,

    4.      Early- és post-pruning, folytonos változók kezelése.

    5.      Naive Bayes: folytonos változók kezelése, m-estimate.

    6.      Perceptron: aktiválási függvények, stochasztikus gradiens.

    7.      Klaszterezés: középpontos (k-Means, bisecting k-Means),

    8.      Sűrűség alapú módszerek (DBSCAN, OPTICS), hierarchikus klaszterezés (linkage).

    9.      Ajánló rendszerek: collaborative filtering (Mátrix faktorizáció, legközelebbi szomszéd módszerek), tartalom alapú ajánlás.

    10.   Keresés: index építés, ranking (tf-idf, BM25, PageRank)

    11.  Support vector machines (SVM): maximal margin, kernel függvények

    12.  Principal Component Analysis (PCA)

    13.  Mesterséges Neurális hálózatok (ANN): felügyelet nélküli (Restricted Boltzmann Machines)

    14.   Mesterséges Neurális hálózatok (ANN): felügyelt (Multilayer Percetpron) esetben.

     

    A gyakorlatokon az előadáson ismertetett algoritmusokat próbálják ki a hallgatók.

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Előadás és számítógépes gyakorlat.
    10. Követelmények

    A félév során 2 zárthelyi megírására kerül sor, ezek külön-külön legalább elégségesre (40%) való teljesítése az aláírás feltétele. Nem kötelező jelleggel lehetőség van házi feladat beadására is. A hf –re plusz pont adható, amivel a legalább elégséges eredmény esetén a zh pontok száma növelhető.

    Vizsgaidőszak:

    A zárthelyik alapján megajánlott jegy: 40%-54%:2, 55%-69%:3, 70%-84%:4, 85%-100%:5. Lehetőség van szóbeli vizsgán ezen a jegyen módosítani. A szóbeli vizsgán résztvevők esetében a zárthelyik összesen 60%-ban, a vizsga 40%-bn számít be a végső érdemjegybe.

    11. Pótlási lehetőségek
    12. Konzultációs lehetőségek Előzetes egyeztetés szerint.
    13. Jegyzet, tankönyv, felhasználható irodalom

    Garcia-Molona, Ullman, Widom: Adatbázisrendszerek megvalósítása, Panem-John Wiley & Sons, (2001)

    Bodon Ferenc-            Buza Krisztián: Adatbányászat, kézirat: http://www.cs.bme.hu/~buza/pdfs/adatbanyaszat-cover.pdf

     

    Tan-Steinbach-Kumar: Introduction to Data Mining, Pearson Educacion; 2nd Revised edition edition (2013)

    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra42
    Félévközi készülés órákra28
    Felkészülés zárthelyire20
    Házi feladat elkészítése15
    Kijelölt írásos tananyag elsajátítása 
    Vizsgafelkészülés15
    Összesen120
    15. A tantárgy tematikáját kidolgozta

    Név:

    Beosztás:

    Tanszék, Int.:

    Dr. Katona Gyula

    egyetemi docens

    Számítástudományi és Információelméleti Tanszék

    Daróczy Bálint

    Megbízott előadó

    MTA SZTAKI