Nagyméretű adathalmazok kezelése

A tantárgy angol neve: Very Large Databases

Adatlap utolsó módosítása: 2014. október 1.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Mérnökinformatikus szak, MSc képzés

Számításelmélet mellékspecializáció

Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VISZMA01 2 2/1/0/v 4  
3. A tantárgyfelelős személy és tanszék Dr. Katona Gyula, Számítástudományi és Információelméleti Tanszék
A tantárgy tanszéki weboldala cs.bme.hu/nagyadat
4. A tantárgy előadója

Név:

Beosztás:

Tanszék, Int.:

Dr. Katona Gyula

egyetemi docens

Számítástudományi és Információelméleti Tanszék

Daróczy Bálint

Megbízott előadó

MTA SZTAKI


5. A tantárgy az alábbi témakörök ismeretére épít

Adatbázisok elmélete, gráfelmélet, alapvető algoritmikus technikák

6. Előtanulmányi rend
Kötelező:
NEM ( TárgyEredmény( "BMEVISZM144" , "jegy" , _ ) >= 2
VAGY
TárgyEredmény("BMEVISZM144", "FELVETEL", AktualisFelev()) > 0)

A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

A kötelező előtanulmányi rendek grafikus formában itt láthatók.

7. A tantárgy célkitűzése

A tárgy célja a nagy adathalmazok esetében felmerülő különleges elméleti és gyakorlati problémák áttekintése. A hallgatók betekintést kapnak a témakör modern irányzataiba, az adatbányászat, relációs adatbázisok, nagy gráfok, adatfolyamok elméleti és gyakorlati kérdésibe.

8. A tantárgy részletes tematikája

1.      Gépi tanulás alapvető feladatai, diszkriminatív és generatív modellek, attribútum típusok,

2.      Legközelebbi szomszéd keresés: normalizáció, távolság.

3.      Döntési fák: faépítés modelljei (C4.5, regressziós fák), tisztasági mértékek, vágások,

4.      Early- és post-pruning, folytonos változók kezelése.

5.      Naive Bayes: folytonos változók kezelése, m-estimate.

6.      Perceptron: aktiválási függvények, stochasztikus gradiens.

7.      Klaszterezés: középpontos (k-Means, bisecting k-Means),

8.      Sűrűség alapú módszerek (DBSCAN, OPTICS), hierarchikus klaszterezés (linkage).

9.      Ajánló rendszerek: collaborative filtering (Mátrix faktorizáció, legközelebbi szomszéd módszerek), tartalom alapú ajánlás.

10.   Keresés: index építés, ranking (tf-idf, BM25, PageRank)

11.  Support vector machines (SVM): maximal margin, kernel függvények

12.  Principal Component Analysis (PCA)

13.  Mesterséges Neurális hálózatok (ANN): felügyelet nélküli (Restricted Boltzmann Machines)

14.   Mesterséges Neurális hálózatok (ANN): felügyelt (Multilayer Percetpron) esetben.

 

A gyakorlatokon az előadáson ismertetett algoritmusokat próbálják ki a hallgatók.

9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Előadás és számítógépes gyakorlat.
10. Követelmények

A félév során 2 zárthelyi megírására kerül sor, ezek külön-külön legalább elégségesre (40%) való teljesítése az aláírás feltétele. Nem kötelező jelleggel lehetőség van házi feladat beadására is. A hf –re plusz pont adható, amivel a legalább elégséges eredmény esetén a zh pontok száma növelhető.

Vizsgaidőszak:

A zárthelyik alapján megajánlott jegy: 40%-54%:2, 55%-69%:3, 70%-84%:4, 85%-100%:5. Lehetőség van szóbeli vizsgán ezen a jegyen módosítani. A szóbeli vizsgán résztvevők esetében a zárthelyik összesen 60%-ban, a vizsga 40%-bn számít be a végső érdemjegybe.

11. Pótlási lehetőségek
12. Konzultációs lehetőségek Előzetes egyeztetés szerint.
13. Jegyzet, tankönyv, felhasználható irodalom

Garcia-Molona, Ullman, Widom: Adatbázisrendszerek megvalósítása, Panem-John Wiley & Sons, (2001)

Bodon Ferenc-            Buza Krisztián: Adatbányászat, kézirat: http://www.cs.bme.hu/~buza/pdfs/adatbanyaszat-cover.pdf

 

Tan-Steinbach-Kumar: Introduction to Data Mining, Pearson Educacion; 2nd Revised edition edition (2013)

14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra42
Félévközi készülés órákra28
Felkészülés zárthelyire20
Házi feladat elkészítése15
Kijelölt írásos tananyag elsajátítása 
Vizsgafelkészülés15
Összesen120
15. A tantárgy tematikáját kidolgozta

Név:

Beosztás:

Tanszék, Int.:

Dr. Katona Gyula

egyetemi docens

Számítástudományi és Információelméleti Tanszék

Daróczy Bálint

Megbízott előadó

MTA SZTAKI