Adatbányászati algoritmusok

A tantárgy angol neve: Data Mining Algorithms

Adatlap utolsó módosítása: 2017. január 27.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

PhD képzés

választható tárgy

Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VISZD308   4/0/0/v 5  
3. A tantárgyfelelős személy és tanszék Dr. Katona Gyula, Számítástudományi és Információelméleti Tanszék
4. A tantárgy előadója
Dr. Buza Krisztián tudományos munkatárs MTA-TTK
Dr Katona Gyula egyetemi docens Számítástudományi és Információelméleti Tanszék
5. A tantárgy az alábbi témakörök ismeretére épít

- lineáris algebra alapismeretek

- programozási alapismeretek (legalább egy programozási nyelv ismerete)

6. Előtanulmányi rend
Ajánlott:
nincs
7. A tantárgy célkitűzése

- Adatbányászati algoritmusok és az adattudomány legfontosabb eszközeinek ismerete.

- Az adattudomány legfontosabb eszközeinek gyakorlati alkalmazására vonatkozó képesség elsajátítása.

8. A tantárgy részletes tematikája

- Lineáris és polinomiális egy- és többváltozós regresszió, kapcsolódó optimalizációs technikák: gradiens módszer, normál egyenlet

- Felügyelt gépi tanulás, osztályozás: legközelebbi szomszéd osztályozó, döntési fák,  logisztikus regresszió, nemlineáris osztályozók, neurális hálók, support vektor gépek, idősorok osztályozása, dinamikus idővetemítés

- Haladó osztályozási technikák: részben-felügyelt tanulás (semi-supervised osztályozás), többosztályos feladatok, többfeladatos tanulási problémák, ensemble tanulás: bagging, boosting, stacking, ensemble tanulás Dietterich-féle modellje, csomósodás jelensége, csomósodást figyelembe vevő tanulási eljárások

- Tanuló algoritmusok értékelése: kereszt-validációs protokollok, bias-variance trade-off

- Klaszterezés: k-közép és változatai (k-medoids, FurthestFirst), hierarchikus klaszterező, Kleiberg-féle lehetetlenségelmélet, klaszterezés stabilitása, „klaszterezhetőség” fogalma, kapcsolat a konvergencia-sebesség és klaszterezhetőség között

- Főkomponens analízis, low-rank mátrix faktorizáció, collaborative filtering és alkalmazásaik (ajánlórendszerek, drug-target predikció)

- Sűrűségbecslés és anomáliakeresés

- Gyakori elemhalmaz-bányászat

- Orvosbiológiai adatok (pl. NGS adatok, génkifejeződés adatok, orvosbiológiai idősorok) feldolgozása és bányászata

- Alkalmazások és sikeres alkalmazásokhoz kapcsolódó kérdések: előfeldolgozás, változók skálázása, túltanulás, hiperparaméter-tanulás, tanulás kiegyensúlyozatlan osztályeloszlású adatokból

- Adattudomány legfontosabb eszközeinek alapjai: Octave/Matlab, Python, R, Hadoop.

9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) heti 2x2 óra előadás
10. Követelmények

a.       A szorgalmi időszakban:  5 db házi feladat és személyes beszámolás a házi feladatokról

b.       A vizsgaidőszakban:  szóbeli vizsga

c.         Elővizsga: lehetséges
11. Pótlási lehetőségek

A házi feladatok a pótlási hét végéig pótolhatók.

12. Konzultációs lehetőségek

Igény szerint, előzetes egyeztetés alapján az oktatóval.

13. Jegyzet, tankönyv, felhasználható irodalom

Pang-Ning Tan, Michael Steinbach, Vipin Kumar:

Introduction to Data Mining 

http://www-users.cs.umn.edu/~kumar/dmbook/index.php

 

Bodon Ferenc, Buza Krisztián: Adatbányászat, elektronikus jegyzet

http://www.cs.bme.hu/~buza/pdfs/adatbanyaszat-cover.pdf

14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra56
Félévközi készülés órákra14
Felkészülés zárthelyire25
Házi feladat elkészítése25
Kijelölt írásos tananyag elsajátítása0
Vizsgafelkészülés30
Összesen 150
15. A tantárgy tematikáját kidolgozta Dr. Buza Krisztián, tudományos munkatárs, MTA-TTK