Adatbányászati technikák

A tantárgy angol neve: Data Mining Techniques

Adatlap utolsó módosítása: 2017. június 28.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Gazdaságinformatikus szak MSc képzés

 

Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VISZM185 1,3 3/1/0/f 5  
3. A tantárgyfelelős személy és tanszék Dr. Pintér Márta,
4. A tantárgy előadója

Név:

 

Beosztás:

 

Tanszék, Int.:

 

Katona Gyula PhD

 

Pintér Márta Barbara PhD

 

Sali Attila PhD

 

Egy. Docens

 

Egy. Docens

 

Egy. Docens
SZIT, BME

 

SZIT, BME

 

 SZIT, BME

 

5. A tantárgy az alábbi témakörök ismeretére épít Algoritmusok elmélete, lineáris algebra, gráfelmélet, valószínűségszámítás, adatbázis-elmélet

 

7. A tantárgy célkitűzése Az alapvető adatbányászati algoritmusok ismertetése, azok alkalmazhatóságának bemutatása a gazdasági életből származó példákon keresztül.
A tárgyhoz tartozó laboratórium gyakorlati ismereteket nyújt az adatbányászati módszerekről. A labor során a hallgató megismerkedik egy, a gyakorlatban széles körben elterjedt adatbányászati szoftverrel és tapasztalatokat szerez az adatelemzés, tudáskinyerés területén. A labor célja a hallgatók felkészítése arra, hogy képesek legyenek adatbányászati elemzéseket végezni különböző területeken (kereskedelem, pénzügy, marketing, orvosi adatbányászat, stb.).
8. A tantárgy részletes tematikája

1. Adatbányászat fogalma, története, feladatai, alkalmazási területek, adatbányászat szoftverek
o Koncepcionális alapozás,
o adatbányászó primitívek
o DMQL (data mining query language),
o DM rendszer arhitektúrák
2. Előfeldolgozás, adattranszformációk, hasonlósági mértékek, hiányzó értékek kezelése, diszkretizálás, mintavételezés
3. Bevezetés az osztályozásba és a regresszióba, osztályozó módszerek, osztályozás feladata
4. Lokális többségen alapuló osztályozók, k-legközelebbi szomszéd módszere, partíciós- és kernel-szabály, k-d fa, alkalmazási példa: piacszegmentálás
5. Döntési fák felépítése, döntési fák és döntési szabályok, minimális döntési fa feladata, ID3 algoritmus (feltételes entrópia), CART/CHAID módszerek lényege, alkalmazási példa: hitelbírálat
6. Bayes-döntés, Bayesi hálózatok, naiv bayesi hálók (NBH), alkalmazási példa: hitelbírálat (folytatása)
7. Lineáris osztályozók, perceptron algoritmus, Vapnik algoritmusa, hipersíkkal nem szeparálható adatok, SVM, alkalmazási példa: karakterfelismerés, arcfelismerés, mozgó objektumok azonosítása,követése
8. Osztályozók kombinálása (bagging, randomizálás, boosting)
9. Konzisztencia, hibavalószínűség, osztályozók kiértékelése: ismételt mintavételezés, keresztvalidáció, bootstrap
10. Klasszikus klaszterezési célfüggvények, klaszterező algoritmusok típusai, partíciós algoritmusok
11. Hierarhikus-, sűrűség-alapú módszerek
o rács- és modellalapú klaszterező algoritmusok (STING,CLIQUE,MAFIA)
o a dimenzió redukció feladata és lehetőségei klaszterezéshez
12. Gyakori elemhalmaz keresés, Apriori algoritmus, alkalmazási példa: tipikus ügyfélviselkedések kinyerése
13. Szófa a gyakori elemhalmazok tárolására, Apriori algoritmus gyorsítása: bemenet tárolása (piros-fekete fa), zsákutca nyesés
14. Asszociációs szabály fogalma, szabályok kinyerése, érdekességi mutatók, függetlenség meghatározása, hierarchikus asszociációs szabályok, asszociációs szabályok és az osztályozás, alkalmazási példa: ügyfél viselkedés, márka hűség előrejelzés, bankkártya csalás detektálása
A gyakorlati órák tartalma:
A heti egy óra laborgyakorlatot kéthetente megtartott duplaóra formájában bonyolítjuk. A hallgatók egy-egy témakört felölelő feladatlapokat kapnak, amit önállóan kell a laborban megoldaniuk tanári felügyelet mellett.
1. Néhány piacvezető adatbányászati szoftver bemutatása, előfeldolgozás, adattranszformációk
2. Osztályozás: legközelebbi szomszéd módszere, döntési szabályok
3. Osztályozás: döntési fák
4. Neurális hálózatok, Bayesi hálózatok, SVM osztályozás
5. Klaszterezés
6. Gyakori elemhalmaz keresés, asszociációs szabály keresés, eredmények interpretációja, asszociációs szabálykeresés buktatói , érdekességi mutatók
7. Házi feladatok beadása, ellenőrzése

9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Heti 3 óra előadás és 1 óra laboratórium.
10. Követelmények

A szorgalmi időszakban: 2 zárthelyi, 1 nagy házi feladat
A jegybe a zárthelyik és nagy házi feladat egyenlő (1/3) mértékben számítanak be.

Értékelés: 50%-tól elégséges(2), 60%-tól közepes(3), 70%-tól jó(4), 80%-tól jeles(5)

11. Pótlási lehetőségek Sikertelen zárthelyi pótlási lehetősége a zárthelyit követő héten pótzárthelyin.
A sikertelen (pót)zárthelyi a pótlási héten különeljárási díj ellenében egy további alkalommal pótolható.
A házi feladat a pótlási héten különeljárási díj ellenében pótolható.
13. Jegyzet, tankönyv, felhasználható irodalom

• Dr. Bodon Ferenc: Adatbányászati algoritmusok, BME Számítástudományi és Információelmélet tanszék. Budapest, 2007, Online jegyzet http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/tanulmany/index.html
• Dr. Abonyi János: Adatbányászat - A hatékonyság eszköze, ComputerBooks Kiadó Kft. Budapest, 2006
• Ian H. Witten and Eibe Frank: Data Mining: Practical machine learning tools and techniques, 2nd edition, Morgan Kaufmann, San Francisco, 2005.
• Sajtos László - Mitev Ariel: SPSS kutatási és adatelemzési kézikönyv, Alinea kiadó, Budapest, 2007.

14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra56
Félévközi készülés órákra 34 (előadásra:20, gyakorlatra: 14)
Felkészülés zárthelyire30
Házi feladat elkészítése30
Kijelölt írásos tananyag elsajátítása 
Vizsgafelkészülés 
Összesen150
15. A tantárgy tematikáját kidolgozta
Név:

 

Beosztás:

 

Tanszék, Int.:

 

Pintér Márta Barbara PhD

 

Egy. Docens

 

SZIT, BME