Adatbányászati algoritmusok

A tantárgy angol neve: Data Mining Algorithms

Adatlap utolsó módosítása: 2012. május 30.

Tantárgy lejárati dátuma: 2015. június 30.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Villamosmérnöki Szak

Mérnök Informatikus Szak

Szabadon választható tantárgy

Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VISZJV68   4/0/0/v 4  
3. A tantárgyfelelős személy és tanszék Dr. Pintér Márta,
4. A tantárgy előadója

Név:

Beosztás:

Tanszék, Int.:

Dr. Bodon Ferenc

egy. adjunktus

SZIT, BME

5. A tantárgy az alábbi témakörök ismeretére épít

Algoritmusok elmélete, lineáris algebra, gráfelmélet, valószínűségszámítás, adatbázis-elmélet

6. Előtanulmányi rend
Kötelező:
NEM ( TárgyTeljesítve("BMEVIMA9068") )
VAGY
NEM ( TárgyTeljesítve("BMEVISZ5288") )
VAGY
NEM (Szakirany("I.Üzleti2", "- ") )
VAGY
NEM (Szakirany("MMIÜzletiinf", "- ") )
















A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

A kötelező előtanulmányi rend az adott szak honlapján és képzési programjában található.

Ajánlott:

Tematikaütközés miatt a tárgyat csak azok vehetik fel, akik korábban nem hallgatták a következő tárgyakat:

Neptun-kód Cím

 VISZ5288   Adatbányászat és pénzügyi folyamatok

 VIMA9068   Adatbányászati algoritmusok

7. A tantárgy célkitűzése

Az alapvető adatbányászati algoritmusok ismertetése.

8. A tantárgy részletes tematikája 1.      hét

 

*       Adatbányászat fogalma, története, feladatai, statisztika kontra

 

adatbányászat, tudásfeltárás folyamata

 

*       Alkalmazási területek, sikeres alkalmazások, adatbányászat

 

szoftverek, WEKA, etikai kérdések, elvárások

 

2.      hét

 

*       Előfeldolgozás: attribútum típusok, alapvető statisztikai értékek

 

(mintaátlag, korrigált empirikus szórás, medián kvantilisek,

 

kvartilisek, ferdeség, lapultság), hasonlóság-különbözőség

 

meghatározása, súlyozás, normalizálás

 

*       hiányzó értékek kezelése, diszkretizálás, mintavételezés (Csernov

 

korlátos, bináris és hipergeometrikus eloszláson alapuló elemzés)

 

3.      hét

 

*       Dimenziócsökkentés: szinguláris érték szerinti felbontás (SVD),

 

főkomponens analízis (PCA)

 

*       Gyakori elemhalmazok kinyerésének (GYEK) feladata, alapvető fogalmak

 

(támogatottság/gyakoriság, fedés, gyakori elemhalmaz) adatábrázolási

 

módok, gyakori elemhalmazok keresési tere, GYEK algoritmusok főbb

 

jellemzői, fogalmai (pl. jelölt, ismétlés nélküli jelölt-előállítás)

 

4.      hét

 

*       Apriori algoritmus, szófa a gyakori elemhalmazok tárolására,

 

minimális szófa problémája

 

*       Modern processzorok felépítése és ennek hatása az algoritmusokra

 

(memóriahierarchia, adatlokalitás, blokkfeldolgozás,

 

elágazás-előrejelzés, előreolvasás, adatfüggetlenség,

 

vektoros/pipe-lineos feldolgozás), az Apriori algoritmus gyorsítása:

 

bementet tárolása (piros-fekete fa), zsákutca nyesés,

 

5.      hét

 

*       az Apriori gyorsítása: tranzakciók zsugorítása, ekvisupport nyesés,

 

Borgelt technikája, az Eclat algoritmus

 

*       nem bővíthető gyakori elem, zárt és pszeudozár elemhalmazok és ezek

 

kinyerése

 

6.      hét

 

*       Az asszociációs szabály fogalma, szabályok kinyerése, maximális

 

következményrészű szabályok, Duquenne--Guigues-bázis

 

*       A függetlenség meghatározása: lift érték, empirikus

 

kovariancia/korreláció, statisztikus megközelítések: chi^2 próba,

 

binomiális próba

 

7.      hét

 

*       Fisher-féle egzakt próba, asszociációs szabályok rangsora

 

függetlenségi mutatók alapján, értékinvariancia, a chi^2 statisztika

 

és az empirikus korreláció kapcsolata, a legkisebb mintájú, nagy

 

bizonyosságú összefüggés-feltárás,

 

*       általánosság/specialitás, hierarchikus asszociációs szabályok,

 

korreláció kontra implikáció, asszociációs szabályok és az osztályozás

 

8.      hét

 

*       Bevezetés az osztályozásba és a regresszióba, osztályozó módszerek,

 

módszerekkel szembeni elvárások, osztályozás feladata, elméleti

 

regressziós görbe,

 

*       Legközelebbi szomszéd módszere, kd-fa, dimenzióátok

 

 

9.      hét

 

*       lineárisan szeparálható osztályok, perceptron tanulási szabály,

 

winnow módszer, rocchio módszer

 

·                 lineáris regresszió, attribútum-kiválasztás

 

 

10.     hét

 

*       logisztikus regresszió, mesterséges neurális hálózatok

 

*       döntési szabályok, döntési szabályok kifejezőereje, szabályhalmazok

 

és sorozatok, döntési táblázatok, 0R/1R algoritmusok, prism módszer

 

11.     hét

 

*       döntési fák felépítése, döntési fák és döntési szabályok, minimális

 

döntési fa feladata, ID3 algoritmus (feltételes entrópia), CART/CHAID

 

módszerek lényege

 

*       vágási függvények, Taylor-Silverman elvárások, GINI index, DKM,

 

chi^2 statisztika, power divergence függvény, döntési fák nyesése

 

12.     hét

 

*       bayesi hálózatok, naiv bayesi hálók (NBH), az NBH és a logisztikus

 

regresszió kapcsolata

 

*       osztályozók kombinálása: bagging, randomizálás, boosting,

 

13.     hét

 

*       osztályozók kiértékelése: ismételt mintavételezés, keresztvalidáció

 

(leave-one-out), bootstrap, kappa statisztikai, osztályozók

 

összehasonlítása, keveredési mátrix,

 

·                 klaszterezés alapfogalmai, Kleinberg-féle lehetetlenség-elmélet,

 

klaszterező algoritmusok csoportjai, algoritmussal szemben támasztott

 

elvárások, klaszterezés klasszikus jósági mutatói

 

14.     hét

 

*       partíciós algoritmusok: k-közép, k-mediod, clarans

 

*       hierarchikus és sűrűség-alapú módszerek

 

 

9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

Előadás

10. Követelmények

a. A szorgalmi időszakban: ZH

b. A vizsgaidőszakban: vizsga

11. Pótlási lehetőségek

Sikertelen zárthelyi a szorgalmi időszakban a pótzárthelyin pótolható.
A sikertelen (pót)zárthelyi a pótlási héten különeljárási díj ellenében egy további alkalommal pótolható.

13. Jegyzet, tankönyv, felhasználható irodalom

Bodon Ferenc “Adatbányászati algoritmusok”

http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/tanulmany/index.html

14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka

Kontakt óra

56
Félévközi készülés órákra24
Felkészülés zárthelyire14
Házi feladat elkészítése
Kijelölt írásos tananyag elsajátítása
Vizsgafelkészülés26
Összesen120
15. A tantárgy tematikáját kidolgozta

Név:

Beosztás:

Tanszék, Int.:

Dr. Bodon Ferenc

egy.adjunktus

SZIT, BME