Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Adatbányászati algoritmusok

    A tantárgy angol neve: Data Mining Algorithms

    Adatlap utolsó módosítása: 2009. március 10.

    Tantárgy lejárati dátuma: 2009. november 24.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Villamosmérnöki Szak

    Műszaki Informatika Szak

    Választható tárgy

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VIMA9068   4/0/0/v 5 1/1
    3. A tantárgyfelelős személy és tanszék Dr. Pintér Márta,
    4. A tantárgy előadója

    Név:

    Beosztás:

    Tanszék, Int.:

    Dr. Bodon Ferenc

    egy. adjunktus

    SZIT, BME

    5. A tantárgy az alábbi témakörök ismeretére épít

    Algoritmusok elmélete, lineáris algebra, gráfelmélet, valószínűségszámítás, adatbázis-elmélet

    6. Előtanulmányi rend
    Ajánlott:

    Tematikaütközés miatt a tárgyat csak azok vehetik fel, akik korábban nem hallgatták a következő tárgyakat:

    Neptun-kód Cím

    7. A tantárgy célkitűzése

    Az alapvető adatbányászati algoritmusok ismertetése.

    8. A tantárgy részletes tematikája

    1.      hét

     

    *       Adatbányászat fogalma, története, feladatai, statisztika kontra

     

    adatbányászat, tudásfeltárás folyamata

     

    *       Alkalmazási területek, sikeres alkalmazások, adatbányászat

     

    szoftverek, WEKA, etikai kérdések, elvárások

     

    2.      hét

     

    *       Előfeldolgozás: attribútum típusok, alapvető statisztikai értékek

     

    (mintaátlag, korrigált empirikus szórás, medián kvantilisek,

     

    kvartilisek, ferdeség, lapultság), hasonlóság-különbözőség

     

    meghatározása, súlyozás, normalizálás

     

    *       hiányzó értékek kezelése, diszkretizálás, mintavételezés (Csernov

     

    korlátos, bináris és hipergeometrikus eloszláson alapuló elemzés)

     

    3.      hét

     

    *       Dimenziócsökkentés: szinguláris érték szerinti felbontás (SVD),

     

    főkomponens analízis (PCA)

     

    *       Gyakori elemhalmazok kinyerésének (GYEK) feladata, alapvető fogalmak

     

    (támogatottság/gyakoriság, fedés, gyakori elemhalmaz) adatábrázolási

     

    módok, gyakori elemhalmazok keresési tere, GYEK algoritmusok főbb

     

    jellemzői, fogalmai (pl. jelölt, ismétlés nélküli jelölt-előállítás)

     

    4.      hét

     

    *       Apriori algoritmus, szófa a gyakori elemhalmazok tárolására,

     

    minimális szófa problémája

     

    *       Modern processzorok felépítése és ennek hatása az algoritmusokra

     

    (memóriahierarchia, adatlokalitás, blokkfeldolgozás,

     

    elágazás-előrejelzés, előreolvasás, adatfüggetlenség,

     

    vektoros/pipe-lineos feldolgozás), az Apriori algoritmus gyorsítása:

     

    bementet tárolása (piros-fekete fa), zsákutca nyesés,

     

    5.      hét

     

    *       az Apriori gyorsítása: tranzakciók zsugorítása, ekvisupport nyesés,

     

    Borgelt technikája, az Eclat algoritmus

     

    *       nem bővíthető gyakori elem, zárt és pszeudozár elemhalmazok és ezek

     

    kinyerése

     

    6.      hét

     

    *       Az asszociációs szabály fogalma, szabályok kinyerése, maximális

     

    következményrészű szabályok, Duquenne--Guigues-bázis

     

    *       A függetlenség meghatározása: lift érték, empirikus

     

    kovariancia/korreláció, statisztikus megközelítések: chi^2 próba,

     

    binomiális próba

     

    7.      hét

     

    *       Fisher-féle egzakt próba, asszociációs szabályok rangsora

     

    függetlenségi mutatók alapján, értékinvariancia, a chi^2 statisztika

     

    és az empirikus korreláció kapcsolata, a legkisebb mintájú, nagy

     

    bizonyosságú összefüggés-feltárás,

     

    *       általánosság/specialitás, hierarchikus asszociációs szabályok,

     

    korreláció kontra implikáció, asszociációs szabályok és az osztályozás

     

    8.      hét

     

    *       Bevezetés az osztályozásba és a regresszióba, osztályozó módszerek,

     

    módszerekkel szembeni elvárások, osztályozás feladata, elméleti

     

    regressziós görbe,

     

    *       Legközelebbi szomszéd módszere, kd-fa, dimenzióátok

     

     

    9.      hét

     

    *       lineárisan szeparálható osztályok, perceptron tanulási szabály,

     

    winnow módszer, rocchio módszer

     

    ·                 lineáris regresszió, attribútum-kiválasztás

     

     

    10.     hét

     

    *       logisztikus regresszió, mesterséges neurális hálózatok

     

    *       döntési szabályok, döntési szabályok kifejezőereje, szabályhalmazok

     

    és sorozatok, döntési táblázatok, 0R/1R algoritmusok, prism módszer

     

    11.     hét

     

    *       döntési fák felépítése, döntési fák és döntési szabályok, minimális

     

    döntési fa feladata, ID3 algoritmus (feltételes entrópia), CART/CHAID

     

    módszerek lényege

     

    *       vágási függvények, Taylor-Silverman elvárások, GINI index, DKM,

     

    chi^2 statisztika, power divergence függvény, döntési fák nyesése

     

    12.     hét

     

    *       bayesi hálózatok, naiv bayesi hálók (NBH), az NBH és a logisztikus

     

    regresszió kapcsolata

     

    *       osztályozók kombinálása: bagging, randomizálás, boosting,

     

    13.     hét

     

    *       osztályozók kiértékelése: ismételt mintavételezés, keresztvalidáció

     

    (leave-one-out), bootstrap, kappa statisztikai, osztályozók

     

    összehasonlítása, keveredési mátrix,

     

    ·                 klaszterezés alapfogalmai, Kleinberg-féle lehetetlenség-elmélet,

     

    klaszterező algoritmusok csoportjai, algoritmussal szemben támasztott

     

    elvárások, klaszterezés klasszikus jósági mutatói

     

    14.     hét

     

    *       partíciós algoritmusok: k-közép, k-mediod, clarans

     

    *       hierarchikus és sűrűség-alapú módszerek

     

     

     

     

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

    (előadás, gyakorlat, laboratórium):

    Előadás

    10. Követelmények

    a. A szorgalmi időszakban: ZH

    b. A vizsgaidőszakban: vizsga

    1. Elővizsga:
    11. Pótlási lehetőségek

    Pótzh

    13. Jegyzet, tankönyv, felhasználható irodalom

    Bodon Ferenc “Adatbányászati algoritmusok”

    http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/tanulmany/index.html

    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka

    (a tantárgyhoz tartozó tanulmányi idő körülbelüli felosztása a tanórák, továbbá a házi feladatok és a zárthelyik között (a felkészülésre, ill. a kidolgozásra átlagosan fordítandó/elvárható idők félévi munkaórában, kredit x 30 óra, pl. 5 kredit esetén 150 óra)):

     

    Kontakt óra

    60

    Félévközi készülés órákra

    34

    Felkészülés zárthelyire

    21

    Házi feladat elkészítése

    Kijelölt írásos tananyag elsajátítása

    ..

    Vizsgafelkészülés

    35

    Összesen

    150

    15. A tantárgy tematikáját kidolgozta

    Név:

    Beosztás:

    Tanszék, Int.:

    Dr. Bodon Ferenc

    egy.adjunktus

    SZIT, BME