Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Adatbányászati algoritmusok

    A tantárgy angol neve: Data Mining Algorithms

    Adatlap utolsó módosítása: 2012. május 30.

    Tantárgy lejárati dátuma: 2015. június 30.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Villamosmérnöki Szak

    Mérnök Informatikus Szak

    Szabadon választható tantárgy

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VISZJV68   4/0/0/v 4  
    3. A tantárgyfelelős személy és tanszék Dr. Pintér Márta,
    4. A tantárgy előadója

    Név:

    Beosztás:

    Tanszék, Int.:

    Dr. Bodon Ferenc

    egy. adjunktus

    SZIT, BME

    5. A tantárgy az alábbi témakörök ismeretére épít

    Algoritmusok elmélete, lineáris algebra, gráfelmélet, valószínűségszámítás, adatbázis-elmélet

    6. Előtanulmányi rend
    Kötelező:
    NEM ( TárgyTeljesítve("BMEVIMA9068") )
    VAGY
    NEM ( TárgyTeljesítve("BMEVISZ5288") )
    VAGY
    NEM (Szakirany("I.Üzleti2", "- ") )
    VAGY
    NEM (Szakirany("MMIÜzletiinf", "- ") )
















    A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

    A kötelező előtanulmányi rend az adott szak honlapján és képzési programjában található.

    Ajánlott:

    Tematikaütközés miatt a tárgyat csak azok vehetik fel, akik korábban nem hallgatták a következő tárgyakat:

    Neptun-kód Cím

     VISZ5288   Adatbányászat és pénzügyi folyamatok

     VIMA9068   Adatbányászati algoritmusok

    7. A tantárgy célkitűzése

    Az alapvető adatbányászati algoritmusok ismertetése.

    8. A tantárgy részletes tematikája 1.      hét

     

    *       Adatbányászat fogalma, története, feladatai, statisztika kontra

     

    adatbányászat, tudásfeltárás folyamata

     

    *       Alkalmazási területek, sikeres alkalmazások, adatbányászat

     

    szoftverek, WEKA, etikai kérdések, elvárások

     

    2.      hét

     

    *       Előfeldolgozás: attribútum típusok, alapvető statisztikai értékek

     

    (mintaátlag, korrigált empirikus szórás, medián kvantilisek,

     

    kvartilisek, ferdeség, lapultság), hasonlóság-különbözőség

     

    meghatározása, súlyozás, normalizálás

     

    *       hiányzó értékek kezelése, diszkretizálás, mintavételezés (Csernov

     

    korlátos, bináris és hipergeometrikus eloszláson alapuló elemzés)

     

    3.      hét

     

    *       Dimenziócsökkentés: szinguláris érték szerinti felbontás (SVD),

     

    főkomponens analízis (PCA)

     

    *       Gyakori elemhalmazok kinyerésének (GYEK) feladata, alapvető fogalmak

     

    (támogatottság/gyakoriság, fedés, gyakori elemhalmaz) adatábrázolási

     

    módok, gyakori elemhalmazok keresési tere, GYEK algoritmusok főbb

     

    jellemzői, fogalmai (pl. jelölt, ismétlés nélküli jelölt-előállítás)

     

    4.      hét

     

    *       Apriori algoritmus, szófa a gyakori elemhalmazok tárolására,

     

    minimális szófa problémája

     

    *       Modern processzorok felépítése és ennek hatása az algoritmusokra

     

    (memóriahierarchia, adatlokalitás, blokkfeldolgozás,

     

    elágazás-előrejelzés, előreolvasás, adatfüggetlenség,

     

    vektoros/pipe-lineos feldolgozás), az Apriori algoritmus gyorsítása:

     

    bementet tárolása (piros-fekete fa), zsákutca nyesés,

     

    5.      hét

     

    *       az Apriori gyorsítása: tranzakciók zsugorítása, ekvisupport nyesés,

     

    Borgelt technikája, az Eclat algoritmus

     

    *       nem bővíthető gyakori elem, zárt és pszeudozár elemhalmazok és ezek

     

    kinyerése

     

    6.      hét

     

    *       Az asszociációs szabály fogalma, szabályok kinyerése, maximális

     

    következményrészű szabályok, Duquenne--Guigues-bázis

     

    *       A függetlenség meghatározása: lift érték, empirikus

     

    kovariancia/korreláció, statisztikus megközelítések: chi^2 próba,

     

    binomiális próba

     

    7.      hét

     

    *       Fisher-féle egzakt próba, asszociációs szabályok rangsora

     

    függetlenségi mutatók alapján, értékinvariancia, a chi^2 statisztika

     

    és az empirikus korreláció kapcsolata, a legkisebb mintájú, nagy

     

    bizonyosságú összefüggés-feltárás,

     

    *       általánosság/specialitás, hierarchikus asszociációs szabályok,

     

    korreláció kontra implikáció, asszociációs szabályok és az osztályozás

     

    8.      hét

     

    *       Bevezetés az osztályozásba és a regresszióba, osztályozó módszerek,

     

    módszerekkel szembeni elvárások, osztályozás feladata, elméleti

     

    regressziós görbe,

     

    *       Legközelebbi szomszéd módszere, kd-fa, dimenzióátok

     

     

    9.      hét

     

    *       lineárisan szeparálható osztályok, perceptron tanulási szabály,

     

    winnow módszer, rocchio módszer

     

    ·                 lineáris regresszió, attribútum-kiválasztás

     

     

    10.     hét

     

    *       logisztikus regresszió, mesterséges neurális hálózatok

     

    *       döntési szabályok, döntési szabályok kifejezőereje, szabályhalmazok

     

    és sorozatok, döntési táblázatok, 0R/1R algoritmusok, prism módszer

     

    11.     hét

     

    *       döntési fák felépítése, döntési fák és döntési szabályok, minimális

     

    döntési fa feladata, ID3 algoritmus (feltételes entrópia), CART/CHAID

     

    módszerek lényege

     

    *       vágási függvények, Taylor-Silverman elvárások, GINI index, DKM,

     

    chi^2 statisztika, power divergence függvény, döntési fák nyesése

     

    12.     hét

     

    *       bayesi hálózatok, naiv bayesi hálók (NBH), az NBH és a logisztikus

     

    regresszió kapcsolata

     

    *       osztályozók kombinálása: bagging, randomizálás, boosting,

     

    13.     hét

     

    *       osztályozók kiértékelése: ismételt mintavételezés, keresztvalidáció

     

    (leave-one-out), bootstrap, kappa statisztikai, osztályozók

     

    összehasonlítása, keveredési mátrix,

     

    ·                 klaszterezés alapfogalmai, Kleinberg-féle lehetetlenség-elmélet,

     

    klaszterező algoritmusok csoportjai, algoritmussal szemben támasztott

     

    elvárások, klaszterezés klasszikus jósági mutatói

     

    14.     hét

     

    *       partíciós algoritmusok: k-közép, k-mediod, clarans

     

    *       hierarchikus és sűrűség-alapú módszerek

     

     

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

    Előadás

    10. Követelmények

    a. A szorgalmi időszakban: ZH

    b. A vizsgaidőszakban: vizsga

    11. Pótlási lehetőségek

    Sikertelen zárthelyi a szorgalmi időszakban a pótzárthelyin pótolható.
    A sikertelen (pót)zárthelyi a pótlási héten különeljárási díj ellenében egy további alkalommal pótolható.

    13. Jegyzet, tankönyv, felhasználható irodalom

    Bodon Ferenc “Adatbányászati algoritmusok”

    http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/tanulmany/index.html

    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka

    Kontakt óra

    56
    Félévközi készülés órákra24
    Felkészülés zárthelyire14
    Házi feladat elkészítése
    Kijelölt írásos tananyag elsajátítása
    Vizsgafelkészülés26
    Összesen120
    15. A tantárgy tematikáját kidolgozta

    Név:

    Beosztás:

    Tanszék, Int.:

    Dr. Bodon Ferenc

    egy.adjunktus

    SZIT, BME