Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Hang- és beszédfelismerési technológiák

    A tantárgy angol neve: Sound and Speech Recognition Technologies

    Adatlap utolsó módosítása: 2016. március 28.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar
    Villamosmérnöki szak
    Mérnökinformatikus szak
    Gazdaságinformatikus szak
    Egészségügyi mérnöki szak
    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMAV46   2/2/0/v 4  
    3. A tantárgyfelelős személy és tanszék Dr. Mihajlik Péter, Távközlési és Médiainformatikai Tanszék
    4. A tantárgy előadója
    Név: Beosztás: Tanszék, Int.:
    Dr. Mihajlik PéterEgyetemi adjunktusBME-TMIT
    Dr. Szaszák GyörgyTudományos munkatárs
    BME-TMIT
    Tarján Balázs
    Tanszéki mérnök
    BME-TMIT
    7. A tantárgy célkitűzése A hang- és beszédfelismerés a 21. század megkerülhetetlen technológiái, melyek kialakulásához számos tudományág járult hozzá. A tárgy alapelvei a mérnöki gyakorlatban egyre nagyobb súllyal, egyre sokrétűbb hasznosítási lehetőségekkel jelennek meg. A kurzus célja, hogy a szükséges elméletet mérnöki, problémamegoldási szemlélettel tárgyalva olyan, nemzetközi szinten ill. a gyakorlatban is használható tudást adjon, amivel akár konkrét, pl. hangazonosító vagy zenefelismerő alkalmazások valósíthatók meg. A legnagyobb súllyal a gépi beszéd-szöveg átalakítás szerepel; a kurzus elvégzésével a hallgató képessé válik a komplex beszédfelismerő rendszerek alkalmazására, adott feladatra és nyelvre történő adaptálására. A megszerzett tudás ezen felül számos egyéb területen kamatoztatható, mint például általános mintázatfelismerés, nyelvtechnológia és szövegfeldolgozás, vagy tudásforrás-integráció. A kurzus során lehetőség van a saját laptop használatára, nyílt forráskódú nyelv- és beszédtechnológiai eszközök megismerésére. Az ismeretek elmélyítését célzott feladatokkal segítjük.
    8. A tantárgy részletes tematikája Az előadásokon túl a tananyagot esettanulmányokkal és laptopos interaktív feladatmegoldással színesítve tárgyaljuk, mely gyakorlati alkalmak időzítése az elmélethez illeszkedik. Alább külön kigyűjtöttük az esettanulmányok és feladatmegoldások témaköreit (rövidítésjegyzék a végén).

     

    Esettanulmányok:

  • Hogyan működik a Shazam? Miben más a SoundHound?
  • A Google, Microsoft beszédfelismerő technológiái (illetve ezekből amit tudni lehet), a crowd-sourcing alkalmazása a beszédfelismerésnél.
  • Hangvezérlés és virtuális személyi asszisztensek. Nagy vagy kis “testvér”?
  • A televíziós műsorok élő, gépi feliratozásának kihívásai, MTVA-s tapasztalatok.
  • A diktálórendszerek jelene és jövője - Nuance és alternatívái.
  • Beszédfelismerés és adat- (szöveg)bányászat konkrét call center monitorozási példán keresztül.
  •  

    Laptopos feladatmegoldások:

  • Különböző hangforrások spektrogramjának (frekvencia-idő-intenzitás képének) jellegzetességei, összehasonlítása
  • Zene és szignálfelismerés nyílt forráskódú eszközökkel
  • Izolált szavas beszédfelismerés dinamikus idővetemítéssel
  • GMM-alapú hangmodellek (akusztikus modellek) tanítása nyílt forráskódú eszközökkel (Cambridge Hidden Markov-Modell Toolkit)
  • Hangmodellezés mély neurális hálózatok (DNN) segítségével (Kaldi)
  • Tudásforrások integrációja OpenFST segítésével
  • Count- és RNN-alapú nyelvi modellezés nyílt forráskódú eszközökkel (Stanford Research Institute Language Modeling Toolkit, RWTH Language Modeling Toolkit)
  •  

    Törzsanyag:

     

    1. hét: Bevezetés

    A hang, mint hangnyomás-idő függvény leírása, kezelése, osztályozása (pl. tranziens, stacionárius, kvázi-periodikus) és jellemzői (érzeti, fizikai). A felismerési feladatok (pl. szignál, reklám, zene, zaj, beszéd felismerése). A hangnyomás-idő függvény reprezentációja: az STFT szükségessége, ablakozás szerepe, spektrogramm.

     

    2-3. hét: Szignál és zeneszámfelismerés

    Szignálfelismerés, lineáris időillesztés, spektrális távolság számítása, keresés adatfolyamban (stream-ben), első- és másodfajú hiba. A valós idejű mintaillesztés kihívásai, additív zaj, lineáris és nemlineáris torzítás hatásai, interferencia-jellegű zavarás és ezek kezelésének lehetőségei. Zeneszám/reklám felismerés. Akusztikai ujjlenyomat (Acoustic Fingerprint) fogalma és módszerei.

     

    4-5. hét: Időbeli vagy hangszínbeli változatosság kezelése

    Dinamikus idővetemítés szükségessége és alapelve. Akusztikai lényegkiemelések, érzeti frekvenciaskálák (Mel, Bark, Gammatone), érzeti hangerősség skálák. Matematikai lényegkiemelések alkalmazói szinten: PCA, DCT, LDA. Statisztikai modellezés és a mintaillesztés alapmódszerei és szükségessége (spektrális variabilitás kezelése). Folytonos valószínűségsűrűség-függvény alkalmazása hasonlósági mérték számítására.

     

    6-7. hét: A beszédfelismerés alapjai

    Időbeliség és spektrális változékonyság együttes kezelése HMM-GMM rendszerrel. Modellparaméterek ML becslése, felismerés Viterbi algoritmussal. A beszédfelismerés MAP alapegyenlete. Akusztikus, lexikális és nyelvi modellek, beszédfelismerési modellhierarchia. A valós idejű beszédfelismerés kihívásai, részleges és optimalizált Viterbi-dekódolás. A felismerési eredmények kiértékelése, mértékei. Beszéd- és hangfelismerési konfidencia elve és gyakorlati számítása.

     

    8-9. hét: A beszéd-szöveg átalakítás speciális technikái

    Felismerési hálózatépítés és optimalizálás (tudásforrás-integráció) WFST alapon. A beszédhangok egymásra hatása, a koartikuláció kezelése és szintjei. Fonéma és graféma alapú környezetfüggő modellezés bináris ML döntési-fákkal. Graféma-fonéma átalakítás. A nyelvmodellezés kihívásai. Magasabb fokszámú n-gram modellek, simítási módszerek, implementációs kérdések. Morféma-szerű nyelvi egységek alkalmazása. OOV modellezés, osztály n-gramok.

     

    10-11. hét: Hibacsökkentés adaptációval és diszkriminatív tanítással

    Az adaptáció szerepe és típusai a beszédfelismerésben. Regressziós (MLLR) és részleges újratanításon (MAP) alapuló technikák. Modell- és jellemzőtérbeli (feature-space) adaptáció. Beszélőnormalizálási technikák. SAT (beszélőadaptív tanítás). Diszkriminatívan tanított akusztikus modellek. MMI és MPE hibaminimalizálás.

     

    12-13. hét: A “Deep learning” beszédfelismerési alkalmazásai

    GMM vs. MLP modellek. Mitől javultak meg a mesterséges neuronháló alapú modellek? Tandem, bottleneck és hibrid architektúrák. Mély tanulás a beszédfelismerésre alkalmazva, DNN és válfajai, tanításuk. Diszkriminatív nyelvi modellek, LSTM, RNN alkalmazása. End-to-end speech recognition: a gépi (mély) tanulás mindent visz? Félig felügyelt és felügyelet nélküli tanítás a beszédfelismerésben.

     

    14. hét: A beszéd egyéb modalitásainak felismerése, alkalmazások

    Beszélő felismerése. Verifikáció és az UBM alkalmazása, felügyelet nélküli beszélőszegmentálás, diarizáció. Visszacsatolás a beszédfelismerésbe. A hanglejtés és ritmika felismerése és használata a beszédfelismerésnél. Nyelvek közötti hordozhatóság. Nyelvfelismerés hangból. A hang- és beszédfelismerés alkalmazásai, médiamonitorozás, diktáló rendszerek.

     

    Rövidítésjegyzék:

    DCT: Discrete Cosine Transform

    DNN: Deep Neural Network

    FST: Finite State Transducer

    GMM: Gaussian Mixture Model

    HMM: Hidden Markov Model

    LDA: Linear Discriminant Analysis

    LSTM: Long-Short Term Memory

    MAP: Maximum A Posteriory

    ML: Maximum Likelihood

    MLP: Multi Layer Perceptron

    MLLR: Maximum Likelihood Linear Regression

    MMI: Maximum Mutual Information

    MPE: Minimum Phone Error

    MTVA: Médiaszolgáltatás-támogató és Vagyonkezelő Alap

    OOV: Out of Vocabulary

    PCA: Principal Component Analysis

    RNN: Recurrent Neural Network

    RWTH: Rhein-Westfalische Technishe Hochshule

    SAT: Speaker Adaptive Training

    STFT: Short Time Fourier Transform

    UBM: Universal Bakground Model

    WFST: Weighted Finite State Transducers

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Tantermi előadás és gyakorlat.
    10. Követelmények

    a.) A szorgalmi időszakban: aláírás. Feltétele egy kijelölt, illetve személyre szabott házi feladat megfelelő szintű kidolgozása, amely lehet többek között egy hang- ill. beszédfelismerési probléma megoldása vagy szakirodalom feldolgozása.

    b.) A vizsgaidőszakban: szóbeli vizsga választott tétel alapján.

    c.) Elővizsga: van, feltétele az időben megszerzett aláírás.

    11. Pótlási lehetőségek A házi feladat a pótlási héten, különeljárási díj ellenében pótolható.
    12. Konzultációs lehetőségek Az előadókkal egyeztetve.
    13. Jegyzet, tankönyv, felhasználható irodalom Dong Yu and Li Deng (2015) Automatic Speech Recognition - A Deep Learning Approach. Springer, London

    Mark Gales and Steve Young (2008), The Application of Hidden Markov Models in Speech Recognition, Foundations and Trends in Signal Processing: Vol. 1: No. 3, pp 195-304

    Rabiner, L., Juang, B-H., (1993) Fundamentals of Speech Recognition. Prentice Hall, New Jersey

    Németh G, Olaszy G. (szerk.) (2010) A magyar beszéd: Beszédkutatás, beszédtechnológia, beszédinformációs rendszerek. Akadémiai Kiadó, Budapest

    Duda, R. O., Hart, P. E., Stork, D. G.. (2001) Pattern Classification. John Wiley & Sons, New York

    (A fenti jegyzeteken túl a tárgy weboldalán további elektronikus segédanyagok érhetőek el.)
    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra 56
    Félévközi készülés órákra
    Felkészülés zárthelyire
    Házi feladat elkészítése 24
    Kijelölt írásos tananyag elsajátítása
    Vizsgafelkészülés 40
    Összesen 120
    15. A tantárgy tematikáját kidolgozta
    Név: Beosztás: Tanszék, Int.:
    Dr. Mihajlik PéterEgyetemi adjunktus
    BME-TMIT
    Dr. Szaszák GyörgyTudományos munkatárs
    BME-TMIT
    Tarján BalázsTanszéki mérnök
    BME-TMIT
    Fegyó TiborTudományos segédmunkatárs
    BME-TMIT