Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Beszédfelismerési technológiák és alkalmazásaik

    A tantárgy angol neve: Speech Recognition Technologies and their Applications

    Adatlap utolsó módosítása: 2012. április 2.

    Tantárgy lejárati dátuma: 2012. július 2.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Villamosmérnöki szak
    Mérnök informatikus szak
    Szabadon választható tantárgy

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMAV05   3/0/10/v 4  
    3. A tantárgyfelelős személy és tanszék Dr. Mihajlik Péter, Távközlési és Médiainformatikai Tanszék
    A tantárgy tanszéki weboldala http://alpha.tmit.bme.hu/~mihajlik/vitmav05/
    4. A tantárgy előadója
    Név:  Beosztás: Tanszék, Int.:           
     Dr. Mihajlik Péter         egyetemi adjunktus           BME-TMIT
     Tarján Balázs PhD hallgató BME-TMIT
    5. A tantárgy az alábbi témakörök ismeretére épít Egyetemi matematikai alapképzés, programozási alapismeretek.
    6. Előtanulmányi rend
    Ajánlott:

    Infokommunikáció, VITMA301 (villamosmérnöki szak) vagy Beszédinformációs rendszerek, VITMA400 (mérnök-informatikus szak)

     

    Tematikaütközés miatt a tárgyat csak azok vehetik fel, akik korábban nem hallgatták a következő tárgyat:  VITMAV11 - "Beszédbányászat".

    7. A tantárgy célkitűzése A tárgy célja megismertetni a hallgatókkal a korszerű gépi beszédfelismerési technológiákat és alkalmazásokat. Cél, hogy a kurzust eredményesen elvégzők képesek legyenek beszédfelismerő motorok mérnöki alkalmazására, komplex rendszerekbe (pl. okostelefonok, elosztott és beágyazott rendszerek) integrálására és tesztelésére. További, önállóan végzett szakirodalom tanulmányozás révén pedig képesek legyenek az alapvető algoritmusok implementálására, a beszédfelismerési modellek testre szabására, új alkalmazások létrehozására.
    8. A tantárgy részletes tematikája

    Az előadások tematikája:

     

    1. hét: Bevezetés, alapfogalmak. A beszédjel idő és frekvencia-tartománybeli leírása. A beszéd és a nyelv kapcsolata, egységei – a beszédhangok szerkezete, fonémák, koartikuláció, morfémák, szavak, mondatok. A beszédfelismerés feladata(i). Beszédfelismerés = lényegkiemelés + mintaillesztés. Házi feladat-lehetőségek kiosztása.

     

    2. hét: Lényegkiemelés: akusztikai információ kinyerése a hangnyomás-időfüggvényből. Gördülőspektrum, ablakozás, „zero-padding”. A rövid idejű amplitúdóspektrum érzeti transzformációi (hangosság- és hangmagasság-érzet). Dekorreláció szerepe és eszközei. Házi feladatok rögzítése.

     

    3. hét: A lényegkiemelés továbbfejlesztése. A beszéddinamika figyelembevétele. Beszélőnormalizációs technikák. A beszédátviteli csatorna lineáris torzításának kompenzálása. Zaj-robosztus technikák. Spektro-temporális lényegkiemelési technikák.

     

    4. hét: Mintaillesztés dinamikus idővetemítéssel (DTW): nyelvfüggetlen, beszélőfüggő, élőszóval tanítható „izolált” szavas beszédfelismerés.

     

    5. hét: Beszélőfüggetlen beszédfelismerés. Izolált szavas HMM (Hidden Markov-model) szemléletes származtatása. A GMM (Gaussian Mixture Model) és az MLP (Multi Layer Perceptron) szerepe a beszédfelismerésben. Kiejtési modellek.

     

    6. hét: Mintaillesztés rejtett Markov-modellekkel. Definíció és szemléltetés. A rejtett Markov-modellek alkalmazása a beszédfelismerésben. Viterbi-approximáció.

     

    7. hét: Folyamatos beszéd felismerése. Nyelvi modell és a beszédfelismerés MAP alapegyenlete. Az N-gram közelítés. Nyelvi modell-paraméterek becslése szövegadatbázis alapján. Nyelvi modell-simítási technikák. Nyelvi modellek kiértékelése. Szónál kisebb nyelvi egységek alkalmazása.

     

    8. hét: A koartikuláció modellezésének szükségessége. Szóbelsőben és szóhatárokon átívelő koartikuláció-modellezés. ML-fonetikus döntési fa és alkalmazása és variánsai.

     

    9. hét: A nagyszótáras folyamatos beszédfelismerés. A beszédmodellek áttekintése, nyelvi szinteknek megfeleltetés. Integrációs és optimalizációs kérdések. A WFST (Weighted Finite State Transducer) keretrendszer és gépi beszédfelismerési alkalmazása.

     

    10. hét: Dekódolás: az optimális felismerési útvonal hatékony közelítő számítása. Dekódolási megközelítések. Optimalizációs stratégiák, implementálási kérdések.

     

    11. hét: Akusztikus és nyelvi modell adaptáció. Jelentősége és eszközei. Beszélő- adaptációs módszerek. Felügyelt és felügyelet nélküli technikák.

     

    12. hét: A beszédfelismerő rendszerek tesztelése, kiértékelése. Nyelvfüggő és nyelvfüggetlen modellezési és kiértékelés kérdések. Alapvető alkalmazási területek.

     

    13. hét: Beszédfelismerési alkalmazások. On-line beszédfelismerés és a felismerés biztonsága (konfidenciája). A beszédfelismerési konfidenciaszámítás módszerei. Off-line alkalmazások, „Voice-search”, beszéd-adatbányászat, beszédinformáció-visszakeresés és tartalmi kivonatolás.

     

    14. hét: Gyors alkalmazásfejlesztési technikák. Publikus és nyílt forráskódú fejlesztési eszközök. Az egyes platformok sajátosságai (pl. iPhone OS, Android, Windows, Linux). Kutatási és ipari (pl. Google, Nuance, Microsoft) trendek a gépi beszédfelismerésben.

     

    A laborfoglalkozások tematikája:

     

    2. hét: ismerkedés a beszédfelismerési fejlesztői-tesztelői környezettel. Cygwin vagy Linux és Perl. Fejlesztői eszközök áttekintése, installálása/beállítása.

     

    4. hét: beszélőfüggő (DTW-alapú) beszédfelismerő tanítása, tesztelése, lényegkiemelési beállítások vizsgálata.

     

    6. hét: a HTK (Cambridge Hidden Markov-Model Toolkit), és alkalmazása elemi akusztikus modellek tanítására.

     

    8. hét: kiejtési modellek és lexikai egységek. A Morfessor eszköz alkalmazása szónál kisebb nyelvi egységek meghatározására.

     

    10. hét: az SRILM (Stanford Research Institute Language Modeling Toolkit) és alkalmazása nyelvi modell építésre-tesztelésre.

     

    12. hét: az AT&T FSM (Finite State Machine) Toolkit és alkalmazása folyamatos beszédfelismerésre, WFST hálózatok integrálására és optimalizálására.

     

    14. hét: a további/alternatív beszédfelismerési szoftvereszközök áttekintése, különféle beszédfelismerési kísérletek végzése.

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Heti 2/4 óra előadás tanteremben. Az előadások mérnöki megközelítésre törekszenek, rendszeres élő demonstrációkkal. Minden második héten laborfoglalkozás.
    10. Követelmények

    a./ A szorgalmi időszakban:

    - a tanórák legalább 70%-ának látogatása

    - házi feladat: választható vagy szakirodalom-tanulmányozásból vagy önálló beszédfelismerési feladat megoldásából tanulmány saját kezű elkészítése. Terjedelem: 5-10 oldal legyen a tartalmi rész (Arial betűtípus, max 12-es fontméret, normál sortáv, hasznos saját ábra lehet benne, átvett ábra nem számít, saját kód kommenttel számít).

    b./ A vizsgaidőszakban: szóbeli vagy írásbeli vizsga

    c./ Elővizsga: van. (Feltétel: elfogadott házi feladat)

    11. Pótlási lehetőségek A pótlási héten további lehetőség van a házi feladat leadására. Vizsgára csak annak elfogadása után (beadás után min. 1 nap) kerülhet sor.
    12. Konzultációs lehetőségek Igény szerint, előzetes megbeszélés vagy e-mailen történő egyeztetés alapján.
    13. Jegyzet, tankönyv, felhasználható irodalom

    Rabiner, L., Juang, B-H., (1993) Fundamentals of Speech Recognition. Prentice Hall, New Jersey

    Huang, X., Acero, A., Hon, H-W. (2001) Spoken Language Processing: A Guide to Theory, Algorithm and System Development. Prentice Hall, Upper Saddle River

    Duda, R. O., Hart, P. E., Stork, D. G.. (2001) Pattern Classification. John Wiley & Sons, New York

    Németh G, Olaszy G. (szerk.) (2010) A magyar beszéd: Beszédkutatás, beszédtechnológia, beszédinformációs rendszerek.. Akadémiai Kiadó, Budapest

    Gordos G., Takács Gy. (1983) Digitális beszédfeldolgozás. Műszaki Tankönyvkiadó, Budapest

    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra56
    Félévközi készülés órákra20
    Felkészülés zárthelyire-
    Házi feladat elkészítése20
    Kijelölt írásos tananyag elsajátítása-
    Vizsgafelkészülés24
    Összesen120
    15. A tantárgy tematikáját kidolgozta Dr. Mihajlik Péter, egyetemi adjunktus, BME-TMIT