Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Beszédinformációs rendszerek

    A tantárgy angol neve: Speech Information Systems

    Adatlap utolsó módosítása: 2013. április 15.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Mérnök informatikus Szak

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMA404   3/1/0/f 5  
    3. A tantárgyfelelős személy és tanszék Dr. Németh Géza,
    4. A tantárgy előadója

     Név:

     Beosztás:

     Tanszék, Int.:

     Dr. Németh Géza

     egy. docens

     TMIT

     Dr. Olaszy Gábor

     egy. tanár

     TMIT

     Dr. Vicsi Klára

     tud. főmunkatárs

     TMIT

    5. A tantárgy az alábbi témakörök ismeretére épít

    A tantárgy elsősorban a Jelek/hálózatok és rendszerek témakör ismeretére épít.

    6. Előtanulmányi rend
    Kötelező:

    (TárgyEredmény( ahol a TárgyKód = "BMEVISZA208", ahol a Típus = "JEGY", ahol a Ciklus = tetszőleges, ahol a KépzésKód = tetszőleges) >= 2
    VAGY
    TárgyEredmény( ahol a TárgyKód = "BMEVISZAB00", ahol a Típus = "JEGY", ahol a Ciklus = tetszőleges, ahol a KépzésKód = tetszőleges) >= 2
    VAGY
    TárgyEredmény( ahol a TárgyKód = "BMEVIMA2203", ahol a Típus = "JEGY", ahol a Ciklus = tetszőleges, ahol a KépzésKód = tetszőleges) >= 2 )

    ÉS NEM ( TárgyEredmény( "BMEVITMAD00" , "jegy" , _ ) >= 2
    VAGY
    TárgyEredmény("BMEVITMAD00", "FELVETEL", AktualisFelev()) > 0
    VAGY
    TárgyEredmény( "BMEVITMA400" , "jegy" , _ ) >= 2
    VAGY
    Alairas("BMEVITMA400", _) )

    ÉS Training.Code=("5N-A8")

    A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

    A kötelező előtanulmányi rend az adott szak honlapján és képzési programjában található.

    Ajánlott:

    Kötelező:
     TárgyEredmény( ahol a TárgyKód = "BMEVISZA208", ahol a Típus = "JEGY", ahol a Ciklus = tetszőleges, ahol a KépzésKód = tetszőleges) >= 2
      VAGY
     TárgyEredmény( ahol a TárgyKód = "BMEVIMA2203", ahol a Típus = "JEGY", ahol a Ciklus = tetszőleges, ahol a KépzésKód = tetszőleges) >= 2

    A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

    A kötelező előtanulmányi rendek grafikus formában itt láthatók.

    7. A tantárgy célkitűzése

    Az emberi információ-kezelés és kommunikáció alapja a természetes beszédlánc (beszélő ember - levegő - hallgató ember) működése. A beszédinformációs rendszerek a természetes beszédlánc egy vagy több elemének mesterséges informatikai megvalósítását (pl. beszédfelismerés, beszédszintézis, stb.) integrálják az információ gyűjtésével, tárolásával, feldolgozásával és/vagy az ahhoz való hozzáféréssel kapcsolatos folyamatokba. Napjainkban számos gyakorlati alkalmazásban megjelentek a nagyméretű, egyre jobban integrált és automatizált beszédinformációs rendszerek (pl. okostelefonok, TV-k, tabletek automatizált beszédfunkciói, hívásközpontok, tele-banking). A tárgy célja a beszédlánc elemei mesterséges megvalósításának megismertetése és a beszéddel vezérelt és/vagy beszéddel válaszoló információs rendszerek azon eljárásainak taglalása, amelyek beszédspecifikusak. A tárgy gyakorlati példák felhasználásával mutatja be a beszédinformációs rendszerek kialakításához szükséges elméleti és gyakorlati ismereteket, az automatizáláshoz alkalmazható beszédtechnológiai eszközrendszer főbb elemeit, azok alapvető működési elveit, specifikációs jellemzőit.

    8. A tantárgy részletes tematikája

    Bevezetés
    A nyelv és a beszéd az emberi kommunikációban. Alapvető modalitások és az emberi érzékelés alapfogalmai, természetes kommunikációs láncok: auditív kommunikáció, vizuális kommunikáció, egyéb (tapintás, szaglás). A természetes beszédlánc elemei és működésük. Az emberi beszédkeltés, a beszédészlelés és a beszédmegértés alapfogalmai. A beszéd akusztikai szerkezetének legfontosabb jellemzői. A beszéd szintjei, redundanciája, a hordozott kiegészítő információk. A lényegkiemelés elmélete.

    Beszédkódolás és tömörítés
    A beszédkódolás szerepe a digitális beszédtárolás, valamint az infokommunikációs hálózatok rendszereiben. Beszéd/csend és más akusztikus jelek megkülönböztetése. A beszédkódolás alapvető módszerei (PCM, formáns, LPC, és továbbfejlesztéseik). Vektorkvantálás. A kódolás hatása más beszédtechnológiai eszközökre. A kódolt beszéd minősítése (érthetőség, természetesség).

    Beszédválaszú rendszerek
    A gépi beszédkeltés alapfogalmai (kötött, kötetlen és vegyes szókészlet).

    Kötött szókészletű rendszerek tervezési szempontjai. A bemondandó szöveg informatikai tervezése. A szótárméret-minimalizálás és a minőség kompromisszumai. Bemondó kiválasztása, hangfelvétel elkészítése. A kötött szókészletű akusztikai adatbázis tervezési szempontjai. Vegyes rendszerek kialakításának indokai, megoldási lehetőségei. Nagy hanghűségű prozódia módosítási algoritmusok.Kötetlen szókészletű (text-to-speech és concept-to-speech) rendszerek felépítése, alapvető osztályai. Fonéma, diád, triád és nagyobb méretű elemi egységeken alapuló rendszerek. Egységes szövegábrázolási, szövegelemzési és átalakítási feladatok és kapcsolódó adatbázisok. Prozódiai előrejelzés és függvénykészlet. Vezérelhető rendszerfunkciók. Kötetlen szókészletű akusztikus adatbázisok tervezési szempontjai és elkészítésük módszerei. Beszédválasz szövegkorpuszának kialakítása. Az adatbázis elkészítése, módosítása, és ezek algoritmusai. A prozódia (hangmagasság, hangerő, ritmusváltozás) jelentősége és megvalósítása. Valós idejű automatikus prozódia generálás algoritmusai. Többhangú rendszerek és automatikus hangkonverzió. Többnyelvű rendszerek. Nyelvdetekció, ékezetesítés. Egységes hangjelölési rendszerek (IPA, SAMPA). Fejlesztői környezetek. A rendszerek automatizált megvalósításának algoritmusai (pl. gépi tanulás).Beszédfelismerés
    A beszédfelismerés alapfogalmai és alapvető architektúrái. A működés fő fázisai: lényegkiemelési, vetemítési, osztályozási eljárások. A beszédfelismerés különböző szintjei. A beszédfelismerők fajtái: személyfüggő, személyfüggetlen, és adaptív rendszerek. Szabálybázisú és statisztikai elven működő, valamint hibrid rendszerek elvi alapjai. Irodai, PSTN, mobil és gépkocsiban működő rendszerek.

    A beszéd- és szövegadatbázisok jelentősége a felismerésben. Adatbázisok leírása, tervezése, feldolgozási módszereik. Az akusztikus környezet szerepe.
    Felismerő létrehozásának fázisai:A felismerés alapegységének kiválasztása, a beszéd elemtár meghatározása,beszéd és szövegadatbázisok kiválasztása, szótárkészítés, a beszédfelismerő betanítása,tesztelése Szótárkészlet automatikus bővítése, adaptivitás. A prozódia szerepe. Többnyelvű rendszerek kialakítása. Fejlesztői környezetek és eszközök.

    Beszélőfelismeréssel és beszélőazonosítással növelt biztonságú hozzáférési rendszerek
    Beszélőfelismerés és azonosítás kötött és kötetlen szöveggel. Inter- és intraindividuális jellemzők, azok függése az akusztikus környezettől és az időponttól. Kulcsszó felismerés. A beszéd további biometriai lehetőségei.

    Beszédfunkciók alkalmazása információs rendszerekben
    Beszéddel informáló dialógus rendszerek alapfogalmai. Rendszer vezérelt, felhasználó vezérelt és vegyes kezdeményezésű rendszerek. DTMF és beszédfelismerő alapú vezérlés beszédválaszú rendszerekben. Uni- és multimodális rendszerek. Modalitás konverzió és szerepe a globális személyes kommunikációs rendszerekben.

    Beszédinformációs rendszerek tervezésének és megvalósításának lépései. Széleskörű használatra (pl. idősek) való tervezés (design-for-all). Platform, termékválasztás és tesztelés. Az összehasonlítás és a teljesítmény mérés módszerei. Alapvető beszéddialógus platformok összehasonlítása.

    Tipikus alkalmazási környezetek, meghatározó alkalmazói rendszerek. A vállalati akusztikai arculat fogalma és színvonalas biztosításának módszerei. Esettanulmány: alkalmazási mintarendszer tervezése

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

    10*4 óra előadás és 8*2 óra kiscsoportos foglalkozás az őszi félévben a félév első 10 hetében egyenletesen elosztva. 

     

    10. Követelmények

     

    • A szorgalmi időszakban:
      • A  11. héten egy nagyzárthelyi legalább elégséges szintű megírása.
    • Nagyzárthelyi pótlási lehetőség: a 12. vagy a 13. héten egy alkalommal
    • A tárgy osztályzata megegyezik a nagyzárthelyi eredményével
    • A vizsgaidőszakban: pótlási lehetőség egy alkalommal
    11. Pótlási lehetőségek

    A nagyzárthelyi egy alkalommal a szorgalmi időszakban és egy ismételt alkalommal a pótlási időszakban pótolható.

    12. Konzultációs lehetőségek

    A hallgatók kérdéseikkel kereshetik az oktatókat e-levélben és az előadásokon. Ezen felül a nagyzárthelyi dolgozat és a pótlási alkalmak előtt megegyezés szerint konzultációt tartunk.

    13. Jegyzet, tankönyv, felhasználható irodalom

    Kötelező irodalom:

    1. Németh G., Olaszy G.: A magyar beszéd, Akadémiai Kiadó, 2010

    Ajánlott irodalom:

    1. Magyar nyelvi beszédtechnológiai alapismeretek, Nikol KKt, 2002
    2. X. Huang, A. Acero, H. Hon: Spoken Language Processing, Prentice Hall, 2001
    3. D. Gardner-Bonneau: Human Factors and Voice Interactive Systems, Kluwer, 1999
    4. Gordos G., Takács Gy.: Digitális beszédfeldolgozás, Műszaki Könyvkiadó, 1983
    5. Olaszy G.: Elektronikus beszédelőállítás, Műszaki Könyvkiadó, 1989
    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra 56
    Félévközi készülés órákra 32
    Felkészülés zárthelyire 32
    Házi feladat elkészítése 
    Kijelölt írásos tananyag elsajátítása 30
    Vizsgafelkészülés 
    Összesen 150
    15. A tantárgy tematikáját kidolgozta

     Név:

     Beosztás:

     Tanszék, Int.:

     Dr, Gordos Géza

     Prof. emeritus

     TMIT

     Dr. Németh Géza

     egy. docens

     TMIT

     Dr. Olaszy Gábor

     egy. tanár

     TMIT

     Dr. Mihajlik Péter

     egy. adjunktus

     TMIT

     Dr. Vicsi Klára

     tud. főmunkatárs

     TMIT