Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Beszédinformációs rendszerek

    A tantárgy angol neve: Speech Information Systems

    Adatlap utolsó módosítása: 2017. június 17.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar
    Mérnök informatikus szak, BSc képzés
    Villamosmérnöki szak, BSc képzés
    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMAD00 7 2/1/0/f 3  
    3. A tantárgyfelelős személy és tanszék dr. Németh Géza,
    A tantárgy tanszéki weboldala http://smartlab.tmit.bme.hu/oktatas-beszedinformacios-rendszerek
    4. A tantárgy előadója

    Név:

    Beosztás:

    Tanszék, Int.:

    Dr. Németh Géza

    egyetemi docens

    TMIT

    Dr. Csapó Tamás Gábor

    tud.smts.

    TMIT

    Dr. Zainkó Csaba

    egyetemi adjunktus

    TMIT

    6. Előtanulmányi rend
    Kötelező:
    (TargyEredmeny("BMEVISZAB00" , "jegy" , _ ) >= 2 VAGY
    TargyEredmeny("BMEVISZAB02" , "jegy" , _ ) >= 2 VAGY
    TargyEredmeny("BMEVISZA208" , "jegy" , _ ) >= 2 )


    ÉS NEM ( TárgyEredmény( "BMEVITMA400" , "jegy" , _ ) >= 2
    VAGY
    TárgyEredmény("BMEVITMA400", "FELVETEL", AktualisFelev()) > 0
    VAGY
    TárgyEredmény( "BMEVITMA404" , "jegy" , _ ) >= 2
    VAGY
    TárgyEredmény("BMEVITMA404", "FELVETEL", AktualisFelev()) > 0)

    ÉS (Training.Code=("5N-A8") VAGY Training.Code=("5NAA8"))

    A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

    A kötelező előtanulmányi rend az adott szak honlapján és képzési programjában található.

    7. A tantárgy célkitűzése

    Az emberi információ-kezelés és kommunikáció alapja a természetes beszédlánc (beszélő ember - levegő - hallgató ember) működése. A beszédinformációs rendszerek a természetes beszédlánc egy vagy több elemének mesterséges informatikai megvalósítását (pl. beszédfelismerés, beszédszintézis, stb.) integrálják az információ gyűjtésével, tárolásával, feldolgozásával és/vagy az ahhoz való hozzáféréssel kapcsolatos folyamatokba. Napjainkban számos gyakorlati alkalmazásban megjelentek a nagyméretű, egyre jobban integrált és automatizált beszédinformációs rendszerek (pl. okostelefonok, TV-k, tabletek automatizált beszédfunkciói, hívásközpontok, tele-banking, mint Apple Siri asszisztens, Google Voice Search, diktáló rendszerek. beszéd- és szöveg analitika, gépi tolmácsolás). A tárgy célja a beszédlánc elemei mesterséges megvalósításának megismertetése és a beszéddel vezérelt és/vagy beszéddel válaszoló információs rendszerek azon eljárásainak taglalása, amelyek beszédspecifikusak. A tárgy gyakorlati példák felhasználásával mutatja be a beszédinformációs rendszerek kialakításához szükséges elméleti és gyakorlati ismereteket, az automatizáláshoz alkalmazható beszédtechnológiai eszközrendszer főbb elemeit, azok alapvető működési elveit, specifikációs jellemzőit.

    A tantárgyat sikeres teljesítő hallgató képes lesz:

    (K1) áttekinteni, hogy milyen alapvető rendszerelemek szükségesek beszédinformációs rendszerek vagy beszédtechnológiát is alkalmazó informatikai rendszerek kialakításához,

    (K2) specifikációkat kidolgozni beszédinformációs rendszerek vagy beszédtechnológiát is alkalmazó informatikai rendszerek kialakításához,

    (K3)  teszt eljárásokat tervezni és megvalósítani  beszédinformációs rendszerek vagy beszédtechnológiát is alkalmazó informatikai rendszerek kialakításához,

    (K3) rendszerintegrációs feladatokat megoldani beszédinformációs rendszerek vagy beszédtechnológiát is alkalmazó informatikai rendszerek kialakításához.
    8. A tantárgy részletes tematikája

    Bevezetés

    Miért fontos a beszédtechnológia? Milyen főbb elemekből épül fel egy beszédinformációs rendszer (pl. intelligens személyi asszisztens)?

    A nyelv, a beszéd és a szöveg az emberi kommunikációban. A természetes beszédlánc elemei és működésük. Az emberi beszédkeltés, a beszédészlelés és a beszédmegértés alapfogalmai. A beszéd akusztikai szerkezetének legfontosabb jellemzői. A beszéd szintjei, redundanciája, a hordozott kiegészítő információk.

     

    Beszédkódolás és tömörítés
    A beszédkódolás szerepe a digitális beszédtárolás, valamint az infokommunikációs hálózatok rendszereiben. Beszéd/csend és más akusztikus jelek megkülönböztetése. A beszédkódolás alapvető módszerei (PCM, formáns, LPC, és továbbfejlesztéseik). A kódolás hatása más beszédtechnológiai eszközökre. A kódolt beszéd minősítése (érthetőség, természetesség).

    Beszédválaszú rendszerek
    A gépi beszédkeltés alapfogalmai (kötött, kötetlen és vegyes szókészlet).

    Beszédválaszú rendszerek tervezési szempontjai
    A kötött szókészletű akusztikai adatbázis tervezési szempontjai és megvalósításnak lépései. Vegyes rendszerek kialakításának indokai, megoldási lehetőségei. Nagy hanghűségű prozódia módosítási algoritmusok.Kötetlen szókészletű (text-to-speech és concept-to-speech) rendszerek felépítése, alapvető osztályai. Egységes szövegábrázolási, szövegelemzési és átalakítási feladatok és kapcsolódó adatbázisok. Kötetlen szókészletű akusztikus adatbázisok tervezési szempontjai és elkészítésük módszerei. Beszédválasz szövegkorpuszának kialakítása. Az adatbázis elkészítése, módosítása, és ezek algoritmusai. A prozódia (hangmagasság, hangerő, ritmusváltozás) jelentősége és megvalósítása. Többhangú rendszerek és automatikus hangkonverzió. Többnyelvű rendszerek. Nyelvdetekció, ékezetesítés. Egységes hangjelölési rendszerek. Fejlesztői környezetek. A rendszerek automatizált megvalósításának algoritmusai (pl. gépi tanulás).

    Beszédfelismerés
    A beszédfelismerés alapfogalmai és alapvető architektúrái. A működés fő fázisai: lényegkiemelési, vetemítési, osztályozási eljárások. A beszédfelismerés különböző szintjei. A beszédfelismerők fajtái: személyfüggő, személyfüggetlen, és adaptív rendszerek. Szabálybázisú és statisztikai elven működő, valamint hibrid rendszerek elvi alapjai. Irodai, PSTN, mobil és gépkocsiban működő rendszerek.

    A beszéd- és szövegadatbázisok jelentősége
    Adatbázisok leírása, tervezése, feldolgozási módszereik. Az akusztikus környezet szerepe. Felismerő létrehozásának fázisai megismerése. Szótárkészlet automatikus bővítése, adaptivitás. A prozódia szerepe. Többnyelvű rendszerek kialakítása. Fejlesztői környezetek és eszközök.

    Beszédfunkciók alkalmazása információs rendszerekben

    Beszéddel informáló dialógus rendszerek alapfogalmai. Rendszer vezérelt, felhasználó vezérelt és vegyes kezdeményezésű rendszerek. DTMF és beszédfelismerő alapú vezérlés beszédválaszú rendszerekben. Uni- és multimodális rendszerek. Modalitás konverzió és szerepe a globális személyes kommunikációs rendszerekben.

    Beszédinformációs rendszerek tervezésének és megvalósításának lépései.
    Tipikus alkalmazási környezetek, meghatározó alkalmazói rendszerek (pl ügyfélszolgálat automatizálás, egészségügy, rehabilitáció). A vállalati akusztikai arculat fogalma és színvonalas biztosításának módszerei.

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

    28 óra előadás a félév első 10 hetében elosztva és  14 óra gyakorlat az 5-11. héten.

    A gyakorlatok tematikája:
     1. gyakorlat:  Alapvető beszédakusztika
     2. gyakorlat:  Beszédhangok és spektrális jellemzésük
     3. gyakorlat:  Elemi jelfeldolgozás
     4. gyakorlat:  Szegmentális és szupraszegmentális elemek a beszédtechnológiában
     5. gyakorlat:  Mintavételezés, kvantálás, beszédkódolás
     6. gyakorlat:  Gépi felolvasó rendszerek tervezése
     7. gyakorlat:  Beszédfelismerés

    10. Követelmények

    A szorgalmi időszakban:
    Egy nagyzárthelyi legalább elégséges szintű megírása az előadások és a gyakorlatok után. Valamint a gyakorlatokon tartott kiszárthelyik közül a legjobb öt összesített átlaga legalább 50% legyen.

    A tárgy osztályzata megegyezik a nagyzárthelyi eredményével.


    11. Pótlási lehetőségek

    A nagyzárthelyi egy alkalommal a szorgalmi időszakban pótolható.

    A kiszárthelyik a nagyzárthelyi pótlásával egy időpontban pótolhatók.

    12. Konzultációs lehetőségek A hallgatók kérdéseikkel kereshetik az oktatókat e-levélben és az előadásokon. Ezen felül a nagyzárthelyi dolgozat és a pótlási alkalom előtt megegyezés szerint konzultációt tartunk.
    13. Jegyzet, tankönyv, felhasználható irodalom

    Kötelező irodalom:

    • Németh G., Olaszy G.: A magyar beszéd, Akadémiai Kiadó, 2010,
      Letölthető: http://smartlab.tmit.bme.hu/kf-letoltheto-konyvek#magyarbeszed

    Ajánlott irodalom:

    • X. Huang, A. Acero, H. Hon: Spoken Language Processing, Prentice Hall, 2001
    • D. Gardner-Bonneau: Human Factors and Voice Interactive Systems, Kluwer, 1999
    • Gordos G., Takács Gy.: Digitális beszédfeldolgozás, Műszaki Könyvkiadó, 1983
    • Olaszy G.: Elektronikus beszédelőállítás, Műszaki Könyvkiadó, 1989
    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra42
    Felkészülés előadásokra10
    Felkészülés gyakorlatokra14
    Felkészülés nagyzárthelyire12
    Felkészülés kiszárhelyikre
    12
      
    Összesen90
    15. A tantárgy tematikáját kidolgozta

    Név:

    Beosztás:

    Tanszék, Int.:

    Dr. Németh Géza

    egyetemi docens

    TMIT

    Dr. Olaszy Gábor

    prof. emeritus

    TMIT

    Dr. Mihajlik Péter
    egyetemi adjunktusTMIT

    Dr. Tóth Bálint Pál

    egyetemi adjunktusTMIT
    Dr. Vicsi Klára
     tud. tanácsadó
     TMIT
    Dr. Zainkó Csaba egyetemi adjunktusTMIT
     Dr. Csapó Tamás Gábor
     tud. segédmunkatárs TMIT