Belépés címtáras azonosítással
magyar nyelvű adatlap
Hang- és beszédfelismerési technológiák
A tantárgy angol neve: Sound and Speech Recognition Technologies
Adatlap utolsó módosítása: 2016. március 28.
Esettanulmányok:
Laptopos feladatmegoldások:
Törzsanyag:
1. hét: Bevezetés
A hang, mint hangnyomás-idő függvény leírása, kezelése, osztályozása (pl. tranziens, stacionárius, kvázi-periodikus) és jellemzői (érzeti, fizikai). A felismerési feladatok (pl. szignál, reklám, zene, zaj, beszéd felismerése). A hangnyomás-idő függvény reprezentációja: az STFT szükségessége, ablakozás szerepe, spektrogramm.
2-3. hét: Szignál és zeneszámfelismerés
Szignálfelismerés, lineáris időillesztés, spektrális távolság számítása, keresés adatfolyamban (stream-ben), első- és másodfajú hiba. A valós idejű mintaillesztés kihívásai, additív zaj, lineáris és nemlineáris torzítás hatásai, interferencia-jellegű zavarás és ezek kezelésének lehetőségei. Zeneszám/reklám felismerés. Akusztikai ujjlenyomat (Acoustic Fingerprint) fogalma és módszerei.
4-5. hét: Időbeli vagy hangszínbeli változatosság kezelése
Dinamikus idővetemítés szükségessége és alapelve. Akusztikai lényegkiemelések, érzeti frekvenciaskálák (Mel, Bark, Gammatone), érzeti hangerősség skálák. Matematikai lényegkiemelések alkalmazói szinten: PCA, DCT, LDA. Statisztikai modellezés és a mintaillesztés alapmódszerei és szükségessége (spektrális variabilitás kezelése). Folytonos valószínűségsűrűség-függvény alkalmazása hasonlósági mérték számítására.
6-7. hét: A beszédfelismerés alapjai
Időbeliség és spektrális változékonyság együttes kezelése HMM-GMM rendszerrel. Modellparaméterek ML becslése, felismerés Viterbi algoritmussal. A beszédfelismerés MAP alapegyenlete. Akusztikus, lexikális és nyelvi modellek, beszédfelismerési modellhierarchia. A valós idejű beszédfelismerés kihívásai, részleges és optimalizált Viterbi-dekódolás. A felismerési eredmények kiértékelése, mértékei. Beszéd- és hangfelismerési konfidencia elve és gyakorlati számítása.
8-9. hét: A beszéd-szöveg átalakítás speciális technikái
Felismerési hálózatépítés és optimalizálás (tudásforrás-integráció) WFST alapon. A beszédhangok egymásra hatása, a koartikuláció kezelése és szintjei. Fonéma és graféma alapú környezetfüggő modellezés bináris ML döntési-fákkal. Graféma-fonéma átalakítás. A nyelvmodellezés kihívásai. Magasabb fokszámú n-gram modellek, simítási módszerek, implementációs kérdések. Morféma-szerű nyelvi egységek alkalmazása. OOV modellezés, osztály n-gramok.
10-11. hét: Hibacsökkentés adaptációval és diszkriminatív tanítással
Az adaptáció szerepe és típusai a beszédfelismerésben. Regressziós (MLLR) és részleges újratanításon (MAP) alapuló technikák. Modell- és jellemzőtérbeli (feature-space) adaptáció. Beszélőnormalizálási technikák. SAT (beszélőadaptív tanítás). Diszkriminatívan tanított akusztikus modellek. MMI és MPE hibaminimalizálás.
12-13. hét: A “Deep learning” beszédfelismerési alkalmazásai
GMM vs. MLP modellek. Mitől javultak meg a mesterséges neuronháló alapú modellek? Tandem, bottleneck és hibrid architektúrák. Mély tanulás a beszédfelismerésre alkalmazva, DNN és válfajai, tanításuk. Diszkriminatív nyelvi modellek, LSTM, RNN alkalmazása. End-to-end speech recognition: a gépi (mély) tanulás mindent visz? Félig felügyelt és felügyelet nélküli tanítás a beszédfelismerésben.
14. hét: A beszéd egyéb modalitásainak felismerése, alkalmazások
Beszélő felismerése. Verifikáció és az UBM alkalmazása, felügyelet nélküli beszélőszegmentálás, diarizáció. Visszacsatolás a beszédfelismerésbe. A hanglejtés és ritmika felismerése és használata a beszédfelismerésnél. Nyelvek közötti hordozhatóság. Nyelvfelismerés hangból. A hang- és beszédfelismerés alkalmazásai, médiamonitorozás, diktáló rendszerek.
Rövidítésjegyzék:
DCT: Discrete Cosine Transform
DNN: Deep Neural Network
FST: Finite State Transducer
GMM: Gaussian Mixture Model
HMM: Hidden Markov Model
LDA: Linear Discriminant Analysis
LSTM: Long-Short Term Memory
MAP: Maximum A Posteriory
ML: Maximum Likelihood
MLP: Multi Layer Perceptron
MLLR: Maximum Likelihood Linear Regression
MMI: Maximum Mutual Information
MPE: Minimum Phone Error
MTVA: Médiaszolgáltatás-támogató és Vagyonkezelő Alap
OOV: Out of Vocabulary
PCA: Principal Component Analysis
RNN: Recurrent Neural Network
RWTH: Rhein-Westfalische Technishe Hochshule
SAT: Speaker Adaptive Training
STFT: Short Time Fourier Transform
UBM: Universal Bakground Model
WFST: Weighted Finite State Transducers
a.) A szorgalmi időszakban: aláírás. Feltétele egy kijelölt, illetve személyre szabott házi feladat megfelelő szintű kidolgozása, amely lehet többek között egy hang- ill. beszédfelismerési probléma megoldása vagy szakirodalom feldolgozása.
b.) A vizsgaidőszakban: szóbeli vizsga választott tétel alapján.
c.) Elővizsga: van, feltétele az időben megszerzett aláírás.