MI alapú ember-gép interakció

A tantárgy angol neve: AI-based Man-machine Interaction

Adatlap utolsó módosítása: 2023. január 13.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar
mérnökinformatikus, MSc specializáció
Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITMMA23   2/1/0/v 5  
3. A tantárgyfelelős személy és tanszék Dr. Mihajlik Péter,
A tantárgy tanszéki weboldala http://smartlab.tmit.bme.hu/UX
4. A tantárgy előadója

 

Dr. Zainkó Csaba, egyetemi adjunktus,TMIT
Dr. Mihajlik Péter, egyetemi adjunktus, TMIT
Dr. Gyires-Tóth Bálint Pál, egyetemi docens,TMIT
Dr. Csapó Tamás Gábor, tudományos munkatárs,TMIT
Dr. Németh Géza, egyetemi docens,TMIT
Dr. Sztahó Dávid, tudományos munkatárs, TMIT

6. Előtanulmányi rend
Kötelező:
NEM
(TárgyEredmény( "BMEVITMMA11", "jegy" , _ ) >= 2
VAGY
TárgyEredmény("BMEVITMMA11", "FELVETEL", AktualisFelev()) > 0)

A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

A kötelező előtanulmányi rend az adott szak honlapján és képzési programjában található.

7. A tantárgy célkitűzése

A tárgy olyan adatvezérelt, mesterséges intelligencia alapú rendszerekbe nyújt betekintést, ahol a felhasználó közvetlenül szolgáltat, illetve fogyaszt pl. képi, hang- és/vagy szenzoradatokat. A felhasználóközpontú rendszerekben a felhasználói élmény és elégedettség kulcsfontosságú a rendszer sikeressége, használhatósága szempontjából, így ebből a szempontból is tárgyaljuk az különféle megközelítéseket. Bemutatjuk az egyes felhasználói felület modalitások tekintetében, melyek a korszerű mesterséges intelligencia-modellek, azok hogyan járulnak hozzá a felhasználói élményhez, hogyan tesztelhetők, üzemeltethetők és mely kihívásoknak kell megfelelniük. Gyakorlati példákon keresztül megmutatjuk, miként lehet az egyes részproblémára kidolgozott modelleket egy olyan rendszerbe integrálni, amely közvetlenül a felhasználókkal kerül interakcióba. A felhasználókkal is kapcsolatban álló rendszereknél a használat alapján a modellek finomíthatók, a működéshez adaptálhatók. A tárgy gyakorlati részében többek között bemutatjuk, hogyan lehet ezt a folyamatot megvalósítani.

 A tárgy specifikus célkitűzései továbbá:

● MI modellek alkalmazása felhasználó felületekben
● Gépi tanulás mérőszámai és a szubjektív felhasználói ítéletek kapcsolata
● MI alapmodellek tovább-tanítása, finomítása felhasználói használat alapján
● Interaktív felhasználói felületeken (UI) alkalmazott modellek alkalmazási kérdései
● MI modellek gyorsítási lehetőségei a megfelelő UI válaszidő érdekében

Konkrét esettanulmányok mentén mutatjuk be többek között az emberi interakciók felismerését (hang és kép alapokon), a rendszerek illesztését pl. fogyatékkal élő felhasználókhoz, illetve akár az agyi interfészeket (Brain-Computer Interface)

8. A tantárgy részletes tematikája

A tárgy egymásra épülő és összefüggő blokkokból épül fel, mely blokkok két egymást követő előadásból ill. egy gyakorlatból állnak.

Bevezetés, intelligens ember-gép interakciók, mélytanulási alapok

 ● Mitől intelligens egy ember-gép interakció. Mesterséges intelligencia és gépi, ill. mélytanulás kapcsolata. Esettanulmányok.
● A felügyelt mélytanulási technikák áttekintése (Multi-layer perceptron, konvolúciós hálók, rekurrens hálók, figyelmi mechanizmus és transzfomer struktúrák). Tanítás és inferencia kihívások a valós életben.
● Inferencia a gyakorlatban (deployment), hálózat-tömörítési és egyéb (pl. kvantálási) technikák és szoftver-eszköztárak.

Felhasználói képi adatok feldolgozása

● A gépi látás legfőbb kihívásai és alkalmazási területei.
● 2D konvolúción alapuló, korszerű mélytanulási modellek. Pretraining, transfer learning képeken, személyreszabás. 
● Önfelügyelt tanulás a gépi látásban, kihívások, előnyök és hátrányok, gyakorlati alkalmazások.
● A képfeldolgozás mélytanulási szoftver-eszköztárai, egyszerű példák órai megoldása/megoldásvázlata.

Hangadatok feldolgozása

● Wake-word (ébresztőszó) detektálás.
● Gépi beszédleiratozás, neurális akusztikus modellek.
● Nyelvmodellek a beszédleiratozásban.
● Felügyelten és önfelügyelten előtanított modellek finomhangolása a gyakorlatban.
● Modellek performancia mérései

Személyreszabható text-to-speech

● Mélytanulás alapú gépi beszédszintézis, neurális modellek
● Beszédmodellek tanítása egy- és több-beszélő esetén
● Szintézismodellek alkalmazásának és továbbfejlesztésének lehetőségei
● Modellek minőségi és performancia mérései

Emberi emóciók felismerése

● Az érzelmek megjelenési módjai, modellezése, leírási módjai gépi feldolgozáshoz. Adatbázis építési ismeretek és technikák.
● A gépi felismeréshez alkalmazott AI modellezési technikák és eljárások. Vizuális adatok modellezése, képi emóció detektálás. Beszédklasszifikációs eljárások alkalmazása az érzelemfelismeréshez, hangalapú detektálás. 
Nyelvi elemek modellezése és reprezentációs technikái a szövegalapú felismeréshez. Szentiment elemzés.
● Gyakorlat: gépi érzelemfelismerési esettanulmányok

UX megvalósítása időseket és fogyatékossággal élőket támogató rendszerekhez

● Időseket támogató rendszerek, Ambient Assisted Living (AAL), elöregedő társadalom. Fogyatékossággal élőket (látássérültek, beszédfogyatékosok, sztrókon átesettek) támogató rendszerek. Életfunkciójukban tartósan károsodott vagy veszélyeztetett személyek eredeti életkörülményeinek segítése infokommunikációs eszközökkel. Egészségvédelmi célok.
● Szenzoradatok feldolgozása, testen viselhető eszközök. Vitális funkciók folyamatos vagy rendszeres figyelése, a megfigyelt értékek elemzése. Elesésdetekció mély tanulás alapon. Lakásban elhelyezett mozgásdetektorok vagy használati tárgyakba helyezett elektronikus egységek összekötése telekommunikációs rendszerrel.
 ● Gyakorlat: esettanulmányok az időseket és fogyatékossággal élőket támogató rendszerekhez.

Egyedi interface-ek és komplex esettanulmányok

● Agy-számítógép interfészek (Brain-Computer Interface, BCI) elméleti, anatómiai és információtechnológiai alapjai, alkalmazási lehetőségei.
● Komplex hang és/vagy képi kapcsolatra épülő ember-gép interakciós rendszerek bemutatása, konklúziók.

 

A gyakorlatok részletes tematikája: 

● Inferencia a gyakorlatban (deployment), hálózat-tömörítési és egyéb (pl. kvantálási) technikák és szoftver-eszköztárak.
● A képfeldolgozás mélytanulási szoftver-eszköztártárai, egyszerű példák órai megoldása/megoldásvázlata.
● Felügyelten és önfelügyelten előtanított beszédleiratozó modellek finomhangolása a gyakorlatban. Teljesítmény mérése.
● Személyreszabható text-to-speech: A mélytanulás alapú modellek alkalmazása, teljesítmény mérése, tematikához illesztése. A modellek továbbfejlesztése, optimalizálása az adott feladathoz, modellek adaptálása adott beszélőhöz.
● Gépi érzelemfelismerési esettanulmányok. Jellemzőkinyerő, szövegelemző algoritmusok alkalmazása, gépi tanuló modellek tanítása, tesztelése és teljesítmény mérése.
● Esettanulmányok az időseket és fogyatékossággal élőket támogató rendszerekhez. PaeLife (Personal Assistant to Enhance the Social Life of the Seniors), StrokeAid (MonddKi), VUK (Visionless sUpporting frameworK) és APH-ALARM (universal monitoring system with an alerting ability for older people with communication difficulties after stroke) projektekből
● Egy egyszerűbb, de mélytanulási modelleket alkalmazó audio alapú interface megtervezése rendszerterv szintjén.

9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Heti 2 óra előadás, 2 óra gyakorlat minden második héten.
10. Követelmények

Szorgalmi időszakban: 1 db nagyzárhelyi elégséges (40%-os) megírása és a gyakorlatokon való legalább 70%-os részvétel.

Vizsgaidőszakban: Írásbeli és opcionális szóbeli vizsga. Szóbeli vizsgával az írásbeli vizsga módosítható, javíthat a hallgató, de ronthat is az addig elért eredményen. A vizsgarész sikeres teljesítése esetén az érdemjegy a vizsga és a zárhelyi súlyozott átlaga, amelybe a zárthelyi 40%-os súllyal számít bele. A kredit megszerzéséhez a vizsgapontszámoknak is el kell érnie a 40%-ot.

11. Pótlási lehetőségek Nagyzárthelyi pótlására 1 alkalommal kerülhet sor a pótlási héten.
12. Konzultációs lehetőségek A tárgy előadójával személyesen, vagy e-mailben egyeztetett időpontban.
13. Jegyzet, tankönyv, felhasználható irodalom ● Stevens, Eli, Luca Antiga, and Thomas Viehmann. Deep learning with PyTorch. Manning Publications, 2020.
● McTear, Michael. "Conversational ai: Dialogue systems, conversational agents, and chatbots." Synthesis Lectures on Human Language Technologies 13.3 (2020): 1-251.
● Freed, Andrew. Conversational AI. Simon and Schuster, 2021.
14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra56
Félévközi készülés órákra24
Felkészülés zárthelyire30
Házi feladat elkészítése-
Kijelölt írásos tananyag elsajátítása-
Vizsgafelkészülés40
Összesen150
15. A tantárgy tematikáját kidolgozta Dr. Zainkó Csaba, egyetemi adjunktus,TMIT
Dr. Mihajlik Péter, egyetemi adjunktus, TMIT
Dr. Gyires-Tóth Bálint Pál, egyetemi docens, TMIT
Dr. Csapó Tamás Gábor, tudományos munkatárs, TMIT
Dr. Németh Géza, egyetemi docens, TMIT
Dr. Sztahó Dávid, tudományos munkatárs, TMIT