ZUT - Krajowe Ramy Kwalifikacji / Rok 2017/2018 / Wydział Informatyki / Informatyka (S1) / systemy komputerowe i oprogramowanie / Sylabus przedmiotu - Mechanizmy interakcji głosowej w systemach komputerowych Przedmiot obieralny I

Wydział Informatyki - Informatyka (S1)
specjalność: systemy komputerowe i oprogramowanie

Sylabus przedmiotu Mechanizmy interakcji głosowej w systemach komputerowych Przedmiot obieralny I:

Informacje podstawowe

Kierunek studiów	Informatyka
Forma studiów	studia stacjonarne	Poziom	pierwszego stopnia
Tytuł zawodowy absolwenta	inżynier
Obszary studiów	nauki techniczne, studia inżynierskie
Profil	ogólnoakademicki
Moduł	—
Przedmiot	Mechanizmy interakcji głosowej w systemach komputerowych Przedmiot obieralny I
Specjalność	systemy komputerowe i oprogramowanie
Jednostka prowadząca	Katedra Architektury Komputerów i Telekomunikacji
Nauczyciel odpowiedzialny	Tomasz Mąka <Tomasz.Maka@zut.edu.pl>
Inni nauczyciele	Tomasz Mąka <Tomasz.Maka@zut.edu.pl>
ECTS (planowane)	2,0	ECTS (formy)	2,0
Forma zaliczenia	zaliczenie	Język	polski
Blok obieralny	6	Grupa obieralna	2

Formy dydaktyczne

Forma dydaktyczna	KOD	Semestr	Godziny	ECTS	Waga	Zaliczenie
laboratoria	L	5	15	1,1	0,50	zaliczenie
wykłady	W	5	15	0,9	0,50	zaliczenie

Wymagania wstępne

KOD	Wymaganie wstępne
W-1	Analiza matematyczna i algebra liniowa
W-2	Podstawy przetwarzania sygnałów
W-3	Teoria informacji i kodowania
W-4	Algorytmy eksploracji danych

Cele przedmiotu

KOD	Cel modułu/przedmiotu
C-1	Zrozumienie podstaw natury wytwarzania mowy
C-2	Zdobycie wiedzy na temat wlasnosci sygnalu mowy
C-3	Zapoznanie sie z podstawowymi mechanizmami i technikami rozpoznawania mowy izolowanej i ciaglej oraz syntezy mowy
C-4	Zdobycie umiejetnosci tworzenia oprogramowania wykorzystujacego sygnal mowy w procesie glosowej interakcji miedzy komputerem a uzytkownikiem
C-5	Zapoznanie sie z programowymi pakietami sluzacymi do tworzenia systemow analizy i syntezy sygnalu mowy

Treści programowe z podziałem na formy zajęć

KOD	Treść programowa	Godziny
laboratoria
T-L-1	Implementacja podstawowych metod parametryzacji mowy w systemie MATLAB.	2
T-L-2	Budowa prostego systemu pozwalajcego na identyfikowanie mowcy na podstawie pojedynczej wypowiedzi z wykorzystaniem srodowiska MATLAB.	2
T-L-3	Zapoznanie sie z architektura systemu HTK, konfiguracja, zaznajomienie sie z formatami danych. Przykladowe zadania ekstrakcji cech i tworzenia modeli HMM. Opracowanie bazy pojedynczych slow i wykorzystanie jej do budowy systemu rozpoznawania mowy izolowanej z uzyciem pakietu HTK.	6
T-L-4	Wykorzystanie systemu FESTIVAL do realizacji przykładów syntezy mowy w języku polskim.	2
T-L-5	Wykorzystanie poznanych technik do proby sterowania interfejsem uzytkownika (reakcja na okreslonego mowce, na wydawane polecenia glosowe, potwierdzanie glosowe).	3
		15
wykłady
T-W-1	Mechanizmy wytwarzania sygnału mowy. Budowa traktu głosowego. Metody i warunki akwizycji sygnału mowy.	2
T-W-2	Percepcja mowy. Metody parametryzacji i przetwarzania sygnału mowy.	2
T-W-3	Identyfikacja cech osobniczych mowcy. Techniki kompensacji cech charakterystycznych mowcy.	2
T-W-4	Zastosowanie metod rozpoznawania wzorców w systemach przetwarzania sygnału mowy.	2
T-W-5	Metody i systemy rozpoznawania mowy izolowanej oraz ciaglej.	3
T-W-6	Techniki syntezy mowy. Zasady syntezy formantowej i konkatenacyjnej sygnału mowy.	2
T-W-7	Zasady projektowania glosowych systemow interakcji czlowiek-komputer. Architektura interfejsów dedykowanych komunikacji głosowej.	2
		15

Obciążenie pracą studenta - formy aktywności

KOD	Forma aktywności	Godziny
laboratoria
A-L-1	Uczestnictwo w zajęciach.	15
A-L-2	Przygotowanie się do zajęć.	14
A-L-3	Udział w konsultacjach.	4
		33
wykłady
A-W-1	Uczestnictwo w zajęciach.	15
A-W-2	Przygotowanie się do zaliczenia.	10
A-W-3	Udział w konsultacjach i zaliczeniu.	2
		27

Metody nauczania / narzędzia dydaktyczne

KOD	Metoda nauczania / narzędzie dydaktyczne
M-1	Wyklad informacyjny
M-2	Ćwiczenia laboratoryjne

Sposoby oceny

KOD	Sposób oceny
S-1	Ocena podsumowująca: Egzamin pisemny
S-2	Ocena formująca: Zaliczenie na podstawie oceny zaimplementowanych i zbadanych technik przetwarzania sygnału mowy

Zamierzone efekty kształcenia - wiedza

Zamierzone efekty kształcenia	Odniesienie do efektów kształcenia dla kierunku studiów	Odniesienie do efektów zdefiniowanych dla obszaru kształcenia	Odniesienie do efektów kształcenia prowadzących do uzyskania tytułu zawodowego inżyniera	Cel przedmiotu	Treści programowe	Metody nauczania	Sposób oceny
I_1A_O/1/2_W01 Znajomosc funkcjonowania mechanizmow interakcji glosowej miedzy uzytkownikiem a komputerem. Zdobycie wiedzy zwiazanej z analiza i synteza sygnalow mowy w kontekscie budowy programowych systemow rozpoznawania i syntezy mowy oraz identyfikacji i weryfikacji mowcow. Umiejetnosc projektowania i implementacji programowych systemow interakcji glosowej.	I_1A_W14, I_1A_W16, I_1A_W19	—	—	C-1, C-2, C-3	T-W-2, T-W-4, T-W-1, T-W-3, T-W-6, T-W-7, T-W-5	M-1	S-1

Zamierzone efekty kształcenia - umiejętności

Zamierzone efekty kształcenia	Odniesienie do efektów kształcenia dla kierunku studiów	Odniesienie do efektów zdefiniowanych dla obszaru kształcenia	Odniesienie do efektów kształcenia prowadzących do uzyskania tytułu zawodowego inżyniera	Cel przedmiotu	Treści programowe	Metody nauczania	Sposób oceny
I_1A_O/1/2_U01 Umiejetnosc wskazania technik przetwarzania mowy majacych zastosowanie w podstawowych zadaniach interakcji glosowej takich jak rozpoznawania mowy izolowanej, ciągłej, rozpoznawania i weryfikacji mówcy oraz syntezy mowy.	I_1A_U01, I_1A_U02, I_1A_U14, I_1A_U19, I_1A_U03	—	—	C-4, C-5	T-W-1, T-W-7, T-L-1, T-L-2, T-L-3, T-L-4, T-L-5	M-1, M-2	S-2

Kryterium oceny - wiedza

Efekt kształcenia	Ocena	Kryterium oceny
I_1A_O/1/2_W01 Znajomosc funkcjonowania mechanizmow interakcji glosowej miedzy uzytkownikiem a komputerem. Zdobycie wiedzy zwiazanej z analiza i synteza sygnalow mowy w kontekscie budowy programowych systemow rozpoznawania i syntezy mowy oraz identyfikacji i weryfikacji mowcow. Umiejetnosc projektowania i implementacji programowych systemow interakcji glosowej.	2,0	nie spełnia wymogów na ocenę dostateczną
	3,0	Zna sposób wytwarzania sygnału mowy, jego właściwości w kontekście przetwarzania i rozpoznawania oraz jest w tanie okreslić typowe zastosowania sygnału mowy w interfejsach człowiek-komputer (HCI). Zna ograniczenia istniejących rozwiązań przetwarzania mowy i pakiety programowe wspomagające jej przetwarzanie.
	3,5	jak na ocenę 3,0 oraz dodatkowo zna przebieg procesu parametryzacji mowy oraz rodzaje cech opisujące ten sygnał.
	4,0	jak na ocenę 3,5 oraz potrafi wymienić i krótko opisać algorytmy maszynowego uczenia stosowane w systemach przetwarzania mowy.
	4,5	jak na ocenę 4,0 oraz potrafi opisać typowe podejścia do rozpoznawania mowy izolowanej i ciągłej.
	5,0	jak na ocenę 4,5 oraz umie wyjaśnić ogólną zasadę funkcjonawania technik służących do syntezy mowy. Potrafi zaproponować architekturę kompletnego systemu do komunikacji głosowej.

Kryterium oceny - umiejętności

Efekt kształcenia	Ocena	Kryterium oceny
I_1A_O/1/2_U01 Umiejetnosc wskazania technik przetwarzania mowy majacych zastosowanie w podstawowych zadaniach interakcji glosowej takich jak rozpoznawania mowy izolowanej, ciągłej, rozpoznawania i weryfikacji mówcy oraz syntezy mowy.	2,0	nie spełnia wymogów na ocenę dostateczną
	3,0	Potrafi zrealizować prosty proces parametryzacji sygnału mowy w środowisku MATLAB.
	3,5	jak na ocenę dostateczną oraz potrafi konfigurować i użytkować pakiet HTK w stopniu podstawowym umożliwiającym uruchamianie gotowych rozwiązań.
	4,0	jak na ocenę 3,5 oraz potrafi wykorzystać pakiet Festival do syntezy mowy
	4,5	jak na ocenę 4,0 oraz umie stworzyć system rozpoznawania ograniczonego podzbioru słów izolowanych z wykorzystaniem gotowego pakietu (HTK, JULIUS , SPHINX) lub własnego rozwiązania programowego.
	5,0	jak na ocenę 4,5 oraz potrafi zbudować prosty system identyfikacji mówców.

Literatura podstawowa

D. Ostaszewska, J. Tambor, Fonetyka i fonologia współczesnego języka polskiego, Wydawnictwo PWN, Warszawa, 2008
D. Jurafsky, J. H. Martin, Speech and Language Processing, Prentice Hall, New Jersey, 2009
X. Huang, A. Acero, H. Hon, Spoken Language Processing, Prentice Hall, New Jersey, 2001
L. Rabiner, B. Juang, Fundamentals of Speech Recognition, Prentice Hall, New jersey, 1993
J. Deller, J. Hansen, J. Proakis, Discrete-Time Processing of Speech Signals, A John Wiley & Sons, Inc., New York, 2000

Literatura dodatkowa

S. Levinson, Mathematical Models for Speech Technology, John Wiley & Sons, Ltd., The Atrium Southern Gate, Chichester West Sussex, 2005
F. Jelinek, Statistical Methods for Speech Recognition, The MIT Press, Cambridge, Massachusetts, 1997
K. Stevens, Acoustic Phonetics, The MIT Press, Cambridge, Massachusetts, 2000

Treści programowe - laboratoria

KOD	Treść programowa	Godziny
T-L-1	Implementacja podstawowych metod parametryzacji mowy w systemie MATLAB.	2
T-L-2	Budowa prostego systemu pozwalajcego na identyfikowanie mowcy na podstawie pojedynczej wypowiedzi z wykorzystaniem srodowiska MATLAB.	2
T-L-3	Zapoznanie sie z architektura systemu HTK, konfiguracja, zaznajomienie sie z formatami danych. Przykladowe zadania ekstrakcji cech i tworzenia modeli HMM. Opracowanie bazy pojedynczych slow i wykorzystanie jej do budowy systemu rozpoznawania mowy izolowanej z uzyciem pakietu HTK.	6
T-L-4	Wykorzystanie systemu FESTIVAL do realizacji przykładów syntezy mowy w języku polskim.	2
T-L-5	Wykorzystanie poznanych technik do proby sterowania interfejsem uzytkownika (reakcja na okreslonego mowce, na wydawane polecenia glosowe, potwierdzanie glosowe).	3
		15

Treści programowe - wykłady

KOD	Treść programowa	Godziny
T-W-1	Mechanizmy wytwarzania sygnału mowy. Budowa traktu głosowego. Metody i warunki akwizycji sygnału mowy.	2
T-W-2	Percepcja mowy. Metody parametryzacji i przetwarzania sygnału mowy.	2
T-W-3	Identyfikacja cech osobniczych mowcy. Techniki kompensacji cech charakterystycznych mowcy.	2
T-W-4	Zastosowanie metod rozpoznawania wzorców w systemach przetwarzania sygnału mowy.	2
T-W-5	Metody i systemy rozpoznawania mowy izolowanej oraz ciaglej.	3
T-W-6	Techniki syntezy mowy. Zasady syntezy formantowej i konkatenacyjnej sygnału mowy.	2
T-W-7	Zasady projektowania glosowych systemow interakcji czlowiek-komputer. Architektura interfejsów dedykowanych komunikacji głosowej.	2
		15

Formy aktywności - laboratoria

KOD	Forma aktywności	Godziny
A-L-1	Uczestnictwo w zajęciach.	15
A-L-2	Przygotowanie się do zajęć.	14
A-L-3	Udział w konsultacjach.	4
		33

(*) 1 punkt ECTS, odpowiada około 30 godzinom aktywności studenta

Formy aktywności - wykłady

KOD	Forma aktywności	Godziny
A-W-1	Uczestnictwo w zajęciach.	15
A-W-2	Przygotowanie się do zaliczenia.	10
A-W-3	Udział w konsultacjach i zaliczeniu.	2
		27

(*) 1 punkt ECTS, odpowiada około 30 godzinom aktywności studenta

Pole	KOD	Znaczenie kodu
Zamierzone efekty kształcenia	I_1A_O/1/2_W01	Znajomosc funkcjonowania mechanizmow interakcji glosowej miedzy uzytkownikiem a komputerem. Zdobycie wiedzy zwiazanej z analiza i synteza sygnalow mowy w kontekscie budowy programowych systemow rozpoznawania i syntezy mowy oraz identyfikacji i weryfikacji mowcow. Umiejetnosc projektowania i implementacji programowych systemow interakcji glosowej.
Odniesienie do efektów kształcenia dla kierunku studiów	I_1A_W14	zna wybrane metody i techniki służące do komunikacji człowieka z komputerem
	I_1A_W16	ma wiedzę dotyczącą możliwości zastosowania informatyki w różnych dziedzinach aktywności ludzkiej (np. w przemyśle, zarządzaniu i medycynie)
	I_1A_W19	zna podstawowe pojęcia związane ze sterowaniem procesami fizycznymi
Cel przedmiotu	C-1	Zrozumienie podstaw natury wytwarzania mowy
	C-2	Zdobycie wiedzy na temat wlasnosci sygnalu mowy
	C-3	Zapoznanie sie z podstawowymi mechanizmami i technikami rozpoznawania mowy izolowanej i ciaglej oraz syntezy mowy
Treści programowe	T-W-2	Percepcja mowy. Metody parametryzacji i przetwarzania sygnału mowy.
	T-W-4	Zastosowanie metod rozpoznawania wzorców w systemach przetwarzania sygnału mowy.
	T-W-1	Mechanizmy wytwarzania sygnału mowy. Budowa traktu głosowego. Metody i warunki akwizycji sygnału mowy.
	T-W-3	Identyfikacja cech osobniczych mowcy. Techniki kompensacji cech charakterystycznych mowcy.
	T-W-6	Techniki syntezy mowy. Zasady syntezy formantowej i konkatenacyjnej sygnału mowy.
	T-W-7	Zasady projektowania glosowych systemow interakcji czlowiek-komputer. Architektura interfejsów dedykowanych komunikacji głosowej.
	T-W-5	Metody i systemy rozpoznawania mowy izolowanej oraz ciaglej.
Metody nauczania	M-1	Wyklad informacyjny
Sposób oceny	S-1	Ocena podsumowująca: Egzamin pisemny
Kryteria oceny	Ocena	Kryterium oceny
	2,0	nie spełnia wymogów na ocenę dostateczną
	3,0	Zna sposób wytwarzania sygnału mowy, jego właściwości w kontekście przetwarzania i rozpoznawania oraz jest w tanie okreslić typowe zastosowania sygnału mowy w interfejsach człowiek-komputer (HCI). Zna ograniczenia istniejących rozwiązań przetwarzania mowy i pakiety programowe wspomagające jej przetwarzanie.
	3,5	jak na ocenę 3,0 oraz dodatkowo zna przebieg procesu parametryzacji mowy oraz rodzaje cech opisujące ten sygnał.
	4,0	jak na ocenę 3,5 oraz potrafi wymienić i krótko opisać algorytmy maszynowego uczenia stosowane w systemach przetwarzania mowy.
	4,5	jak na ocenę 4,0 oraz potrafi opisać typowe podejścia do rozpoznawania mowy izolowanej i ciągłej.
	5,0	jak na ocenę 4,5 oraz umie wyjaśnić ogólną zasadę funkcjonawania technik służących do syntezy mowy. Potrafi zaproponować architekturę kompletnego systemu do komunikacji głosowej.

Pole	KOD	Znaczenie kodu
Zamierzone efekty kształcenia	I_1A_O/1/2_U01	Umiejetnosc wskazania technik przetwarzania mowy majacych zastosowanie w podstawowych zadaniach interakcji glosowej takich jak rozpoznawania mowy izolowanej, ciągłej, rozpoznawania i weryfikacji mówcy oraz syntezy mowy.
Odniesienie do efektów kształcenia dla kierunku studiów	I_1A_U01	potrafi w zakresie podstawowym projektować, implementować i testować oprogramowanie
	I_1A_U02	potrafi aktywnie uczestniczyć w pracach projektowych zespołowych i indywidualnych
	I_1A_U14	ma umiejętność tworzenia interfejsów użytkownika oraz wykorzystania różnych sposobów komunikacji z systemami komputerowymi
	I_1A_U19	ma umiejętność wyboru algorytmu i struktur danych do rozwiązania określonego zadania inżynierskiego
	I_1A_U03	umie oceniać przydatność i stosować różne paradygmaty programowania, języki i środowiska programistyczne do rozwiązywania problemów dziedzinowych
Cel przedmiotu	C-4	Zdobycie umiejetnosci tworzenia oprogramowania wykorzystujacego sygnal mowy w procesie glosowej interakcji miedzy komputerem a uzytkownikiem
Cel przedmiotu	C-5	Zapoznanie sie z programowymi pakietami sluzacymi do tworzenia systemow analizy i syntezy sygnalu mowy
Treści programowe	T-W-1	Mechanizmy wytwarzania sygnału mowy. Budowa traktu głosowego. Metody i warunki akwizycji sygnału mowy.
	T-W-7	Zasady projektowania glosowych systemow interakcji czlowiek-komputer. Architektura interfejsów dedykowanych komunikacji głosowej.
	T-L-1	Implementacja podstawowych metod parametryzacji mowy w systemie MATLAB.
	T-L-2	Budowa prostego systemu pozwalajcego na identyfikowanie mowcy na podstawie pojedynczej wypowiedzi z wykorzystaniem srodowiska MATLAB.
	T-L-3	Zapoznanie sie z architektura systemu HTK, konfiguracja, zaznajomienie sie z formatami danych. Przykladowe zadania ekstrakcji cech i tworzenia modeli HMM. Opracowanie bazy pojedynczych slow i wykorzystanie jej do budowy systemu rozpoznawania mowy izolowanej z uzyciem pakietu HTK.
	T-L-4	Wykorzystanie systemu FESTIVAL do realizacji przykładów syntezy mowy w języku polskim.
	T-L-5	Wykorzystanie poznanych technik do proby sterowania interfejsem uzytkownika (reakcja na okreslonego mowce, na wydawane polecenia glosowe, potwierdzanie glosowe).
Metody nauczania	M-1	Wyklad informacyjny
Metody nauczania	M-2	Ćwiczenia laboratoryjne
Sposób oceny	S-2	Ocena formująca: Zaliczenie na podstawie oceny zaimplementowanych i zbadanych technik przetwarzania sygnału mowy
Kryteria oceny	Ocena	Kryterium oceny
	2,0	nie spełnia wymogów na ocenę dostateczną
	3,0	Potrafi zrealizować prosty proces parametryzacji sygnału mowy w środowisku MATLAB.
	3,5	jak na ocenę dostateczną oraz potrafi konfigurować i użytkować pakiet HTK w stopniu podstawowym umożliwiającym uruchamianie gotowych rozwiązań.
	4,0	jak na ocenę 3,5 oraz potrafi wykorzystać pakiet Festival do syntezy mowy
	4,5	jak na ocenę 4,0 oraz umie stworzyć system rozpoznawania ograniczonego podzbioru słów izolowanych z wykorzystaniem gotowego pakietu (HTK, JULIUS , SPHINX) lub własnego rozwiązania programowego.
	5,0	jak na ocenę 4,5 oraz potrafi zbudować prosty system identyfikacji mówców.