Zachodniopomorski Uniwersytet Technologiczny w Szczecinie

Wydział Informatyki - Informatyka (S3)

Sylabus przedmiotu Metody ekstrakcji wiedzy z danych - Przedmiot obieralny III:

Informacje podstawowe

Kierunek studiów Informatyka
Forma studiów studia stacjonarne Poziom trzeciego stopnia
Stopnień naukowy absolwenta doktor
Obszary studiów
Profil
Moduł
Przedmiot Metody ekstrakcji wiedzy z danych - Przedmiot obieralny III
Specjalność przedmiot wspólny
Jednostka prowadząca Katedra Metod Sztucznej Inteligencji i Matematyki Stosowanej
Nauczyciel odpowiedzialny Przemysław Klęsk <pklesk@wi.zut.edu.pl>
Inni nauczyciele
ECTS (planowane) 2,0 ECTS (formy) 2,0
Forma zaliczenia zaliczenie Język polski
Blok obieralny 3 Grupa obieralna 1

Formy dydaktyczne

Forma dydaktycznaKODSemestrGodzinyECTSWagaZaliczenie
laboratoriaL5 5 1,00,50zaliczenie
wykładyW5 15 1,00,50zaliczenie

Wymagania wstępne

KODWymaganie wstępne
W-1matematyka
W-2rachunek prawdopodobieństwa i statystyka
W-3metody optymalizacji
W-4podstawy programowania

Cele przedmiotu

KODCel modułu/przedmiotu
C-1Przedstawienie wybranych znanych algorytmów klasyfikacji i indukcji reguł do celów ektrakcji wiedzy.
C-2Nauczenie technik testowania i badania dokładności algorytmów.
C-3Ukształtowanie świadomości możliwych praktycznych zastosowań przedstawionych algorytmów.

Treści programowe z podziałem na formy zajęć

KODTreść programowaGodziny
laboratoria
T-L-1Samodzielna implementacja naiwnego klasyfikatora Bayesa lub drzewa decyzyjnego CART (do wyboru). Zastosowanie implementacji na wybranym zbiorze danych z repozytorium UCI.3
T-L-2Samodzielna implementacja klasyfikatora liniowego z regularyzacjami L2 i L1 lub AdaBoost (do wyboru). Zastosowanie implementacji na wybranym zbiorze danych z repozytorium UCI.2
5
wykłady
T-W-1Przypomnienie niezbędnych elementów z rachunku prawdopodobieństwa. Podstawowe klasyfikatory probabilistyczne: naiwny klasyfikator Bayesa, drzewa decyzyjne CART. Poprawka LaPlace'a. Przycinanie drzew decyzyjnych.3
T-W-2Testowanie dokładności klasyfikatorów, czułość i specyficzność, krzyżowa walidacja, bootstrap. Nierówność Chernoffa i przedziały ufności na szacowane parametry.2
T-W-3Klasyfikatory liniowe i wielomianowe uczone metodą najmniejszych kwadratów. Zastosowanie technik regularyzacji L2 (ridge) i L1 (lasso) . Własności regularyzacji dla grupowania i selekcji atrybutów. Algorytm forward-Stagewise-lasso. Związki metody najmniejszych kwadratów i regularyzacji z metodą największej wiarygodności.4
T-W-4Meta-klasyfikatory: techniki baggingu i boostingu. Algorytm AdaBoost. Nowe techniki ekstrakcji cech obrazów na rzecz detekcji obiektów – cechy Haara i obraz całkowy. Algorytm Viola-Jones AdaBoost.4
T-W-5Ekstrakcja reguł z danych. Algorytm A-priori dla danych zakupowych. Techniki indukcji reguł decyzyjnych. Mierniki oceny reguł. Klasyfikatory regułowe.2
15

Obciążenie pracą studenta - formy aktywności

KODForma aktywnościGodziny
laboratoria
A-L-1Uczestnictwo w zajęciach.5
A-L-2Przygotowanie się do zajęć i wejściówek.2
A-L-3Praca domowa nad przygotowaniem zbiorów danych z repozytorium UCI (wstępne przetworzenie, normalizacja, dyskretyzacja, itp.) do pracy z wykonanymi implementacjami.4
A-L-4Samodzielna praca nad dwoma zadaniami programistycznymi.20
31
wykłady
A-W-1Udział w wykładach.15
A-W-2Samodzielne prześledzenie wyprowadzeń matematycznych dla związku pomiędzy regulryzacjami w ramach metody najmniejszych kwadratów z metodą największej wiarygodności.2
A-W-3Kolokwium zaliczeniowe.2
A-W-4Przygotowanie się do kolokwium egzaminacyjnego.12
31

Metody nauczania / narzędzia dydaktyczne

KODMetoda nauczania / narzędzie dydaktyczne
M-1Wykład informacyjny
M-2Wykład problemowy
M-3Metody programowane z użyciem komputera

Sposoby oceny

KODSposób oceny
S-1Ocena formująca: Dwie wejściówki (10 minutowe) na zakończenie każdego bloku tematycznego laboratoriów.
S-2Ocena formująca: Dwie oceny zaliczeniowe z napisanych programów.
S-3Ocena podsumowująca: Ocena końcowa za laboratoria jako średnia z ocen formujących.
S-4Ocena podsumowująca: Ocena końcowa za wykłady z kolokwium egzaminacyjnego.

Zamierzone efekty kształcenia - wiedza

Zamierzone efekty kształceniaOdniesienie do efektów kształcenia dla dyscyplinyOdniesienie do efektów zdefiniowanych dla obszaru kształceniaCel przedmiotuTreści programoweMetody nauczaniaSposób oceny
I_3A_B/03/02_W01
Ma znajomość ważnych algorytmów i technik stosowanych do eksploracji wiedzy z danych, w szczególności do klasyfikacji oraz indukcji reguł.
I_3A_W02C-3, C-1, C-2T-W-1, T-W-2, T-W-5, T-W-3, T-W-4M-1, M-2S-4

Zamierzone efekty kształcenia - umiejętności

Zamierzone efekty kształceniaOdniesienie do efektów kształcenia dla dyscyplinyOdniesienie do efektów zdefiniowanych dla obszaru kształceniaCel przedmiotuTreści programoweMetody nauczaniaSposób oceny
I_3A_B/03/02_U01
Potrafi samodzielnie zaprogramować wybrane algorytmy i zastosować je do praktycznego problemu (zbioru danych).
I_3A_U01, I_3A_U04C-3, C-1, C-2T-L-1, T-L-2M-3S-1, S-2, S-3

Kryterium oceny - wiedza

Efekt kształceniaOcenaKryterium oceny
I_3A_B/03/02_W01
Ma znajomość ważnych algorytmów i technik stosowanych do eksploracji wiedzy z danych, w szczególności do klasyfikacji oraz indukcji reguł.
2,0Nie potrafi wyjaśnić podstawowego sensu zadań klasyfikacji i indukcji reguł.
3,0Potrafi wyjaśnić podstawowy sens zadań klasyfikacji i indukcji reguł.
3,5Potrafi wyjaśnić sposób działania naiwnego klasyfikatora Bayesa.
4,0Potrafi wyjaśnić sposób działania naiwnego klasyfikatora CART.
4,5Zna sens i własności technik regularyzacji L1 i L2.
5,0Zna techniki dla meta-klasyfikatorów: bagging i boosting.

Kryterium oceny - umiejętności

Efekt kształceniaOcenaKryterium oceny
I_3A_B/03/02_U01
Potrafi samodzielnie zaprogramować wybrane algorytmy i zastosować je do praktycznego problemu (zbioru danych).
2,0Nie potrafi wykonać podstawowej implementacji w dowolnie wybranym języku/środowisku prostego klasyfikatora (naiwny Bayes lub CART)
3,0Potrafi wykonać podstawową implementację w dowolnie wybranym języku/środowisku prostego klasyfikatora (naiwny Bayes lub CART)
3,5Potrafi przygotować zbiór danych do analizy.
4,0Potrafi przetestować klasyfikator.
4,5Potrafi zmierzyć czułość i specyficzność opracowanego klasyfikatora, a także podać przedziały ufności na te parametry.
5,0Potrafi wykonać zaawansowaną implementację w dowolnie wybranym języku/środowisku klasyfikatora (regularzyacje L1, L2 lub AdaBoost)

Literatura podstawowa

  1. J. Koronacki, J. Ćwik, Statystyczne systemy uczące się, WNT, Warszawa, 2005
  2. P. Cichosz, Systemy uczące się, WNT, Warszawa, 2000

Literatura dodatkowa

  1. D. Hand, H. Manilla, P. Smyth, Eksploracja danych, WNT, Warszawa, 2005
  2. V. Cherkassky, F. Mulier, Learning from data, Wiley & Sons, 2007

Treści programowe - laboratoria

KODTreść programowaGodziny
T-L-1Samodzielna implementacja naiwnego klasyfikatora Bayesa lub drzewa decyzyjnego CART (do wyboru). Zastosowanie implementacji na wybranym zbiorze danych z repozytorium UCI.3
T-L-2Samodzielna implementacja klasyfikatora liniowego z regularyzacjami L2 i L1 lub AdaBoost (do wyboru). Zastosowanie implementacji na wybranym zbiorze danych z repozytorium UCI.2
5

Treści programowe - wykłady

KODTreść programowaGodziny
T-W-1Przypomnienie niezbędnych elementów z rachunku prawdopodobieństwa. Podstawowe klasyfikatory probabilistyczne: naiwny klasyfikator Bayesa, drzewa decyzyjne CART. Poprawka LaPlace'a. Przycinanie drzew decyzyjnych.3
T-W-2Testowanie dokładności klasyfikatorów, czułość i specyficzność, krzyżowa walidacja, bootstrap. Nierówność Chernoffa i przedziały ufności na szacowane parametry.2
T-W-3Klasyfikatory liniowe i wielomianowe uczone metodą najmniejszych kwadratów. Zastosowanie technik regularyzacji L2 (ridge) i L1 (lasso) . Własności regularyzacji dla grupowania i selekcji atrybutów. Algorytm forward-Stagewise-lasso. Związki metody najmniejszych kwadratów i regularyzacji z metodą największej wiarygodności.4
T-W-4Meta-klasyfikatory: techniki baggingu i boostingu. Algorytm AdaBoost. Nowe techniki ekstrakcji cech obrazów na rzecz detekcji obiektów – cechy Haara i obraz całkowy. Algorytm Viola-Jones AdaBoost.4
T-W-5Ekstrakcja reguł z danych. Algorytm A-priori dla danych zakupowych. Techniki indukcji reguł decyzyjnych. Mierniki oceny reguł. Klasyfikatory regułowe.2
15

Formy aktywności - laboratoria

KODForma aktywnościGodziny
A-L-1Uczestnictwo w zajęciach.5
A-L-2Przygotowanie się do zajęć i wejściówek.2
A-L-3Praca domowa nad przygotowaniem zbiorów danych z repozytorium UCI (wstępne przetworzenie, normalizacja, dyskretyzacja, itp.) do pracy z wykonanymi implementacjami.4
A-L-4Samodzielna praca nad dwoma zadaniami programistycznymi.20
31
(*) 1 punkt ECTS, odpowiada około 30 godzinom aktywności studenta

Formy aktywności - wykłady

KODForma aktywnościGodziny
A-W-1Udział w wykładach.15
A-W-2Samodzielne prześledzenie wyprowadzeń matematycznych dla związku pomiędzy regulryzacjami w ramach metody najmniejszych kwadratów z metodą największej wiarygodności.2
A-W-3Kolokwium zaliczeniowe.2
A-W-4Przygotowanie się do kolokwium egzaminacyjnego.12
31
(*) 1 punkt ECTS, odpowiada około 30 godzinom aktywności studenta
PoleKODZnaczenie kodu
Zamierzone efekty kształceniaI_3A_B/03/02_W01Ma znajomość ważnych algorytmów i technik stosowanych do eksploracji wiedzy z danych, w szczególności do klasyfikacji oraz indukcji reguł.
Odniesienie do efektów kształcenia dla dyscyplinyI_3A_W02Absolwent posiada zaawansowaną wiedzę o charakterze szczegółowym odpowiadającą obszarowi Informatyka, obejmującą najnowsze osiągnięcia.
Cel przedmiotuC-3Ukształtowanie świadomości możliwych praktycznych zastosowań przedstawionych algorytmów.
C-1Przedstawienie wybranych znanych algorytmów klasyfikacji i indukcji reguł do celów ektrakcji wiedzy.
C-2Nauczenie technik testowania i badania dokładności algorytmów.
Treści programoweT-W-1Przypomnienie niezbędnych elementów z rachunku prawdopodobieństwa. Podstawowe klasyfikatory probabilistyczne: naiwny klasyfikator Bayesa, drzewa decyzyjne CART. Poprawka LaPlace'a. Przycinanie drzew decyzyjnych.
T-W-2Testowanie dokładności klasyfikatorów, czułość i specyficzność, krzyżowa walidacja, bootstrap. Nierówność Chernoffa i przedziały ufności na szacowane parametry.
T-W-5Ekstrakcja reguł z danych. Algorytm A-priori dla danych zakupowych. Techniki indukcji reguł decyzyjnych. Mierniki oceny reguł. Klasyfikatory regułowe.
T-W-3Klasyfikatory liniowe i wielomianowe uczone metodą najmniejszych kwadratów. Zastosowanie technik regularyzacji L2 (ridge) i L1 (lasso) . Własności regularyzacji dla grupowania i selekcji atrybutów. Algorytm forward-Stagewise-lasso. Związki metody najmniejszych kwadratów i regularyzacji z metodą największej wiarygodności.
T-W-4Meta-klasyfikatory: techniki baggingu i boostingu. Algorytm AdaBoost. Nowe techniki ekstrakcji cech obrazów na rzecz detekcji obiektów – cechy Haara i obraz całkowy. Algorytm Viola-Jones AdaBoost.
Metody nauczaniaM-1Wykład informacyjny
M-2Wykład problemowy
Sposób ocenyS-4Ocena podsumowująca: Ocena końcowa za wykłady z kolokwium egzaminacyjnego.
Kryteria ocenyOcenaKryterium oceny
2,0Nie potrafi wyjaśnić podstawowego sensu zadań klasyfikacji i indukcji reguł.
3,0Potrafi wyjaśnić podstawowy sens zadań klasyfikacji i indukcji reguł.
3,5Potrafi wyjaśnić sposób działania naiwnego klasyfikatora Bayesa.
4,0Potrafi wyjaśnić sposób działania naiwnego klasyfikatora CART.
4,5Zna sens i własności technik regularyzacji L1 i L2.
5,0Zna techniki dla meta-klasyfikatorów: bagging i boosting.
PoleKODZnaczenie kodu
Zamierzone efekty kształceniaI_3A_B/03/02_U01Potrafi samodzielnie zaprogramować wybrane algorytmy i zastosować je do praktycznego problemu (zbioru danych).
Odniesienie do efektów kształcenia dla dyscyplinyI_3A_U01Absolwent posiada umiejętność prowadzenia badań naukowych w zakresie Informatyka z wykorzystaniem najnowszej wiedzy.
I_3A_U04Absolwent posiada umiejętność wykorzystywania nowych narzędzi informatycznych do realizacji badań naukowych.
Cel przedmiotuC-3Ukształtowanie świadomości możliwych praktycznych zastosowań przedstawionych algorytmów.
C-1Przedstawienie wybranych znanych algorytmów klasyfikacji i indukcji reguł do celów ektrakcji wiedzy.
C-2Nauczenie technik testowania i badania dokładności algorytmów.
Treści programoweT-L-1Samodzielna implementacja naiwnego klasyfikatora Bayesa lub drzewa decyzyjnego CART (do wyboru). Zastosowanie implementacji na wybranym zbiorze danych z repozytorium UCI.
T-L-2Samodzielna implementacja klasyfikatora liniowego z regularyzacjami L2 i L1 lub AdaBoost (do wyboru). Zastosowanie implementacji na wybranym zbiorze danych z repozytorium UCI.
Metody nauczaniaM-3Metody programowane z użyciem komputera
Sposób ocenyS-1Ocena formująca: Dwie wejściówki (10 minutowe) na zakończenie każdego bloku tematycznego laboratoriów.
S-2Ocena formująca: Dwie oceny zaliczeniowe z napisanych programów.
S-3Ocena podsumowująca: Ocena końcowa za laboratoria jako średnia z ocen formujących.
Kryteria ocenyOcenaKryterium oceny
2,0Nie potrafi wykonać podstawowej implementacji w dowolnie wybranym języku/środowisku prostego klasyfikatora (naiwny Bayes lub CART)
3,0Potrafi wykonać podstawową implementację w dowolnie wybranym języku/środowisku prostego klasyfikatora (naiwny Bayes lub CART)
3,5Potrafi przygotować zbiór danych do analizy.
4,0Potrafi przetestować klasyfikator.
4,5Potrafi zmierzyć czułość i specyficzność opracowanego klasyfikatora, a także podać przedziały ufności na te parametry.
5,0Potrafi wykonać zaawansowaną implementację w dowolnie wybranym języku/środowisku klasyfikatora (regularzyacje L1, L2 lub AdaBoost)