Wydział Biotechnologii i Hodowli Zwierząt - Bioinformatyka (S1)
specjalność: Systemy informatyczne w biologii
Sylabus przedmiotu Eksploracja danych w genotypowych bazach danych:
Informacje podstawowe
Kierunek studiów | Bioinformatyka | ||
---|---|---|---|
Forma studiów | studia stacjonarne | Poziom | pierwszego stopnia |
Tytuł zawodowy absolwenta | inżynier | ||
Obszary studiów | nauk przyrodniczych, nauk technicznych, studiów inżynierskich | ||
Profil | ogólnoakademicki | ||
Moduł | — | ||
Przedmiot | Eksploracja danych w genotypowych bazach danych | ||
Specjalność | przedmiot wspólny | ||
Jednostka prowadząca | Katedra Metod Sztucznej Inteligencji i Matematyki Stosowanej | ||
Nauczyciel odpowiedzialny | Przemysław Klęsk <pklesk@wi.zut.edu.pl> | ||
Inni nauczyciele | |||
ECTS (planowane) | 3,0 | ECTS (formy) | 3,0 |
Forma zaliczenia | zaliczenie | Język | polski |
Blok obieralny | 15 | Grupa obieralna | 1 |
Formy dydaktyczne
Wymagania wstępne
KOD | Wymaganie wstępne |
---|---|
W-1 | matematyka |
W-2 | algorytmy i struktury danych |
W-3 | podstawy programowania |
Cele przedmiotu
KOD | Cel modułu/przedmiotu |
---|---|
C-1 | Zapoznanie studentów z zadaniem klasyfikacji (w ramach eksploracji danych). Zapoznanie z różnymi technikami budowania klasyfikatorów: naiwny Bayes, drzewa decyzyjne, klasyfikacja poprzez regresję z regularyzacją, które mogą być przydatne w analizach danych genotypowych. |
C-2 | Zapoznanie studentów z różnymi technikami indukcji reguł na podstawie danych - reguły asocjacyjne oraz reguły decyzyjne. Przedstawienie możliwości zastosowania reguł w markerach genetycznych. |
Treści programowe z podziałem na formy zajęć
KOD | Treść programowa | Godziny |
---|---|---|
laboratoria | ||
T-L-1 | Naiwny klasyfikator Bayesa dla zbiorów danych: "zabiegi inseminacyjne", "mastitis", "przyrosty masy ciała". | 4 |
T-L-2 | Indukcja reguł dla zbiorów danych: "sodowrażliwość", "zabiegi inseminacyjne", "mastitis", "przyrosty masy ciała". | 4 |
T-L-3 | Regresje ridge i lasso dla zbiorów danych: "wydajność mleka", "standaryzowana masa ciała", "przyrosty masy ciała". | 3 |
T-L-4 | Drzewa decyzyjne dla zbiorów: "sodowrażliwość", "zabiegi inseminacyjne", "mastitis", "przyrosty masy ciała". | 4 |
15 | ||
wykłady | ||
T-W-1 | Przypomnienie wybranych wiadomości z rachunku prawdopodobieństwa i statystyki. Naiwny klasyfikator Bayesa – klasyfikacja pacjentów (chorzy/zdrowi) na podstawie zbiorów danych genetycznych. Czułość i specyficzność klasyfikatora (przykład z testem na obecność narkotyków). Wielokrotne testowanie – bootstrap i kroswalidacja. Reguła Bayesa i uaktualnianie rozkładów/modeli na podstawie nowoprzychodzących danych. Rodzina rozkładów beta. | 5 |
T-W-2 | Indukcja reguł asocjacyjnych – algorytm A priori. Pojęcia: zbiór częsty, wsparcie i zaufanie reguły. Asocjacje pomiędzy genami i grupami genów. | 2 |
T-W-3 | Indukcja reguł decyzyjnych – algorytm do zachłannego wyszukiwania reguł. Miary oceny reguł: zaufanie, entropia, liczba Kullbacka-Leiblera. Istotność atrybutów i grup atrybutów (w szczególności grup genów). | 2 |
T-W-4 | Reguły Pareto-optymalne. Algorytm „wyciągania” kolejnych brzegów Pareto. Algorytm pokryciowy. Klasyfikator regułowy. Testowanie reguł – test dokładny Fischera. Przykłady zastosowania indukcji reguł decyzyjnych: wykrywanie markerów genetycznych, problem sodowrażliwości nadciśnienia tętniczego warunkowanej genetycznie. | 2 |
T-W-5 | Klasyfikatory liniowe (i wielomianowe) z technikami regularyzacji na współczynniki (ridge, lasso). Twierdzenia o ściąganiu atrybutów skorelowanych (shrinkage). Selekcja atrybutów poprzez regularyzację. | 2 |
T-W-6 | Drzewa do klasyfikacji – algorytm CART. Funkcje nieczystości: błąd klasyfikacji, entropia, indeks Gini’ego. Przycinanie drzewa z ustaloną karą za liść. Przycinanie drzewa poprzez kroswalidację | 2 |
15 |
Obciążenie pracą studenta - formy aktywności
KOD | Forma aktywności | Godziny |
---|---|---|
laboratoria | ||
A-L-1 | Udział w zajęciach. | 15 |
A-L-2 | Obróbka i analizy zbiorów danych za pomocą zaimplementowanych algorytmów. | 20 |
A-L-3 | Przygotowanie się do wejściówek i zaliczania programów. | 10 |
45 | ||
wykłady | ||
A-W-1 | Samodzielne uzupełnienie wiadomości z zakresu podstaw rachunku prawdodpodobieństwa i statystyki. | 5 |
A-W-2 | Pisemne przećwiczenie na przykładach technik probabilistycznych związanych z twierdzeniem Bayesa (maximum a posteriori, rozklady beta, poprawka LaPlace'a). | 4 |
A-W-3 | Uzupełnienie wiadomości z wykładu na temat praktycznych zastosowań indukcji reguł decyzyjnych i asocjacyjnych. | 4 |
A-W-4 | Zrozumienie istoty różnicy pomiędzy regularyzacjami ridge i lasso. Przeglądanie zbiorów danych pod kątem sprawdzenia, gdzie lepiej zachowują się poszczególne rodzaje regularyzacji - próba uzasadnienia dlaczego tak jest. | 8 |
A-W-5 | Przećwiczenie wybranych elementów dotyczących budowy i przycinania drzew decyzyjnych. | 4 |
A-W-6 | Przygotowanie do kolokwium zaliczeniowego. | 20 |
45 |
Metody nauczania / narzędzia dydaktyczne
KOD | Metoda nauczania / narzędzie dydaktyczne |
---|---|
M-1 | Wykład informacyjny. |
M-2 | Metoda przypadków. |
M-3 | Metody programowane z użyciem komputera. |
Sposoby oceny
KOD | Sposób oceny |
---|---|
S-1 | Ocena formująca: Pięć ocen cząstkowych za programy na laboratoria. |
S-2 | Ocena formująca: Pięć ocen cząstkowych za wejściówki z laboratoriów. |
S-3 | Ocena podsumowująca: Ocena końcowa z laboratoriów jako średnia ważona z ocen za: - programy (60%), - wejściówki (40%). |
S-4 | Ocena podsumowująca: Ocena za końcowe kolokwium zaliczeniowe. |
Zamierzone efekty kształcenia - wiedza
Zamierzone efekty kształcenia | Odniesienie do efektów kształcenia dla kierunku studiów | Odniesienie do efektów zdefiniowanych dla obszaru kształcenia | Odniesienie do efektów kształcenia prowadzących do uzyskania tytułu zawodowego inżyniera | Cel przedmiotu | Treści programowe | Metody nauczania | Sposób oceny |
---|---|---|---|---|---|---|---|
BI_1A_BI-S-O12.1_W01 Ma dobre opanowanie elementów rachunku prawdopodobieństwa i statystyki potrzebnych przy algorytmach eksploracji danych. | BI_1A_W01, BI_1A_W13, BI_1A_W17 | P1A_W02, P1A_W03, P1A_W04, P1A_W05, P1A_W06, P1A_W07, T1A_W01, T1A_W02, T1A_W03, T1A_W04, T1A_W06, T1A_W07, T1A_W08 | InzA_W01, InzA_W02, InzA_W03, InzA_W05 | C-1, C-2 | T-W-1 | M-1, M-2 | S-4 |
BI_1A_BI-S-O12.1_W02 Zna możliwości podstawowych metod/algorytmów eksploracji danych. | BI_1A_W01, BI_1A_W13, BI_1A_W17 | P1A_W02, P1A_W03, P1A_W04, P1A_W05, P1A_W06, P1A_W07, T1A_W01, T1A_W02, T1A_W03, T1A_W04, T1A_W06, T1A_W07, T1A_W08 | InzA_W01, InzA_W02, InzA_W03, InzA_W05 | C-1, C-2 | T-W-2, T-W-3, T-W-6, T-W-4, T-W-5, T-L-1, T-L-2, T-L-3, T-L-4 | M-1, M-2 | S-4 |
Zamierzone efekty kształcenia - umiejętności
Zamierzone efekty kształcenia | Odniesienie do efektów kształcenia dla kierunku studiów | Odniesienie do efektów zdefiniowanych dla obszaru kształcenia | Odniesienie do efektów kształcenia prowadzących do uzyskania tytułu zawodowego inżyniera | Cel przedmiotu | Treści programowe | Metody nauczania | Sposób oceny |
---|---|---|---|---|---|---|---|
BI_1A_BI-S-O12.1_U01 Umie budować (zaprogramować) naiwny klasyfikator bayesowski. | BI_1A_U01, BI_1A_U13 | P1A_U01, P1A_U02, P1A_U04, T1A_U01, T1A_U03, T1A_U04, T1A_U08, T1A_U09, T1A_U10 | InzA_U02, InzA_U05, InzA_U06 | C-1 | T-W-1, T-L-1 | M-3 | S-1, S-2, S-3 |
BI_1A_BI-S-O12.1_U02 Umie zbudować (zaprogramować) klasyfikatory oparte na drzewach decyzyjnych CART. | BI_1A_U01, BI_1A_U13 | P1A_U01, P1A_U02, P1A_U04, T1A_U01, T1A_U03, T1A_U04, T1A_U08, T1A_U09, T1A_U10 | InzA_U02, InzA_U05, InzA_U06 | C-1 | T-W-6, T-L-4 | M-3 | S-1, S-2, S-3 |
BI_1A_BI-S-O12.1_U03 Potrafi wyszukiwać ciekawe reguły asocjacyjne i decyzyjne w dużych zbiorach danych. | BI_1A_U01, BI_1A_U13 | P1A_U01, P1A_U02, P1A_U04, T1A_U01, T1A_U03, T1A_U04, T1A_U08, T1A_U09, T1A_U10 | InzA_U02, InzA_U05, InzA_U06 | C-2 | T-W-2, T-L-2 | M-3 | S-1, S-2, S-3 |
BI_1A_BI-S-O12.1_U04 Potrafi stosować techniki regularyzacji (ridge, lasso) w celu selekcji atrybutów w modelach liniowych. | BI_1A_U01, BI_1A_U13 | P1A_U01, P1A_U02, P1A_U04, T1A_U01, T1A_U03, T1A_U04, T1A_U08, T1A_U09, T1A_U10 | InzA_U02, InzA_U05, InzA_U06 | C-1 | T-W-5, T-L-3 | M-3 | S-1, S-2, S-3 |
Zamierzone efekty kształcenia - inne kompetencje społeczne i personalne
Zamierzone efekty kształcenia | Odniesienie do efektów kształcenia dla kierunku studiów | Odniesienie do efektów zdefiniowanych dla obszaru kształcenia | Odniesienie do efektów kształcenia prowadzących do uzyskania tytułu zawodowego inżyniera | Cel przedmiotu | Treści programowe | Metody nauczania | Sposób oceny |
---|---|---|---|---|---|---|---|
BI_1A_BI-S-O12.1_K01 Potrafi formułować i rozwiązywać wybrane problemy biologiczne jako problemy analizy danych i uczenia maszynowego. | BI_1A_K02 | P1A_K01, P1A_K04 | — | — | T-W-1, T-W-2, T-W-3, T-W-6, T-W-4, T-W-5, T-L-1, T-L-2, T-L-3, T-L-4 | — | — |
Kryterium oceny - wiedza
Efekt kształcenia | Ocena | Kryterium oceny |
---|---|---|
BI_1A_BI-S-O12.1_W01 Ma dobre opanowanie elementów rachunku prawdopodobieństwa i statystyki potrzebnych przy algorytmach eksploracji danych. | 2,0 | Nie rozumie podstawowych pojęć z rachunku prawdopodobieństwa: prawdopodobieństwo warunkowe, prawdopodobieństwo całkowite, reguła Bayesa. |
3,0 | Rozumie podstawowe pojęcia z rachunku prawdopodobieństwa: prawdopodobieństwo warunkowe, prawdopodobieństwo całkowite, reguła Bayesa. | |
3,5 | Umie zdefiniować pojęcia: dokładność klasyfikatora, czułość klasyfikatora, specyficzność klasyfikatora. | |
4,0 | Potrafi budować przedziały ufności na dokładność, czułość i specyficzność z wykorzystaniem nierówności Chernoffa. | |
4,5 | Rozumie pojęcia: a priori, likelihood, a posteriori. Potrafi przeliczać proste przykłady z użyciem reguły Bayesa. | |
5,0 | Potrafi przeliczać przykłady z użyciem reguły Bayesa oraz wykorzystaniem rodziny rozkładów beta. | |
BI_1A_BI-S-O12.1_W02 Zna możliwości podstawowych metod/algorytmów eksploracji danych. | 2,0 | Nie potrafi wyjaśnić sposobu działania naiwnego klasyfikatora Bayesowskiego. |
3,0 | Potrafi wyjaśnić sposób działania naiwnego klasyfikatora Bayesowskiego. | |
3,5 | Potrafi wyjaśnić algorytm budowania i przycinania drzewa decyzyjnego CART. | |
4,0 | Potrafi podać algorytm A priori do indukcji reguł asocjacyjnych. | |
4,5 | Potrafi podać techniki indukcji reguł decyzyjnych i ich mierniki oceny. | |
5,0 | Potrafi podać algorytmy uczenia klasyfikatorów poprzez regresję z regularyzacją (rigde oraz lasso). |
Kryterium oceny - umiejętności
Efekt kształcenia | Ocena | Kryterium oceny |
---|---|---|
BI_1A_BI-S-O12.1_U01 Umie budować (zaprogramować) naiwny klasyfikator bayesowski. | 2,0 | Nie potrafi zaprogramować podstawowych operacji związanych z odczytaniem i wstępną obróką danych. |
3,0 | Potrafi zaprogramować podstawowe operacje związane z odczytaniem i wstępną obróką danych. | |
3,5 | Potrafi zaprogramować skrypt realizujący uczenie klasyfikatora Bayesowskiego (sporządzenie ewidencji potrzebnych rozkładów warunkowych). | |
4,0 | Potrafi zaprogramować skrypt realizujący faktyczną klasyfikację za pomocą klasyfikatora Bayesowskiego dla nowoprzychodzących obiektów; oraz skrypty oceniające dokładność klasyfikatora. | |
4,5 | Potrafi wykonać wszystkie ww. operacje dla nowego zbioru danych. | |
5,0 | Potrafi ocenić dokładność klasyfikatora poprzez krzyżową walidację i bootstrap. | |
BI_1A_BI-S-O12.1_U02 Umie zbudować (zaprogramować) klasyfikatory oparte na drzewach decyzyjnych CART. | 2,0 | Nie potrafi zaprogramować podstawowych operacji związanych z odczytaniem i wstępną obróką danych. |
3,0 | Potrafi zaprogramować podstawowe operacje związane z odczytaniem i wstępną obróką danych. | |
3,5 | Potrafi zaprogramować różne wersje funkcji nieczystości. | |
4,0 | Potrafi zaprogramować skrypt do budowy pełnego (nieprzyciętego) drzewa CART. | |
4,5 | Potrafi zaprogramować skrypt do przycinania drzewa CART. | |
5,0 | Potrafi wykonać wszystkie ww. operacje dla nowego zbioru danych. | |
BI_1A_BI-S-O12.1_U03 Potrafi wyszukiwać ciekawe reguły asocjacyjne i decyzyjne w dużych zbiorach danych. | 2,0 | Nie potrafi zaprogramować podstawowego zliczania wsparć w ramach algorytmu A priori. |
3,0 | Potrafi zaprogramować podstawowe zliczanie wsparć w ramach algorytmu A priori. | |
3,5 | Potrafi zaprogramować indukcję znajdującą zbiory częste w ramach algorytmu A priori. | |
4,0 | Potrafi zaprogramować generator reguł asocjacyjnych na podstawie zbiorów częstych i minimalnego zaufania w ramach algorytmu A priori. | |
4,5 | Potrafi zaprogramować wyczerpujące generowanie reguł decyzyjnych oraz ich ocenę przy pomocy entropii i liczby Kullbacka-Leiblera. | |
5,0 | Potrafi zaprogramować wykrywanie zbioru reguł Pareto-optymalnych. | |
BI_1A_BI-S-O12.1_U04 Potrafi stosować techniki regularyzacji (ridge, lasso) w celu selekcji atrybutów w modelach liniowych. | 2,0 | Nie potrafi zaprogramować uczenia klasyfikatora liniowego poprzez metodę najmniejszych kwadratów. |
3,0 | Potrafi zaprogramować uczenie klasyfikatora liniowego poprzez metodę najmniejszych kwadratów. | |
3,5 | Potrafi rozszerzyć rozwiązanie najmniejszych kwadratów o regularyzację L2 (ridge). | |
4,0 | Dla regularyzacji ridge potrafi dobrać odpowiedni współczynnik regularyzacyjny. | |
4,5 | Potrafi rozszerzyć klasyfikator liniowy do klasyfikatora wielomianowego (elementy kombinatoryczne - dowolna liczba zmiennych i dowolny stopień wielomianu). | |
5,0 | Potrafi zaprogramować algorytm Forward Stagewise Lasso; oraz dobrać odpowiedni współczynnik regularyzacyjny. |
Kryterium oceny - inne kompetencje społeczne i personalne
Efekt kształcenia | Ocena | Kryterium oceny |
---|---|---|
BI_1A_BI-S-O12.1_K01 Potrafi formułować i rozwiązywać wybrane problemy biologiczne jako problemy analizy danych i uczenia maszynowego. | 2,0 | Nie potrafi wskazać podstawowych pojęć z zakresu rachunku prawdopodobieństwa przydatnych w eksploracji danych. |
3,0 | Potrafi wskazać podstawowe pojęcia z zakresu rachunku prawdopodobieństwa przydatne w eksploracji danych. | |
3,5 | Umie podać przykłady różnych algorytmów klasyfikacji wraz z ich podstawowymi własnościami. | |
4,0 | Umie podać różne techniki indukcji reguł asocjacyjnych i decyzyjnych. | |
4,5 | Potrafi ocenić dokładność (czułość, specyficzność, przedziały ufności) otrzymanych klasyfikatorów lub reguł. | |
5,0 | Dla podanego nowego problemu potrafi wskazać możliwe sposoby rozwiązania go metodami eksploracji danych. |
Literatura podstawowa
- D. Hand, H. Mannila, P. Smyth, Eksploracja danych, WNT, Warszawa, 2005
- J. Koronacki., J. Ćwik, Statystyczne systemy uczące się, WNT, Warszawa, 2005
- W. J. Ewens, G. R. Grant, Statistical Methods in Bionformatics: An Introduction, Springer, 2010, 2
- A. D. Baxevanis, B. F. F. Quellette, Bioinformatyka. Podręcznik do analizy genów i białek, PWN, 2005