Zachodniopomorski Uniwersytet Technologiczny w Szczecinie

Wydział Informatyki - Informatyka (S2)
specjalność: Inteligencja obliczeniowa

Sylabus przedmiotu Duże zbiory danych:

Informacje podstawowe

Kierunek studiów Informatyka
Forma studiów studia stacjonarne Poziom drugiego stopnia
Tytuł zawodowy absolwenta magister inżynier
Obszary studiów charakterystyki PRK, kompetencje inżynierskie PRK
Profil ogólnoakademicki
Moduł
Przedmiot Duże zbiory danych
Specjalność przedmiot wspólny
Jednostka prowadząca Katedra Inżynierii Systemów Informacyjnych
Nauczyciel odpowiedzialny Przemysław Korytkowski <Przemyslaw.Korytkowski@zut.edu.pl>
Inni nauczyciele Przemysław Korytkowski <Przemyslaw.Korytkowski@zut.edu.pl>, Bartłomiej Małachowski <Bartlomiej.Malachowski@zut.edu.pl>
ECTS (planowane) 5,0 ECTS (formy) 5,0
Forma zaliczenia zaliczenie Język polski
Blok obieralny Grupa obieralna

Formy dydaktyczne

Forma dydaktycznaKODSemestrGodzinyECTSWagaZaliczenie
wykładyW1 30 2,50,50zaliczenie
laboratoriaL1 30 2,50,50zaliczenie

Wymagania wstępne

KODWymaganie wstępne
W-1Podstawy wykorzystywania, administrowania i projektowania baz danych
W-2Podstawy programowania

Cele przedmiotu

KODCel modułu/przedmiotu
C-1Zapoznanie się z metodami przetwarzania i analizy dużych zbiorów danych
C-2Poznanie standardowych narzędzi informatycznych stosowanych w przetwarzaniu i analizie dużych zbiorów danych
C-3Przygotowanie do samodzielnego rozwiązywania problemów z zakresu przetwarzania i analizy dużych zbiorów danych

Treści programowe z podziałem na formy zajęć

KODTreść programowaGodziny
laboratoria
T-L-1Apache Hadoop Disctributed File System2
T-L-2Apache Hive4
T-L-3Apache Sqoop2
T-L-4Przetwarzanie danych w Spark z użyciem RDD API6
T-L-5Przetwarzanie danych w Spark z użyciem Dataframe API4
T-L-6Budowa systemu rekomendujcego z użyciem Apache Spark MLlib2
T-L-7Apache Spark GraphX: zastosowanie algorytmu PageRank i modeli grafowych2
T-L-8Przetwarzanie strumieniowe w Apache spark4
T-L-9Grafowe bazy danych do przetwarzania dużych zbiorów danych (środowisko Neptune lub Giraph), indeksacja i optymalziacja zapytań do grafowych baz danych4
30
wykłady
T-W-1Wprowadzenie do dużych zbiorów danych2
T-W-2Środowisko Apache Hadoop: HDFS, YARN i MapReduce2
T-W-3Bazy danych w Apache Hadoop: Hive, Sqoop2
T-W-4Bazy danych w Apache Hadoop: HBase, Phoenix2
T-W-5Bezpieczeństwo w Apache Hadoop: Ranger, Knox2
T-W-6Administracja klastrem Apache Hadoop: Zookeeper2
T-W-7Wprowadzenie do apache Spark, przegląd dostępnych metod transformacji danych4
T-W-8Moduł Apache Spark SQL - przegląd możliwości, metody reprezentacji i manipulacji danych2
T-W-9Metody uczenia maszynowego w Apache Spark2
T-W-10Moduł apache Spark GraphX - reprezentacja danych grafowych, przegląd możliwości, przykłady zastosowań2
T-W-11Strumieniowe przetwarzanie danych w Apache Spark2
T-W-12Apache Kafka - założenia, możliwości. przykłady zastosowań w kontekście BigData2
T-W-13Metody reprezentacji i próbkowania dużych zbiorow danych o strukturze grafowej2
T-W-14Grafowe bazy danych do przetwarzania dużych zbiorów danych, metody indeksacji i optymalizacji zapytań do grafowych baz danych2
30

Obciążenie pracą studenta - formy aktywności

KODForma aktywnościGodziny
laboratoria
A-L-1Uczestnictwo w zajęciach30
A-L-2Przygotowanie do zajęć laboratoryjnych20
A-L-3Opracowanie wyników zadań laboratoryjnych, opracowanie sprawozdań10
A-L-4Konsultacje2
62
wykłady
A-W-1Uczestnictwo w zajęciach30
A-W-2Przygotowanie do zaliczenia20
A-W-3Analiza literatury i materiałów z wykładów10
A-W-4Konsultacje2
62

Metody nauczania / narzędzia dydaktyczne

KODMetoda nauczania / narzędzie dydaktyczne
M-1Wykład z prezentacją
M-2Laboratoria - metoda przypadków, rozwiązywanie zadań z użyciem komputera

Sposoby oceny

KODSposób oceny
S-1Ocena formująca: Ocena zadań zrealizowanych na laboratoriach
S-2Ocena podsumowująca: Zaliczenie materiałów z wykładów w formie egzaminu pisemnego

Zamierzone efekty uczenia się - wiedza

Zamierzone efekty uczenia sięOdniesienie do efektów kształcenia dla kierunku studiówOdniesienie do efektów zdefiniowanych dla obszaru kształceniaOdniesienie do efektów uczenia się prowadzących do uzyskania tytułu zawodowego inżynieraCel przedmiotuTreści programoweMetody nauczaniaSposób oceny
I_2A_C02_W01
Posiada rozszerzoną wiedzę z zakresu przetwarzania i analizy dużych zbiorów danych
I_2A_W04C-1, C-2, C-3T-W-1, T-W-2, T-W-3, T-W-4, T-W-6M-1, M-2S-2

Zamierzone efekty uczenia się - umiejętności

Zamierzone efekty uczenia sięOdniesienie do efektów kształcenia dla kierunku studiówOdniesienie do efektów zdefiniowanych dla obszaru kształceniaOdniesienie do efektów uczenia się prowadzących do uzyskania tytułu zawodowego inżynieraCel przedmiotuTreści programoweMetody nauczaniaSposób oceny
I_2A_C02_U01
Potrafi wykorzysać poznane metody, techniki i modele do rozwiązywania złożonych problemów z zakresy przetwarzania i analizy dużych zbiorów danych
I_2A_U04C-1, C-2, C-3T-W-7, T-W-6, T-W-5, T-W-8, T-L-7, T-L-9, T-L-2, T-L-1, T-L-3, T-L-4, T-L-5, T-L-6, T-L-8M-1, M-2S-1, S-2

Zamierzone efekty uczenia się - inne kompetencje społeczne i personalne

Zamierzone efekty uczenia sięOdniesienie do efektów kształcenia dla kierunku studiówOdniesienie do efektów zdefiniowanych dla obszaru kształceniaOdniesienie do efektów uczenia się prowadzących do uzyskania tytułu zawodowego inżynieraCel przedmiotuTreści programoweMetody nauczaniaSposób oceny
I_2A_C02_K01
Aktywna postawa poznawcza, umocnienie świadomości potrzeby pozyskiwania aktualnej wiedzy do rozwiązywania problemów i wzmocnienie chęci rozwoju zawodowego.
I_2A_K02, I_2A_K03C-1, C-2, C-3T-W-1, T-W-2, T-W-7, T-W-3, T-W-4, T-W-6, T-W-5, T-W-8, T-L-7, T-L-9, T-L-2, T-L-1, T-L-3, T-L-4, T-L-5, T-L-6, T-L-8M-1, M-2S-1, S-2

Kryterium oceny - wiedza

Efekt uczenia sięOcenaKryterium oceny
I_2A_C02_W01
Posiada rozszerzoną wiedzę z zakresu przetwarzania i analizy dużych zbiorów danych
2,0Student nie opanował materiału w stopniu dostatecznym.
3,0Student opanował materiał przedmiotu w stopniu podstawowym, rozróżnia podstawowe zdania i zna możliwości dostęnych narzędzi.
3,5Student opanował materiał przedmiotu w stopniu ponad podstawowoym,rozróżnia podstawowe zdania i zna możliwości dostęnych narzędzi.
4,0Student opanował materiał przedmiotu w stopniu dobry, rozróżnia podstawowe zdania i zna możliwości dostęnych narzędzi oraz rozumie używane w nich algorytmy
4,5Student opanował materiał przedmiotu w stopniu ponad dobry, rozróżnia podstawowe zdania, zna możliwości dostęnych narzędzi, rozumie używane w nich algorytmy i wie jak je dobrać w zależności od zdefiniowanego problemu
5,0Student opanował materiał przedmiotu w stopniu bardzo dobrym, rozróżnia podstawowe zdania, zna możliwości dostęnych narzędzi, rozumie używane w nich algorytmy i bardzo dobrze wie jak je dobrać w zależności od zdefiniowanego problemu

Kryterium oceny - umiejętności

Efekt uczenia sięOcenaKryterium oceny
I_2A_C02_U01
Potrafi wykorzysać poznane metody, techniki i modele do rozwiązywania złożonych problemów z zakresy przetwarzania i analizy dużych zbiorów danych
2,0Student nie opanował materiału w stopniu dostatecznym
3,0Student opanował materiał przedmiotu w stopniu dostatecznym, rozróżnia podstawowe zdania i umie je częsciowo rozwiązywać za pomocą dostęnych narzędzi.
3,5Student opanował materiał przedmiotu w stopniu więcej niż dostatecznym, rozróżnia podstawowe zdania i umie je rozwiązywać za pomocą dostęnych narzędzi.
4,0Student opanował materiał przedmiotu w stopniu dobrym, rozróżnia podstawowe zdania i umie je prawidłowo rozwiązywać za pomocą dostęnych narzędzi.
4,5Student opanował materiał przedmiotu w stopniu więcej niż dobrym, rozróżnia podstawowe zdania i umie je skutecznie rozwiązywać za pomocą dostęnych narzędzi. Potrafi zidentyfikować problem z zakresu analizy dużych zbiorów danych i dobrać do niego metodę.
5,0Student opanował materiał przedmiotu w więcej niż dobrym, rozróżnia podstawowe zdania i umie je skutecznie rozwiązywać za pomocą dostęnych narzędzi. Potrafi zidentyfikować problem z zakresu analizy dużych zbiorów danych oraz dobrać i uzasadnić metodę roziwiązania problemu.

Kryterium oceny - inne kompetencje społeczne i personalne

Efekt uczenia sięOcenaKryterium oceny
I_2A_C02_K01
Aktywna postawa poznawcza, umocnienie świadomości potrzeby pozyskiwania aktualnej wiedzy do rozwiązywania problemów i wzmocnienie chęci rozwoju zawodowego.
2,0
3,0Student aktywnie rozwiązuje postawione problemy wykazując samodzielność w doborze odpowiednich środków technicznych i metod inżynierskich
3,5
4,0
4,5
5,0

Literatura podstawowa

  1. White T., Hadoop. Komplety przewodnik. Analiza i przechowywanie danych, Halion, Gliwice, 2015, Wyd. 4
  2. Kunigk, Buss, Wilkinson, Architecting Modern Data Platforms: a Guide to Enterprise Hadoop at Scale, O'Reilly, 2019
  3. Ryza, Laserson, Owen, Willis, Spark. Zaawansowana analiza danych, Helion, Gliwice, 2015
  4. Damij, wenig, Tathagata, Learning Spark, O'Reilly, 2020
  5. Robinson, Webber, Eifrem, Graph databases: new opportunities for cennected data, O'Reilly, 2015

Treści programowe - laboratoria

KODTreść programowaGodziny
T-L-1Apache Hadoop Disctributed File System2
T-L-2Apache Hive4
T-L-3Apache Sqoop2
T-L-4Przetwarzanie danych w Spark z użyciem RDD API6
T-L-5Przetwarzanie danych w Spark z użyciem Dataframe API4
T-L-6Budowa systemu rekomendujcego z użyciem Apache Spark MLlib2
T-L-7Apache Spark GraphX: zastosowanie algorytmu PageRank i modeli grafowych2
T-L-8Przetwarzanie strumieniowe w Apache spark4
T-L-9Grafowe bazy danych do przetwarzania dużych zbiorów danych (środowisko Neptune lub Giraph), indeksacja i optymalziacja zapytań do grafowych baz danych4
30

Treści programowe - wykłady

KODTreść programowaGodziny
T-W-1Wprowadzenie do dużych zbiorów danych2
T-W-2Środowisko Apache Hadoop: HDFS, YARN i MapReduce2
T-W-3Bazy danych w Apache Hadoop: Hive, Sqoop2
T-W-4Bazy danych w Apache Hadoop: HBase, Phoenix2
T-W-5Bezpieczeństwo w Apache Hadoop: Ranger, Knox2
T-W-6Administracja klastrem Apache Hadoop: Zookeeper2
T-W-7Wprowadzenie do apache Spark, przegląd dostępnych metod transformacji danych4
T-W-8Moduł Apache Spark SQL - przegląd możliwości, metody reprezentacji i manipulacji danych2
T-W-9Metody uczenia maszynowego w Apache Spark2
T-W-10Moduł apache Spark GraphX - reprezentacja danych grafowych, przegląd możliwości, przykłady zastosowań2
T-W-11Strumieniowe przetwarzanie danych w Apache Spark2
T-W-12Apache Kafka - założenia, możliwości. przykłady zastosowań w kontekście BigData2
T-W-13Metody reprezentacji i próbkowania dużych zbiorow danych o strukturze grafowej2
T-W-14Grafowe bazy danych do przetwarzania dużych zbiorów danych, metody indeksacji i optymalizacji zapytań do grafowych baz danych2
30

Formy aktywności - laboratoria

KODForma aktywnościGodziny
A-L-1Uczestnictwo w zajęciach30
A-L-2Przygotowanie do zajęć laboratoryjnych20
A-L-3Opracowanie wyników zadań laboratoryjnych, opracowanie sprawozdań10
A-L-4Konsultacje2
62
(*) 1 punkt ECTS, odpowiada około 30 godzinom aktywności studenta

Formy aktywności - wykłady

KODForma aktywnościGodziny
A-W-1Uczestnictwo w zajęciach30
A-W-2Przygotowanie do zaliczenia20
A-W-3Analiza literatury i materiałów z wykładów10
A-W-4Konsultacje2
62
(*) 1 punkt ECTS, odpowiada około 30 godzinom aktywności studenta
PoleKODZnaczenie kodu
Zamierzone efekty uczenia sięI_2A_C02_W01Posiada rozszerzoną wiedzę z zakresu przetwarzania i analizy dużych zbiorów danych
Odniesienie do efektów kształcenia dla kierunku studiówI_2A_W04Ma rozszerzoną wiedzę o problemach, zadaniach i algorytmach analizy, przetwarzania oraz eksploracji danych
Cel przedmiotuC-1Zapoznanie się z metodami przetwarzania i analizy dużych zbiorów danych
C-2Poznanie standardowych narzędzi informatycznych stosowanych w przetwarzaniu i analizie dużych zbiorów danych
C-3Przygotowanie do samodzielnego rozwiązywania problemów z zakresu przetwarzania i analizy dużych zbiorów danych
Treści programoweT-W-1Wprowadzenie do dużych zbiorów danych
T-W-2Środowisko Apache Hadoop: HDFS, YARN i MapReduce
T-W-3Bazy danych w Apache Hadoop: Hive, Sqoop
T-W-4Bazy danych w Apache Hadoop: HBase, Phoenix
T-W-6Administracja klastrem Apache Hadoop: Zookeeper
Metody nauczaniaM-1Wykład z prezentacją
M-2Laboratoria - metoda przypadków, rozwiązywanie zadań z użyciem komputera
Sposób ocenyS-2Ocena podsumowująca: Zaliczenie materiałów z wykładów w formie egzaminu pisemnego
Kryteria ocenyOcenaKryterium oceny
2,0Student nie opanował materiału w stopniu dostatecznym.
3,0Student opanował materiał przedmiotu w stopniu podstawowym, rozróżnia podstawowe zdania i zna możliwości dostęnych narzędzi.
3,5Student opanował materiał przedmiotu w stopniu ponad podstawowoym,rozróżnia podstawowe zdania i zna możliwości dostęnych narzędzi.
4,0Student opanował materiał przedmiotu w stopniu dobry, rozróżnia podstawowe zdania i zna możliwości dostęnych narzędzi oraz rozumie używane w nich algorytmy
4,5Student opanował materiał przedmiotu w stopniu ponad dobry, rozróżnia podstawowe zdania, zna możliwości dostęnych narzędzi, rozumie używane w nich algorytmy i wie jak je dobrać w zależności od zdefiniowanego problemu
5,0Student opanował materiał przedmiotu w stopniu bardzo dobrym, rozróżnia podstawowe zdania, zna możliwości dostęnych narzędzi, rozumie używane w nich algorytmy i bardzo dobrze wie jak je dobrać w zależności od zdefiniowanego problemu
PoleKODZnaczenie kodu
Zamierzone efekty uczenia sięI_2A_C02_U01Potrafi wykorzysać poznane metody, techniki i modele do rozwiązywania złożonych problemów z zakresy przetwarzania i analizy dużych zbiorów danych
Odniesienie do efektów kształcenia dla kierunku studiówI_2A_U04Potrafi wykorzystywać poznane metody, techniki i modele do rozwiązywania złożonych problemów
Cel przedmiotuC-1Zapoznanie się z metodami przetwarzania i analizy dużych zbiorów danych
C-2Poznanie standardowych narzędzi informatycznych stosowanych w przetwarzaniu i analizie dużych zbiorów danych
C-3Przygotowanie do samodzielnego rozwiązywania problemów z zakresu przetwarzania i analizy dużych zbiorów danych
Treści programoweT-W-7Wprowadzenie do apache Spark, przegląd dostępnych metod transformacji danych
T-W-6Administracja klastrem Apache Hadoop: Zookeeper
T-W-5Bezpieczeństwo w Apache Hadoop: Ranger, Knox
T-W-8Moduł Apache Spark SQL - przegląd możliwości, metody reprezentacji i manipulacji danych
T-L-7Apache Spark GraphX: zastosowanie algorytmu PageRank i modeli grafowych
T-L-9Grafowe bazy danych do przetwarzania dużych zbiorów danych (środowisko Neptune lub Giraph), indeksacja i optymalziacja zapytań do grafowych baz danych
T-L-2Apache Hive
T-L-1Apache Hadoop Disctributed File System
T-L-3Apache Sqoop
T-L-4Przetwarzanie danych w Spark z użyciem RDD API
T-L-5Przetwarzanie danych w Spark z użyciem Dataframe API
T-L-6Budowa systemu rekomendujcego z użyciem Apache Spark MLlib
T-L-8Przetwarzanie strumieniowe w Apache spark
Metody nauczaniaM-1Wykład z prezentacją
M-2Laboratoria - metoda przypadków, rozwiązywanie zadań z użyciem komputera
Sposób ocenyS-1Ocena formująca: Ocena zadań zrealizowanych na laboratoriach
S-2Ocena podsumowująca: Zaliczenie materiałów z wykładów w formie egzaminu pisemnego
Kryteria ocenyOcenaKryterium oceny
2,0Student nie opanował materiału w stopniu dostatecznym
3,0Student opanował materiał przedmiotu w stopniu dostatecznym, rozróżnia podstawowe zdania i umie je częsciowo rozwiązywać za pomocą dostęnych narzędzi.
3,5Student opanował materiał przedmiotu w stopniu więcej niż dostatecznym, rozróżnia podstawowe zdania i umie je rozwiązywać za pomocą dostęnych narzędzi.
4,0Student opanował materiał przedmiotu w stopniu dobrym, rozróżnia podstawowe zdania i umie je prawidłowo rozwiązywać za pomocą dostęnych narzędzi.
4,5Student opanował materiał przedmiotu w stopniu więcej niż dobrym, rozróżnia podstawowe zdania i umie je skutecznie rozwiązywać za pomocą dostęnych narzędzi. Potrafi zidentyfikować problem z zakresu analizy dużych zbiorów danych i dobrać do niego metodę.
5,0Student opanował materiał przedmiotu w więcej niż dobrym, rozróżnia podstawowe zdania i umie je skutecznie rozwiązywać za pomocą dostęnych narzędzi. Potrafi zidentyfikować problem z zakresu analizy dużych zbiorów danych oraz dobrać i uzasadnić metodę roziwiązania problemu.
PoleKODZnaczenie kodu
Zamierzone efekty uczenia sięI_2A_C02_K01Aktywna postawa poznawcza, umocnienie świadomości potrzeby pozyskiwania aktualnej wiedzy do rozwiązywania problemów i wzmocnienie chęci rozwoju zawodowego.
Odniesienie do efektów kształcenia dla kierunku studiówI_2A_K02Ma świadomość znaczenia aktualności wiedzy w rozwiązywaniu problemów, jest zdeterminowany do osiągania założonych celów, a w przypadku trudności w ich osiąganiu potrafi korzystać z pomocy ekspertów
I_2A_K03Jest gotów do aktywnego przekazywania społeczeństwu informacji na temat bieżącego stanu wiedzy w zakresie informatyki oraz podejmowania działań na rzecz rozwoju środowiska społecznego
Cel przedmiotuC-1Zapoznanie się z metodami przetwarzania i analizy dużych zbiorów danych
C-2Poznanie standardowych narzędzi informatycznych stosowanych w przetwarzaniu i analizie dużych zbiorów danych
C-3Przygotowanie do samodzielnego rozwiązywania problemów z zakresu przetwarzania i analizy dużych zbiorów danych
Treści programoweT-W-1Wprowadzenie do dużych zbiorów danych
T-W-2Środowisko Apache Hadoop: HDFS, YARN i MapReduce
T-W-7Wprowadzenie do apache Spark, przegląd dostępnych metod transformacji danych
T-W-3Bazy danych w Apache Hadoop: Hive, Sqoop
T-W-4Bazy danych w Apache Hadoop: HBase, Phoenix
T-W-6Administracja klastrem Apache Hadoop: Zookeeper
T-W-5Bezpieczeństwo w Apache Hadoop: Ranger, Knox
T-W-8Moduł Apache Spark SQL - przegląd możliwości, metody reprezentacji i manipulacji danych
T-L-7Apache Spark GraphX: zastosowanie algorytmu PageRank i modeli grafowych
T-L-9Grafowe bazy danych do przetwarzania dużych zbiorów danych (środowisko Neptune lub Giraph), indeksacja i optymalziacja zapytań do grafowych baz danych
T-L-2Apache Hive
T-L-1Apache Hadoop Disctributed File System
T-L-3Apache Sqoop
T-L-4Przetwarzanie danych w Spark z użyciem RDD API
T-L-5Przetwarzanie danych w Spark z użyciem Dataframe API
T-L-6Budowa systemu rekomendujcego z użyciem Apache Spark MLlib
T-L-8Przetwarzanie strumieniowe w Apache spark
Metody nauczaniaM-1Wykład z prezentacją
M-2Laboratoria - metoda przypadków, rozwiązywanie zadań z użyciem komputera
Sposób ocenyS-1Ocena formująca: Ocena zadań zrealizowanych na laboratoriach
S-2Ocena podsumowująca: Zaliczenie materiałów z wykładów w formie egzaminu pisemnego
Kryteria ocenyOcenaKryterium oceny
2,0
3,0Student aktywnie rozwiązuje postawione problemy wykazując samodzielność w doborze odpowiednich środków technicznych i metod inżynierskich
3,5
4,0
4,5
5,0