1 ` Proponowane przeze mnie tematy dotyczą wykorzystania technik

Transkrypt

1 ` Proponowane przeze mnie tematy dotyczą wykorzystania technik
`
Proponowane przeze mnie tematy dotyczą wykorzystania technik BigData na przykładzie
rzeczywistych danych energetycznych. Głównym celem jest zapoznanie studentów z wybranymi
zagadnieniami technologii BigData. Prace dyplomowe można połączyć z praktykami w firmie
Transition Technologies S.A. W przypadku zainteresowania tematami, proszę o kontakt:
[email protected]
Temat 1: Wykorzystanie technologii Hadoop do analizy danych energetycznych.
Celem studenta będzie:
1. Poznanie ekosystemu Hadoop (w szczególności Pig, Hive i Cassandra)
2. Stworzenie środowiska symulacyjnego BigData, w oparciu o trzy maszyny wirtualne.
Docelowym system operacyjnym będzie Ubuntu.
3. Zainstalowanie i skonfigurowanie środowiska Hadoop na maszynach wirtualnych
4. Wczytanie dużego zbioru rzeczywistych danych energetycznych (zanonimizowane dane
pochodzące z systemów ciepłowniczych, rynku energii lub elektrowni)
5. Wczytanie danych do rozproszonej bazy danych Cassandra
6. Wykorzystanie technologii Pig oraz Hive do przeprowadzenia wybranych analiz danych
7. Dokumentacja powyższych kroków w pracy dyplomowej
Oprócz poznania wybranych technologii BigData, student będzie musiał opanować programowanie w
języku Python, podstawy obsługi Linuxa oraz podstawy obsługi maszyn wirtualnych.
Temat 2: Wykorzystanie technologii Spark do grupowanie węzłów ciepłowniczych
Celem studenta będzie:
1. Poznanie technologii Spark i biblioteki MLlib
2. Stworzenie środowiska symulacyjnego BigData, w oparciu o trzy maszyny wirtualne.
Docelowym system operacyjnym będzie Ubuntu.
1
3. Zainstalowanie i skonfigurowanie środowiska Spark na maszynach wirtualnych
4. Wczytanie dużego zbioru rzeczywistych, zanonimizowanych danych ciepłowniczych
5. Analizy danych prowadzące do stworzenia algorytmu automatycznego grupowania węzłów
ciepłowniczych, w oparciu o dane historyczne (z wykorzystaniem biblioteki MLlib)
6. Dla chętnych integracja ze środowiskiem obliczeń statystycznych R i wykonywanie obliczeń w
języku R
7. Dokumentacja powyższych kroków w pracy dyplomowej
Oprócz poznania wybranych technologii BigData, student będzie musiał opanować programowanie w
języku Python, podstawy obsługi Linuxa oraz podstawy obsługi maszyn wirtualnych.
Temat 3: Obsługa strumieni danych w architekturze BigData na przykładzie danych energetycznych
Celem studenta będzie:
1. Poznanie ekosystemu Hadoop/Saprk (w szczególności baza danych Cassandra i narzędzia
do obsługi strumieni danych)
2. Stworzenie środowiska symulacyjnego BigData, w oparciu o trzy maszyny wirtualne.
Docelowym system operacyjnym będzie Ubuntu.
3. Zainstalowanie i skonfigurowanie środowiska Hadoop na maszynach wirtualnych
4. Zainstalowanie i skonfigurowanie narzędzi do obsługi strumieni danych w czasie
rzeczywistym
5. Wczytywanie danych z ciepłomierzy w czasie rzeczywistym i analiza jakości danych w
locie (np.: wykrywanie awarii ciepłomierza)
6. Wczytanie danych do rozproszonej bazy danych Cassandra
Oprócz poznania wybranych technologii BigData, student będzie musiał opanować programowanie w
języku Python, podstawy obsługi Linuxa oraz podstawy obsługi maszyn wirtualnych.
2

Podobne dokumenty