1 ` Proponowane przeze mnie tematy dotyczą wykorzystania technik

Transkrypt

`
Proponowane przeze mnie tematy dotyczą wykorzystania technik BigData na przykładzie
rzeczywistych danych energetycznych. Głównym celem jest zapoznanie studentów z wybranymi
zagadnieniami technologii BigData. Prace dyplomowe można połączyć z praktykami w firmie
Transition Technologies S.A. W przypadku zainteresowania tematami, proszę o kontakt:
[email protected]
Temat 1: Wykorzystanie technologii Hadoop do analizy danych energetycznych.
Celem studenta będzie:
1. Poznanie ekosystemu Hadoop (w szczególności Pig, Hive i Cassandra)
2. Stworzenie środowiska symulacyjnego BigData, w oparciu o trzy maszyny wirtualne.
Docelowym system operacyjnym będzie Ubuntu.
3. Zainstalowanie i skonfigurowanie środowiska Hadoop na maszynach wirtualnych
4. Wczytanie dużego zbioru rzeczywistych danych energetycznych (zanonimizowane dane
pochodzące z systemów ciepłowniczych, rynku energii lub elektrowni)
5. Wczytanie danych do rozproszonej bazy danych Cassandra
6. Wykorzystanie technologii Pig oraz Hive do przeprowadzenia wybranych analiz danych
7. Dokumentacja powyższych kroków w pracy dyplomowej
Oprócz poznania wybranych technologii BigData, student będzie musiał opanować programowanie w
języku Python, podstawy obsługi Linuxa oraz podstawy obsługi maszyn wirtualnych.
Temat 2: Wykorzystanie technologii Spark do grupowanie węzłów ciepłowniczych
1. Poznanie technologii Spark i biblioteki MLlib
1
3. Zainstalowanie i skonfigurowanie środowiska Spark na maszynach wirtualnych
4. Wczytanie dużego zbioru rzeczywistych, zanonimizowanych danych ciepłowniczych
5. Analizy danych prowadzące do stworzenia algorytmu automatycznego grupowania węzłów
ciepłowniczych, w oparciu o dane historyczne (z wykorzystaniem biblioteki MLlib)
6. Dla chętnych integracja ze środowiskiem obliczeń statystycznych R i wykonywanie obliczeń w
języku R
7. Dokumentacja powyższych kroków w pracy dyplomowej
Temat 3: Obsługa strumieni danych w architekturze BigData na przykładzie danych energetycznych
1. Poznanie ekosystemu Hadoop/Saprk (w szczególności baza danych Cassandra i narzędzia
do obsługi strumieni danych)
3. Zainstalowanie i skonfigurowanie środowiska Hadoop na maszynach wirtualnych
4. Zainstalowanie i skonfigurowanie narzędzi do obsługi strumieni danych w czasie
rzeczywistym
5. Wczytywanie danych z ciepłomierzy w czasie rzeczywistym i analiza jakości danych w
locie (np.: wykrywanie awarii ciepłomierza)
6. Wczytanie danych do rozproszonej bazy danych Cassandra
2

1 ` Proponowane przeze mnie tematy dotyczą wykorzystania technik

Transkrypt

Podobne dokumenty

Big Data Scala/Python Developer

Saving Cloud Krótki opis Firmy

Saving Cloud Krótki opis Firmy

Dlaczego wirtualne zespoły? Jako menadżer pewnie słyszałeś o

Interakcje zarządzania wiedzą i rachunku kosztów działań w

Internet to globalna sieć komputerowa łącząca ze sobą miliony