1 ` Proponowane przeze mnie tematy dotyczą wykorzystania technik
Transkrypt
1 ` Proponowane przeze mnie tematy dotyczą wykorzystania technik
` Proponowane przeze mnie tematy dotyczą wykorzystania technik BigData na przykładzie rzeczywistych danych energetycznych. Głównym celem jest zapoznanie studentów z wybranymi zagadnieniami technologii BigData. Prace dyplomowe można połączyć z praktykami w firmie Transition Technologies S.A. W przypadku zainteresowania tematami, proszę o kontakt: [email protected] Temat 1: Wykorzystanie technologii Hadoop do analizy danych energetycznych. Celem studenta będzie: 1. Poznanie ekosystemu Hadoop (w szczególności Pig, Hive i Cassandra) 2. Stworzenie środowiska symulacyjnego BigData, w oparciu o trzy maszyny wirtualne. Docelowym system operacyjnym będzie Ubuntu. 3. Zainstalowanie i skonfigurowanie środowiska Hadoop na maszynach wirtualnych 4. Wczytanie dużego zbioru rzeczywistych danych energetycznych (zanonimizowane dane pochodzące z systemów ciepłowniczych, rynku energii lub elektrowni) 5. Wczytanie danych do rozproszonej bazy danych Cassandra 6. Wykorzystanie technologii Pig oraz Hive do przeprowadzenia wybranych analiz danych 7. Dokumentacja powyższych kroków w pracy dyplomowej Oprócz poznania wybranych technologii BigData, student będzie musiał opanować programowanie w języku Python, podstawy obsługi Linuxa oraz podstawy obsługi maszyn wirtualnych. Temat 2: Wykorzystanie technologii Spark do grupowanie węzłów ciepłowniczych Celem studenta będzie: 1. Poznanie technologii Spark i biblioteki MLlib 2. Stworzenie środowiska symulacyjnego BigData, w oparciu o trzy maszyny wirtualne. Docelowym system operacyjnym będzie Ubuntu. 1 3. Zainstalowanie i skonfigurowanie środowiska Spark na maszynach wirtualnych 4. Wczytanie dużego zbioru rzeczywistych, zanonimizowanych danych ciepłowniczych 5. Analizy danych prowadzące do stworzenia algorytmu automatycznego grupowania węzłów ciepłowniczych, w oparciu o dane historyczne (z wykorzystaniem biblioteki MLlib) 6. Dla chętnych integracja ze środowiskiem obliczeń statystycznych R i wykonywanie obliczeń w języku R 7. Dokumentacja powyższych kroków w pracy dyplomowej Oprócz poznania wybranych technologii BigData, student będzie musiał opanować programowanie w języku Python, podstawy obsługi Linuxa oraz podstawy obsługi maszyn wirtualnych. Temat 3: Obsługa strumieni danych w architekturze BigData na przykładzie danych energetycznych Celem studenta będzie: 1. Poznanie ekosystemu Hadoop/Saprk (w szczególności baza danych Cassandra i narzędzia do obsługi strumieni danych) 2. Stworzenie środowiska symulacyjnego BigData, w oparciu o trzy maszyny wirtualne. Docelowym system operacyjnym będzie Ubuntu. 3. Zainstalowanie i skonfigurowanie środowiska Hadoop na maszynach wirtualnych 4. Zainstalowanie i skonfigurowanie narzędzi do obsługi strumieni danych w czasie rzeczywistym 5. Wczytywanie danych z ciepłomierzy w czasie rzeczywistym i analiza jakości danych w locie (np.: wykrywanie awarii ciepłomierza) 6. Wczytanie danych do rozproszonej bazy danych Cassandra Oprócz poznania wybranych technologii BigData, student będzie musiał opanować programowanie w języku Python, podstawy obsługi Linuxa oraz podstawy obsługi maszyn wirtualnych. 2