Propozycje tematów projektów
Transkrypt
Propozycje tematów projektów
Proponowane tematy zostaną dokładnie omówione na zajęciach. W przypadku jakichkolwiek pytań lub wątpliwości proszę o kontakt. Projekty można wykonywać w dowolnej technologii na dowolnej hurtowni danych (chyba, że w opisie konkretnego projektu zaznaczono inaczej). W niektórych projektach proponuję lecz nie narzucam korzystanie z Microsoft SQL Server Business Intelligence i hurtowni danych Adventure Works 2012 DW lub Oracle Advanced Analytics. Oprogramowanie to zostanie omówione na zajęciach i będzie dostępne na komputerach w sali 110. Temat 1. Klasyfikacja klientów ze względu na skłonności do zakupów określonej grupy produktów. Na podstawie hurtowni danych zawierającej informacje o produktach, klientach i zakupach (na przykład hurtowni danych Microsoft Adventure Works 2012 DW w systemie Microsoft SQL Server Business Intelligence) opracować system klasyfikujący klientów ze względu na skłonności do zakupów określonej grupy produktów. Dokładniej: dla wskazanej przez użytkownika grupy produktów, system powinien zwracać listę klientów, którzy mogą być zainteresowani zakupem produktów z tej grupy. Grupy produktów można określić ręcznie (na podstawie podstawowych danych o produktach) lub inteligentnie (na przykład wykorzystując algorytm grupowania k-means). Do klasyfikacji klientów należy użyć drzew klasyfikujących, naiwnych klasyfikatorów bayesowskich lub innych metod klasyfikacji danych omówionych na zajęciach. Projekt można wykonać w Microsoft SQL Server Business Intelligence korzystając z hurtowni danych Adventure Works 2012 DW i dostępnych narzędzi grupowania i klasyfikacji danych lub w Oracle Data Miner (po znalezieniu odpowiedniej hurtowni danych). Temat 2. Określenie zależności między sprzedażą produktów za pomocą reguł asocjacyjnych. Na podstawie hurtowni danych zawierającej informacje o transakcjach zakupowych (na przykład hurtowni danych Microsoft Adventure Works 2012 DW w systemie Microsoft SQL Server Business Intelligence) opracować system wyznaczający przy użyciu reguł asocjacyjnych zbiory produktów często kupowanych razem. Dokładniej: na podstawie transakcji przeprowadzonych przez klientów ("paragonów"), należy określić które produkty były często kupowane razem (znajdowały się na tym samym "paragonie"), a następnie kupno których produktów pociąga za sobą kupno innych. Jest to bardzo cenna wiedza sprzedażowa wykorzystywana do celów marketingowych. Do wyznaczania zbiorów częstych produktów oraz reguł asocjacyjnych należy użyć algorytmu Apriori lub jego modyfikacji. Projekt można wykonać w Microsoft SQL Server Business Intelligence korzystając z hurtowni danych Adventure Works 2012 DW i dostępnych narzędzi konstrukcji reguł asocjacyjnych lub w Oracle Data Miner (po znalezieniu odpowiedniej hurtowni danych). Temat 3. System rekomendujący (produkty | filmy | książki). Opracować system rekomendujący służący do proponowania każdemu klientowi sklepu internetowego produktów, których zakupem może być on zainteresowany. 1 Do konstrukcji rekomendacji należy użyć algorytmu Collaborative Filtering lub podobnego podejścia. Projekt można wykonać w Microsoft SQL Server Business Intelligence korzystając z hurtowni danych Adventure Works 2012 DW i dostępnych narzędzi konstrukcji reguł asocjacyjnych lub w Oracle Data Miner (po znalezieniu odpowiedniej hurtowni danych). UWAGA 1: Projekt można też wykonać w wersji rekomendującej czytelnikom książki do przeczytania, w oparciu o zbiór danych BookCrossing (BX) lub podobny. Wówczas projekt można wykonać w technologii Apache Mahout lub podobnej. UWAGA 2: Projekt można też wykonać w wersji rekomendującej widzom filmy do obejrzenia, w oparciu o zbiór danych MovieLens lub podobny. Wówczas projekt można wykonać w technologii Apache Mahout lub podobnej. Temat 4. Rozproszony data-minig z Apache Mahout. Celem projektu jest zapoznanie się z technologią Apache Mahout (na wykładzie będzie ona wspominana tylko zdawkowo, o ile wystarczy czasu) i wykonanie w niej analizy przykładowych danych, na przykład danych opisanych w innych tematach. W celu uzyskania dokładnych informacji, proszę o kontakt – najlepiej umówić się na konsultacje. Literatura: [6] i dokumentacja techniczna do Apache Mahout. Temat 5. Analiza szeregów czasowych ultra-wysokiej częstotliwości z London Stock Exchange (LSE ROB). Celem projektu jest analiza szeregów czasowych ultra-wysokiej częstotliwości zawierających dane o transakcjach z giełdy londyńskiej. Zbiór danych zawiera nie tylko informacje o notowaniach cen akcji, ale również wszystkie informacje o złożonych na giełdzie zleceniach, w tym też tych niezrealizowanych, itp., dla każdego pojedynczego zlecenia i każdej pojedynczej transakcji. Oczywiście taki zbiór danych jest bardzo duży i wymaga specjalnych algorytmów przetwarzania. Ze względu na ograniczenia w dostępie do posiadanego przez nas zbioru danych (dane nie są publicznie dostępne), osoby zainteresowane tematem proszę o kontakt – najlepiej umówić się na konsultacje. Literatura: Można przejrzeć publikacje [2] – [5]. Temat 6. Reguły asocjacyjne dla szeregów czasowych. Użyć algorytmów wydobywania reguł asocjacyjnych do danych giełdowych w celu wykrycia często powtarzających się wzorców wahań kursów (np. sekwencji typu spadek – wzrost – duży spadek – nieznaczny wzrost). Projekt można realizować też na danych opisujących kursy walut (druga wersja projektu). W przypadku zdobycia ciekawych danych można także w nich szukać reguł asocjacyjnych – w zależności od danych, według indywidualnego pomysłu studenta. Projekt można wykonywać na danych publicznie dostępnych w internecie lub na danych LSE ROB wspomnianych w temacie 5. 2 Literatura: Rozdział 2 z [1] oraz dodatkowe publikacje Agrawala (dostępne w internecie). Można też przejrzeć publikacje [2] – [5]. Temat 7. Zależności między szeregami czasowymi. Użyć metody składowych głównych (ang. Principal Component Analysis) oraz analizy czynnikowej (ang. Factor Analysis) do badania zależności notowań cen akcji poszczególnych spółek na giełdzie. Projekt można wykonywać na danych publicznie dostępnych w internecie lub na danych LSE ROB wspomnianych w temacie 5. Literatura: Rozdział 8 z [1] oraz ewentualnie dodatkowe materiały na temat PCA. Można też przejrzeć publikacje [2] – [5]. Temat 8. Clustering danych giełdowych. Na podstawie notowań cen akcji i ich zmian podzielić firmy notowane na giełdzie na kilka grup zbliżonych pod względem charakterystyki zachowania notowań (np. firmy dynamicznie reagujące na zmiany polityczne, firmy reagujące na zmiany z sektorze naftowym itp.). Wykorzystać metody grupowania dla danych opisujących przyrosty cen akcji. Projekt można wykonywać na danych publicznie dostępnych w internecie lub na danych LSE ROB wspomnianych w temacie 5. Literatura: Rozdział 10 z [1] oraz ewentualnie dodatkowe materiały np. z wykładu z sieci neuronowych. Można też przejrzeć publikacje [2] – [5]. Temat 9. Nieliniowa analiza szeregów czasowych: Zastosować metody opisane w rozdziale 12 książki [1] do szeregów czasowych zawierających notowania cen akcji. Projekt można wykonywać na danych publicznie dostępnych w internecie lub na danych LSE ROB wspomnianych w temacie 5. Temat 10. Analiza danych o bezpieczeństwie sieci komputerowych: Zgromadzić lub zdobyć dane (jest dużo przykładowych danych w internecie) o ruchu pakietów i przesyle informacji w wybranej sieci komputerowej. Wykonać analizę tych danych mającą na celu znalezienie podejrzanych operacji wykonywanych w tej sieci np. prób włamania na jakiś komputer. Użyć metod opisanych w 26. rozdziale książki [1]. Literatura: [1] Ye, N., The Handbook of Data Mining. [2] Qiu, H., Han, F., Liu, H., Caffo, B., Robust Portfolio Optimization, NIPS 2015, https://papers.nips.cc/paper/5714-robust-portfolio-optimization. 3 [3] Kuznetsov, V., Mohri, M., Learning Theory and Algorithms for Forecasting Non-stationary Time Series, NIPS 2015, https://papers.nips.cc/paper/5836-learning-theory-and-algorithms-for-forecasting-nonstationary-time-series. [4] Koolen, W., Malek, A., Bartlett, P., Abbasi, Y., Minimax Time Series Prediction, NIPS 2015, https://papers.nips.cc/paper/5730-minimax-time-series-prediction. [5] Tobar, F., Bui, T. ,Turner, R., Learning Stationary Time Series using Gaussian Processes with Nonparametric Kernels, NIPS 2015, https://papers.nips.cc/paper/5772-learning-stationary-time-seriesusing-gaussian-processes-with-nonparametric-kernels. [6] Dunning, T., Friedman, E., Practical Machine Learning, https://www.mapr.com/practical-machinelearning. 4