Propozycje tematów projektów

Transkrypt

Propozycje tematów projektów
Proponowane tematy zostaną dokładnie omówione na zajęciach. W przypadku jakichkolwiek pytań lub
wątpliwości proszę o kontakt.
Projekty można wykonywać w dowolnej technologii na dowolnej hurtowni danych (chyba, że w opisie
konkretnego projektu zaznaczono inaczej). W niektórych projektach proponuję lecz nie narzucam
korzystanie z Microsoft SQL Server Business Intelligence i hurtowni danych Adventure Works 2012 DW lub
Oracle Advanced Analytics. Oprogramowanie to zostanie omówione na zajęciach i będzie dostępne na
komputerach w sali 110.
Temat 1. Klasyfikacja klientów ze względu na skłonności do zakupów określonej grupy
produktów.
Na podstawie hurtowni danych zawierającej informacje o produktach, klientach i zakupach (na
przykład hurtowni danych Microsoft Adventure Works 2012 DW w systemie Microsoft SQL Server
Business Intelligence) opracować system klasyfikujący klientów ze względu na skłonności do
zakupów określonej grupy produktów. Dokładniej: dla wskazanej przez użytkownika grupy
produktów, system powinien zwracać listę klientów, którzy mogą być zainteresowani zakupem
produktów z tej grupy.
Grupy produktów można określić ręcznie (na podstawie podstawowych danych o produktach) lub
inteligentnie (na przykład wykorzystując algorytm grupowania k-means). Do klasyfikacji klientów
należy użyć drzew klasyfikujących, naiwnych klasyfikatorów bayesowskich lub innych metod
klasyfikacji danych omówionych na zajęciach.
Projekt można wykonać w Microsoft SQL Server Business Intelligence korzystając z hurtowni
danych Adventure Works 2012 DW i dostępnych narzędzi grupowania i klasyfikacji danych lub w
Oracle Data Miner (po znalezieniu odpowiedniej hurtowni danych).
Temat 2. Określenie zależności między sprzedażą produktów za pomocą reguł
asocjacyjnych.
Na podstawie hurtowni danych zawierającej informacje o transakcjach zakupowych (na przykład
hurtowni danych Microsoft Adventure Works 2012 DW w systemie Microsoft SQL Server Business
Intelligence) opracować system wyznaczający przy użyciu reguł asocjacyjnych zbiory produktów
często kupowanych razem. Dokładniej: na podstawie transakcji przeprowadzonych przez klientów
("paragonów"), należy określić które produkty były często kupowane razem (znajdowały się na tym
samym "paragonie"), a następnie kupno których produktów pociąga za sobą kupno innych. Jest to
bardzo cenna wiedza sprzedażowa wykorzystywana do celów marketingowych.
Do wyznaczania zbiorów częstych produktów oraz reguł asocjacyjnych należy użyć algorytmu
Apriori lub jego modyfikacji.
Projekt można wykonać w Microsoft SQL Server Business Intelligence korzystając z hurtowni
danych Adventure Works 2012 DW i dostępnych narzędzi konstrukcji reguł asocjacyjnych lub w
Oracle Data Miner (po znalezieniu odpowiedniej hurtowni danych).
Temat 3. System rekomendujący (produkty | filmy | książki).
Opracować system rekomendujący służący do proponowania każdemu klientowi sklepu
internetowego produktów, których zakupem może być on zainteresowany.
1
Do konstrukcji rekomendacji należy użyć algorytmu Collaborative Filtering lub podobnego
podejścia.
Projekt można wykonać w Microsoft SQL Server Business Intelligence korzystając z hurtowni
danych Adventure Works 2012 DW i dostępnych narzędzi konstrukcji reguł asocjacyjnych lub w
Oracle Data Miner (po znalezieniu odpowiedniej hurtowni danych).
UWAGA 1: Projekt można też wykonać w wersji rekomendującej czytelnikom książki do
przeczytania, w oparciu o zbiór danych BookCrossing (BX) lub podobny. Wówczas projekt można
wykonać w technologii Apache Mahout lub podobnej.
UWAGA 2: Projekt można też wykonać w wersji rekomendującej widzom filmy do obejrzenia, w
oparciu o zbiór danych MovieLens lub podobny. Wówczas projekt można wykonać w technologii
Apache Mahout lub podobnej.
Temat 4. Rozproszony data-minig z Apache Mahout.
Celem projektu jest zapoznanie się z technologią Apache Mahout (na wykładzie będzie ona
wspominana tylko zdawkowo, o ile wystarczy czasu) i wykonanie w niej analizy przykładowych
danych, na przykład danych opisanych w innych tematach.
W celu uzyskania dokładnych informacji, proszę o kontakt – najlepiej umówić się na konsultacje.
Literatura: [6] i dokumentacja techniczna do Apache Mahout.
Temat 5. Analiza szeregów czasowych ultra-wysokiej częstotliwości z London Stock
Exchange (LSE ROB).
Celem projektu jest analiza szeregów czasowych ultra-wysokiej częstotliwości zawierających dane
o transakcjach z giełdy londyńskiej. Zbiór danych zawiera nie tylko informacje o notowaniach cen
akcji, ale również wszystkie informacje o złożonych na giełdzie zleceniach, w tym też tych
niezrealizowanych, itp., dla każdego pojedynczego zlecenia i każdej pojedynczej transakcji.
Oczywiście taki zbiór danych jest bardzo duży i wymaga specjalnych algorytmów przetwarzania.
Ze względu na ograniczenia w dostępie do posiadanego przez nas zbioru danych (dane nie są
publicznie dostępne), osoby zainteresowane tematem proszę o kontakt – najlepiej umówić się na
konsultacje.
Literatura: Można przejrzeć publikacje [2] – [5].
Temat 6. Reguły asocjacyjne dla szeregów czasowych.
Użyć algorytmów wydobywania reguł asocjacyjnych do danych giełdowych w celu wykrycia często
powtarzających się wzorców wahań kursów (np. sekwencji typu spadek – wzrost – duży spadek –
nieznaczny wzrost). Projekt można realizować też na danych opisujących kursy walut (druga
wersja projektu). W przypadku zdobycia ciekawych danych można także w nich szukać reguł
asocjacyjnych – w zależności od danych, według indywidualnego pomysłu studenta.
Projekt można wykonywać na danych publicznie dostępnych w internecie lub na danych LSE ROB
wspomnianych w temacie 5.
2
Literatura: Rozdział 2 z [1] oraz dodatkowe publikacje Agrawala (dostępne w internecie). Można
też przejrzeć publikacje [2] – [5].
Temat 7. Zależności między szeregami czasowymi.
Użyć metody składowych głównych (ang. Principal Component Analysis) oraz analizy czynnikowej
(ang. Factor Analysis) do badania zależności notowań cen akcji poszczególnych spółek na
giełdzie.
Projekt można wykonywać na danych publicznie dostępnych w internecie lub na danych LSE ROB
wspomnianych w temacie 5.
Literatura: Rozdział 8 z [1] oraz ewentualnie dodatkowe materiały na temat PCA. Można też
przejrzeć publikacje [2] – [5].
Temat 8. Clustering danych giełdowych.
Na podstawie notowań cen akcji i ich zmian podzielić firmy notowane na giełdzie na kilka grup
zbliżonych pod względem charakterystyki zachowania notowań (np. firmy dynamicznie reagujące
na zmiany polityczne, firmy reagujące na zmiany z sektorze naftowym itp.). Wykorzystać metody
grupowania dla danych opisujących przyrosty cen akcji.
Projekt można wykonywać na danych publicznie dostępnych w internecie lub na danych LSE ROB
wspomnianych w temacie 5.
Literatura: Rozdział 10 z [1] oraz ewentualnie dodatkowe materiały np. z wykładu z sieci
neuronowych. Można też przejrzeć publikacje [2] – [5].
Temat 9. Nieliniowa analiza szeregów czasowych:
Zastosować metody opisane w rozdziale 12 książki [1] do szeregów czasowych zawierających
notowania cen akcji.
Projekt można wykonywać na danych publicznie dostępnych w internecie lub na danych LSE ROB
wspomnianych w temacie 5.
Temat 10. Analiza danych o bezpieczeństwie sieci komputerowych:
Zgromadzić lub zdobyć dane (jest dużo przykładowych danych w internecie) o ruchu pakietów i
przesyle informacji w wybranej sieci komputerowej. Wykonać analizę tych danych mającą na celu
znalezienie podejrzanych operacji wykonywanych w tej sieci np. prób włamania na jakiś komputer.
Użyć metod opisanych w 26. rozdziale książki [1].
Literatura:
[1] Ye, N., The Handbook of Data Mining.
[2] Qiu, H., Han, F., Liu, H., Caffo, B., Robust Portfolio Optimization, NIPS 2015,
https://papers.nips.cc/paper/5714-robust-portfolio-optimization.
3
[3] Kuznetsov, V., Mohri, M., Learning Theory and Algorithms for Forecasting Non-stationary Time Series,
NIPS 2015, https://papers.nips.cc/paper/5836-learning-theory-and-algorithms-for-forecasting-nonstationary-time-series.
[4] Koolen, W., Malek, A., Bartlett, P., Abbasi, Y., Minimax Time Series Prediction, NIPS 2015,
https://papers.nips.cc/paper/5730-minimax-time-series-prediction.
[5] Tobar, F., Bui, T. ,Turner, R., Learning Stationary Time Series using Gaussian Processes with
Nonparametric Kernels, NIPS 2015, https://papers.nips.cc/paper/5772-learning-stationary-time-seriesusing-gaussian-processes-with-nonparametric-kernels.
[6] Dunning, T., Friedman, E., Practical Machine Learning, https://www.mapr.com/practical-machinelearning.
4

Podobne dokumenty