Przeglad darmowego oprogramowania do

Transkrypt

Przeglad darmowego oprogramowania do
Uniwersytet Śląski
Przegląd darmowego oprogramowania do analizy dużych zbiorów danych
Tomasz Xięski, Tomasz Jach
Instytut Informatyki, ul. Będzińska 39, 41-200 Sosnowiec
[email protected]
[email protected]
Uniwersytet Śląski
Wyniki ankiety dotyczącej używanego
oprogramowania do eksploracji danych
Struktura zbioru cell_loss
Dane pochodzą z okresu
Kwiecień 2010 – Styczeń 2011.
Składa się on ostatecznie
z 143486 rekordów (obiektów).
Podczas grupowania uwzględniane są
wszystkie atrybuty za wyjątkiem cellname
i zdarzenieId.
W bazie występuje pięć atrybutów
dychotomicznych (zaznaczone na
zielono).
Z każdą komórką związane są cztery
niezmienne atrybuty jak: jej identyfikator,
identyfikator producenta i kontrolera do
którego określona komórka przynależy,
oraz informacje lokalizacyjne.
Dodatkowo pamiętany jest procent straty
oraz początek i koniec zdarzenia.
NAZWA ATRYBUTU
cellname
obszarId
sektorId
kontrolerId
dostawcaId
strata
zdarzenieId
data
czasTrwaniaH
czyPlannowane
czestosc
czyProblem
typProblemu
czyWorkflow
czyWoINN
czyWoInny
WARTOŚĆ
50010A1
24
50010
108
4
5
1027271
2010-10-14
2
0
5
1
2
0
0
0
KNIME (ang. KoNstanz Information MinEr)
 Oprogramowanie
oparte na środowisku
Eclipse.
 Interakcja następuje
poprzez łączenie w
graf elementów
(węzłów).
 Zrealizowane przy
zachowaniu zasad
modularności
i rozszerzalności.
Funkcje KNIME
Zaimplementowane algorytmy analizy skupień
•
•
•
•
•
K-średnich.
Hierarchiczny (aglomeracyjny, deglomeracyjny).
Fuzzy c-means.
SOTA Lerner.
Inne – możliwe jest dołączenie wszystkich algorytmów
dostępnych w systemie WEKA.
Dostępne metody wizualizacji danych
•
•
•
•
•
Wykresy pudełkowe.
Wykresy rozrzutu.
Histogramy.
Wykresy radarowe.
Inne dostępne w bibliotece JFreeChart i systemie R.
Rattle (ang. R Analytical Tool To Learn
Easily)
 Graficzna nakładka na
pakiet statystyczny R.
 Składa się z szeregu
zakładek umożliwiających
ładowanie danych, ich
wstępne przetwarzanie,
transformację, tworzenie
modeli oraz ewaluację
wyników.
 Zakładki przetwarzane są
kolejno lub
autonomicznie.
Funkcje Rattle
Zaimplementowane algorytmy analizy skupień
•
•
•
•
•
Hierarchiczny.
Ewkm.
K-średnich.
BiCluster.
Inne, dostępne w pakiecie R.
Dostępne metody wizualizacji danych
• Wszystkie dostępne w pakiecie R.
RapidMiner
 Posiada zarówno
wersję komercyjną
jak i darmową.
 Interfejs podobny do
KNIME – operatory
łączy się w graf
skierowany.
 Dodatkowy podział
głównego obszaru
roboczego na
zakładki.
Funkcje RapidMiner
Zaimplementowane algorytmy analizy skupień
•
•
•
•
•
•
Cztery warianty metody K-średnich.
K-medoidów.
DBSCAN.
EM.
Metoda wektorów nośnych SVC.
Hierarchiczny (aglomeracyjny i deglomeracyjny).
Dostępne metody wizualizacji danych
•
•
•
•
•
Histogramy.
Wykres i macierz rozrzutu.
Wykresy bąbelkowe.
Mapy samoorganizujące się.
Przedstawienie struktury skupień w formie interaktywnego grafu.
Weka (ang. Waikato Environment for
Knowledge Analysis)
 Dostępne są cztery
różne interfejsy:
• Explorer.
• Experimenter.
• Knowledge Flow.
• Simple CLI.
 Interakcja w trybie
Explorer odbywa się
przez wybór
odpowiedniej
zakładki z siedmiu
dostępnych.
Funkcje Weka
Zaimplementowane algorytmy analizy skupień
•
•
•
•
•
•
•
COBWEB.
FarthestFirst.
K-średnich.
DBSCAN.
EM.
OPTICS.
AHC.
Dostępne metody wizualizacji danych
• Wykres rozrzutu
• Macierz wykresów rozrzutu
Pakiet scikit-learn: Machine Learning in
Python
 Brak dedykowanego
interfejsu
graficznego.
 Analiza
i przetwarzanie
odbywa się za
pomocą programów
napisanych w języku
Python.
Funkcje pakietu scikit-learn
Zaimplementowane algorytmy analizy skupień
•
•
•
•
•
•
K-średnich.
Hierarchiczny (algomeracyjny i deglomeracyjny).
DBSCAN.
Analiza spektralna.
Metoda propagacji podobieństwa (ang. affinity propagation).
Przesunięcie do średniej (ang. mean-shift clustering).
Dostępne metody wizualizacji danych
• Wszystkie dostępne dla języka Python.
Rejestrator szybkiego dostępu
(ang. Quick Access Recorder)
• Zapisuje najważniejsze
parametry lotu.
• Dane są używane do
poprawy bezpieczeństwa i
efektywności lotu.
• Częstotliwość próbkowania
parametrów jest zmienna.
• Znacznie mniej odporny od
czarnej skrzynki, ale potrafi
zapisywać znacznie więcej
informacji.
• Nie jest wymagany przez
prawo lotnicze, jednakże
obecny w większości
statków powietrznych.
Cele badań
• Inicjatywy paliwowe
– Zmniejszenie zużycia paliwa w zależności od (nieznanych) parametrów.
– Optymalizacja zużycia paliwa w stosunku do trasy pokonywanej przez
samolot.
– Wybór odpowiedniego podejścia na każde lotnisko.
– Wyznaczenie optymalnej ilości tankowanego paliwa.
– Minimalizacja zużycia agregatów wspomagających start.
• Inicjatywy bezpieczeństwa
– Wykrywanie w czasie rzeczywistym anomalii instrumentów
pokładowych.
– Wykrywanie awarii z wyprzedzeniem.
– Analiza bezpieczeństwa w różnych fazach lotu.
– Poprawa tzw. standardów serwisowych.
• Inicjatywy komfortu
– Minimalizacja czasu przelotu.
– Identyfikacja rejonów z powszechnym występowaniem turbulencji.
– Minimalizacja liczby tzw. ostrych manewrów oraz zniżania i wznoszenia.
Rozmiar danych
• Jeden lot trwa pomiędzy 2 a 12 godzinami.
Daje to pomiędzy 675kB a 4MB danych / lot
(bez uwzględnienie dodatkowego narzutu).
• W 2014 r. dziennie wykonuje się średnio
102465 lotów.
• Jeden plik QAR to zwykle około 30 lotów, w
wersji nieskompresowanej ma około 255 MB.
Problemy przy analizie tego typu danych
• W danych występują braki (np. brak roku).
• Aktualnie brak jednego standardu zapisu pliku
QAR.
• Pomimo instrukcji serwisowej, karty PCMCIA
nie są formatowane, tylko nadpisywane.
• Jednostki miar są nieujednolicone.
Podsumowanie
1.
Oprogramowanie
typu
open-source
można
dowolnie
modyfikować, dostosowując jego funkcjonalność do własnych
potrzeb. Umożliwia to skupienie się na wynikach badań
naukowych zamiast na odtwarzaniu części wspólnej
funkcjonalności programów analizy danych.
2.
Zastosowanie możliwości centrum obliczeniowego (czy też
silników bazodanowych) nie powinno być traktowane jako
rozwiązanie problemu przetwarzania dużych zbiorów danych.
Bardziej przyszłościowe wydaje się zastosowanie rozwiązań firmy
Infobright opartych na teorii zbiorów przybliżonych.
3.
Nowoczesne oprogramowanie do analizy dużych zbiorów danych
powinno być wyposażone w techniki wizualizacyjne, które
ułatwiają interpretację uzyskanych wyników.
Bibliografia
1.
F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss,V.
Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, E. Duchesnay. Scikit-learn: Machine
Learning in Python. Journal of Machine Learning Research, strony 2825–2830, 2011.
2. M. Ankerst, M. M. Breunig, H.-P. Kriegel, J. Sander. Optics: Ordering points to identify the clustering structure.
SIGMOD 1999, Proceedings ACMSIGMOD International Conference on Management of Data, USA, 1999.
3. M. R. Berthold, C. Borgelt, F. Höppner, F. Klawonn. Guide to Intelligent Data Analysis: How to Intelligently Make
Sense of Real Data. Springer-Verlag, Londyn, Anglia, 2010.
4. M. R. Berthold, N. Cebron, F. Dill, T. R. Gabriel, T. Kötter, T. Meinl, P. Ohl, K. Thiel, B. Wiswedel. KNIME - The
Konstanz Information Miner: Version 2.0 and Beyond. SIGKDD Explorations Newsletter, 11(1), strony 26–31,
2009.
5. M. Ester, K. Ester, H.-P. Sander, J. Sander, X. Xiaowei. A density-based algorithm for discovering clusters in large
spatial databases with noise. International Conference on Knowledge Discovery and Data Mining, USA, 1996.
6. J. Herrero, A. Valencia, J. Dopazo. A hierarchical unsupervised growing neural network for clustering gene
expression patterns. Bioinformatics, 17(1), strony 126–136, 2001.
7. D. T. Larose. Discovering Knowledge in Data: An Introduction to Data Mining. Wiley-Interscience, USA, 2004.
8. A. Wakulicz-Deja, A. Nowak-Brzezinska, T. Xieski. Efficiency of complex data clustering. Lecture Notes in
Computer Science, 6954, strony 636–641, 2011.
9. G. Williams. Strona internetowa pakietu Rattle. http://rattle.togaware.com/rattle-features.html, 2014. [Online;
dostęp 1-maja-2014].
10. G. Williams. Data Mining with Rattle and R The Art of Excavating Data for Knowledge Discovery. Springer
Science+Business, LLC, USA, 2011.
Pytania
Dziękuję za uwagę

Podobne dokumenty