Przeglad darmowego oprogramowania do
Transkrypt
Przeglad darmowego oprogramowania do
Uniwersytet Śląski Przegląd darmowego oprogramowania do analizy dużych zbiorów danych Tomasz Xięski, Tomasz Jach Instytut Informatyki, ul. Będzińska 39, 41-200 Sosnowiec [email protected] [email protected] Uniwersytet Śląski Wyniki ankiety dotyczącej używanego oprogramowania do eksploracji danych Struktura zbioru cell_loss Dane pochodzą z okresu Kwiecień 2010 – Styczeń 2011. Składa się on ostatecznie z 143486 rekordów (obiektów). Podczas grupowania uwzględniane są wszystkie atrybuty za wyjątkiem cellname i zdarzenieId. W bazie występuje pięć atrybutów dychotomicznych (zaznaczone na zielono). Z każdą komórką związane są cztery niezmienne atrybuty jak: jej identyfikator, identyfikator producenta i kontrolera do którego określona komórka przynależy, oraz informacje lokalizacyjne. Dodatkowo pamiętany jest procent straty oraz początek i koniec zdarzenia. NAZWA ATRYBUTU cellname obszarId sektorId kontrolerId dostawcaId strata zdarzenieId data czasTrwaniaH czyPlannowane czestosc czyProblem typProblemu czyWorkflow czyWoINN czyWoInny WARTOŚĆ 50010A1 24 50010 108 4 5 1027271 2010-10-14 2 0 5 1 2 0 0 0 KNIME (ang. KoNstanz Information MinEr) Oprogramowanie oparte na środowisku Eclipse. Interakcja następuje poprzez łączenie w graf elementów (węzłów). Zrealizowane przy zachowaniu zasad modularności i rozszerzalności. Funkcje KNIME Zaimplementowane algorytmy analizy skupień • • • • • K-średnich. Hierarchiczny (aglomeracyjny, deglomeracyjny). Fuzzy c-means. SOTA Lerner. Inne – możliwe jest dołączenie wszystkich algorytmów dostępnych w systemie WEKA. Dostępne metody wizualizacji danych • • • • • Wykresy pudełkowe. Wykresy rozrzutu. Histogramy. Wykresy radarowe. Inne dostępne w bibliotece JFreeChart i systemie R. Rattle (ang. R Analytical Tool To Learn Easily) Graficzna nakładka na pakiet statystyczny R. Składa się z szeregu zakładek umożliwiających ładowanie danych, ich wstępne przetwarzanie, transformację, tworzenie modeli oraz ewaluację wyników. Zakładki przetwarzane są kolejno lub autonomicznie. Funkcje Rattle Zaimplementowane algorytmy analizy skupień • • • • • Hierarchiczny. Ewkm. K-średnich. BiCluster. Inne, dostępne w pakiecie R. Dostępne metody wizualizacji danych • Wszystkie dostępne w pakiecie R. RapidMiner Posiada zarówno wersję komercyjną jak i darmową. Interfejs podobny do KNIME – operatory łączy się w graf skierowany. Dodatkowy podział głównego obszaru roboczego na zakładki. Funkcje RapidMiner Zaimplementowane algorytmy analizy skupień • • • • • • Cztery warianty metody K-średnich. K-medoidów. DBSCAN. EM. Metoda wektorów nośnych SVC. Hierarchiczny (aglomeracyjny i deglomeracyjny). Dostępne metody wizualizacji danych • • • • • Histogramy. Wykres i macierz rozrzutu. Wykresy bąbelkowe. Mapy samoorganizujące się. Przedstawienie struktury skupień w formie interaktywnego grafu. Weka (ang. Waikato Environment for Knowledge Analysis) Dostępne są cztery różne interfejsy: • Explorer. • Experimenter. • Knowledge Flow. • Simple CLI. Interakcja w trybie Explorer odbywa się przez wybór odpowiedniej zakładki z siedmiu dostępnych. Funkcje Weka Zaimplementowane algorytmy analizy skupień • • • • • • • COBWEB. FarthestFirst. K-średnich. DBSCAN. EM. OPTICS. AHC. Dostępne metody wizualizacji danych • Wykres rozrzutu • Macierz wykresów rozrzutu Pakiet scikit-learn: Machine Learning in Python Brak dedykowanego interfejsu graficznego. Analiza i przetwarzanie odbywa się za pomocą programów napisanych w języku Python. Funkcje pakietu scikit-learn Zaimplementowane algorytmy analizy skupień • • • • • • K-średnich. Hierarchiczny (algomeracyjny i deglomeracyjny). DBSCAN. Analiza spektralna. Metoda propagacji podobieństwa (ang. affinity propagation). Przesunięcie do średniej (ang. mean-shift clustering). Dostępne metody wizualizacji danych • Wszystkie dostępne dla języka Python. Rejestrator szybkiego dostępu (ang. Quick Access Recorder) • Zapisuje najważniejsze parametry lotu. • Dane są używane do poprawy bezpieczeństwa i efektywności lotu. • Częstotliwość próbkowania parametrów jest zmienna. • Znacznie mniej odporny od czarnej skrzynki, ale potrafi zapisywać znacznie więcej informacji. • Nie jest wymagany przez prawo lotnicze, jednakże obecny w większości statków powietrznych. Cele badań • Inicjatywy paliwowe – Zmniejszenie zużycia paliwa w zależności od (nieznanych) parametrów. – Optymalizacja zużycia paliwa w stosunku do trasy pokonywanej przez samolot. – Wybór odpowiedniego podejścia na każde lotnisko. – Wyznaczenie optymalnej ilości tankowanego paliwa. – Minimalizacja zużycia agregatów wspomagających start. • Inicjatywy bezpieczeństwa – Wykrywanie w czasie rzeczywistym anomalii instrumentów pokładowych. – Wykrywanie awarii z wyprzedzeniem. – Analiza bezpieczeństwa w różnych fazach lotu. – Poprawa tzw. standardów serwisowych. • Inicjatywy komfortu – Minimalizacja czasu przelotu. – Identyfikacja rejonów z powszechnym występowaniem turbulencji. – Minimalizacja liczby tzw. ostrych manewrów oraz zniżania i wznoszenia. Rozmiar danych • Jeden lot trwa pomiędzy 2 a 12 godzinami. Daje to pomiędzy 675kB a 4MB danych / lot (bez uwzględnienie dodatkowego narzutu). • W 2014 r. dziennie wykonuje się średnio 102465 lotów. • Jeden plik QAR to zwykle około 30 lotów, w wersji nieskompresowanej ma około 255 MB. Problemy przy analizie tego typu danych • W danych występują braki (np. brak roku). • Aktualnie brak jednego standardu zapisu pliku QAR. • Pomimo instrukcji serwisowej, karty PCMCIA nie są formatowane, tylko nadpisywane. • Jednostki miar są nieujednolicone. Podsumowanie 1. Oprogramowanie typu open-source można dowolnie modyfikować, dostosowując jego funkcjonalność do własnych potrzeb. Umożliwia to skupienie się na wynikach badań naukowych zamiast na odtwarzaniu części wspólnej funkcjonalności programów analizy danych. 2. Zastosowanie możliwości centrum obliczeniowego (czy też silników bazodanowych) nie powinno być traktowane jako rozwiązanie problemu przetwarzania dużych zbiorów danych. Bardziej przyszłościowe wydaje się zastosowanie rozwiązań firmy Infobright opartych na teorii zbiorów przybliżonych. 3. Nowoczesne oprogramowanie do analizy dużych zbiorów danych powinno być wyposażone w techniki wizualizacyjne, które ułatwiają interpretację uzyskanych wyników. Bibliografia 1. F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss,V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, E. Duchesnay. Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, strony 2825–2830, 2011. 2. M. Ankerst, M. M. Breunig, H.-P. Kriegel, J. Sander. Optics: Ordering points to identify the clustering structure. SIGMOD 1999, Proceedings ACMSIGMOD International Conference on Management of Data, USA, 1999. 3. M. R. Berthold, C. Borgelt, F. Höppner, F. Klawonn. Guide to Intelligent Data Analysis: How to Intelligently Make Sense of Real Data. Springer-Verlag, Londyn, Anglia, 2010. 4. M. R. Berthold, N. Cebron, F. Dill, T. R. Gabriel, T. Kötter, T. Meinl, P. Ohl, K. Thiel, B. Wiswedel. KNIME - The Konstanz Information Miner: Version 2.0 and Beyond. SIGKDD Explorations Newsletter, 11(1), strony 26–31, 2009. 5. M. Ester, K. Ester, H.-P. Sander, J. Sander, X. Xiaowei. A density-based algorithm for discovering clusters in large spatial databases with noise. International Conference on Knowledge Discovery and Data Mining, USA, 1996. 6. J. Herrero, A. Valencia, J. Dopazo. A hierarchical unsupervised growing neural network for clustering gene expression patterns. Bioinformatics, 17(1), strony 126–136, 2001. 7. D. T. Larose. Discovering Knowledge in Data: An Introduction to Data Mining. Wiley-Interscience, USA, 2004. 8. A. Wakulicz-Deja, A. Nowak-Brzezinska, T. Xieski. Efficiency of complex data clustering. Lecture Notes in Computer Science, 6954, strony 636–641, 2011. 9. G. Williams. Strona internetowa pakietu Rattle. http://rattle.togaware.com/rattle-features.html, 2014. [Online; dostęp 1-maja-2014]. 10. G. Williams. Data Mining with Rattle and R The Art of Excavating Data for Knowledge Discovery. Springer Science+Business, LLC, USA, 2011. Pytania Dziękuję za uwagę