KNIME - kurs podstawowy
Transkrypt
KNIME - kurs podstawowy
KNIME – podstawy obsługi programu Pracownia Chemometrii Środowiska Katedra Chemii i Radiochemii Środowiska Wydział Chemii UG KNIME • KNIME jest programem działającym na licencji GNU – można go pobrać za darmo z oficjalnej strony: http://www.knime.org/knime-analytics-platformsdk-download • Program ma wiele zastosowań w obróbce oraz analizie danych, dzięki czemu stanowi idealne narzędzie do celów analizy statystycznej oraz chemometrycznej. • Ogromną zaletą programu jest graficzny, przyjazny użytkownikowi interfejs. • Przydatne wprowadzenie do programu w języku angielskim: https://tech.knime.org/files/KNIME_quickstart.pdf • Możliwość przechowywania zastosowanych rozwiązań w postaci algorytmu postępowania, dzięki czemu można rozwiązywać podobne problemy na innych danych. 2 Projekty I n t e r f e j s Lista zapisanych projektów. W tym obszarze można je importować i eksportować. Edycja algorytmu Opis NODÓW W tym obszarze ustalamy algorytm działania, dodając kolejne NODY, łącząc je, konfigurując i wykonując żądane operacje. Wyświetla pomoc dotyczącą wybranego NODA, jego opcje dialogowe, informacje dotyczące danych wejściowych oraz spodziewanych rezultatów. Ulubione NODY Zarządzanie ulubionymi i najczęściej używanymi NODAMI. NODY można dodawać z obszaru archiwum NODÓW. Archiwum NODÓW Znajdują się tu wszystkie NODY pogrupowane w kategorie. Pomoc dotycząca każdego z nich wyświetlana jest w polu „opis NODÓW”. Aby dodać kolejne NODY do obszaru edycji algorytmu należy je przeciągnąć z tego obszaru. Podgląd Konsola Tu wyświetlany jest ogólny widok obszaru edycji algorytmu (ułatwia nawigację) Wyświetla informacje o statusie, błędach i ostrzeżeniach. Informacje te można również znaleźć w pliku log. 3 Nazwa Inne porty do wprowadzania wstępnych ustawień / eksportowania gotowych danych / modeli itp. Wprowadzanie danych Dane przetworzone Symbol Status 4 Konfiguracja Wykonaj 5 6 Obszary pomagające w projektowaniu algorytmu działania Tytuły NODÓW nadane przez użytkownika (domyślnie numery) Połączenia pomiędzy NODAMI Opis przeznaczenia wybranych „NODÓW” oraz konfiguracja ustawień 8 Ścieżka: XLS Reader • Służy do importowania danych z arkuszy programu EXCEL® lub podobnych o rozszerzeniu .xls oraz .xlsx. • Podczas konfiguracji możliwe jest ustalenie zakresu kolumn i wierszy, które program zaimportuje. • W przypadku brakujących danych, wartości w komórce wyświetlane są jako „?”. • W przypadku danych nienumerycznych wartości w komórce wyświetlane są jako „NaN”. Zaimportowana macierz 9 Przycisk wyboru ścieżki Ścieżka do pliku z danymi Zaznaczamy jeśli w którymś z wierszy znajdują się nazwy kolumn i podajemy jego numer Zaznaczamy jeśli w którejś z kolumn znajdują się nazwy wierszy i podajemy jej symbol Odczyt całej tabeli Zaznaczanie obszaru który chcemy wczytać (jeśli nie wybieramy opcji wczytania całej tabeli) Odświeża podgląd tabeli Pomiń puste kolumny/ wiersze Podgląd tabeli wczytywanych danych 10 Ścieżka: CSV Reader • Służy do importowania danych z plików o rozszerzeniu .csv. • Można zdefiniować zarówno znak podziału komórek jak i symbol separatora dziesiętnego. • Podczas konfiguracji możliwe jest ustalenie zakresu kolumn i wierszy, które program zaimportuje. • W przypadku brakujących danych, wartości w komórce wyświetlane są jako „?”. • W przypadku danych nienumerycznych wartości w komórce wyświetlane są jako „NaN”. Zaimportowana macierz 11 Symbol podziału kolumn Symbol podziału wierszy Symbol rozpoczęcia cytatu Symbol rozpoczęcia komentarza Zawiera nagłówki kolumn Zawiera nazwy wierszy 12 Table Creator • Służy do tworzenia macierzy z danymi wewnątrz programu KNIME. • Do macierzy można wprowadzać dane zarówno liczbowe jak i tekstowe. Wyboru klasy zmiennej dokonuje się w ustawieniach właściwości poszczególnych kolumn. Utworzona macierz danych 13 Nie włączaj kolumny do ostatecznej tabeli Edycja właściwości kolumny Nazwa kolumny Obszar wpisywania danych Typ zmiennej (integrer – liczba całkowita, double – złożona, string tekst) 14 Ścieżka: Column Filter • Pozwala na zredukowanie wymiarów macierzy poprzez wyselekcjonowanie odpowiednich kolumn. Macierz wejściowa Macierz zredukowana 15 Wybór użytkownika Dodaj / dodaj wszystkie Wybór według typu (liczby złożone, tekstowe itp.) Wybrane kolumny Kolumny odrzucone Odrzuć / odrzuć wszystkie 16 Ścieżka: Column Splitter • Służy do dzielenia macierzy danych na osobne macierze, poprzez zakwalifikowanie poszczególnych kolumn do dwóch osobnych grup. Macierz wyjściowa 1 Macierz wejściowa Macierz wyjściowa 2 17 Kolumny odrzucone Wybrane kolumny 18 Reference Column Splitter Ścieżka: • Służy do dzielenia macierzy danych na osobne macierze, poprzez zakwalifikowanie poszczególnych kolumn do dwóch osobnych grup, zgodnie z danymi z zaimportowanej listy referencyjnej. Macierz wejściowa Macierz wyjściowa Macierz referencyjna 19 Dodaj/usuń kolumny takie jak na liście referencyjnej 20 Ścieżka: Row Filter • Pozwala na zredukowanie wymiarów macierzy poprzez wyselekcjonowanie odpowiednich wierszy. Macierz wejściowa Macierz zredukowana 21 Wybór referencyjnego wiersza Włącz/odrzuć według wartości atrybutu Włącz/odrzuć według numeru Włącz/odrzuć według nazwy Wybór schematu porównania Wybór zakresu wartości w wierszu referencyjnym Tylko wiersze z wartościami brakującymi 22 Włącz/odrzuć według wartości atrybutu Ustawienia zakresu wierszy Włącz/odrzuć według numeru Włącz/odrzuć według nazwy 23 Ścieżka: Row Splitter • Służy do dzielenia macierzy danych na osobne macierze, poprzez zakwalifikowanie poszczególnych wierszy do dwóch osobnych grup. Macierz wyjściowa 1 Macierz wejściowa Macierz wyjściowa 2 24 Wybór referencyjnego wiersza Włącz/odrzuć według wartości atrybutu Włącz/odrzuć według numeru Włącz/odrzuć według nazwy Wybór schematu porównania Wybór zakresu wartości w wierszu referencyjnym Tylko wiersze z wartościami brakującymi 25 Ścieżka: Reference Row Filter • Służy do dzielenia macierzy danych na osobne macierze, poprzez zakwalifikowanie poszczególnych wierszy do dwóch osobnych grup, zgodnie z danymi z zaimportowanej listy referencyjnej. Macierz wejściowa Macierz wyjściowa Macierz referencyjna 26 Wybór kolumny z macierzy danych Wybór kolumny z macierzy referencyjnej Dodaj/usuń wiersze, które znajdują się w obu kolumnach 27 Ścieżka: Transpose • Służy do transponowania macierzy. Macierz wejściowa Macierz transponowana 28 Ilość kolumn odczytywana podczas jednej iteracji algorytmu – zwiększenie wartości zwiększa szybkość ale i zużycie pamięci 29 Ścieżka: Normalizer • Służy do przeprowadzania procesu normalizacji oraz skalowania danych. • Parametry normalizacji dostępne są jako dane wyjściowe, dzięki czemu można użyć ich w innych NODACH. Pozwala to na skalowanie/normalizację innych kolumn używając tych samych parametrów (średnia, odchylenie standardowe). • Domyślnie skalowanie odbywa się po kolumnach. Aby skalować po wierszach należy wcześniej przeprowadzić transpozycję. Macierz znormalizowana Macierz wejściowa Model zawierający parametry normalizacji 30 Kolumny odrzucone Wybrane kolumny Normalizacja do zakresu wartości Autoskalowanie Normalizacja do wartości po przecinku (np. 123 => 0.123) 31 Math Formula • Służy do przeprowadzania operacji matematycznych na elementach macierzy. • Działanie formułujemy poprzez wybór odpowiednich kolumn ze spisu po prawej stronie okna konfiguracji oraz poprzez wybór odpowiednich operacji, jakie mają zostać na nich wykonane. • Wyniki pojawią się w nowej, specjalnie utworzonej kolumnie o nazwie zadeklarowanej przez użytkownika. Macierz wejściowa Macierz z dodatkową kolumną zawierającą wynik działania 32 Spis kategorii funkcji Opis zaznaczonej funkcji Lista kolumn w macierzy Postać działania, które zostanie wykonane Funkcje Dodaj kolumnę (z wynikami) Zastąp wynikiem kolumnę (wybór z listy) 33 Ścieżka: PCA • Służy do przeprowadzania Analizy Głównych Składowych (ang. Principle Component Analysis – PCA). • PCA pozwala na redukcję ilości zmiennych z zachowaniem możliwie dużej ilości informacji o ich zmienności. • W KNIME możliwe jest ręczne ustawienie ilości oczekiwanych Głównych Składowych (ang. Principle Component – PC), które mają zostać utworzone lub założenie minimalnej ilości informacji, którą mają w sobie zawierać. Macierz wejściowa Macierz wyjściowa zawierająca dodatkowo PC 34 Ilość PC, które mają zostać utworzone Kolumny odrzucone Do jakiej minimalnej wartości sumarycznej wariancji zredukować zbiór Wybrane kolumny 35 Hierarchical Clustering Ścieżka: • Służy do przeprowadzania Hierarchicznej Analizy Skupień (ang. Hierarchical Cluster Analysis – HCA). • NOD oblicza macierz odległości pomiędzy obiektami w macierzy i rysuje na ich podstawie dendrogram zgodnie z wybraną metodą łączenia skupień. • Możliwe jest także przeprowadzenie tej samej analizy za pomocą połączonych NODÓW Numeric Distances, Hierarchical Clustering (DistMatrix) oraz Hierarchical Cluster View. Macierz wejściowa Macierz wyjściowa z dodatkową kolumną, zawierającą informacje do jakiego skupienia zakwalifikowano poszczególne elementy 36 Ilość skupień na które ma zostać podzielony zbiór Wybór miary odległości Wybór metody łączenia skupień Kolumny odrzucone Wybrane kolumny 37 Ścieżka: Numeric Distances • Służy do obliczania wartości odległości pomiędzy obiektami w macierzy. Macierz wejściowa Macierz odległości 38 Wybrane kolumny Kolumny odrzucone Wybór miary odległości Normalizuj odległości Sposób postępowania w przypadku wartości brakujących 39 Ścieżka: Hierarchical Clustering (DistMatrix) • NOD łączy obiekty w skupienia zgodnie z wybraną metodą, które można wykorzystać później do budowy dendrogramu. Macierz wejściowa Wprowadzenie miary odległości (opcjonalne) Obiekty pogrupowane w skupienia 40 Informacje o wskazanej macierzy odległości Ignoruj brakujące wartości Metoda łączenia skupień 41 Hierarchical Cluster View Ścieżka: • Wyświetla dendrogram na podstawie danych pochodzących z NODA Hierarchical Clustering (DistMatrix) Obiekty pogrupowane w skupienia (z Hierarchical Clustering (DistMatrix)) Macierz wyjściowa dla której obliczono wcześniej odległości pomiędzy obiektami 42 Wyświetla utworzony dendrogram 43 Scatter Plot Ścieżka: • Służy do prezentacji przebiegu zmiennej Y w funkcji zmiennej X na wykresie punktowym. Macierz wejściowa 44 Ilość wierszy, z których dane ma wyświetlać wykres Ignoruje kolumny zawierające większą niż założona ilość odrębnych wartości nominalnych 45 Wyświetla okno wykresów 46 Obszar wykresu Wybór akcji myszy (zaznacz, przesuń, powiększ) Dopasuj do wymiaru okna 47 Zakres wartości osi X iY Wybór kolumn wyświetlanych na wykresie 48 Linear Regression Learner Ścieżka: • Służy do obliczania współczynników równania funkcji liniowej za pomocą metody Wielokrotnej Regresji Liniowej. • Jeden w wyjściowych portów zawiera dane modelu, które można połączyć z NODEM „Regression Predictior”. Macierz wejściowa Dane modelu Informacje dotyczące wstępnej obróbki danych (autoskalowanie itp.) Współczynniki i statystyki opracowanego modelu 49 Modelowana zmienna (zależna) Kolumny odrzucone Wybrane kolumny (zmienne niezależne) Ignoruj wiersze z brakującymi wartościami Wyraz wolny definiowany przez użytkownika Przerwij proces jeśli modelowana zmienna ma brakujące wartości Wybór wierszy do wykresu punktowego 50 Ścieżka: Regression Predictor • Po zaimportowaniu modelu z NODA „Linear Regression Learner” oraz macierzy danych, można uzyskać oszacowania nieznanych dotychczas wartości zmiennej zależnej dla znajdujących się w macierzy obserwacji. Dane modelu z NODA Linear Regression Learner Macierz wyjściowa (z dodatkową kolumną zawierającą oszacowania zmiennej zależnej) Macierz wejściowa 51 Nazwa kolumny zawierającej modelowaną zmienną Dodaj kolumnę zawierającą prawdopodobieństwo trafności oszacowania Nazwa kolumny 52 Ścieżka: Statistics • Służy do obliczania statystyk danego rozkładu oraz wyświetla histogramy. Macierz zawierająca obliczone statystyki Macierz wejściowa Macierz zawierająca dane dotyczące histogramu Macierz zawierająca liczebność obserwacji w przedziałach 53 Oblicz medianę Kolumny odrzucone Wybrane kolumny 54 Rozszerzenie pliku z utworzonym obrazem histogramu Rozmiary histogramu (szerokość i wysokość) Pokaż wartości minimalną i maksymalną 55 Wartość minimalna Nazwa kolumny Odchylenie standardowe Mediana Średnia Wartość maksymalna Ilość wartości +nieskończoność Kurtoza Skośność Ilość brakujących Histogram Ilość wartości -nieskończoność 56 Histogram Ścieżka: • Służy do tworzenia histogramów. Macierz wejściowa 57 Kolumna z której ma powstać histogram Kolumny odrzucone Kolumna z której ma powstać histogram (wybieramy to samo co w binning column) Ilość przedziałów 58 Ścieżka: Linear Correlation • Służy do obliczania współczynnika korelacji r-Pearsona pomiędzy wszystkimi kombinacjami zmiennych w macierzy. Macierz korelacji Macierz wejściowa Model zawierający miary korelacji 59 Kolumny odrzucone Wybrane kolumny 60 Single sample t-test • Służy do przeprowadzenia testu parametrycznego t-studenta dla jednego szeregu statystycznego, w którym testujemy hipotezę o przynależności tego szeregu do populacji generalnej o ustalonej wartości średniej. Statystyki pochodzące z testu (właściwy wynik) Macierz wejściowa (szereg statystyczny w jednej z kolumn) Statystyki opisujące szereg statystyczny 61 Wartość, do której porównujemy średnią Przedział ufności Kolumny odrzucone Wybrane kolumny 62 Paired t-test • Służy do przeprowadzania testu t-studenta dla par wiązanych. • Porównywane szeregi w macierzy wejściowej muszą być umieszczone w 2 kolumnach, z których pierwsza zawiera kolejne obserwacje a druga ich kolejne pary. • Możliwe jest przeprowadzenie testu dla kilku par za pomocą jednego NODA. Statystyki pochodzące z testu (właściwy wynik) Macierz wejściowa Statystyki opisujące szeregi statystyczne 63 Lewa kolumna zawierająca kolejne obserwacje Prawa kolumna zawierająca obserwacje, stanowiące pary kolumny lewej Usuwanie par Dodawanie kolejnych par wiązanych z macierzy wejściowej Przedział ufności 64 Independent groups t-test • Służy do przeprowadzania testu t-studenta różnicy między średnimi, zarówno przy różnych oraz przy równych wariancjach. • Jedna z kolumn macierzy wejściowej musi zawierać porównywane dane, druga zaś określać przynależność poszczególnych obserwacji do jednej z dwóch grup (np. poprzez przyjmowanie wartości 0 lub 1) • Dodatkowo przeprowadzany jest test F Statystyki dla oceny różnic między wariancjami. pochodzące z testu t (właściwy wynik) Macierz wejściowa Statystyki pochodzące z testu F Statystyki opisujące szeregi statystyczne 65 Przykładowe dane wejściowe do NODA „Independent groups t-test" 66 Kolumna (grupująca) zawierająca informacje o przynależności danych do 2 grup Przedział ufności Kolumny odrzucone Wartości jakie przyjmują dane dla 2 różnych dwóch grup w kolumnie grupującej Wybrane kolumny 67 One-way ANOVA • Służy do przeprowadzania analizy wariancji ANOVA. Statystyki pochodzące z testu t (właściwy wynik) Macierz wejściowa Statystyki pochodzące z testu F Statystyki opisujące szeregi statystyczne 68 Przykładowe dane wejściowe do NODA „One-way ANOVA" 69 Kolumna (grupująca) zawierająca informacje o przynależności danych do grup Przedział ufności Kolumny odrzucone Wybrane kolumny 70 Przykłady zastosowania programu KNIME 71 Schemat pracy z programem • Otwieramy program i tworzymy nowy algorytm („workflow”). • W oknie archiwum wybieramy odpowiednie NODY, które posłużą do realizacji celu. • Tworzymy schemat analizy w oknie 2. • Łączymy i konfigurujemy kolejne NODY a następnie używamy ich do wykonania poszczególnych etapów (okno 2). • Odczytujemy i interpretujemy wyniki. 72 Przykład 1 • Problem: Jak wygląda wzajemna relacja pomiędzy zawartością sodu i chloru w próbkach gleby. Tabela 1: zawartość poszczególnych pierwiastków w próbkach gleby (A-J) Nazwa A B C D E F G H I J Mg 0,276025 0,679703 0,655098 0,162612 0,118998 0,498364 0,959744 0,340386 0,585268 0,223812 Na 0,90152 0,306114 0,607148 0,838892 1,069084 1,15115 0,656659 0,166349 0,179153 0,30901 Cl 0,168143 0,050856 0,162857 0,048705 0,185853 0,069997 0,039319 0,050217 0,123209 0,094658 Pb 0,35166 0,830829 0,585264 0,549724 0,917194 0,285839 0,7572 0,753729 0,380446 0,567822 K 0,166879 0,11869 1,167755 1,714168 2,054824 0,285794 1,251412 1,032659 0,026185 0,74167 73 Przykład 1 • Cel: obliczenie współczynnika korelacji pomiędzy dwiema zmiennymi oraz graficzna prezentacja ich wzajemnej relacji na wykresie punktowym. • Kroki: • • • • • Import danych z tabeli (plik *.xlsx) Wybór kolumn do dalszej analizy Autoskalowanie danych Prezentacja zmiennych na wykresie Obliczenie współczynnika korelacji 74 Przykład 1 • Cel: obliczenie współczynnika korelacji pomiędzy dwiema zmiennymi oraz graficzna prezentacja ich wzajemnej relacji na wykresie punktowym. • Kroki: • • • • • Import danych z tabeli (plik *.xlsx) Wybór kolumn do dalszej analizy Autoskalowanie danych Prezentacja zmiennych na wykresie Obliczenie współczynnika korelacji 75 Przykład 1 • Tworzymy algorytm 76 Przykład 1 • Wyniki 77 Przejrzystość algorytmu 78 Przykład 2 • Problem: jaki jest rozkład zmiennych A, B i C na histogramie oraz jakie są dla nich wartości skośności, kurtozy, odchylenia standardowego, średniej oraz mediany. A B C 19 21 32 1 29 6 22 21 19 23 11 29 33 18 5 24 12 34 24 9 18 35 8 26 17 14 27 17 39 14 27 28 22 24 16 16 28 8 27 17 8 25 14 18 7 19 13 6 3 14 18 1 14 23 14 17 9 18 13 21 32 9 22 22 37 12 11 11 1 16 15 33 12 17 37 35 2 16 35 14 38 6 18 6 18 34 3 22 31 14 40 7 23 32 26 8 13 9 12 28 11 29 79 Przykład 2 • Cel: obliczenie poszczególnych wielkości oraz graficzna utworzenie histogramów. • Kroki: • • • • • • • Import danych z tabeli (plik *.xlsx) Prezentacja danych na histogramach Obliczenie skośności Obliczenie kurtozy Obliczenie średniej Obliczenie mediany Obliczenie odchylenia standardowego 80 Przykład 2 • Cel: obliczenie współczynnika korelacji pomiędzy dwiema zmiennymi oraz graficzna prezentacja ich wzajemnej relacji na wykresie punktowym. • Kroki: • • • • • • • Import danych z tabeli (plik *.xlsx) Prezentacja danych na histogramach Obliczenie skośności Obliczenie kurtozy Obliczenie średniej Obliczenie mediany Obliczenie odchylenia standardowego 81 Przykład 2 • Tworzymy algorytm LUB 82 Przykład 2 • Wyniki. Przykład 2 • Wyniki. A B C 84 Przykład 2 • Opcje prezentacji wyników. 85