KNIME - kurs podstawowy

Transkrypt

KNIME - kurs podstawowy
KNIME – podstawy obsługi
programu
Pracownia Chemometrii Środowiska
Katedra Chemii i Radiochemii Środowiska
Wydział Chemii UG
KNIME
• KNIME jest programem działającym na licencji GNU – można go pobrać za
darmo z oficjalnej strony: http://www.knime.org/knime-analytics-platformsdk-download
• Program ma wiele zastosowań w obróbce oraz analizie danych, dzięki
czemu stanowi idealne narzędzie do celów analizy statystycznej oraz
chemometrycznej.
• Ogromną zaletą programu jest graficzny, przyjazny użytkownikowi interfejs.
• Przydatne wprowadzenie do programu w języku angielskim:
https://tech.knime.org/files/KNIME_quickstart.pdf
• Możliwość przechowywania zastosowanych rozwiązań w postaci algorytmu
postępowania, dzięki czemu można rozwiązywać podobne problemy na
innych danych.
2
Projekty
I
n
t
e
r
f
e
j
s
Lista zapisanych projektów. W tym obszarze
można je importować i eksportować.
Edycja algorytmu
Opis NODÓW
W tym obszarze ustalamy algorytm działania,
dodając kolejne NODY, łącząc je, konfigurując i
wykonując żądane operacje.
Wyświetla pomoc dotyczącą
wybranego NODA, jego opcje
dialogowe, informacje
dotyczące danych wejściowych
oraz spodziewanych
rezultatów.
Ulubione NODY
Zarządzanie ulubionymi i najczęściej używanymi
NODAMI. NODY można dodawać z obszaru
archiwum NODÓW.
Archiwum NODÓW
Znajdują się tu wszystkie NODY pogrupowane w
kategorie. Pomoc dotycząca każdego z nich wyświetlana
jest w polu „opis NODÓW”. Aby dodać kolejne NODY do
obszaru edycji algorytmu należy je przeciągnąć z tego
obszaru.
Podgląd
Konsola
Tu wyświetlany jest ogólny
widok obszaru edycji
algorytmu (ułatwia nawigację)
Wyświetla informacje o statusie, błędach i
ostrzeżeniach. Informacje te można również znaleźć w
pliku log.
3
Nazwa
Inne porty do
wprowadzania wstępnych
ustawień / eksportowania
gotowych danych /
modeli itp.
Wprowadzanie
danych
Dane
przetworzone
Symbol
Status
4
Konfiguracja
Wykonaj
5
6
Obszary pomagające
w projektowaniu
algorytmu działania
Tytuły NODÓW
nadane przez
użytkownika
(domyślnie numery)
Połączenia
pomiędzy
NODAMI
Opis przeznaczenia wybranych „NODÓW” oraz
konfiguracja ustawień
8
Ścieżka:
XLS Reader
• Służy do importowania danych z arkuszy programu EXCEL® lub podobnych o rozszerzeniu
.xls oraz .xlsx.
• Podczas konfiguracji możliwe jest ustalenie zakresu kolumn i wierszy, które program
zaimportuje.
• W przypadku brakujących danych, wartości w komórce wyświetlane są jako „?”.
• W przypadku danych nienumerycznych wartości w komórce wyświetlane są jako „NaN”.
Zaimportowana
macierz
9
Przycisk
wyboru
ścieżki
Ścieżka do
pliku z danymi
Zaznaczamy jeśli w
którymś z wierszy
znajdują się nazwy
kolumn i podajemy
jego numer
Zaznaczamy jeśli w
którejś z kolumn
znajdują się nazwy
wierszy i podajemy
jej symbol
Odczyt całej
tabeli
Zaznaczanie obszaru
który chcemy wczytać
(jeśli nie wybieramy
opcji wczytania całej
tabeli)
Odświeża
podgląd tabeli
Pomiń puste
kolumny/
wiersze
Podgląd tabeli
wczytywanych
danych
10
Ścieżka:
CSV Reader
• Służy do importowania danych z plików o rozszerzeniu .csv.
• Można zdefiniować zarówno znak podziału komórek jak i symbol separatora dziesiętnego.
• Podczas konfiguracji możliwe jest ustalenie zakresu kolumn i wierszy, które program
zaimportuje.
• W przypadku brakujących danych, wartości w komórce wyświetlane są jako „?”.
• W przypadku danych nienumerycznych wartości w komórce wyświetlane są jako „NaN”.
Zaimportowana
macierz
11
Symbol podziału
kolumn
Symbol podziału
wierszy
Symbol
rozpoczęcia cytatu
Symbol
rozpoczęcia
komentarza
Zawiera nagłówki
kolumn
Zawiera nazwy
wierszy
12
Table Creator
• Służy do tworzenia macierzy z danymi wewnątrz programu KNIME.
• Do macierzy można wprowadzać dane zarówno liczbowe jak i tekstowe. Wyboru klasy
zmiennej dokonuje się w ustawieniach właściwości poszczególnych kolumn.
Utworzona
macierz danych
13
Nie włączaj
kolumny do
ostatecznej tabeli
Edycja
właściwości
kolumny
Nazwa kolumny
Obszar
wpisywania
danych
Typ zmiennej
(integrer – liczba
całkowita, double –
złożona, string tekst)
14
Ścieżka:
Column Filter
• Pozwala na zredukowanie wymiarów macierzy poprzez wyselekcjonowanie
odpowiednich kolumn.
Macierz
wejściowa
Macierz
zredukowana
15
Wybór
użytkownika
Dodaj / dodaj
wszystkie
Wybór według
typu (liczby
złożone, tekstowe
itp.)
Wybrane
kolumny
Kolumny
odrzucone
Odrzuć /
odrzuć
wszystkie
16
Ścieżka:
Column Splitter
• Służy do dzielenia macierzy danych na osobne macierze, poprzez zakwalifikowanie
poszczególnych kolumn do dwóch osobnych grup.
Macierz
wyjściowa 1
Macierz
wejściowa
Macierz
wyjściowa 2
17
Kolumny
odrzucone
Wybrane
kolumny
18
Reference Column Splitter
Ścieżka:
• Służy do dzielenia macierzy danych na osobne macierze, poprzez zakwalifikowanie
poszczególnych kolumn do dwóch osobnych grup, zgodnie z danymi z zaimportowanej
listy referencyjnej.
Macierz
wejściowa
Macierz
wyjściowa
Macierz
referencyjna
19
Dodaj/usuń
kolumny takie jak
na liście
referencyjnej
20
Ścieżka:
Row Filter
• Pozwala na zredukowanie wymiarów macierzy poprzez wyselekcjonowanie odpowiednich
wierszy.
Macierz
wejściowa
Macierz
zredukowana
21
Wybór
referencyjnego
wiersza
Włącz/odrzuć
według wartości
atrybutu
Włącz/odrzuć
według
numeru
Włącz/odrzuć
według nazwy
Wybór schematu
porównania
Wybór zakresu
wartości w
wierszu
referencyjnym
Tylko wiersze z
wartościami
brakującymi
22
Włącz/odrzuć
według wartości
atrybutu
Ustawienia
zakresu wierszy
Włącz/odrzuć
według
numeru
Włącz/odrzuć
według nazwy
23
Ścieżka:
Row Splitter
• Służy do dzielenia macierzy danych na osobne macierze, poprzez zakwalifikowanie
poszczególnych wierszy do dwóch osobnych grup.
Macierz
wyjściowa 1
Macierz
wejściowa
Macierz
wyjściowa 2
24
Wybór
referencyjnego
wiersza
Włącz/odrzuć
według wartości
atrybutu
Włącz/odrzuć
według
numeru
Włącz/odrzuć
według nazwy
Wybór schematu
porównania
Wybór zakresu
wartości w
wierszu
referencyjnym
Tylko wiersze z
wartościami
brakującymi
25
Ścieżka:
Reference Row Filter
• Służy do dzielenia macierzy danych na osobne macierze, poprzez zakwalifikowanie
poszczególnych wierszy do dwóch osobnych grup, zgodnie z danymi z zaimportowanej
listy referencyjnej.
Macierz
wejściowa
Macierz
wyjściowa
Macierz
referencyjna
26
Wybór kolumny z
macierzy danych
Wybór kolumny z
macierzy
referencyjnej
Dodaj/usuń
wiersze, które
znajdują się w obu
kolumnach
27
Ścieżka:
Transpose
• Służy do transponowania macierzy.
Macierz
wejściowa
Macierz
transponowana
28
Ilość kolumn
odczytywana podczas
jednej iteracji algorytmu
– zwiększenie wartości
zwiększa szybkość ale i
zużycie pamięci
29
Ścieżka:
Normalizer
• Służy do przeprowadzania procesu normalizacji oraz skalowania danych.
• Parametry normalizacji dostępne są jako dane wyjściowe, dzięki czemu można użyć ich w
innych NODACH. Pozwala to na skalowanie/normalizację innych kolumn używając tych
samych parametrów (średnia, odchylenie standardowe).
• Domyślnie skalowanie odbywa się po kolumnach. Aby skalować po wierszach należy
wcześniej przeprowadzić transpozycję.
Macierz
znormalizowana
Macierz
wejściowa
Model
zawierający
parametry
normalizacji
30
Kolumny
odrzucone
Wybrane
kolumny
Normalizacja
do zakresu
wartości
Autoskalowanie
Normalizacja do
wartości po
przecinku (np. 123
=> 0.123)
31
Math Formula
• Służy do przeprowadzania operacji matematycznych na elementach macierzy.
• Działanie formułujemy poprzez wybór odpowiednich kolumn ze spisu po prawej stronie
okna konfiguracji oraz poprzez wybór odpowiednich operacji, jakie mają zostać na nich
wykonane.
• Wyniki pojawią się w nowej, specjalnie utworzonej kolumnie o nazwie zadeklarowanej
przez użytkownika.
Macierz
wejściowa
Macierz z dodatkową
kolumną zawierającą
wynik działania
32
Spis kategorii
funkcji
Opis zaznaczonej
funkcji
Lista kolumn w
macierzy
Postać działania,
które zostanie
wykonane
Funkcje
Dodaj kolumnę (z
wynikami)
Zastąp wynikiem
kolumnę (wybór z
listy)
33
Ścieżka:
PCA
• Służy do przeprowadzania Analizy Głównych Składowych (ang. Principle Component
Analysis – PCA).
• PCA pozwala na redukcję ilości zmiennych z zachowaniem możliwie dużej ilości informacji
o ich zmienności.
• W KNIME możliwe jest ręczne ustawienie ilości oczekiwanych Głównych Składowych (ang.
Principle Component – PC), które mają zostać utworzone lub założenie minimalnej ilości
informacji, którą mają w sobie zawierać.
Macierz
wejściowa
Macierz
wyjściowa
zawierająca
dodatkowo PC
34
Ilość PC, które
mają zostać
utworzone
Kolumny
odrzucone
Do jakiej minimalnej
wartości sumarycznej
wariancji zredukować
zbiór
Wybrane
kolumny
35
Hierarchical Clustering
Ścieżka:
• Służy do przeprowadzania Hierarchicznej Analizy Skupień (ang. Hierarchical Cluster
Analysis – HCA).
• NOD oblicza macierz odległości pomiędzy obiektami w macierzy i rysuje na ich podstawie
dendrogram zgodnie z wybraną metodą łączenia skupień.
• Możliwe jest także przeprowadzenie tej samej analizy za pomocą połączonych NODÓW
Numeric Distances, Hierarchical Clustering (DistMatrix) oraz Hierarchical Cluster View.
Macierz
wejściowa
Macierz wyjściowa z
dodatkową kolumną,
zawierającą informacje
do jakiego skupienia
zakwalifikowano
poszczególne elementy
36
Ilość skupień na
które ma zostać
podzielony zbiór
Wybór miary
odległości
Wybór metody
łączenia
skupień
Kolumny
odrzucone
Wybrane
kolumny
37
Ścieżka:
Numeric Distances
• Służy do obliczania wartości odległości pomiędzy obiektami w macierzy.
Macierz
wejściowa
Macierz
odległości
38
Wybrane
kolumny
Kolumny
odrzucone
Wybór miary
odległości
Normalizuj
odległości
Sposób postępowania
w przypadku wartości
brakujących
39
Ścieżka:
Hierarchical Clustering
(DistMatrix)
• NOD łączy obiekty w skupienia zgodnie z wybraną metodą, które można wykorzystać
później do budowy dendrogramu.
Macierz
wejściowa
Wprowadzenie
miary
odległości
(opcjonalne)
Obiekty
pogrupowane
w skupienia
40
Informacje o
wskazanej
macierzy
odległości
Ignoruj brakujące
wartości
Metoda łączenia
skupień
41
Hierarchical Cluster View
Ścieżka:
• Wyświetla dendrogram na podstawie danych pochodzących z NODA Hierarchical
Clustering (DistMatrix)
Obiekty pogrupowane
w skupienia (z
Hierarchical Clustering
(DistMatrix))
Macierz wyjściowa
dla której obliczono
wcześniej odległości
pomiędzy obiektami
42
Wyświetla
utworzony
dendrogram
43
Scatter Plot
Ścieżka:
• Służy do prezentacji przebiegu zmiennej Y w funkcji zmiennej X na wykresie punktowym.
Macierz
wejściowa
44
Ilość wierszy, z
których dane ma
wyświetlać wykres
Ignoruje kolumny
zawierające większą
niż założona ilość
odrębnych wartości
nominalnych
45
Wyświetla
okno
wykresów
46
Obszar
wykresu
Wybór akcji myszy
(zaznacz, przesuń,
powiększ)
Dopasuj do
wymiaru okna
47
Zakres
wartości osi X
iY
Wybór kolumn
wyświetlanych
na wykresie
48
Linear Regression Learner
Ścieżka:
• Służy do obliczania współczynników równania funkcji liniowej za pomocą metody
Wielokrotnej Regresji Liniowej.
• Jeden w wyjściowych portów zawiera dane modelu, które można połączyć z NODEM
„Regression Predictior”.
Macierz
wejściowa
Dane modelu
Informacje dotyczące
wstępnej obróbki
danych
(autoskalowanie itp.)
Współczynniki i
statystyki
opracowanego
modelu
49
Modelowana
zmienna
(zależna)
Kolumny
odrzucone
Wybrane kolumny
(zmienne
niezależne)
Ignoruj wiersze z
brakującymi
wartościami
Wyraz wolny
definiowany przez
użytkownika
Przerwij proces jeśli
modelowana
zmienna ma
brakujące wartości
Wybór wierszy do
wykresu
punktowego
50
Ścieżka:
Regression Predictor
• Po zaimportowaniu modelu z NODA „Linear Regression Learner” oraz macierzy danych,
można uzyskać oszacowania nieznanych dotychczas wartości zmiennej zależnej dla
znajdujących się w macierzy obserwacji.
Dane modelu z
NODA Linear
Regression
Learner
Macierz wyjściowa (z
dodatkową kolumną
zawierającą
oszacowania zmiennej
zależnej)
Macierz
wejściowa
51
Nazwa kolumny
zawierającej
modelowaną
zmienną
Dodaj kolumnę
zawierającą
prawdopodobieństwo
trafności oszacowania
Nazwa kolumny
52
Ścieżka:
Statistics
• Służy do obliczania statystyk danego rozkładu oraz wyświetla histogramy.
Macierz
zawierająca
obliczone
statystyki
Macierz
wejściowa
Macierz
zawierająca
dane dotyczące
histogramu
Macierz zawierająca
liczebność obserwacji
w przedziałach
53
Oblicz
medianę
Kolumny
odrzucone
Wybrane
kolumny
54
Rozszerzenie pliku
z utworzonym
obrazem
histogramu
Rozmiary
histogramu
(szerokość i
wysokość)
Pokaż wartości
minimalną i
maksymalną
55
Wartość
minimalna
Nazwa
kolumny
Odchylenie
standardowe
Mediana
Średnia
Wartość
maksymalna
Ilość wartości
+nieskończoność
Kurtoza
Skośność
Ilość
brakujących
Histogram
Ilość wartości
-nieskończoność
56
Histogram
Ścieżka:
• Służy do tworzenia histogramów.
Macierz
wejściowa
57
Kolumna z której
ma powstać
histogram
Kolumny
odrzucone
Kolumna z której ma
powstać histogram
(wybieramy to samo
co w binning column)
Ilość przedziałów
58
Ścieżka:
Linear Correlation
• Służy do obliczania współczynnika korelacji r-Pearsona pomiędzy wszystkimi kombinacjami
zmiennych w macierzy.
Macierz
korelacji
Macierz
wejściowa
Model
zawierający
miary korelacji
59
Kolumny
odrzucone
Wybrane
kolumny
60
Single sample t-test
• Służy do przeprowadzenia testu parametrycznego t-studenta dla jednego szeregu
statystycznego, w którym testujemy hipotezę o przynależności tego szeregu do populacji
generalnej o ustalonej wartości średniej.
Statystyki
pochodzące z
testu (właściwy
wynik)
Macierz
wejściowa (szereg
statystyczny w
jednej z kolumn)
Statystyki
opisujące szereg
statystyczny
61
Wartość, do której
porównujemy
średnią
Przedział ufności
Kolumny
odrzucone
Wybrane kolumny
62
Paired t-test
• Służy do przeprowadzania testu t-studenta dla par wiązanych.
• Porównywane szeregi w macierzy wejściowej muszą być umieszczone w 2 kolumnach, z
których pierwsza zawiera kolejne obserwacje a druga ich kolejne pary.
• Możliwe jest przeprowadzenie testu dla kilku par za pomocą jednego NODA.
Statystyki
pochodzące z
testu (właściwy
wynik)
Macierz
wejściowa
Statystyki
opisujące szeregi
statystyczne
63
Lewa kolumna
zawierająca
kolejne
obserwacje
Prawa kolumna
zawierająca
obserwacje,
stanowiące pary
kolumny lewej
Usuwanie par
Dodawanie kolejnych
par wiązanych z
macierzy wejściowej
Przedział ufności
64
Independent groups t-test
• Służy do przeprowadzania testu t-studenta różnicy między średnimi, zarówno przy
różnych oraz przy równych wariancjach.
• Jedna z kolumn macierzy wejściowej musi zawierać porównywane dane, druga zaś
określać przynależność poszczególnych obserwacji do jednej z dwóch grup (np. poprzez
przyjmowanie wartości 0 lub 1)
• Dodatkowo przeprowadzany jest test F
Statystyki
dla oceny różnic między wariancjami.
pochodzące z
testu t (właściwy
wynik)
Macierz
wejściowa
Statystyki
pochodzące z
testu F
Statystyki
opisujące szeregi
statystyczne
65
Przykładowe dane
wejściowe do NODA
„Independent groups
t-test"
66
Kolumna (grupująca)
zawierająca
informacje o
przynależności
danych do 2 grup
Przedział ufności
Kolumny
odrzucone
Wartości jakie
przyjmują dane dla 2
różnych dwóch grup
w kolumnie
grupującej
Wybrane kolumny
67
One-way ANOVA
• Służy do przeprowadzania analizy wariancji ANOVA.
Statystyki
pochodzące z
testu t (właściwy
wynik)
Macierz
wejściowa
Statystyki
pochodzące z
testu F
Statystyki
opisujące szeregi
statystyczne
68
Przykładowe dane
wejściowe do NODA
„One-way ANOVA"
69
Kolumna (grupująca)
zawierająca
informacje o
przynależności
danych do grup
Przedział ufności
Kolumny
odrzucone
Wybrane kolumny
70
Przykłady zastosowania programu KNIME
71
Schemat pracy z programem
• Otwieramy program i tworzymy nowy algorytm („workflow”).
• W oknie archiwum wybieramy odpowiednie NODY, które posłużą do
realizacji celu.
• Tworzymy schemat analizy w oknie 2.
• Łączymy i konfigurujemy kolejne NODY a następnie używamy ich do
wykonania poszczególnych etapów (okno 2).
• Odczytujemy i interpretujemy wyniki.
72
Przykład 1
• Problem: Jak wygląda wzajemna relacja pomiędzy zawartością sodu i
chloru w próbkach gleby.
Tabela 1: zawartość poszczególnych pierwiastków w próbkach gleby (A-J)
Nazwa
A
B
C
D
E
F
G
H
I
J
Mg
0,276025
0,679703
0,655098
0,162612
0,118998
0,498364
0,959744
0,340386
0,585268
0,223812
Na
0,90152
0,306114
0,607148
0,838892
1,069084
1,15115
0,656659
0,166349
0,179153
0,30901
Cl
0,168143
0,050856
0,162857
0,048705
0,185853
0,069997
0,039319
0,050217
0,123209
0,094658
Pb
0,35166
0,830829
0,585264
0,549724
0,917194
0,285839
0,7572
0,753729
0,380446
0,567822
K
0,166879
0,11869
1,167755
1,714168
2,054824
0,285794
1,251412
1,032659
0,026185
0,74167
73
Przykład 1
• Cel: obliczenie współczynnika korelacji pomiędzy dwiema zmiennymi
oraz graficzna prezentacja ich wzajemnej relacji na wykresie
punktowym.
• Kroki:
•
•
•
•
•
Import danych z tabeli (plik *.xlsx)
Wybór kolumn do dalszej analizy
Autoskalowanie danych
Prezentacja zmiennych na wykresie
Obliczenie współczynnika korelacji
74
Przykład 1
• Cel: obliczenie współczynnika korelacji pomiędzy dwiema zmiennymi
oraz graficzna prezentacja ich wzajemnej relacji na wykresie
punktowym.
• Kroki:
•
•
•
•
•
Import danych z tabeli (plik *.xlsx)
Wybór kolumn do dalszej analizy
Autoskalowanie danych
Prezentacja zmiennych na wykresie
Obliczenie współczynnika korelacji
75
Przykład 1
• Tworzymy algorytm
76
Przykład 1
• Wyniki
77
Przejrzystość algorytmu
78
Przykład 2
• Problem: jaki jest rozkład
zmiennych A, B i C na
histogramie oraz jakie są dla
nich wartości skośności,
kurtozy, odchylenia
standardowego, średniej
oraz mediany.
A
B
C
19
21
32
1
29
6
22
21
19
23
11
29
33
18
5
24
12
34
24
9
18
35
8
26
17
14
27
17
39
14
27
28
22
24
16
16
28
8
27
17
8
25
14
18
7
19
13
6
3
14
18
1
14
23
14
17
9
18
13
21
32
9
22
22
37
12
11
11
1
16
15
33
12
17
37
35
2
16
35
14
38
6
18
6
18
34
3
22
31
14
40
7
23
32
26
8
13
9
12
28
11
29
79
Przykład 2
• Cel: obliczenie poszczególnych wielkości oraz graficzna utworzenie
histogramów.
• Kroki:
•
•
•
•
•
•
•
Import danych z tabeli (plik *.xlsx)
Prezentacja danych na histogramach
Obliczenie skośności
Obliczenie kurtozy
Obliczenie średniej
Obliczenie mediany
Obliczenie odchylenia standardowego
80
Przykład 2
• Cel: obliczenie współczynnika korelacji pomiędzy dwiema zmiennymi
oraz graficzna prezentacja ich wzajemnej relacji na wykresie
punktowym.
• Kroki:
•
•
•
•
•
•
•
Import danych z tabeli (plik *.xlsx)
Prezentacja danych na histogramach
Obliczenie skośności
Obliczenie kurtozy
Obliczenie średniej
Obliczenie mediany
Obliczenie odchylenia standardowego
81
Przykład 2
• Tworzymy algorytm
LUB
82
Przykład 2
• Wyniki.
Przykład 2
• Wyniki.
A
B
C
84
Przykład 2
• Opcje prezentacji wyników.
85

Podobne dokumenty