Normalizacja i standaryzacja danych

Transkrypt

Normalizacja i standaryzacja danych
5.1.3 Normalizacja i standaryzacja danych
Normalizacja
W wyniku normalizacji danych otrzymujemy wektory, których wartości cech są
zawarte w przedziale <0,1>. Transformacja ta jest przeprowadzana według wzoru:
a' i 
a i  ai _ min
ai _ max  a i _ min
gdzie : ai_max jest maksymalną wartością występującą w zbiorze treningowym dla i-tej
cechy (genu), ai_min – minimalną wartością dla i-tej cechy
Operacja normalizacji wykonywana jest dla wszystkich wektorów ze zbioru treningowego i
testowego, przy czym dla obu zbiorów użyte są te same wartości ai_max i ai_min. Normalizacja
nie uwzględnia rozkładu wartości danej cechy, w związku z tym w przypadku wystąpienia w
danej cesze wartości znacznie różnych od przeciętnej, nastąpi ściśnięcie tych wartości w
bardzo wąskim przedziale.
Standaryzacja
Standaryzacja jest transformacją wykorzystującą rozkład wartości w poszczególnych
cechach:
ai' 
ai  ai
 i x 
ai 
1
 ai
n l l
gdzie:
 i ( a) 

1
 ail  ai
n 1 l

2
Wynikiem standaryzacji jest wektor cech , których wartość średnia a  0 , natomiast
odchylenie standardowe  = 1, dzięki czemu wszystkie cechy mają jednakowy wkład do
wartości odległości. Stosując standaryzację należy zachować ostrożność, gdyż, zastosowana
dla wektora cech, którego odchylenie standardowe jest bliskie zeru, może wprowadzić do
danych duży szum. Poza tym w przypadku gdy  = 0, będziemy mieli wielkość nieokreśloną
(dzielenie przez 0), dlatego też przed zastosowaniem tej transformacji należy usunąć (p. 5.1.5)
tzw. „płaskie wzorce” (flat pattern).

Podobne dokumenty