Normalizacja i standaryzacja danych
Transkrypt
Normalizacja i standaryzacja danych
5.1.3 Normalizacja i standaryzacja danych Normalizacja W wyniku normalizacji danych otrzymujemy wektory, których wartości cech są zawarte w przedziale <0,1>. Transformacja ta jest przeprowadzana według wzoru: a' i a i ai _ min ai _ max a i _ min gdzie : ai_max jest maksymalną wartością występującą w zbiorze treningowym dla i-tej cechy (genu), ai_min – minimalną wartością dla i-tej cechy Operacja normalizacji wykonywana jest dla wszystkich wektorów ze zbioru treningowego i testowego, przy czym dla obu zbiorów użyte są te same wartości ai_max i ai_min. Normalizacja nie uwzględnia rozkładu wartości danej cechy, w związku z tym w przypadku wystąpienia w danej cesze wartości znacznie różnych od przeciętnej, nastąpi ściśnięcie tych wartości w bardzo wąskim przedziale. Standaryzacja Standaryzacja jest transformacją wykorzystującą rozkład wartości w poszczególnych cechach: ai' ai ai i x ai 1 ai n l l gdzie: i ( a) 1 ail ai n 1 l 2 Wynikiem standaryzacji jest wektor cech , których wartość średnia a 0 , natomiast odchylenie standardowe = 1, dzięki czemu wszystkie cechy mają jednakowy wkład do wartości odległości. Stosując standaryzację należy zachować ostrożność, gdyż, zastosowana dla wektora cech, którego odchylenie standardowe jest bliskie zeru, może wprowadzić do danych duży szum. Poza tym w przypadku gdy = 0, będziemy mieli wielkość nieokreśloną (dzielenie przez 0), dlatego też przed zastosowaniem tej transformacji należy usunąć (p. 5.1.5) tzw. „płaskie wzorce” (flat pattern).