Temat zajęd: Co to jest normalizacja danych numerycznych

Transkrypt

Temat zajęd: Co to jest normalizacja danych numerycznych
Temat zajęd: Co to jest normalizacja danych numerycznych? Dlaczego się ją przeprowadza?
Eksploracja danych wymaga niemal zawsze uprzedniego przygotowania danych zanim zaczniemy je
analizowad ! Ten proces często nosi nazwę transformacji danych (preprocessing). W tym celu stosuje
się różne techniki typu:
1. Wygładzanie danych (Smoothing) – techniki mające na celu pozbycie się szumu w danych. Stosują
w tym celu np. metody typu binning, clustering, regression.
2. Uogólnianie danych (Generalization)
3. Normalizacja ( Normalization) – uwzględniające przeskalowywanie danych.
4. Konstrukcja nowych cech (tworzenie nowych cech, bądź tworzenie ich z już istniejących).
Normalizacja danych to skalowanie pierwotnych danych (np.: danych wejściowych) do małego,
specyficznego przedziału. Na przykład do przedziału [-1, 1] lub [0,1], czyli przedziałów najbardziej
przydatnych podczas rozważania zagadnieo związanych z sieciami neuronowymi i „data mining”.
Normalizację danych można przeprowadzid przy pomocy kilku prostych metod:
1. Normalizacja min-max
Ta metoda przeprowadza liniową transformację pierwotnych danych najczęściej do przedziału [0,1]
według wzoru:
gdzie [min, max] jest przedziałem, w którym mieszczą się dane wejściowe, natomiast [new_min,
new_max] jest nowym przedziałem danych.
Np.: Jeśli V = 73600 jest w przedziale [12000, 98000] to V’ = 0.716 w nowym przedziale [0,1]
2. Normalizacja Z-score (lub Zero-Mean).
Wartości są normalizowane na podstawie ich znaczenia i odchyleo.
gdzie mean jest znaczeniem danych, a std standardowym odchyleniem. Ta metoda jest przydatna w
przypadkach, gdy nie znamy zakresu (min, max) danych wejściowych.
Np.: Jeśli znaczenie jest = 54000, a standardowe odchylenie = 16000, oraz V = 76000, to V’ = 1.225.
3. Normalizacja poprzez skalowanie decymalne.
Ta metoda normalizuje przesuwając przecinek w liczbach dziesiętnych. Ten typ skalowania
przekształca dane do przedziału [-1,1] według wzoru
Np.: Dla pierwotnego przedziału [-991, 99], k jest równe 3 oraz V = -991 więc dostajemy V' = -0.991.
Zadania do wykonania.
Zadanie 1.
Proszę wczytad dowolny zbiór danych o różnym zakresie wartości. Np. tak jak na rysunku poniżej.
Proszę dla tego zbioru znormalizowad dane do przedziałów:
a) Metodą min-max [0..1]
b) Metodą min-max[1..10]
c) Metodą z-score
Pomoc w pliku http://zsi.tech.us.edu.pl/~nowak/ed/cw4.xls
Zadanie 2
Dla wybranego przez siebie zbioru danych zastosuj dla 2 wybranych kolumn poznane dziś 2
pierwsze metody normalizacji danych.

Podobne dokumenty