Temat zajęd: Co to jest normalizacja danych numerycznych
Transkrypt
Temat zajęd: Co to jest normalizacja danych numerycznych
Temat zajęd: Co to jest normalizacja danych numerycznych? Dlaczego się ją przeprowadza? Eksploracja danych wymaga niemal zawsze uprzedniego przygotowania danych zanim zaczniemy je analizowad ! Ten proces często nosi nazwę transformacji danych (preprocessing). W tym celu stosuje się różne techniki typu: 1. Wygładzanie danych (Smoothing) – techniki mające na celu pozbycie się szumu w danych. Stosują w tym celu np. metody typu binning, clustering, regression. 2. Uogólnianie danych (Generalization) 3. Normalizacja ( Normalization) – uwzględniające przeskalowywanie danych. 4. Konstrukcja nowych cech (tworzenie nowych cech, bądź tworzenie ich z już istniejących). Normalizacja danych to skalowanie pierwotnych danych (np.: danych wejściowych) do małego, specyficznego przedziału. Na przykład do przedziału [-1, 1] lub [0,1], czyli przedziałów najbardziej przydatnych podczas rozważania zagadnieo związanych z sieciami neuronowymi i „data mining”. Normalizację danych można przeprowadzid przy pomocy kilku prostych metod: 1. Normalizacja min-max Ta metoda przeprowadza liniową transformację pierwotnych danych najczęściej do przedziału [0,1] według wzoru: gdzie [min, max] jest przedziałem, w którym mieszczą się dane wejściowe, natomiast [new_min, new_max] jest nowym przedziałem danych. Np.: Jeśli V = 73600 jest w przedziale [12000, 98000] to V’ = 0.716 w nowym przedziale [0,1] 2. Normalizacja Z-score (lub Zero-Mean). Wartości są normalizowane na podstawie ich znaczenia i odchyleo. gdzie mean jest znaczeniem danych, a std standardowym odchyleniem. Ta metoda jest przydatna w przypadkach, gdy nie znamy zakresu (min, max) danych wejściowych. Np.: Jeśli znaczenie jest = 54000, a standardowe odchylenie = 16000, oraz V = 76000, to V’ = 1.225. 3. Normalizacja poprzez skalowanie decymalne. Ta metoda normalizuje przesuwając przecinek w liczbach dziesiętnych. Ten typ skalowania przekształca dane do przedziału [-1,1] według wzoru Np.: Dla pierwotnego przedziału [-991, 99], k jest równe 3 oraz V = -991 więc dostajemy V' = -0.991. Zadania do wykonania. Zadanie 1. Proszę wczytad dowolny zbiór danych o różnym zakresie wartości. Np. tak jak na rysunku poniżej. Proszę dla tego zbioru znormalizowad dane do przedziałów: a) Metodą min-max [0..1] b) Metodą min-max[1..10] c) Metodą z-score Pomoc w pliku http://zsi.tech.us.edu.pl/~nowak/ed/cw4.xls Zadanie 2 Dla wybranego przez siebie zbioru danych zastosuj dla 2 wybranych kolumn poznane dziś 2 pierwsze metody normalizacji danych.