Temat: WYKRYWANIE ODCHYLEO W DANYCH Outlier to dana
Transkrypt
Temat: WYKRYWANIE ODCHYLEO W DANYCH Outlier to dana
Temat: WYKRYWANIE ODCHYLEO W DANYCH Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej. Przykładem Box Plot – wygodną metodą wykrywania odchyleo w danych Boxploty i wykresy rozrzutu są efektywnymi technikami wizualizacji danych odstających w analizowanym zbiorze. Konstruujemy boxplot jako „pudełko” między Q1 a Q3 z dodatkową linią poziomą wskazującą na medianę. Następujące obliczenia są niezbędne dla wyznaczenia wartości obserwacji odstających: 1. 2. 3. 4. lower inner fence: Q1 - 1.5*IQ upper inner fence: Q2 + 1.5*IQ lower outer fence: Q1 - 3*IQ upper outer fence: Q2 + 3*IQ Wartośd poza inner fence zarówno dolnym jak i górnym ( a więc 1 i 2) jest uznawana za łagodny outlier (mild outlier), zaś wartości poza tzw. outer fence są traktowane jako tzw. Skrajny outlier (extreme outlier). Metoda A: Wykrywanie odchyleo krok po kroku – na podstawie Q1 i Q3. 1. Uporządkuj dane rosnąco. Np. dla zbioru: {4, 5, 2, 3, 15, 3, 3, 5}, będzie to zbiór {2, 3, 3, 3, 4, 5, 5, 15}. 1. Znajdź medianę a więc taką wartośd w zbiorze danych dla której połowa danych w zbiorze jest od niej większa i polowa jest mniejsza. Mogą to byd także dwie takie wartości np. 3 i 4, wtedy mediana będzie wynosiła (3 + 4) / 2 = 3.5. 2. Znajdź górny kwartyl Q3 (75 % zbioru danych jest mniejsze od tej wartości); 3. Znajdź dolny kwartyl Q1 (25 % zbioru danych jest mniejsze od tej wartości); 4. Oblicz różnicę między Q3 a Q1. To będzie tzw. Rozstęp międzykwartylny. 5. Przemnóż tę wartośd przez 1.5. Dodaj ją do Q3 i odejmij od Q1. Wszystkie wartości, które będą poza tymi wartościami będą uznane za outlier. Np. jeśli Q3 = 5, Q1 = 3, to Q3 – Q1 = 2, i teraz 1.5 * 2 = 3. Teraz 3 – 3 = 0, a 3 + 5 = 8. Zatem każda wartośd mniejsza niż 0 i większa niż 8 będzie uznana za (łagodny) outlier. W tym przykładowym zbiorze będzie to wartośd 15. 6. Przemnóż rozstęp międzykwartylny przez 3. Dodaj do Q3 i odejmij tę wartośd tez od Q1. Każda wartośd poza tymi wartościami będzie uznana za tzw. Skrajny outlier. W tym przypadku 2 x 3 = 6, a 3 – 6 = -3, zaś 5 + 6 = 11. Zatem każda wartośd mniejsza niż -3 bądź większa niż 11 będzie uznana za skrajny outlier. Tak więc wartośd 15 z pewnością jest outlierem w tym zbiorze danych. Metoda B: Wykrywanie odchyleo krok po kroku – na podstawie wartości średniej i odchylenia standardowego Często do wykrywania odchyleo w danych używa się wartości średniej i odchylenia standardowego. Mówi się wówczas, że jeśli jakaś wartośd jest większa bądź mniejsza o wartośd równą dwukrotnej wartości odchylenia standardowego od wartości średniej to należy ją uznad za odchylenie. Ćwiczenie 1. Zbiór danych zawiera N = 90 elementów: 30, 171, 184, 201, 212, 250, 265, 270, 272, 289, 305, 306, 322, 322, 336, 346, 351, 370, 390, 404, 409, 411, 436, 437, 439, 441, 444, 448, 451, 453, 470, 480, 482, 487, 494, 495, 499, 503, 514, 521, 522, 527, 548, 550, 559, 560, 570, 572, 574, 578, 585, 592, 592, 607, 616, 618, 621, 629, 637, 638, 640, 656, 668, 707, 709, 719, 737, 739, 752, 758, 766, 792, 792, 794, 802, 818, 830, 832, 843, 858, 860, 869, 918, 925, 953, 991, 1000, 1005, 1068, 1441 Wyznacz wartości odstające jeśli takie istnieją. Obliczenia: Median = 559.5 Q1 = 429.75 Q3 = 742.25 Rozstęp międzykwartylny = 742.25 - 429.75 = 312.5 Lower inner fence = 429.75 - 1.5 (312.5) = -39.0 Upper inner fence = 742.25 + 1.5 (312.5) = 1211.0 Lower outer fence = 429.75 - 3.0 (312.5) = -507.75 Upper outer fence = 742.25 + 3.0 (312.5) = 1679.75 Zatem wygląda na to, że jedynie jedna wartośd będzie mogla byd uznana za outlier. Jest to wartośd 1441, która znacznie przekracza upper inner fence i jako taka zostaje uznana za łagodny outlier. Zaś w tym zbiorze nie ma wartośd skrajnie odstających. ćwiczenie 2. Przeprowadź sobie test umieszczony na stronie o adresie: http://henryanker.com/Math/Number_Sense/Describing_Numbers/Finding_the_Outlier.swf Ćwiczenie 3. Napisz w Excelu formułę logiczną, którą będzie wskazywała czy dana wartośd jest odstająca czy nie, umieszczając w sąsiadującej kolumnie wartośd tekstową typu: „outlier” bądź „not outlier”. Zastosuj obie poznane metody. Podpowiedź: =IF(OR (D5>$G$5+2*$G$6, D5<$G$5-2*$G$6), Metoda A A1: =QUARTILE(D1:D100,1) A2: =QUARTILE(D1:D100,3) B1: =A2 - A1 Wtedy w komórce D1 możemy wykrywad skrajne odchylenia jako: =if(or(D1 < A1 - 3*B1, D1 > A2 + 3*B1), "outlier?", "") Metoda B A1=AVERAGE(D1:D100) B1=STDEV(D1:D100) Wtedy D1= if(or(D1 < A1 - 4*B1, D1 > A1 + 4*B1), "outlier?", "") "Outlier", "Not Outlier") Metoda C: Test Grubbsa (test T) Test na wykrycie wyniku obarczonego błędem grubym. Przed wykonaniem testu zbiór wyników eksperymentalnych (próbka statystyczna) zostaje uszeregowany według wzrastających wartości. Błędem grubym może byd obarczona największa lub najmniejsza wartośd wyniku w próbce. Dla tych wyników obliczane są odpowiednio parametry Tmax i Tmin. Parametr o większej wartości porównywany jest następnie z parametrem krytycznym testu Grubbsa, odpowiadającym rozmiarowi próbki statystycznej i wybranemu poziomowi ufności. Wartośd krytyczna statystyki tego testu obliczana jest na podstawie paramteru t rozkładu Studenta dla zadanego poziomu ufności i liczby stopni swobody (n - 2, n - liczba pomiarów w serii). Jeśli wartośd eksperymentalna jest większa od wartości krytycznej, wówczas podejrzany wynik obarczony jest błędem grubym i można go odrzucid z zadanym poziomem ufności. Test Grubbs’a polega na zdefiniowaniu hipotezy statystycznej: H0: Nie ma odchyleo w zbiorze danych Ha: Istnieje przynajmniej jedno odchylenie w zbiorze danych Statystyka testowa Grubbs'a jest określona jako: Gdzie to średnia a to odchylenie standardowe. Statystykę Grubbsa uznaje się za największe odchylenie od średniej w zbiorze o rozkładzie normalnym. Jest to test dwustronny, ale może byd także użyty jako test jednostronny: wtedy sprawdzamy 1.czy minimalna wartośd nie jest odchyleniem: Gdzie Ymin odpowiada minimalnej wartości w zbiorze. minimum value. 2. Czy maksymalna wartośd jest odchyleniem: Gdzie Ymax oznacza wartośd maksymalną. Dla testu dwustronnego odrzucimy hipotezę zerową o nieistnieniu żadnych odchyleo jeśli: gdzie oznacza wartośd krytyczną rozkładu t z (N-2) stopniami swobody i poziomie istotności /(2N). Dla testu jednostronnego to będzie poziom istotności równy /N. Przykład: Zbiór danych pod adresem: http://itl.nist.gov/div898/handbook/eda/section4/eda4281.htm ********************* ** grubbs test y ** ********************* GRUBBS TEST FOR OUTLIERS (ASSUMPTION: NORMALITY) 1. STATISTICS: NUMBER OF OBSERVATIONS MINIMUM MEAN MAXIMUM STANDARD DEVIATION GRUBBS TEST STATISTIC = = = = = 195 9.196848 9.261460 9.327973 0.2278881E-01 = 2.918673 2. PERCENT POINTS OF THE REFERENCE DISTRIBUTION 0 % POINT = 0.000000 50 % POINT = 2.984294 75 % POINT = 3.181226 90 % POINT = 3.424672 95 % POINT = 3.597898 97.5 % POINT = 3.763061 99 % POINT = 3.970215 100 % POINT = 13.89263 FOR GRUBBS TEST STATISTIC 3. CONCLUSION (AT THE 5% LEVEL): THERE ARE NO OUTLIERS. W części drugiej widzimy, jak dla różnych poziomów istotności zmienia się wartośd krytyczna. Odrzucimy hipotezę zerową na określonym poziomie istotności jeśli wartośd statystyki Grubbs’a jest więsza niż wartośd krytyczna wskazana w kolumnie ostatniej w części drugiej. Trzecia częśd wyników przedstawia wynik dla 95 % testu. Widzimy, że np. dla wartości 0.10 a więc 90 % wartośd krytyczna jest równa 3.42 zaś statystyka Grubbs’a wyniosła 2.92. Ponieważ statystyka testowa jest mniejsza niż wartośd krytyczna, przyjmujemy hipotezę zerową na poziomie istotności 0.10.