Temat: WYKRYWANIE ODCHYLEO W DANYCH Outlier to dana

Transkrypt

Temat: WYKRYWANIE ODCHYLEO W DANYCH Outlier to dana
Temat: WYKRYWANIE ODCHYLEO W DANYCH
Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty.
prezentacji punktów odstających jest rysunek poniżej.
Przykładem
Box Plot – wygodną metodą wykrywania odchyleo w danych
Boxploty i wykresy rozrzutu są efektywnymi technikami wizualizacji danych odstających w
analizowanym zbiorze. Konstruujemy boxplot jako „pudełko” między Q1 a Q3 z dodatkową linią
poziomą wskazującą na medianę. Następujące obliczenia są niezbędne dla wyznaczenia wartości
obserwacji odstających:
1.
2.
3.
4.
lower inner fence: Q1 - 1.5*IQ
upper inner fence: Q2 + 1.5*IQ
lower outer fence: Q1 - 3*IQ
upper outer fence: Q2 + 3*IQ
Wartośd poza inner fence zarówno dolnym jak i górnym ( a więc 1 i 2) jest uznawana za łagodny
outlier (mild outlier), zaś wartości poza tzw. outer fence są traktowane jako tzw. Skrajny outlier
(extreme outlier).
Metoda A: Wykrywanie odchyleo krok po kroku – na podstawie Q1 i Q3.
1. Uporządkuj dane rosnąco. Np. dla zbioru: {4, 5, 2, 3, 15, 3, 3, 5}, będzie to zbiór {2, 3, 3, 3, 4,
5, 5, 15}.
1. Znajdź medianę a więc taką wartośd w zbiorze danych dla której połowa danych w zbiorze
jest od niej większa i polowa jest mniejsza. Mogą to byd także dwie takie wartości np. 3 i 4,
wtedy mediana będzie wynosiła (3 + 4) / 2 = 3.5.
2. Znajdź górny kwartyl Q3 (75 % zbioru danych jest mniejsze od tej wartości);
3. Znajdź dolny kwartyl Q1 (25 % zbioru danych jest mniejsze od tej wartości);
4. Oblicz różnicę między Q3 a Q1. To będzie tzw. Rozstęp międzykwartylny.
5. Przemnóż tę wartośd przez 1.5. Dodaj ją do Q3 i odejmij od Q1. Wszystkie wartości, które
będą poza tymi wartościami będą uznane za outlier. Np. jeśli Q3 = 5, Q1 = 3, to Q3 – Q1 = 2, i
teraz 1.5 * 2 = 3. Teraz 3 – 3 = 0, a 3 + 5 = 8. Zatem każda wartośd mniejsza niż 0 i większa niż
8 będzie uznana za (łagodny) outlier. W tym przykładowym zbiorze będzie to wartośd 15.
6. Przemnóż rozstęp międzykwartylny przez 3. Dodaj do Q3 i odejmij tę wartośd tez od Q1.
Każda wartośd poza tymi wartościami będzie uznana za tzw. Skrajny outlier. W tym
przypadku 2 x 3 = 6, a 3 – 6 = -3, zaś 5 + 6 = 11. Zatem każda wartośd mniejsza niż -3 bądź
większa niż 11 będzie uznana za skrajny outlier. Tak więc wartośd 15 z pewnością jest
outlierem w tym zbiorze danych.
Metoda B: Wykrywanie odchyleo krok po kroku – na podstawie wartości średniej i odchylenia
standardowego
Często do wykrywania odchyleo w danych używa się wartości średniej i odchylenia standardowego.
Mówi się wówczas, że jeśli jakaś wartośd jest większa bądź mniejsza o wartośd równą dwukrotnej
wartości odchylenia standardowego od wartości średniej to należy ją uznad za odchylenie.
Ćwiczenie 1.
Zbiór danych zawiera N = 90 elementów:
30, 171, 184, 201, 212, 250, 265, 270, 272, 289, 305, 306, 322, 322, 336, 346, 351, 370, 390, 404, 409,
411, 436, 437, 439, 441, 444, 448, 451, 453, 470, 480, 482, 487, 494, 495, 499, 503, 514, 521, 522,
527, 548, 550, 559, 560, 570, 572, 574, 578, 585, 592, 592, 607, 616, 618, 621, 629, 637, 638, 640,
656, 668, 707, 709, 719, 737, 739, 752, 758, 766, 792, 792, 794, 802, 818, 830, 832, 843, 858, 860,
869, 918, 925, 953, 991, 1000, 1005, 1068, 1441
Wyznacz wartości odstające jeśli takie istnieją.
Obliczenia:








Median = 559.5
Q1 = 429.75
Q3 = 742.25
Rozstęp międzykwartylny = 742.25 - 429.75 = 312.5
Lower inner fence = 429.75 - 1.5 (312.5) = -39.0
Upper inner fence = 742.25 + 1.5 (312.5) = 1211.0
Lower outer fence = 429.75 - 3.0 (312.5) = -507.75
Upper outer fence = 742.25 + 3.0 (312.5) = 1679.75
Zatem wygląda na to, że jedynie jedna wartośd będzie mogla byd uznana za outlier. Jest to wartośd
1441, która znacznie przekracza upper inner fence i jako taka zostaje uznana za łagodny outlier. Zaś w
tym zbiorze nie ma wartośd skrajnie odstających.
ćwiczenie 2.
Przeprowadź sobie test umieszczony na stronie o adresie:
http://henryanker.com/Math/Number_Sense/Describing_Numbers/Finding_the_Outlier.swf
Ćwiczenie 3.
Napisz w Excelu formułę logiczną, którą będzie wskazywała czy dana wartośd jest odstająca czy nie,
umieszczając w sąsiadującej kolumnie wartośd tekstową typu: „outlier” bądź „not outlier”. Zastosuj
obie poznane metody.
Podpowiedź:
=IF(OR
(D5>$G$5+2*$G$6,
D5<$G$5-2*$G$6),
Metoda A
A1: =QUARTILE(D1:D100,1)
A2: =QUARTILE(D1:D100,3)
B1: =A2 - A1
Wtedy w komórce D1 możemy wykrywad skrajne odchylenia jako:
=if(or(D1 < A1 - 3*B1, D1 > A2 + 3*B1), "outlier?", "")
Metoda B
A1=AVERAGE(D1:D100)
B1=STDEV(D1:D100)
Wtedy
D1= if(or(D1 < A1 - 4*B1, D1 > A1 + 4*B1), "outlier?", "")
"Outlier",
"Not
Outlier")
Metoda C: Test Grubbsa (test T)
Test
na
wykrycie
wyniku
obarczonego
błędem
grubym.
Przed wykonaniem testu zbiór wyników eksperymentalnych (próbka statystyczna) zostaje
uszeregowany według wzrastających wartości. Błędem grubym może byd obarczona
największa lub najmniejsza wartośd wyniku w próbce. Dla tych wyników obliczane są
odpowiednio parametry Tmax i Tmin.
Parametr o większej wartości porównywany jest następnie z parametrem krytycznym testu
Grubbsa, odpowiadającym rozmiarowi próbki statystycznej i wybranemu poziomowi ufności.
Wartośd krytyczna statystyki tego testu obliczana jest na podstawie paramteru t rozkładu
Studenta dla zadanego poziomu ufności i liczby stopni swobody (n - 2, n - liczba pomiarów w
serii). Jeśli wartośd eksperymentalna jest większa od wartości krytycznej, wówczas
podejrzany wynik obarczony jest błędem grubym i można go odrzucid z zadanym poziomem
ufności.
Test Grubbs’a polega na zdefiniowaniu hipotezy statystycznej:
H0: Nie ma odchyleo w zbiorze danych
Ha: Istnieje przynajmniej jedno odchylenie w zbiorze danych
Statystyka testowa Grubbs'a jest określona jako:
Gdzie to średnia a to odchylenie standardowe. Statystykę Grubbsa uznaje się za
największe odchylenie od średniej w zbiorze o rozkładzie normalnym. Jest to test
dwustronny, ale może byd także użyty jako test jednostronny: wtedy sprawdzamy
1.czy minimalna wartośd nie jest odchyleniem:
Gdzie Ymin odpowiada minimalnej wartości w zbiorze. minimum value.
2. Czy maksymalna wartośd jest odchyleniem:
Gdzie Ymax oznacza wartośd maksymalną.
Dla testu dwustronnego odrzucimy hipotezę zerową o nieistnieniu żadnych odchyleo
jeśli:
gdzie
oznacza wartośd krytyczną rozkładu t z (N-2) stopniami swobody i
poziomie istotności /(2N). Dla testu jednostronnego to będzie poziom istotności równy
/N.
Przykład:
Zbiór danych pod adresem: http://itl.nist.gov/div898/handbook/eda/section4/eda4281.htm
*********************
** grubbs test y **
*********************
GRUBBS TEST FOR OUTLIERS
(ASSUMPTION: NORMALITY)
1. STATISTICS:
NUMBER OF OBSERVATIONS
MINIMUM
MEAN
MAXIMUM
STANDARD DEVIATION
GRUBBS TEST STATISTIC
=
=
=
=
=
195
9.196848
9.261460
9.327973
0.2278881E-01
= 2.918673
2. PERCENT POINTS OF THE REFERENCE DISTRIBUTION
0
% POINT = 0.000000
50
% POINT = 2.984294
75
% POINT = 3.181226
90
% POINT = 3.424672
95
% POINT = 3.597898
97.5
% POINT = 3.763061
99
% POINT = 3.970215
100
% POINT = 13.89263
FOR GRUBBS TEST STATISTIC
3. CONCLUSION (AT THE 5% LEVEL):
THERE ARE NO OUTLIERS.
W części drugiej widzimy, jak dla różnych poziomów istotności zmienia się wartośd krytyczna. Odrzucimy
hipotezę zerową na określonym poziomie istotności jeśli wartośd statystyki Grubbs’a jest więsza niż wartośd
krytyczna wskazana w kolumnie ostatniej w części drugiej. Trzecia częśd wyników przedstawia wynik dla 95 %
testu. Widzimy, że np. dla wartości 0.10 a więc 90 % wartośd krytyczna jest równa 3.42 zaś statystyka Grubbs’a
wyniosła 2.92. Ponieważ statystyka testowa jest mniejsza niż wartośd krytyczna, przyjmujemy hipotezę zerową
na poziomie istotności 0.10.

Podobne dokumenty