Wybrane rozkłady zmiennych losowych. Transformacje danych.
Transkrypt
Wybrane rozkłady zmiennych losowych. Transformacje danych.
Metody statystyczne w naukach biologicznych 1 2006-03-12 Wykład: Wybrane rozkłady zmiennych losowych. Parametry rozkładu. Statystyczny opis rozkładu zmiennej Parametry – parametry rozkładu badanej cechy w populacji generalnej, charakteryzują one ten rozkład. Oznaczane są literami greckimi. Dzielimy je najczęściej na miary skupienia (średnia arytmetyczna), rozproszenia (wariancja), asymetrii, korelacji. Miary położenia: przeciętne klasyczne: średnia arytmetyczna średnia geometryczna średnia harmoniczna przeciętne pozycyjne: mediana dominanta kwartyle Miary dyspersji (zmienności): rozstęp odchylenie standardowe wariancja wskaźnik zmienności Persona Asymetria rozkładu cechy skośność Miary koncentracji kurtoza MIARY POŁOŻENIA KLASYCZNE Miary położenia rozkładu (zwane też miarami tendencji centralnej lub lokacji) pozwalają określić, gdzie w zbiorze wartości liczbowych znajdują się wartości badanej cechy, tym samym pozwalają na umiejscowienie rozkładu cechy. Miary położenia klasyczne. W celu ich obliczenia bierzemy pod uwagę wszystkie wartości zmiennej ze zbioru. Można na nich wykonać wszystkie działania algebraiczne. Podstawową miarą położenia jest średnia arytmetyczna. Średnia arytmetyczna - suma obserwacji dzielona przez ich ilość lub inaczej wartość, która przypadłaby na każde indywidualne spostrzeżenie, gdyby wszystkie indywidualne wartości były równe a ich suma pozostałaby bez zmian - symbol x . 1 N x + x + ... + xN x = ∑ xi = 1 2 N i =1 N gdzie: N – liczba wszystkich jednostek, xi – wartość cechy u i-tej jednostki. Właściwości średniej arytmetycznej: 1. Średnia arytmetyczna jest to taka wartość zmiennej, która podstawiona na miejsce wszystkich poszczególnych wartości nie zmieni ich sumy Autor: Dariusz Piwczyński Metody statystyczne w naukach biologicznych 2 2006-03-12 2. Suma odchyleń poszczególnych wartości od średniej arytmetycznej jest równa zero 3. Suma kwadratów odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej jest najmniejsza w porównaniu z sumami kwadratów odchyleń od jakiejkolwiek innej liczby w szeregu. Średnia ważona. Obliczamy ją w sytuacji, gdy mamy do czynienia z szeregiem rozdzielczym, patrz koguty. 1 k x ∗ n + x ∗ n + ... + xk ∗ nk x = ∑ xi ∗ ni = 1 1 2 2 N i =1 N gdzie: N – liczba wszystkich jednostek, ni - liczba jednostek posiadających i-tą wartość cechy, k – liczba klas, xi – i-ta wartość cechy. Średnia harmoniczna. Jest ona odwrotnością średniej arytmetycznej sumy odwrotności poszczególnych jej wyrazów. k xh = ∑n i =1 k i ni ∑ i =1 xi gdzie: xi- wartość cechy statystycznej, ni – liczebność odnosząca się do wartości cechy xi, k – liczba kategorii cechy statystycznej. Średnią harmoniczną stosuje się m.in. w analizie wariancji układów nieortogonalnych (nieproporcjonalnych - przy nierównej ilości osobników w grupach). Nie można jej obliczyć, gdy jakaś wartość cechy równa się „0” lub jest ujemna. Średnia geometryczna jest pierwiastkiem k-tego stopnia z iloczynu k-wartości cechy. xg = k x1 ∗ x2 ∗ ... ∗ xk Średnią geometryczną stosuje się, gdy jedna z wartości skrajnych zmiennej bardzo różni się od pozostałych (duże rozproszenie wartości skrajnych), w takim przypadku średnia geometryczna bardziej prawidłowo scharakteryzuje położenie danej cechy w szeregu liczbowym niż średnia arytmetyczna. Stosujemy ją, gdy chcemy porównać stosunki jakichś dwóch wydajności - zamiast ich różnic czy też chcemy określić jakiś średni wskaźnik. Średniej tej nie możemy obliczyć, gdy wartości cechy są ujemne lub wynoszące „0”. MIARY POŁOŻENIA POZYCYJNE Pozycyjne miary położenia wskazują wartość cechy, która odgrywa w szeregu szczególną rolę, np. dzieli szereg na dwie połowy. Punktem wyjścia do ich określenia jest uporządkowanie szeregu liczbowego, konieczna jest przy tym znajomość liczebności. Autor: Dariusz Piwczyński Metody statystyczne w naukach biologicznych 3 2006-03-12 Dominanta (Mo) (wartość szczytowa, moda, wartość modalna). Jest to taka wartość zmiennej, która występuje w populacji największą ilość razy. Jest najbardziej typowa dla danego zjawiska. Jednak nie należy jej obliczać, gdy rozkład danej cechy nie posiada jednego, wyraźnie zaznaczonego maksimum liczebności. Wartość modalna wyznacza szczyt krzywej liczebności. Pozwala scharakteryzować populację pod względem jej typowości. Kwartyle (kwantyle) (Q1,Q2,Q3) Są to takie wartości cechy, które pozwalają podzielić uporządkowany szereg liczbowy na 4 części. Kwartyl drugi dzieli szereg na połowy, zwany jest też medianą. Jeśli liczebności ćwiartek są liczbami parzystymi, to wartość kwartyli obliczamy jako średnią arytmetyczną z wartości kończących i rozpoczynających kolejne ćwiartki. W szeregu nieparzystym medianę stanowi środkowy wyraz szeregu. Kwartyle stosujemy w odniesieniu do cech jakościowych trudno mierzalnych, w badaniach mikrobiologicznych przy określaniu średniej liczby drobnoustrojów. Pomiędzy dominantą, medianą i średnią arytmetyczną istnieje związek: Mo = 3 Me - 2 x W rozkładzie normalnym te trzy przeciętne są sobie równe!!! MIARY ZMIENNOŚCI (DYSPERSJI) Problem, jaki wiąże się z powyższym zagadnieniem, to odpowiedź na pytanie: jak bardzo poszczególne wartości cechy różnią się od siebie? Najprostszą miara zmienności to Rozstęp. Jest to tzw. obszar zmienności, określa on całkowitą zmienność cechy. Obliczany jest z poniższego wzoru: Ox=xmax-xmin Rozstęp jest traktowany jedynie jako wstępna miara zmienności z oczywistych względów (opieramy się jedynie o wartości skrajne). Wariancja, jest średnią z kwadratów różnic średniej arytmetycznej od poszczególnych wartości cechy. Wariancja jest miarą, która nie posiada interpretacji. N S x2 = ∑( x i =1 i − x) N 2 N ∑ xi N 2 lub x − i =1 ∑ N S x2 = i =1 N 2 Interpretację tę posiada odchylenie standardowe. S x = S x2 Jest to liczba mianowana. Pozwala ona określić typowy obszar zmienności wartości cechy. Wskazuje on, o jaką wartość poszczególne wartości cechy odbiegają przeciętnie od średniej arytmetycznej. Im większe odchylenie standardowe, tym poszczególne obserwacje są bardziej oddalone od średniej arytmetycznej, tym większe jest rozproszenie próby. Mówi się, że próba jest mało wyrównana. Autor: Dariusz Piwczyński Metody statystyczne w naukach biologicznych 2006-03-12 4 Miary względnego zróżnicowania Wskaźnik zmienności Pearsona. Stosowana w sytuacji, gdy badane zjawisko mierzone jest w różnych jednostkach miary lub kształtuje się na niejednakowym poziomie przeciętnym. S V x = x ∗ 100 x Przykład (B. Żuk, Biometria stosowana) Rozkład prawdopodobieństwa liczby kogutów w partii 10 wylężonych piskląt, liczba partii z określoną liczbą kogutów (k) oraz łączna liczba kogutów w n=1000 partiach. Liczba kogutów (k) Prawdopodobieństwo Liczba partii z k Łączna liczba pk kogutami n*pk kogutów k*n*pk 0 0,0010 1 0 1 0,0098 10 10 2 0,0439 44 88 3 0,1172 117 351 4 0,2051 205 820 5 0,2461 246 1230 6 0,2051 205 1230 7 0,1172 117 819 8 0,0439 44 352 9 0,0098 10 90 10 0,0010 1 10 Suma 1,00 1000 5000 Liczba partii w zależności od liczby kogutków 250 200 150 100 50 0 0 1 2 3 4 5 6 7 8 9 10 Wartość oczekiwana zmiennej losowej K. Jeżeli zmienna losowa X przyjmuje wartości x1, x2,...xt z prawdopodobieństwem odpowiednio p1,p2,...pt to wtedy wartością oczekiwaną tej zmiennej losowej jest E(X). t E ( X ) = ∑ x p * pk k =1 Autor: Dariusz Piwczyński Metody statystyczne w naukach biologicznych 5 2006-03-12 Rozkład prawdopodobieństwa może być wykorzystany w odniesieniu do zmiennej dyskretnej oraz ciągłej, ale przy wcześniejszym rozbiciu zmienności na pewne przedziały. Dystrybuanta jest funkcją niemalejącą, przyjmuje wartości od 0 do 1. Dzięki dystrybuancie możemy obliczyć prawdopodobieństwo, że zmienna losowa przyjmuje wartości z określonego przedziału a < x ≤ b, P(a < X ≤ b)=F(b)-F(a). F(x)=P(X≤x). Dystrybuanta liczby rozkładu kogutów w partii 10 piskląt. Prawdopodobieństwo, że liczba kogutów przyjmie wartość mniejszą lub równą 3 wynosi: 0,0010+0,0098+0,0439+0,1172=0,172. Funkcja gęstości f(x) pełni podobną rolę jak prawdopodobieństwo dla zmiennej skokowej. Rozważmy domknięty przedział [x-h,x+h], h>0. Przedział ten zawiera wartość x. Prawdopodobieństwo, że zmienna losowa przyjmie wartości z tego przedziału wynosi F(x-h)F(x+h). Dzieląc tę różnicę przez długość przedziału (2h) otrzymujemy funkcję gęstości. Wartość graniczna tego ilorazu, przy h→0, zwana jest gęstością prawdopodobieństwa w punkcie x. Funkcja gęstości jest pochodną dystrybuanty. f ( x) = lim h →0 F ( x + h) − F ( x − h) dF ( x ) = F ' ( x) = 2h dx Autor: Dariusz Piwczyński Metody statystyczne w naukach biologicznych 2006-03-12 6 Rozkład normalny Najważniejszy w statystyce rozkład zmiennej losowej ciągłej X zwany jest rozkładem normalnym. Jest on dziełem niemieckiego matematyka, astronoma, geodety Karola Fryderyka Gauss’a (1777-1855). Funkcja gęstości prawdopodobieństwa tego rozkładu określona jest wzorem: f ( x) = 1 e σ 2π − ( x −m ) 2 2σ 2 ,−∞ < x < ∞ ;e 1 = lim(1 + ) x x →∞ x e – podstawa logarytmu normalnego, e=2,71828… f(x) oznacza wysokość krzywej rozkładu, najwyższa wartość f(x) odpowiada X równej µ. Rozkład normalny oznacza się często symbolem N(m, σ). Parametr µ jest wskaźnikiem położenia, wartością oczekiwaną (średnią). Z kolei σ jest wskaźnikiem rozproszenia, czyli µ=E(X), σ2=D2(X). Autor: Dariusz Piwczyński Metody statystyczne w naukach biologicznych 7 2006-03-12 Pole powierzchni między krzywą a osią dociętych jest równe 1, gdyż prawdopodobieństwo, że zmienna losowa przyjmie wartość w przedziale od -∞ do +∞ jest równe 1 (jest to zdarzenie pewne). Jest to rozkład symetryczny. Rozkład normalny jest rozkładem ciągłym, nie można zatem określić powierzchni pod krzywą rozkładu dla jednej konkretnej liczby, ale dla zakresu. Jeżeli wykonuje się pomiar z dokładnością do ±1 mm, to interesujący nas przedział wynosi, np. od 20,5 do 21,5. Własności krzywej: 68,26% powierzchni µ±σ, 95,46% µ±2σ, 99,73% µ±3σ Dystrybuanta zmiennej losowej X 1 F ( x) = σ 2π x ∫e − ( x −m)2 2σ 2 dx −∞ Rozkład normalny standaryzowany – rozkład normalny N(0,1). Standaryzacja rozkładu normalnego – polega na odjęciu średniej µ i podzieleniu przez odchylenie standardowe σ, tzn. X ma rozkład normalny N(m, σ), to U=(X-m)/σ ma rozkład N(0,1). ϕ (u ) = 1 e 2π − u2 2 Dystrybuanta tego rozkładu: Φ (u ) = 1 2π u ∫e − u2 2 du ∞ Powierzchnia pod krzywą to całka rozkładu normalnego. Jest ona podana w tablicach dla rozkładu standaryzowanego N (0,1). Wykresem tej funkcji gęstości jest krzywa Gaussa. Zmienna losowa U mająca rozkład N(0,1) nosi nazwę standaryzowanej lub unormowanej zmiennej normalnej. MIARY ASYMETRII ROZKŁADU Znajomość miar asymetrii rozkładu pozwala ustalić czy jest to rozkład symetryczny czy też asymetryczny. Asymetria ujemna lub też lewostronna ma miejsce, gdy cech o wartościach relatywnie wyższych jest więcej. Na obrazie graficznym jest to widoczne w ten sposób, iż krzywa łagodniej unosi się w górę natomiast gwałtownie opada. W takim to przypadku wartość dominanty przewyższa wartość średniej. Najwięcej jest osobników o wartościach cechy przewyższających średnią. Z kolei asymetria prawostronna, to dokładnie odwrotna sytuacja. Współczynnik skośności (skośność): x − Mo( x ) As = Sx Przyjmuje on wartości liczbowe z przedziału: <-1;1>. Wartości dodatnie wskazują na rozkład prawostronny, ujemne na lewostronny. Autor: Dariusz Piwczyński Metody statystyczne w naukach biologicznych 8 2006-03-12 MIARY KONCENTRACJI (SKUPIENIA) Informują nas czy cechy są rozproszone w całej zbiorowości czy też skupione wokół jednej wartości. Miarą koncentracji jest współczynnik koncentracji (kurtoza). kx = 1 N N ∑( x i =1 i − x) 4 S x4 Kurtoza stanowi podstawę do obliczenia relatywnej oceny spłaszczenia krzywej liczebności za pomocą współczynnika ekscesu. gx=kx-3 gdy: gx<0, to oznacza, że rozkład jest stosunkowo bardziej rozproszony względem standardowego rozkładu (kurtoza wynosi wtedy 0); gx>0, to znaczy, iż rozkład jest relatywnie bardziej skupiony. Miary położenia i zmienności proc univariate data=stat.oczy; where poz>1; var G_0 G_2 G_4; histogram G_0 G_2 G_4/normal; run; proc means data=stat.oczy maxdec=3; class poz; var G_L_0 -- G_4; run; /*Procedura obliczająca i zestawiająca w tabelę podstawowe statystyki*/ ods rtf; ods rtf body='g:\stat\bakterie.rtf'; proc tabulate data=stat.bakterie formchar="..........."; class obiekt; var drozdze ln ; table (drozdze ln)*(n MEAN STD CV),(obiekt); run; ods rtf close; ods html; ods html body='g:\stat\bakterie.html'; proc tabulate data=stat.bakterie formchar="..........."; class obiekt; var drozdze ln ; table (drozdze ln)*(n MEAN STD CV),(obiekt); run; ods html close; Autor: Dariusz Piwczyński Metody statystyczne w naukach biologicznych 9 2006-03-12 Badanie normalności rozkładu Hipotezy dotyczące zgodności z określonym rozkładem. (hipotezy nieparametryczne) H0:Cecha X ma rozkład zgodny z normalnym Przykłady testów: Shapiro-Wilka: jest on najbardziej zalecanym testem normalności rozkładu. Jednak wskazane jest, aby liczebność próby była poniżej 2000, gdyż w przeciwnym wypadku daje mylne wyniki. Test ten wymaga, aby cecha miała rozkład ciągły. Kołmogorowa-Smirnowa: Wymaga znajomości średniej i odchylenie standardowego dla populacji. W sytuacji, gdy nie znamy wyżej wymienionych parametrów stosujemy test K-S z poprawką Lilieforsa. Test K-S wymaga, aby cecha była ciągła. Jest to test mocniejszy, aniżeli test Χ 2 . Title 'Sprawdzamy czy cechy posiadają rozkład normalny'; proc univariate data=stat.roztocze normal; var roztocze; run; Autor: Dariusz Piwczyński Metody statystyczne w naukach biologicznych 10 2006-03-12 Transformacje danych Liczba osobników z rodzaju Roztocze przed transformacją. Rozkład prawostronny. proc univariate data=stat.roztocze normal; where lokaliz=1; var roztocze lnRoz; histogram roztocze lnRoz/normal;run; data stat.roztocze; set stat.roztocze; lnRoz=log(roztocze); run; Ta sama liczba osobników po transformacji logarytminczej. Rozkład lekko lewostronny. Autor: Dariusz Piwczyński