Wybrane rozkłady zmiennych losowych. Transformacje danych.

Transkrypt

Wybrane rozkłady zmiennych losowych. Transformacje danych.
Metody statystyczne w naukach biologicznych
1
2006-03-12
Wykład: Wybrane rozkłady zmiennych losowych. Parametry rozkładu.
Statystyczny opis rozkładu zmiennej
Parametry – parametry rozkładu badanej cechy w populacji generalnej,
charakteryzują one ten rozkład. Oznaczane są literami greckimi. Dzielimy je
najczęściej na miary skupienia (średnia arytmetyczna), rozproszenia (wariancja),
asymetrii, korelacji.
Miary położenia:
przeciętne klasyczne:
średnia arytmetyczna
średnia geometryczna
średnia harmoniczna
przeciętne pozycyjne:
mediana
dominanta
kwartyle
Miary dyspersji (zmienności):
rozstęp
odchylenie standardowe
wariancja
wskaźnik zmienności Persona
Asymetria rozkładu cechy
skośność
Miary koncentracji
kurtoza
MIARY POŁOŻENIA KLASYCZNE
Miary położenia rozkładu (zwane też miarami tendencji centralnej lub lokacji) pozwalają określić,
gdzie w zbiorze wartości liczbowych znajdują się wartości badanej cechy, tym samym pozwalają na
umiejscowienie rozkładu cechy.
Miary położenia klasyczne. W celu ich obliczenia bierzemy pod uwagę wszystkie wartości
zmiennej ze zbioru. Można na nich wykonać wszystkie działania algebraiczne.
Podstawową miarą położenia jest średnia arytmetyczna. Średnia arytmetyczna - suma obserwacji
dzielona przez ich ilość lub inaczej wartość, która przypadłaby na każde indywidualne
spostrzeżenie, gdyby wszystkie indywidualne wartości były równe a ich suma pozostałaby bez
zmian - symbol x .
1 N
x + x + ... + xN
x = ∑ xi = 1 2
N i =1
N
gdzie:
N – liczba wszystkich jednostek,
xi – wartość cechy u i-tej jednostki.
Właściwości średniej arytmetycznej:
1. Średnia arytmetyczna jest to taka wartość zmiennej, która podstawiona na miejsce wszystkich
poszczególnych wartości nie zmieni ich sumy
Autor: Dariusz Piwczyński
Metody statystyczne w naukach biologicznych
2
2006-03-12
2. Suma odchyleń poszczególnych wartości od średniej arytmetycznej jest równa zero
3. Suma kwadratów odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej jest
najmniejsza w porównaniu z sumami kwadratów odchyleń od jakiejkolwiek innej liczby
w szeregu.
Średnia ważona. Obliczamy ją w sytuacji, gdy mamy do czynienia z szeregiem rozdzielczym,
patrz koguty.
1 k
x ∗ n + x ∗ n + ... + xk ∗ nk
x = ∑ xi ∗ ni = 1 1 2 2
N i =1
N
gdzie:
N – liczba wszystkich jednostek,
ni - liczba jednostek posiadających i-tą wartość cechy,
k – liczba klas,
xi – i-ta wartość cechy.
Średnia harmoniczna. Jest ona odwrotnością średniej arytmetycznej sumy odwrotności
poszczególnych jej wyrazów.
k
xh =
∑n
i =1
k
i
ni
∑
i =1 xi
gdzie:
xi- wartość cechy statystycznej,
ni – liczebność odnosząca się do wartości cechy xi,
k – liczba kategorii cechy statystycznej.
Średnią harmoniczną stosuje się m.in. w analizie wariancji układów nieortogonalnych
(nieproporcjonalnych - przy nierównej ilości osobników w grupach). Nie można jej obliczyć, gdy
jakaś wartość cechy równa się „0” lub jest ujemna.
Średnia geometryczna jest pierwiastkiem k-tego stopnia z iloczynu k-wartości cechy.
xg = k x1 ∗ x2 ∗ ... ∗ xk
Średnią geometryczną stosuje się, gdy jedna z wartości skrajnych zmiennej bardzo różni się od
pozostałych (duże rozproszenie wartości skrajnych), w takim przypadku średnia geometryczna
bardziej prawidłowo scharakteryzuje położenie danej cechy w szeregu liczbowym niż średnia
arytmetyczna. Stosujemy ją, gdy chcemy porównać stosunki jakichś dwóch wydajności - zamiast
ich różnic czy też chcemy określić jakiś średni wskaźnik. Średniej tej nie możemy obliczyć, gdy
wartości cechy są ujemne lub wynoszące „0”.
MIARY POŁOŻENIA POZYCYJNE
Pozycyjne miary położenia wskazują wartość cechy, która odgrywa w szeregu szczególną rolę, np.
dzieli szereg na dwie połowy. Punktem wyjścia do ich określenia jest uporządkowanie szeregu
liczbowego, konieczna jest przy tym znajomość liczebności.
Autor: Dariusz Piwczyński
Metody statystyczne w naukach biologicznych
3
2006-03-12
Dominanta (Mo) (wartość szczytowa, moda, wartość modalna). Jest to taka wartość zmiennej,
która występuje w populacji największą ilość razy. Jest najbardziej typowa dla danego zjawiska.
Jednak nie należy jej obliczać, gdy rozkład danej cechy nie posiada jednego, wyraźnie
zaznaczonego maksimum liczebności. Wartość modalna wyznacza szczyt krzywej liczebności.
Pozwala scharakteryzować populację pod względem jej typowości.
Kwartyle (kwantyle) (Q1,Q2,Q3) Są to takie wartości cechy, które pozwalają podzielić
uporządkowany szereg liczbowy na 4 części. Kwartyl drugi dzieli szereg na połowy, zwany jest też
medianą. Jeśli liczebności ćwiartek są liczbami parzystymi, to wartość kwartyli obliczamy jako
średnią arytmetyczną z wartości kończących i rozpoczynających kolejne ćwiartki. W szeregu
nieparzystym medianę stanowi środkowy wyraz szeregu.
Kwartyle stosujemy w odniesieniu do cech jakościowych trudno mierzalnych, w badaniach
mikrobiologicznych przy określaniu średniej liczby drobnoustrojów.
Pomiędzy dominantą, medianą i średnią arytmetyczną istnieje związek:
Mo = 3 Me - 2 x
W rozkładzie normalnym te trzy przeciętne są sobie równe!!!
MIARY ZMIENNOŚCI (DYSPERSJI)
Problem, jaki wiąże się z powyższym zagadnieniem, to odpowiedź na pytanie: jak bardzo
poszczególne wartości cechy różnią się od siebie?
Najprostszą miara zmienności to Rozstęp. Jest to tzw. obszar zmienności, określa on całkowitą
zmienność cechy. Obliczany jest z poniższego wzoru:
Ox=xmax-xmin
Rozstęp jest traktowany jedynie jako wstępna miara zmienności z oczywistych względów
(opieramy się jedynie o wartości skrajne).
Wariancja, jest średnią z kwadratów różnic średniej arytmetycznej od poszczególnych wartości
cechy. Wariancja jest miarą, która nie posiada interpretacji.
N
S x2 =
∑( x
i =1
i
− x)
N
2
 N 
 ∑ xi 
N
2
lub
x −  i =1 
∑
N
S x2 = i =1
N
2
Interpretację tę posiada odchylenie standardowe.
S x = S x2
Jest to liczba mianowana. Pozwala ona określić typowy obszar zmienności wartości cechy.
Wskazuje on, o jaką wartość poszczególne wartości cechy odbiegają przeciętnie od średniej
arytmetycznej. Im większe odchylenie standardowe, tym poszczególne obserwacje są bardziej
oddalone od średniej arytmetycznej, tym większe jest rozproszenie próby. Mówi się, że próba jest
mało wyrównana.
Autor: Dariusz Piwczyński
Metody statystyczne w naukach biologicznych
2006-03-12
4
Miary względnego zróżnicowania
Wskaźnik zmienności Pearsona. Stosowana w sytuacji, gdy badane zjawisko mierzone jest w
różnych jednostkach miary lub kształtuje się na niejednakowym poziomie przeciętnym.
S
V x = x ∗ 100
x
Przykład (B. Żuk, Biometria stosowana)
Rozkład prawdopodobieństwa liczby kogutów w partii 10 wylężonych piskląt, liczba partii z
określoną liczbą kogutów (k) oraz łączna liczba kogutów w n=1000 partiach.
Liczba kogutów (k) Prawdopodobieństwo Liczba partii z k
Łączna liczba
pk
kogutami n*pk
kogutów k*n*pk
0
0,0010
1
0
1
0,0098
10
10
2
0,0439
44
88
3
0,1172
117
351
4
0,2051
205
820
5
0,2461
246
1230
6
0,2051
205
1230
7
0,1172
117
819
8
0,0439
44
352
9
0,0098
10
90
10
0,0010
1
10
Suma
1,00
1000
5000
Liczba partii w zależności od liczby kogutków
250
200
150
100
50
0
0
1
2
3
4
5
6
7
8
9
10
Wartość oczekiwana zmiennej losowej K. Jeżeli zmienna losowa X przyjmuje wartości x1, x2,...xt z
prawdopodobieństwem odpowiednio p1,p2,...pt to wtedy wartością oczekiwaną tej zmiennej losowej
jest E(X).
t
E ( X ) = ∑ x p * pk
k =1
Autor: Dariusz Piwczyński
Metody statystyczne w naukach biologicznych
5
2006-03-12
Rozkład prawdopodobieństwa może być wykorzystany w odniesieniu do zmiennej dyskretnej oraz
ciągłej, ale przy wcześniejszym rozbiciu zmienności na pewne przedziały.
Dystrybuanta jest funkcją niemalejącą, przyjmuje wartości od 0 do 1. Dzięki dystrybuancie
możemy obliczyć prawdopodobieństwo, że zmienna losowa przyjmuje wartości z określonego
przedziału a < x ≤ b, P(a < X ≤ b)=F(b)-F(a).
F(x)=P(X≤x). Dystrybuanta liczby rozkładu kogutów w partii 10 piskląt. Prawdopodobieństwo, że
liczba kogutów przyjmie wartość mniejszą lub równą 3 wynosi:
0,0010+0,0098+0,0439+0,1172=0,172.
Funkcja gęstości f(x) pełni podobną rolę jak prawdopodobieństwo dla zmiennej skokowej.
Rozważmy domknięty przedział [x-h,x+h], h>0. Przedział ten zawiera wartość x.
Prawdopodobieństwo, że zmienna losowa przyjmie wartości z tego przedziału wynosi F(x-h)F(x+h). Dzieląc tę różnicę przez długość przedziału (2h) otrzymujemy funkcję gęstości. Wartość
graniczna tego ilorazu, przy h→0, zwana jest gęstością prawdopodobieństwa w punkcie x. Funkcja
gęstości jest pochodną dystrybuanty.
f ( x) = lim
h →0
F ( x + h) − F ( x − h)
dF ( x )
= F ' ( x) =
2h
dx
Autor: Dariusz Piwczyński
Metody statystyczne w naukach biologicznych
2006-03-12
6
Rozkład normalny
Najważniejszy w statystyce rozkład zmiennej losowej ciągłej X zwany jest
rozkładem normalnym. Jest on dziełem niemieckiego matematyka,
astronoma, geodety Karola Fryderyka Gauss’a (1777-1855).
Funkcja gęstości prawdopodobieństwa tego rozkładu określona jest wzorem:
f ( x) =
1
e
σ 2π
−
( x −m ) 2
2σ 2
,−∞ < x < ∞
;e
1
= lim(1 + ) x
x →∞
x
e – podstawa logarytmu normalnego, e=2,71828…
f(x) oznacza wysokość krzywej rozkładu, najwyższa wartość f(x) odpowiada X równej µ.
Rozkład normalny oznacza się często symbolem N(m, σ). Parametr µ jest wskaźnikiem położenia,
wartością oczekiwaną (średnią). Z kolei σ jest wskaźnikiem rozproszenia, czyli µ=E(X), σ2=D2(X).
Autor: Dariusz Piwczyński
Metody statystyczne w naukach biologicznych
7
2006-03-12
Pole powierzchni między krzywą a osią dociętych jest równe 1, gdyż
prawdopodobieństwo, że zmienna losowa przyjmie wartość w przedziale od -∞ do +∞ jest równe
1 (jest to zdarzenie pewne). Jest to rozkład symetryczny. Rozkład normalny jest rozkładem
ciągłym, nie można zatem określić powierzchni pod krzywą rozkładu dla jednej konkretnej
liczby, ale dla zakresu. Jeżeli wykonuje się pomiar z dokładnością do ±1 mm, to interesujący nas
przedział wynosi, np. od 20,5 do 21,5.
Własności krzywej: 68,26% powierzchni µ±σ, 95,46% µ±2σ, 99,73% µ±3σ
Dystrybuanta zmiennej losowej X
1
F ( x) =
σ 2π
x
∫e
−
( x −m)2
2σ 2
dx
−∞
Rozkład normalny standaryzowany – rozkład normalny N(0,1). Standaryzacja rozkładu
normalnego – polega na odjęciu średniej µ i podzieleniu przez odchylenie standardowe σ, tzn. X ma
rozkład normalny N(m, σ), to U=(X-m)/σ ma rozkład N(0,1).
ϕ (u ) =
1
e
2π
−
u2
2
Dystrybuanta tego rozkładu:
Φ (u ) =
1
2π
u
∫e
−
u2
2
du
∞
Powierzchnia pod krzywą to całka rozkładu normalnego. Jest ona podana w tablicach dla rozkładu
standaryzowanego N (0,1). Wykresem tej funkcji gęstości jest krzywa Gaussa. Zmienna losowa U
mająca rozkład N(0,1) nosi nazwę standaryzowanej lub unormowanej zmiennej normalnej.
MIARY ASYMETRII ROZKŁADU
Znajomość miar asymetrii rozkładu pozwala ustalić czy jest to rozkład symetryczny czy też
asymetryczny. Asymetria ujemna lub też lewostronna ma miejsce, gdy cech o wartościach
relatywnie wyższych jest więcej. Na obrazie graficznym jest to widoczne w ten sposób, iż krzywa
łagodniej unosi się w górę natomiast gwałtownie opada. W takim to przypadku wartość dominanty
przewyższa wartość średniej. Najwięcej jest osobników o wartościach cechy przewyższających
średnią. Z kolei asymetria prawostronna, to dokładnie odwrotna sytuacja.
Współczynnik skośności (skośność):
x − Mo( x )
As =
Sx
Przyjmuje on wartości liczbowe z przedziału: <-1;1>. Wartości dodatnie wskazują na rozkład
prawostronny, ujemne na lewostronny.
Autor: Dariusz Piwczyński
Metody statystyczne w naukach biologicznych
8
2006-03-12
MIARY KONCENTRACJI (SKUPIENIA)
Informują nas czy cechy są rozproszone w całej zbiorowości czy też skupione wokół jednej
wartości. Miarą koncentracji jest współczynnik koncentracji (kurtoza).
kx =
1
N
N
∑( x
i =1
i
− x)
4
S x4
Kurtoza stanowi podstawę do obliczenia relatywnej oceny spłaszczenia krzywej liczebności za
pomocą współczynnika ekscesu.
gx=kx-3
gdy:
gx<0, to oznacza, że rozkład jest stosunkowo bardziej rozproszony względem standardowego
rozkładu (kurtoza wynosi wtedy 0);
gx>0, to znaczy, iż rozkład jest relatywnie bardziej skupiony.
Miary położenia i zmienności
proc univariate data=stat.oczy;
where poz>1;
var G_0 G_2 G_4;
histogram G_0 G_2 G_4/normal;
run;
proc means data=stat.oczy maxdec=3;
class poz;
var G_L_0 -- G_4;
run;
/*Procedura obliczająca i zestawiająca w tabelę podstawowe statystyki*/
ods rtf;
ods rtf body='g:\stat\bakterie.rtf';
proc tabulate data=stat.bakterie formchar="...........";
class obiekt;
var drozdze ln ;
table (drozdze ln)*(n MEAN STD CV),(obiekt);
run;
ods rtf close;
ods html;
ods html body='g:\stat\bakterie.html';
proc tabulate data=stat.bakterie formchar="...........";
class obiekt;
var drozdze ln ;
table (drozdze ln)*(n MEAN STD CV),(obiekt);
run;
ods html close;
Autor: Dariusz Piwczyński
Metody statystyczne w naukach biologicznych
9
2006-03-12
Badanie normalności rozkładu
Hipotezy dotyczące zgodności z określonym rozkładem.
(hipotezy nieparametryczne)
H0:Cecha X ma rozkład zgodny z normalnym
Przykłady testów:
Shapiro-Wilka: jest on najbardziej zalecanym testem normalności rozkładu. Jednak wskazane jest,
aby liczebność próby była poniżej 2000, gdyż w przeciwnym wypadku daje mylne wyniki. Test ten
wymaga, aby cecha miała rozkład ciągły.
Kołmogorowa-Smirnowa: Wymaga znajomości średniej i odchylenie standardowego dla
populacji. W sytuacji, gdy nie znamy wyżej wymienionych parametrów stosujemy test K-S z
poprawką Lilieforsa. Test K-S wymaga, aby cecha była ciągła. Jest to test mocniejszy, aniżeli test Χ
2
.
Title 'Sprawdzamy czy cechy posiadają rozkład normalny';
proc univariate data=stat.roztocze normal;
var roztocze;
run;
Autor: Dariusz Piwczyński
Metody statystyczne w naukach biologicznych
10
2006-03-12
Transformacje danych
Liczba osobników z rodzaju Roztocze przed transformacją. Rozkład prawostronny.
proc univariate data=stat.roztocze normal;
where lokaliz=1; var roztocze lnRoz; histogram roztocze lnRoz/normal;run;
data stat.roztocze;
set stat.roztocze;
lnRoz=log(roztocze);
run;
Ta sama liczba osobników po transformacji logarytminczej. Rozkład lekko
lewostronny.
Autor: Dariusz Piwczyński