PODSTAWY STATYSTYKI

Transkrypt

PODSTAWY STATYSTYKI
PODSTAWY STATYSTYKI
1. Teoria prawdopodobieństwa i elementy kombinatoryki
2. Zmienne losowe i ich rozkłady
3. Populacje i próby danych, estymacja parametrów
4. Testowanie hipotez
5. Testy parametryczne (na przykładzie testu t)
6. Testy nieparametryczne (na przykładzie testu 2)
7. Korelacja liniowa i rangowa
8. Regresja prosta
9. Analiza wariancji
Testy parametryczne - powtórzenie
 weryfikacja hipotez dotyczących parametrów
populacji (średnia, wariancja)
 założenie: znany rozkład populacji (wykorzystuje się
dystrybuantę)
 hipotezy dotyczące średniej: test t
 hipotezy dotyczące wariancji: test F w analizie
wariancji i analizie regresji
Testy nieparametryczne
Statystyka nieparametryczna: zbiór metod nie
wymagających znajomości rozkładu populacji, z której
pobrana jest próba.
Testy nieparametryczne
 sprawdzające sądy co do rozkładu na podstawie
częstości obserwacji o różnym poziomie lub
charakterze (test 2, test McNemara)
 wykorzystujące
tzw.
rangowanie
(ranking)
obserwacji o nieznanych rozkładach (m.in. test
UManna-Whitneya,
Wilcoxona,
Kołmogorowa–
Smirnowa, test Kruskala-Wallisa)
Testy nieparametryczne – test 2
• Test 2 – test oparty na statystyce o rozkładzie 2
• Rozkład 2 odkrył i opracował Ronald A. Fisher (1890-1962),
genetyk i statystyk brytyjski
• Ronald Fisher stworzył też m.in. statystyczną metodę największej
wiarygodności (ang. maximum likelihood), analizę wariancji
(ANOVA).
info i grafika - wikipedia
Testy nieparametryczne – test 2
Rozkład chi kwadrat (zapisywany też jako 2) to rozkład zmiennej
losowej, która jest sumą k kwadratów niezależnych zmiennych
losowych o standaryzowanym rozkładzie normalnym (k to liczba
stopni swobody)
f x  
x
k
2
k
1
2
k
2  
2
e

x
2
• Skośny
• Kształt zależny od liczby stopni swobody
grafika - wikipedia
Testy nieparametryczne – test 2
 Test oparty na rozkładzie 2 - test 2.
 Test uniwersalny, ma bardzo szerokie zastosowanie:
→ jako test parametryczny
→ przede wszystkim – do weryfikacji hipotez
dotyczących rozkładów (najpowszechniejszy test
nieparametryczny w statystyce)
Populacja i próba
Populacja
Próba
pobieranie
wnioskowanie
Rozkład teoretyczny
Przykłady:
 jednostajny
 dwumianowy
 normalny
Rozkład empiryczny
Wartości cechy w próbie
i ich częstości
Populacja i próba
Przykład 1: plenność pewnej rasy świń
Rozkład teoretyczny
 pokazuje
prawdopodobieństwa
0,10
0,09
0,08
0,07
0,06
0,05
 jest symetryczny
0,04
0,03
0,02
0,01
0,00
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19
 pokazuje częstości
Rozkład empiryczny
 może być skośny
0,16
 mogą być braki
wartości
0,14
0,12
0,10
0,08
ale:
0,06
0,04
PRZYPOMINA TEORETYCZNY
(im większa próba tym bardziej)
0,02
0,00
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19
Populacja i próba
Przykład 2: zawartość tłuszczu w mleku
Rozkład teoretyczny – rozkład normalny
POPULACJA:
0,5
 rozkład przedstawia
prawdopodobieństwa
0,4
0,3
 jest symetryczny
0,2
PRÓBA:
0,1
x

0
Rozkład empiryczny
 konstruuje się szereg
rozdzielczy (klasy wartości)
 rozkład przedstawia
częstości wartości w klasach
0,25
 może być skośny
0,2
 mogą być braki wartości
0,15
0,1
0,05
0
1
2
3
4
5
6
7
8
9
10
ale:
PRZYPOMINA TEORETYCZNY
(im większa próba tym bardziej)
Populacja i próba
Populacja
Próba
Rozkład teoretyczny
Rozkład empiryczny
CZY SĄ PODOBNE?
Test 2
Testy nieparametryczne – test 2
Test 2
1. Główne zastosowanie: testowanie hipotez dotyczących
rozkładów
2. Obserwacje podzielone są na klasy, według przyjętych
kryteriów; liczba klas określa liczbę stopni swobody
3. Danymi są liczebności klas (liczby obserwacji w
poszczególnych klasach) – rzeczywiste (obserwowane) i
teoretyczne (oczekiwane)
4. Nie należy stosować testu 2 gdy oczekiwana liczebność
klas jest mała (powinna wynosić co najmniej 10
elementów, a dla 1 stopnia swobody co najmniej 5;
istnieją też matematyczne poprawki na małe klasy)
Testy nieparametryczne – test 2
Test 2 – podstawowe zastosowania
I.
Test zgodności (podział populacji
wg jednego kryterium)
II. Test niezależności (podział
populacji wg dwóch kryteriów)
III. Test McNemara
Testy nieparametryczne – test 2
Testowanie zgodności rozkładu próby z
rozkładem oczekiwanym
(podział według jednego kryterium)
Testy nieparametryczne – test 2
Dzikie krokusy mają trzy kolory kwiatów: białe, żółte i
fioletowe
Na losowo wybranym stanowisku w Tatrach kwitło 17
krokusów
Kolor
Białe
Liczba
4
Żółte
Fioletowe
8
5
Czy rozkład kolorów w naturze jest równomierny?
Testy nieparametryczne – test 2
1. Określenie hipotez H0 i HA
H0: częstości kolorów są jednakowe
HA: częstości kolorów są różne
H0: nB = nŻ = nF
HA: nB ≠ nŻ ≠ nF
2. Ustalenie poziomu istotności
MAX = 0,05
Testy nieparametryczne – test 2
3. Wybór i określenie rozkładu statystyki testowej
2
(
n

N
)
i
2   i
Ni
i 1
k
gdzie, dla i-tej klasy:
ni – jej liczebność w próbie
Ni – teoretyczna liczebność klasy
Tak określona statystyka ma rozkład 2 o k -1 stopniach
swobody (k – liczba klas)
Testy nieparametryczne – test 2
k
2  
i 1
liczebność klasy (określony
kolor) zaobserwowana w
próbie
ni  N i 2
Ni
liczebność klasy oczekiwana dla
prawdziwej H0
Jeśli H0 jest prawdziwa to ni = Ni ,
a wtedy wartość 2  0
A kiedy ni ≠ Ni to
2 >> 0 i wtedy
odrzucamy H0
I przyjmujemy HA
Testy nieparametryczne – test 2
k
2  
i 1
liczebność klasy (określony
kolor) zaobserwowana w
próbie
Gdyby rozkład
kolorów był
równomierny,
powinniśmy mieć trzy
równoliczne klasy:
ni  N i 2
Ni
liczebność klasy oczekiwana dla
prawdziwej H0 (teoretyczna)
k
n
i
Ni 
i 1
k
485

 5,7
3
Testy nieparametryczne – test 2
4. Obliczenie wartości statystyki testowej
2
k
2  
i 1

ni  N i 
Ni

nB  N B 

2
NB

nŻ  N Ż 

2
NŻ
4  5,7 2  8  5,7 2  5  5,7 2
5,7
5,7
5,7
2

nF  N F 

NF
 1,53
liczba stopni swobody: k - 1 = 2
5. Obliczenie wartości t:
 t  0,47
6. Decyzja: t > max
H0
Częstości kolorów są jednakowe
HA
Testy nieparametryczne – test 2
Testowanie niezależności rozkładów dwóch
cech
(dwóch kryteriów podziału populacji)
Testy nieparametryczne – test 2
Ankieter spytał 562 osoby o to, jak najchętniej
spędziłyby najbliższego sylwestra; można było
wybrać jedną z czterech odpowiedzi:
Wybór
Płeć
Zabawa
Książka
TV lub
komputer
mężczyzna
43
4
196
7
kobieta
92
17
195
8
Sen
Testy nieparametryczne – test 2
1. Określenie hipotez H0 i HA
H0: płeć nie wpływa na preferencje sylwestrowe (oba
kryteria są niezależne)
HA: płeć wpływa na sposób spędzania sylwestra
(kryteria są zależne)
H0: nMi = nKi dla i = 1…4
2. Ustalenie poziomu istotności
MAX = 0,05
HA: nMi ≠ nKi
Testy nieparametryczne – test 2
3. Wybór i określenie rozkładu statystyki testowej
k
m
 2  
i 1 j 1
n
ij
 N ij 
2
N ij
2
2

nM 1  N M 1 

nK 4  N K 4 


NM1
NK 4
ma rozkład 2 o (n - 1)(m - 1) stopniach swobody;
n – liczba klas według pierwszego kryterium,
m – liczba klas według drugiego kryterium podziału.
Testy nieparametryczne – test 2
k
m
2  
n
ij
 N ij

Oczekiwana liczebność klasy:
2
N ij
i 1 j 1
książ
ka
TV lub
komp
k
n n
sen
i 1
N

j 1
N
i.
N 
suma
j 1
N
zabawa
książka
135*250
562
21*250
562
?
zabawa
ksiązka
TV lub
komp
sen
mężczy
zna
60,5
9,34
173,93
6,67
kobieta
74,95
11,66
217,07
8,33
43
4
196
7
250
kobieta
92
17
195
8
312
mężczy
zna
suma
135
21
391
15
562
kobieta
Np.: n11 = 43, a N11?
Obliczamy z proporcji:
135 ~ 562
i 1
.j
TV lub
komp
mężczy
zna
N11 ~ 250
m
n n
.j
i.
N ij 
zaba
wa
m
k
sen
Testy nieparametryczne – test 2
4. Obliczenie wartości statystyki testowej
2
2 
43  60,05
60,05
2

92  74,95
74,95
2

4  9,34
9,34
2

17  11,66
11,66
2
2
2
2

196  173,93 195  217,07  7  6,67  8  8,33




173,93
217,07
6,67
8,33
19,30
liczba stopni swobody: (k - 1)(m - 1) = 3
5. Obliczenie wartości t:   0,0002
t
6. Decyzja: t < max
H0
H1
Wybór sposobu spędzania sylwestra zależy od płci

Testy nieparametryczne – test 2
Test McNemara
(szczególny przypadek testu 2)
Testy nieparametryczne – test McNemara
Zbadano obecność pewnej bakterii w organizmie 200
pacjentów (wynik był dodatni lub ujemny)
Badanie powtórzono po 2-tygodniowym podawaniu
pewnego leku wszystkim pacjentom
Czy lek działa na bakterię?
Po leczeniu
Przed
leczeniem
Plus (+)
Minus (-)
Plus (+)
40
70
Minus (-)
10
80
Testy nieparametryczne – test McNemara
1. Określenie hipotez H0 i HA
H0: lek nie wpływa na obecność bakterii (oba kryteria są
niezależne)
HA: lek wpływa na obecność bakterii (oba kryteria są zależne)
H0: n12 = n21
HA: n12 ≠ n21
2. Ustalenie poziomu istotności
MAX = 0,05
Testy nieparametryczne – test McNemara
3. Wybór i określenie rozkładu statystyki testowej

2

n


12  n21
n12  n21
2
~ 12
4. Obliczenie wartości statystyki:
• 1 stopień swobody
• obserwacje w parach
2
2 
70  10
70  10
 45
5. Obliczenie wartości t:
 t  0,00000000002
6. Decyzja: t < max
Ten lek działa na bakterie
H0
H1
Testy nieparametryczne – test 2
Test 2 – podstawowe zastosowania
I.
Test zgodności (podział populacji
wg jednego kryterium)
II. Test niezależności (podział
populacji wg dwóch kryteriów)
III. Test McNemara
Inne testy nieparametryczne
Testy nieparametryczne:
1. Brak założeń dotyczących rozkładu zmiennej
2. Skala pomiaru zmiennej: nominalna (jakościowa: jest-nie ma,
taki-śmaki-owaki, itd.), porządkowa (kolejność, bonitacja itp.);
nie musi być ciągła
3. Często: wykorzystanie metod rangowych (rankingu
obserwacji zamiast wartości przyjmowanych przez zmienną),
wykorzystanie częstości (liczebności klas obserwacji)
4. Zalety: odporność na obserwacje odstające, prostota obliczeń
(nie zawsze!)
5. Wady: utrata informacji (o wartościach cechy, różnicach
między nimi itp.) przez zastosowanie rang
Inne testy nieparametryczne
Testy nieparametryczne takie jak:
 test U Manna-Whitneya
 test Wilcoxona
 test Kołmogorowa–Smirnowa
 test Kruskala-Wallisa
będzie można poznać w przyszłości,
na bardziej zaawansowanych
kursach statystyki