Metody statystyczne w badaniu Oceny: Zalecane podręczniki:

Transkrypt

Metody statystyczne w badaniu Oceny: Zalecane podręczniki:
Oceny:


Metody statystyczne w badaniu


Semestr letni 2014/2015
Wykładowca: dr hab. Małgorzata Bogdan
Strona internetowa:
www.im.pwr.wroc.pl/~mbogdan
Kolokwia: 27 kwietnia i 8 czerwca
Cztery kartkówki – extra punkty.
50%: dst, 70%: db, 90%: bdb
Skreślam osoby, które opuściły oba
kolokwia. Zaliczenie poprawkowe (15
czerwca) daje ocenę co najwyżej dst+.
Dodatkowe uwagi:
Zalecane podręczniki:

Statystyka dla studentów kierunków
technicznych i przyrodniczych, J. Koronacki,


J. Mielniczuk, WNT 2004, wyd. II


Introduction to the Practice of Statistics, D.
Moore, G. McCabe, Freeman 2003, wyd. IV
(w bibliotece w C-11)
Statistics for the Life Sciences, M. Samuels,
J. Witmer, 2003, wyd. III

Listy zadań są dostępne na stronie www kursu.
Część zadań pochodzi z podanych
podręczników, a część-ze skryptu H. Jasiulewicz
i W. Kordeckiego „Rachunek
prawdopodobieństwa i statystyka
matematyczna. Przykłady i zadania", wyd. II.
Proszę zaopatrzyć się w kalkulator; powinien
liczyć średnią i odchylenie standardowe dla
danego ciągu liczb. Kalkulator jest
obowiązkowy na testach (tel. komórkowe
niedozwolone).

1
Przygotowanie studenta do zajęć:

Proszę przeczytać poprzedni wykład,

rozwiązać aktualną listę zadań,
Dane


wydrukować i przejrzec bieżącą prezentację
z Internetu, żeby ułatwić sobie śledzenie
wykładu i notowanie.



Używamy danych, aby odpowiedzieć na
pytania dotyczące badanych populacji.
Zachęcam do zadawania pytań i dyskusji.
Na ogół dane charakteryzują się losową
zmiennością.
Oceniamy informację zawartą w danych, w
obliczu losowego szumu.
Przykład 1
Czym jest statystyka jako nauka?

Pewne badania dotyczą wpływu aktywności fizycznej
na poziom cholesterolu. Pytanie: Czy poziom
cholesterolu jest niższy u osób, które ćwiczą?
•
To nauka rozumienia danych i podejmowania
decyzji w obliczu losowości.


•
To także zbiór metod do planowania
eksperymentu i analizowania danych tak, aby
uzyskać informację i ocenę jej wiarygodności.

Grupa eksperymentalna ćwiczy, grupa kontrolna-nie.
Kogo dotyczy pytanie? Kogo dotyczą pomiary?
Co wpłynie na pomiary?
 Ludzie mają naturalnie różne poziomy
cholesterolu,
 reagują różnie na ten sam reżim ćwiczeń.
 Ćwiczenia mogą wpływać na inne czynniki.

2
Przykład 3
Reakcja owiec na bakterie wąglika
Przykład 2


Eksperyment mikromacierzowy porównuje komórki
rakowe i normalne. Czy zaobserwowany, dwukrotnie
wyższy, poziom ekspresji genu dowodzi faktycznie
różnej ekspresji?
Reakcja
Ważne aspekty:
Śmierć
0
24
Przeżycie
24
0
100%
0%
Czy mamy dość liczne powtórzenia eksperymentu? Czy
w powtórzeniach wyniki są podobne?
Procent
przetrwania
Dwukrotnie czy raczej czterokrotnie wyższy poziom
ekspresji stanowi wystarczający dowód?
Przykład 4
E. coli a rozwój raka wątroby u myszy
Rak wątroby
8
Wolne od
zarazków
19
Zdrowa
5
30
Suma
13
49
62%
39%
Procent myszy z
rakiem wątroby
Nie szczepione
Sygnał i szum

E. coli
Szczepione

Przykład 3 – brak zmienności, mocna konkluzja
Przykład 4 – duża zmienność, niepewna
konkluzja
Ważne pytania metodologiczne:
 Czy na podstawie danej proby można wnioskować, że
badany czynnik ma wpływ na interesujące nas
zjawisko w populacji?
 Jak duża powinna być próba, aby tak wnioskować?

3
Próba:
Schemat badań naukowych







Pytanie naukowe
Planowanie eksperymentu
Eksperyment / zbieranie danych
Analiza danych
Wnioski statystyczne
Wnioski naukowe


Składa się z obserwacji lub z danych
eksperymentalnych.
Jest konkretną reprezentacją „populacji”.
Rozmiar próby:



“n”
np. n=10, n=35, n=556
Przykłady:



Wysokość 10 kłosów żyta (10 obserwacji)
Poziom hemoglobiny u 35 dawców
Kolor i kształt ziaren grochu
Zmienna


Rodzaje zmiennych:
Zmienne
Jakiś aspekt tego, co obserwujemy.
Przykłady: wysokość, poziom hemoglobiny,
kolor i kształt.
Jakościowe
Porządkowe
Nie porządkowe
Ilościowe
Ciągłe
Dyskretne

4
Zmienne jakościowe (kategoryczne)

Jakościowe (kwalifikujące do kategorii):


Zmienne ilościowe (liczbowe)

Porządkowe, np. wybory w ankiecie:
nigdy, rzadko, czasami, często, zawsze


Nie porządkowe, np.: kolor i kształt
Zmienne: X, Y, Z; np.Y=wzrost (pojęcie)


Obserwacja: x, y, z; np. y=182cm (wartość)



Próba: y1, y2,…, yn (ciąg obserwacji)


Rozmiar próby: n, czasem n1, n2
Ciągłe, np. wzrost, waga, stężenie
Dyskretne, np. liczba wadliwych
elementów, liczba gładkich i żółtych
groszków w strączku
„Próba” a „próbka”
Typowe oznaczenia

Ilościowe (wynik jest liczbą):
Biolog mierzy poziom glukozy we krwi 20
ludzi.
„20 próbek krwi.” (biolog)
„Jedna próba; 20 pomiarów glukozy.”
(statystyk)
Bezpieczniej jest użyć słowa “pomiar” tam,
gdzie biolog użyłby słowa “próbka”.

5
Statystyka opisowa:
Opisy rozkładu: Tabela częstości
Wykres słupkowy (dane jakościowe)
Groszki: gładkie/pomarszczone, zielone/żółte
groszki generacji F2
Liczba
Gładkie, żółte
315
Gładkie, zielone
108
Pomarszczone, żółte
101
Pomarszczone, zielone
32
400
300
liczność
Klasy
200
100
0
round,
yellow
Tabela częstości dla poziomu wykształcenia
(USA, ludzie w wieku 25-34 lat, AD 2000)
Wykształcenie
Liczba (w mln)
Podstawowe lub 4.7
zawodowe
Szkoła średnia
11.8
Procent
12.3
Szkoła policealna 10.9
28.3
Licencjat
8.5
22.1
Wykształcenie
wyższe
2.5
6.6
round,
green
wrinkled,
yellow
wrinkled,
green
Wykres słupkowy
30.7

6
Wykres kołowy
Dane ilościowe dyskretne (przykład)

Tabela (rozkład) liczności miotu
Dane (wielkość miotu):
10
12
10
7
14
11
14
11
10
13
10
10
8
11
7
13
12
13
10
8
5
11
11
12
11
11
9
8
12
10
9
11
10
12
10
Liczba potomstwa u n=36 macior.
Liczność miotu jest liczbą całkowitą
(zmienna dyskretna).
9
Liczność miotu
Liczba macior
5
1
6
0
7
2
8
3
9
3
10
9
11
8
12
5
13
3
14
2

7
Liczba (macior)
Histogram liczności
Histogram (liczności)
10
9
8
7
6
5
4
3
2
1
0
Grupowanie podobnych obserwacji zwykle
poprawia czytelność.
 Prawie zawsze postępujemy tak z danymi
ciągłymi.
 Definiujemy “klasy” (przedziały) obserwacji
i zliczamy (liczbę) obserwacji wpadających do
każdej klasy.

5
6
7
8
9
10
11
12
13
14
Liczność miotu
Jak wybierać klasy:




Klasy są rozłączne i pokrywają wszystkie możliwe
wyniki (każda obserwacja wpada do dokładnie
jednej klasy).
Rozmiar (szerokość) klas (przedziałów) jest często
stały.
Używamy wygodnych granic przedziałów, np. 2029, a nie 19.82 – 29.26.
Używamy 5 do 15 klas dla umiarkowanych
zbiorów danych (n  50); używamy więcej, gdy
próba jest duża.
Przykład
Dane : długość łodygi papryki (n=15)
12.4
12.2
13.4
10.9
12.2
12.1
11.8
13.5
12
14.1
12.7
13.2
12.6
11.9
13.1

8




Tabela liczebności (klas)
Min=10.9, max=14.1, rozstęp=max-min=3.2
Klasa
Wybieramy np. szerokość klasy 0.5 oraz
początek 10.5, by pokryć zakres 10.5 – 14.5.
Zliczamy liczby wystąpień i rysujemy
histogram.
Rozważamy zmianę szerokości klas, aby
uzyskać bardziej informacyjny i czytelny
kształt. Za mała szerokość klas=dużo
„szumu”, za duża = utrata informacji.
Liczność
10.5
-
10.99
1
11.0
-
11.49
0
11.5
-
11.99
2
12.0
-
12.49
5
12.5
-
12.99
2
13.0
-
13.49
3
13.5
-
13.99
1
14.0
-
14.49
1
Przykład: Stężenia serum CK
Liczność
Histogram liczności
6
5
4
3
2
1
0
121
82
100
151
68
58
95
145
64
201
101
163
84
57
139
60
78
94
119
104
110
113
118
203
62
83
67
93
92
110
25
123
70
48
95
42
10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49
Klasa

9
Dane do histogramu:
Min=25, max=203
 Rozstęp=178
 Szerokość klasy=20
 Punkt początkowy=20

Serum CK
Liczność
20 - 39
1
40 - 59
4
60 - 79
7
80 - 99
8
100 - 119
8
120 - 139
3
140 - 159
2
160 - 179
1
180 - 199
0
200 - 219
2
Suma
36
Opis histogramu CK:



Centralny szczyt (moda) w okolicach
100 J/L
Zasadnicza masa rozkładu między 40 a
140 J/L
Niesymetryczny–skośny na prawo
(=wyciągnięty w prawo)

10
Interpretacja pola powierzchni pod
histogramem przy równej szerokość klas


Do odcinka 60 - 100 J/L wpada
42% (15 z 36) wartości CK.
=
Nad odcinkiem 60 - 100 J/L leży:
42% całkowitej powierzchni
histogramu.
Co robić przy nierównej szerokości klas?


Wizualnie wielkość klasy = pole słupka.
Dlatego warto podzielić liczności klas przez długość
odcinka tak, aby pole było proporcjonalne do
liczności.

11
Histogram częstości
Histogram liczności
Histogram częstości
0,35
5
0,3
4
0,25
Częstość
Często rysujemy histogram tak, że na osi
pionowej zaznaczamy częstość (względną)
=liczba wystąpień / n

Liczność
6
3
2
1
0,2
0,15
0,1
0,05
0
0
10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 -
10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 -
10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49
10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49
Długość łodygi
Długość łodygi
Histogram częstości jest użyteczny np. dla
porównania zbiorów danych o różnych
rozmiarach n

Diagram łodygi i liścia (Stem and leaf plot)

Jest to inny sposób podsumowania rozkładu
danych; zachowuje prawie pełne informacje.

Wybieramy „łodygę” („pień”) liczby-zwykle
opuszczając jedną lub dwie ostatnie cyfry w
zapisie dziesiętnym.

Zapisujemy możliwe „łodygi” w jednej
kolumnie w kolejności rosnącej, i rysujemy
pionową linię oddzielającą je od „liści”.
Diagram łodygi i liścia (Stem and leaf plot) cd.
Znajdujemy „łodygę” odpowiadającą każdej
obserwacji. Za linią pionową zapisujemy
pozostałe cyfry danej obserwacji=„liść”.
Uwagi:
 Wygodne do szybkiego zilustrowania rozkładu
 Dostajemy (obrócony) „histogram”
 Ograniczenie: trudniej manipulować liczbą klas

12
Miejsce na diagram łodygi i liścia:
Przykład:
Stężenie glukozy w przedniej
komorze prawego oka u 31 zdrowych psów
81
85
93
93
99
76
75
84
78
84
81
82
89
81
96
82
74
70
84
86
80
70
131
75
88
102
115
89
82
79
106
Opisywanie histogramu/rozkładu (słownictwo):







Symetryczny / asymetryczny
W kształcie dzwonu („normalny”) / ciężkie ogony
(spłaszczony)
Skośny na /rozciągniety w prawo lub lewo
Jednomodalny (jeden główny wierzchołek)
Dwumodalny (dwa główne wierzchołki)
Wykładniczy (malejący jak eksponenta
)
Rozrzut (duży lub mały)
„Statystyka” jako procedura obliczeniowa

Statystyka = (najczęściej) liczbowa
charakterystyka danych
Przykłady statystyk dla próby
y1=24, y2=35, y3=26, y4=36:
 min=24, max=36
 rozstęp= 36-24=12
 Statystyka może precyzować kształt, centrum
rozkładu, rozrzut itp.


13
Przykład: Przyrost wagi owiec
Miary położenia rozkładu
Średnia z próby:
• symbol y oznacza konkretną liczbę;
arytmetyczną średnią z obserwacji

Dane : 11, 13, 19, 2, 10, 1

y1=11, y2=13,…, y6=1

6
• Średnia jest „środkiem ciężkości” zbioru danych
y
i
 y1  y2  ...  y6  11  13  ...  1  56
i 1
• Symbol Y oznacza pojęcie/ procedurę
obliczania średniej z próby dla różnych prób
y  56 / 6  9.33
Przykłady
Mediana próbkowa: Definicja


Środkowa obserwacja, jeżeli n jest
nieparzyste
Przykład 1 (n = 5)




Średnia z dwóch środkowych wartości,
gdy n jest parzyste

Dane: 6.3 5.9 7.0 6.9 5.9
Średnia z próby = 32/5 = 6.4
Mediana =
Przykład 2 (n = 6)



Dane: 366 327 274 292 274 230
Średnia z próby = 293.8
Mediana =

14
Średnia a mediana

Przykład 1 cd. (n = 5)



Dane: 6.3 5.9 7.0 6.9 5.9
Średnia = 32/5 = 6.4
Mediana = 6.3
Średnia a mediana (cd.)




Błąd w zapisie danych:




Dane: 6.3 5.9 70 6.9 5.9
Średnia = 19
Mediana = 6.3
Średnia a mediana (cd.)




Jeżeli histogram jest w przybliżeniu
symetryczny, to średnia i mediana są
zbliżone.
Jeżeli histogram jest skośny na prawo, to
średnia jest zwykle większa niż mediana.
Obie te miary położenia są jednakowo
ważne.
Średnia jest częściej wykorzystywana do
testowania i estymacji (o czym później).
Mediana „dzieli” powierzchnię histogramu
na połowę.
Jest odporna – nie mają na nią wpływu obserwacje
„odstające”.
Średnia to „środek ciężkości” histogramu
Obserwacje odstające mają duży wpływ na średnią
– średnia nie jest odporna.
Miary położenia cd.: Kwartyle




Kwartyle dzielą zbiór danych na ćwiartki:
Drugi kwartyl (Q2) to mediana.
Pierwszy kwartyl (Q1) to mediana grupy
obserwacji mniejszych niż Q2.
Trzeci kwartyl (Q3) to mediana grupy
obserwacji większych niż Q2.

15
Przykład

Przykład (n=15)
Dane: 3 5 6 2 1 7 4
Rozstęp międzykwartylowy

7
12
8
2
4
3
5
4
3
4
5
6
9
3
5
Wykres ramkowy (Boxplot)
IRQ=Q3-Q1 (inter-quartile range)

Boxplot – graficzna reprezentacja 5 liczb:
kwartyli, maximum i minimum.

„Ramka” („pudełko”) powstaje z
obrysowania kwartyli.

Linie („wąsy”) ciągną się do wartości
najmniejszej i największej.

16
Zmodyfikowany Boxplot

Dane : 1 2 2 3 3 4 4 4 5 6 6 7 8 15
16
Czy są oo?

Obserwacja odstająca:
 Typowe żródła oo: błąd w zapisie danych, błąd
maszyny, zmiana warunków eksperymentu itp.
Nasze kryterium dla identyfikacji obserwacji
odstających:
 Dolna granica = Q1 - 1.5*IQR
 Górna granica = Q3 + 1.5*IQR
Zmodyfikowany wykres ramkowy (boxplot)
wskazuje też oo:
15


10
12
10
8
6
4
2
0
5
BoxPlot

17
Miary rorzutu:
Rozstęp=max – min
Rozstęp jest bardzo wrażliwy na obserwacje
odstające, nieprzydatny do testowania.

Rozstęp międzykwartylowy=IRQ=Q3-Q1
= rozstęp środkowych 50% obserwacji
Odchylenia (od średniej):
devi  yi  y
dev1  y1  y  11  9.33  1.67


Standardowe odchylenie / wariancja

Współczynnik zmienności (CV)
Próbkowe odchylenie standardowe
(SD, s)
Pytanie: Σ devi=..... (?)
W mianowniku jest n-1:
 Wyrażone w jednostkach pomiarowych
 Informuje o ile przeciętnie odległe od średniej są obserwacje.
s
n
s
(y
i
 y )2 /(n  1) (definition)
i 1
n
 ( yi2  ny 2 ) /( n  1) (calculations)
SS
,where
n 1
n
n
2
SS   ( yi  y )   yi2  ny 2
i 1
i 1
i 1

18
Dlaczego n-1?
Próbkowa wariancja: s2



Podaje „przeciętny” kwadrat odległości od
średniej próbkowej: s2=SS/(n-1).
Jest mierzona w jednostkach będących
kwadratem jednostek, w których wyrażone
są dane.

s2 jest nieobciążonym estymatorem wariancji
w populacji (te pojęcia wyjaśnimy później)
Σ devi=0 stąd
n 1
devn    devi
i 1

n obserwacji daje tylko „n-1 stopni
swobody” = n-1 jednostek informacji
Przykład: dane 35.1, 30.6, 36.9, 29.8 (n=4)
Miary rozrzutu, cd.

Współczynnik zmienności (CV)
CV  s / y
Suma obserwacji:
y = 35.1 + 30.6 + 36.9 + 29.8 = 132.4
 średnia: y =
 s z definicji: SS =
wariancja: s2 =
s=
 CV=

Uwaga: Proszę zachowywać dużo cyfr znaczących przy
rachunkach, zwłaszcza przed odejmowaniem. Zaokrąglamy na
koniec (po odejmowaniu). Odpowiedzi: 3 lub więcej cyfr
znaczących.

19
Ogólne uwagi
 Duże s=duży rozrzut. Małe s=mały rozrzut.

Jeżeli histogram (rozkład) jest w kształcie dzwonu
(„normalny”), to w przybliżeniu:

68% obserwacji jest w odległości  1 s od średniej

95% obserwacji jest w odległości  2 s od średniej

99% obserwacji jest w odległości  3 s od średniej
Przykład
Nierówność Czebyszewa



Gdy rozkład jest dowolny, to zawsze:
13
14
12
14
13
co najmniej 75% obserwacji jest w
odległości  2 s od średniej
co najmniej 89% obserwacji jest w
odległości  3 s od średniej.
12
17
14
13
19
14
11
10
14
15
13
20
20
18
12

20
Przykład cd.



Średnia y = 14.4, odchylenie std. s = 2.9.
I  ( y  2s, y  2 s)
zawiera około 95 % danych.
Ocena s = (długość I) /4.
Odporność miar rozrzutu i położenia
Załóżmy, że mamy dość skupiony „dzwonowy”
(normalny) zbiór danych.
 Czy statystyki zmienią się, gdy jedną obserwację
zastąpimy bardzo dużą wartością/błędem?



Reguła 68-95-99 działa, gdy histogram jest
w kształcie dzwonu (bliski normalnemu).



Mediana:
Rozstęp:
Średnia:
Kwartyle i rozstęp międzykwartylowy:
Standardowe odchylenie:
Praca własna (przypomnienie):
1. Proszę przeczytać ponownie wykład,
2. przeczytać i przygotować listę zadań,
zapisać w zeszycie rozwiązania,
3. wydrukować i przejrzeć następny wykład
(WWW, za kilka dni),
4. powtórzyć 1.-3. po każdym wykładzie.

21