Czym jest statystyka? Przykład 2 Przykład 3

Transkrypt

Czym jest statystyka? Przykład 2 Przykład 3
Czym jest statystyka?
Wykład 6 – Wstęp do statystyki
Używamy danych, aby odpowiedzieć na
pytania dotyczące badanych populacji
•
Na ogół dane charakteryzują się losową
zmiennością
•
Oceniamy informację zawartą w danych
Przykład 1
Pewne badania dotyczą wpływu aktywności fizycznej
na poziom cholesterolu. Jedna grupa ćwiczy, druga
nie. Pytanie: Czy poziom cholesterolu jest niższy u
osób, które ćwiczą ?
Czynniki mogące wpłynąć na wynik eksperymentu:
Ludzie mają naturalnie różne poziomy cholesterolu
Reagują różnie na ten sam reżim ćwiczeń
Różny stopień zaangażowania w realizację ćwiczeń
Wpływ diety
Ćwiczenia mogą wpływać na inne czynniki, np.
apetyt
Przykład 3
W artykule prasowym czytamy, że 80%
pieszych będących ofiarami nocnych
wypadków samochodowych nosiło
ciemne ubrania, a 20% jasne ubrania.
Wyciągnięto wniosek, że w nocy
bezpiecznie jest nosić jasne ubrania.
Czy przeprowadzone badania
upoważniają do takiej konkluzji?
Nauka rozumienia danych i podejmowania
decyzji w obliczu losowości
Zbiór metod do planowania eksperymentu i
analizowania danych tak, aby uzyskać
maksimum informacji i ilościową ocenę ich
wiarygodności
Przykład 2
Eksperyment mikromacierzowy porównujący
komórki rakowe i normalne. Czy dwukrotnie
wyższy zaobserwowany poziom ekspresji genu
dowodzi faktycznie różnej ekspresji ?
Czy mamy powtórzenia eksperymentu? Czy w
powtórzeniach wyniki są podobne ?
Dlaczego dwukrotna zmiana, a nie trzy- lub
czterokrotna ? Jak ustalić właściwą wartość
krytyczną?
Przykład 4
Reakcja owiec na bakterie wąglika
Reakcja
Szczepione
Nie szczepione
Śmierć
0
24
Przeżycie
24
0
Procent
przetrwania
100 %
0%
1
Przykład 5
Rozwój raka wątroby u myszy
E. coli
Rak wątroby
8
Wolne od
zarazków
19
Zdrowa
5
30
Suma
13
49
Procent myszy z 62 %
rakiem wątroby
Sygnał i szum
39 %
Przykład 4 – brak zmienności (??): mocna
konkluzja
Przykład 5 – duża zmienność: niepewna
konkluzja
Jak duża musi być próba, abyśmy w oparciu o
nią mogli wywnioskować, że badany czynnik
ma wpływ na wynik eksperymentu?
Losowość
Dane na ogół charakteryzują się zmiennością
Schemat badań naukowych
Matematycznie modelujemy tę zmienność
używając rachunku prawdopodobieństwa
Pytanie naukowe
Planowanie eksperymentu
Eksperyment / zbieranie danych
Analiza danych
Wnioski statystyczne
Wnioski naukowe
Próba, Zmienna
Próba:
Obserwacje lub wyniki eksperymentu
Reprezentuje konkretne realizacje eksperymentu
Przykłady:
Próba, Zmienna cd.
Wysokość 10 kłosów żyta (10 obserwacji)
Poziom hemoglobiny u 35 dawców
Kolor i kształt ziaren grochu
Rozmiar próby:
“n”
np. n=10, n=35, n=556
Zmienna:
to, co mierzymy
tu: wysokość, poziom hemoglobiny,
kolor i kształt
2
Rodzaje zmiennych
Zmienne jakościowe (kategoryczne)
Zmienne
Jakościowe – kwalifikujące do kategorii
Jakościowe
Ilościowe
Porządkowe
Nie porządkowe
Ciągłe
Porządkowe, np. wybory w ankiecie:
nigdy, rzadko, czasami, często, zawsze
Nie porządkowe, np.: kolor i kształt
Dyskretne
Zmienne ilościowe (liczbowe)
Ilościowe – wynik jest liczbą
Ciągłe, np. wzrost, waga, stężenie
Dyskretne, np. liczba wadliwych elementów,
liczba gładkich i żółtych groszków
Oznaczenia
Zmienne: X,Y,Z; np.Y=wzrost (pojęcie)
Obserwacja: x,y,z; np. y=182cm (wynik)
Próba: y1,y2,…,yn (wielokrotne obserwacje)
Rozmiar próby: n, czasem n1,n2
Statystyki opisowe:
Tabela częstości
Próba a próbka
Groszki:gładkie/pomarszczone, zielone/żółte
Biolog mierzy poziom glukozy we krwi 20
ludzi.
„20 próbek krwi”? (biolog)
„Jedna próba 20 pomiarów glukozy.”
(statystyk)
Będziemy używali “pomiar” tam, gdzie biolog
użyłby słowa “próba”.
Klasy
Liczba
Gładkie, żółte
315
Gładkie, zielone
108
Pomarszczone, żółte
101
Pomarszczone, zielone
32
3
Wykres słupkowy (dane jakościowe)
groszki generacji F2
400
liczność
300
200
100
0
round,
yellow
round,
green
wrinkled,
yellow
wrinkled,
green
Wykształcenie
Liczba (w mln)
Podstawowe lub 4.7
zawodowe
Szkoła średnia
11.8
Procent
12.3
Szkoła policealna 10.9
28.3
Licencjat
8.5
22.1
Wykształcenie
wyższe
2.5
6.6
Wykres kołowy
Wykres słupkowy
Dane
Dane ilościowe dyskretne
Liczba potomstwa u n=36 macior.
Liczność miotu jest liczbą całkowitą
(zmienna dyskretna).
30.7
10
12
10
7
14
11
14
11
10
13
10
10
8
11
7
13
12
13
10
8
5
11
11
12
11
11
9
8
12
10
9
11
10
12
10
9
4
Histogram liczebności
Liczba potomstwa
Liczba macior
5
1
6
0
7
2
8
3
9
3
10
9
11
8
12
5
13
3
14
2
Liczba (macior)
Rozkład liczebności
5
6
7
8
9
10
11
12
13
14
Liczność miotu
Jak wybierać klasy:
Histogram (liczebności)
10
9
8
7
6
5
4
3
2
1
0
Grupowanie podobnych obserwacji zwykle
jest pomocne
Prawie zawsze postępujemy tak z danymi
ciągłymi
Definiujemy “klasy” (przedziały) obserwacji i
zliczamy liczbę obserwacji wpadających do
każdej klasy
Każda obserwacja musi wpadać do dokładnie jednej klasy
(klasy są rozłączne i pokrywają wszystkie możliwe wyniki)
Rozmiar (szerokość) klas (przedziałów) jest zwykle taki
sam
Używamy wygodnych granic przedziałów, np. 20-29, a nie
19.82 – 29.26
Używamy 5 do 15 klas dla umiarkowanych zbiorów
danych (n ≤ 50); więcej, gdy duża próba
Przykład
Dane : długość łodygi papryki (n=15)
12.4
12.2
13.4
10.9
12.2
12.1
11.8
13.5
12
14.1
12.7
13.2
12.6
11.9
13.1
Min=10.9, max=14.1, zakres=max-min=3.2
Wybieramy szerokość klasy, np. 0.5 i początek 10.5,
aby pokryć zakres 10.5 – 14.5.
Zliczamy liczby wystąpień i rysujemy histogram.
Ew. zmieniamy szerokość klas, aby uzyskać
pożądany kształt. Za mała szerokość klas=dużo
„szumu”, za duża = utrata informacji
5
Tabela liczebności (klas)
-
Liczność
1
0
2
5
2
3
1
1
10.99
11.49
11.99
12.49
12.99
13.49
13.99
14.49
Liczność
Klasa
10.5
11.0
11.5
12.0
12.5
13.0
13.5
14.0
Histogram liczebności
6
4
2
0
10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49
Klasa
Przykład: Stężenia serum CK
121
82
100
151
68
58
95
145
64
201
101
163
84
57
139
60
78
94
119
104
110
113
118
203
62
83
67
93
92
110
25
123
70
48
95
42
Serum CK
Liczność
20 - 39
1
40 - 59
4
60 - 79
7
80 - 99
8
100 - 119
8
120 - 139
3
140 - 159
2
160 - 179
1
180 - 199
0
200 - 219
2
Suma
36
Min=25, max=203
Rozstęp =178
Szerokość klasy =20
Punkt początkowy=20
6
Interpretacja pola powierzchni pod
histogramem (przy równej szerokość klas)
Opis histogramu:
Centralny szczyt (moda) w okolicach
100 J/L
Zasadnicza masa rozkładu między 40 a
140 J/L
Niesymetryczny–skośny na prawo
Nad odcinkiem 60 -100 J/L leży:
42% całkowitej powierzchni
histogramu
Do tego odcinka wpada:
42% (15 z 36) wartości CK
Nierówna szerokość klas
Powierzchnia pod histogramem nie jest
proporcjonalna do liczności
W tak „spaczonym’’ histogramie (patrz dalej)
powierzchnia między 140 a 220J/L stanowi 39%
całkowitej powierzchni (mimo, że te stężenia
stanowią tylko 14% obserwacji)
Rozwiązanie – podzielić liczności przez długość
odcinka (liczbę zgrupowanych klas)
Oś Y na przekształconym histogramie – średnia
liczność (w zgrupowanych klasach)
Histogram częstości
Często rysujemy histogram tak, że na osi
pionowej zaznaczamy częstość (względną)
=liczba wystąpień / n
Histogram częstości jest użyteczny,
zwłaszcza dla porównania zbiorów danych
o różnych rozmiarach n
7
Histogram częstości
Histogram liczebności
6
0,35
5
0,3
L ic z n o ś ć
C z ę s to ś ć
4
3
2
Diagram łodygi i liścia (Stem and leaf plot)
0,25
0,2
0,15
0,1
1
0,05
0
0
10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 -
10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 -
10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49
10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49
Klasa
Długość łodygi
Jest to inny sposób podsumowania danych;
zachowuje prawie wszystkie informacje.
Wybieramy „łodygę” („pień”) liczby-zwykle
opuszczając jedną lub dwie ostatnie cyfry w
zapisie dziesiętnym
Zapisujemy wszystkie „łodygi” w jednej
kolumnie w kolejności rosnącej, i rysujemy
pionową linię oddzielającą (od „liści”)
Przykład: Stężenie glukozy w przedniej
Diagram łodygi i liścia (Stem and leaf plot) cd.
komorze prawego oka u 31 zdrowych psów
Znajdujemy ``pień’’ odpowiadający każdej
obserwacji. Za linią pionową zapisujemy
pozostałe (bez pnia) cyfry danej obserwacji. Ta
część zapisu obserwacji nazywana jest „liściem”.
Dostajemy (obrócony) histogram
Ograniczenie: trudniej manipulować liczbą klas
81
85
93
93
99
76
75
84
78
84
81
82
89
81
96
82
74
70
84
86
80
70
131
75
88
102
115
89
82
79
106
Opis histogramu (rozkładu)
Symetryczny / asymetryczny
W kształcie dzwonu (normalny) / ciężkie ogony
(spłaszczony)
Skośny na prawo lub lewo
Jednomodalny (jeden główny wierzchołek)
Dwumodalny (dwa główne wierzchołki)
Wykładniczy (malejący)
Rozrzut (duży lub mały)
8
Statystyka
Miary położenia rozkładu
Statystyka – liczbowa charakterystyka danych
Średnia z próby:
• symbol y oznacza liczbę; arytmetyczną średnią
z obserwacji
• Symbol Y oznacza pojęcie średniej z próby
• Średnia jest „środkiem ciężkości” zbioru danych
Przykłady statystyk:
próba: y1=24,y2=35, y3=26 ,y4=36
min=24, max=36,
rozstęp= 36-24=12
Opis danych: kształt, centrum, rorzut
Przykład: Przyrost wagi owiec
6
∑y
i =1
i
Odchylenia
Dane : 11, 13, 19, 2, 10, 1
y1=11, y2=13,…, y6=1
devi = yi − y
dev1 = y1 − y = 11 − 9.33 = 1.67
= y1 + y2 + ... + y6 = 11 + 13 + ... + 1 = 56
Σ devi=
(?)
y = 56 / 6 = 9.33
Mediana próbkowa:
Przykłady
Środkowa obserwacja, jeżeli n jest
nieparzyste
Średnia z dwóch środkowych wartości,
gdy n jest parzyste
Przykład 1 (n = 5)
Dane: 6.3 5.9 7.0 6.9 5.9
Średnia z próby = 32/5 = 6.4
Mediana =
Przykład 2 (n = 6)
Dane: 366 327 274 292 274 230
Średnia z próby = 293.8
Mediana =
9
Średnia a mediana
Przykład 1 cd. (n = 5)
Średnia a mediana
Dane: 6.3 5.9 7.0 6.9 5.9
Średnia = 32/5 = 6.4
Mediana = 6.3
Błąd w zapisie danych:
Dane: 6.3 5.9 70 6.9 5.9
Średnia = 19
Mediana = 6.3
Średnia a mediana
Jeżeli histogram jest w przybliżeniu symetryczny,
to średnia i mediana są zbliżone.
Jeżeli histogram jest skośny na prawo, to średnia
jest zwykle większa niż mediana.
Obie te miary położenia są jednakowo ważne.
Średnia jest częściej wykorzystywana do
testowania i estymacji (o czym później).
Przykład
Dane: 3 5 6 2 1 7 4
Mediana dzieli powierzchnię histogramu
na połowę
Jest odporna – nie mają na nią wpływu obserwacje
„odstające”
Średnia to „środek ciężkości” histogramu
Obserwacje odstające mają duży wpływ na średnią
– średnia nie jest odporna
Miary położenia cd.:Kwartyle
Kwartyle dzielą zbiór danych na cztery grupy.
Drugi kwartyl (Q2) to mediana.
Pierwszy kwartyl (Q1) to mediana grupy
obserwacji mniejszych niż Q2.
Trzeci kwartyl (Q3) to mediana grupy
obserwacji większych niż Q2.
Przykład (n=15)
7
12
8
2
4
3
5
4
3
4
5
6
9
3
5
10
Rozstęp międzykwartylowy
Wykres ramkowy (Boxplot)
IRQ=Q3-Q1 (inter-quartile range)
BoxPlot
12
10
8
6
4
2
0
Boxplot – graficzna reprezentacja: mediany,
kwartyli, maximum i minimum.
„Ramka” („pudełko”) powstaje z
obrysowania kwartyli
Linie („wąsy”) ciągą się do wartości
najmniejszej i największej.
Zmodyfikowany Boxplot
Obserwacja odstająca:
błąd w zapisie danych, błąd maszyny, zmiana
warunków eksperymentu itp.
Kryterium do identyfikacji obserwacji odstających:
Dolna granica = Q1 - 1.5*IQR
Górna granica = Q3 + 1.5*IQR
10
Dane : 1 2 2 3 3 4 4 4 5 6 6 7
8 15 16
5
15
Przykładowy zmodyfikowany wykres
ramkowy (boxplot)
11
Próbkowe odchylenie
standardowe (SD, s)
Miary rorzutu:
Rozstęp=max – min (bardzo wrażliwy na
obserwacje odstające, nieprzydatny do testowania)
Rozstęp międzykwartylowy (IRQ=Q3-Q1) –
rozstęp środkowych 50% obserwacji
Wyrażone w jednostkach pomiarowych
Informuje o ile przeciętnie odległe od średniej są obserwacje.
s=
n
∑(y
i =1
i
− y ) 2 /( n − 1) (definition)
n
Standardowe odchylenie / Wariancja
Współczynnik zmienności (CV)
= (∑ yi2 − ny 2 ) /( n − 1) (calculations)
i =1
W mianowniku jest n-1:
s=
Próbkowa wariancja: s2
SS
,where
n −1
n
n
SS = ∑ ( yi − y ) = ∑ yi2 − ny 2
2
i =1
i =1
Dlaczego n-1 ?
s2 jest nieobciążonym estymatorem wariancji
w populacji
Σ devi=0 stąd
Mierzona w jednostkach będących
kwadratem jednostek, w których wyrażone
są dane
Miary rozrzutu, cd.
n −1
Przeciętny kwadrat odległości od średniej
próbkowej: s2=SS/(n-1)
Współczynnik zmienności (CV)
CV = s / y
devn = − ∑ devi
i =1
n oserwacji daje tu tylko n-1 stopni
swobody = n-1 jednostek informacji
12
Przykład: dane 35.1, 30.6, 36.9, 29.8 (n=4)
Ogólne uwagi
Suma obserwacji:
Σy = 35.1 + 30.6 + 36.9 + 29.8 = 132.4
y
średnia:
s z definicji: SS =
wariancja: s2 =
s=
CV=
Uwaga: Proszę zachowywać dużo cyfr znaczących przy
rachunkach. Zaokrąglamy dopiero na koniec.
Duże s=duży rozrzut. Małe s=mały rozrzut.
Jeżeli histogram (rozkład ) jest w kształcie dzwonu
(„normalny”), to około:
68% obserwacji jest w odległości ± 1 s od średniej
95% obserwacji jest w odległości ± 2 s od średniej
99% obserwacji jest w odległości ± 3 s od średniej
Nierówność Czebyszewa
Nawet, gdy rozkład nie jest normalny to
co najmniej 75% obserwacji jest w
odległości ± 2 s od średniej
co najmniej 89% obserwacji jest w
odległości ± 3 s od średniej.
Przykład
Przykład cd
13
14
12
14
13
12
17
14
13
19
14
11
10
14
15
13
20
20
18
12
Średnia y = 14.4, odchylenie std. s = 2.9.
I = ( y − 2s, y + 2 s)
zawiera około 95 % danych.
Ocena s = (długość I) /4.
Reguła działa najlepiej, gdy histogram jest
w kształcie dzwonu (bliski normalnemu).
13
Odporność miar rozrzutu i położenia
Załóżmy, że mamy dość skupiony „dzwonowy”
(normalny) zbiór danych.
Co się stanie, gdy jedną dużą obserwację
zastąpimy bardzo dużą wartością?
Mediana:
Rozstęp:
Średnia:
Kwartyle i rozstęp międzykwartylowy:
Standardowe odchylenie:
14