Czym jest statystyka? Przykład 2 Przykład 3
Transkrypt
Czym jest statystyka? Przykład 2 Przykład 3
Czym jest statystyka? Wykład 6 – Wstęp do statystyki Używamy danych, aby odpowiedzieć na pytania dotyczące badanych populacji • Na ogół dane charakteryzują się losową zmiennością • Oceniamy informację zawartą w danych Przykład 1 Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga nie. Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą ? Czynniki mogące wpłynąć na wynik eksperymentu: Ludzie mają naturalnie różne poziomy cholesterolu Reagują różnie na ten sam reżim ćwiczeń Różny stopień zaangażowania w realizację ćwiczeń Wpływ diety Ćwiczenia mogą wpływać na inne czynniki, np. apetyt Przykład 3 W artykule prasowym czytamy, że 80% pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania, a 20% jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest nosić jasne ubrania. Czy przeprowadzone badania upoważniają do takiej konkluzji? Nauka rozumienia danych i podejmowania decyzji w obliczu losowości Zbiór metod do planowania eksperymentu i analizowania danych tak, aby uzyskać maksimum informacji i ilościową ocenę ich wiarygodności Przykład 2 Eksperyment mikromacierzowy porównujący komórki rakowe i normalne. Czy dwukrotnie wyższy zaobserwowany poziom ekspresji genu dowodzi faktycznie różnej ekspresji ? Czy mamy powtórzenia eksperymentu? Czy w powtórzeniach wyniki są podobne ? Dlaczego dwukrotna zmiana, a nie trzy- lub czterokrotna ? Jak ustalić właściwą wartość krytyczną? Przykład 4 Reakcja owiec na bakterie wąglika Reakcja Szczepione Nie szczepione Śmierć 0 24 Przeżycie 24 0 Procent przetrwania 100 % 0% 1 Przykład 5 Rozwój raka wątroby u myszy E. coli Rak wątroby 8 Wolne od zarazków 19 Zdrowa 5 30 Suma 13 49 Procent myszy z 62 % rakiem wątroby Sygnał i szum 39 % Przykład 4 – brak zmienności (??): mocna konkluzja Przykład 5 – duża zmienność: niepewna konkluzja Jak duża musi być próba, abyśmy w oparciu o nią mogli wywnioskować, że badany czynnik ma wpływ na wynik eksperymentu? Losowość Dane na ogół charakteryzują się zmiennością Schemat badań naukowych Matematycznie modelujemy tę zmienność używając rachunku prawdopodobieństwa Pytanie naukowe Planowanie eksperymentu Eksperyment / zbieranie danych Analiza danych Wnioski statystyczne Wnioski naukowe Próba, Zmienna Próba: Obserwacje lub wyniki eksperymentu Reprezentuje konkretne realizacje eksperymentu Przykłady: Próba, Zmienna cd. Wysokość 10 kłosów żyta (10 obserwacji) Poziom hemoglobiny u 35 dawców Kolor i kształt ziaren grochu Rozmiar próby: “n” np. n=10, n=35, n=556 Zmienna: to, co mierzymy tu: wysokość, poziom hemoglobiny, kolor i kształt 2 Rodzaje zmiennych Zmienne jakościowe (kategoryczne) Zmienne Jakościowe – kwalifikujące do kategorii Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze Nie porządkowe, np.: kolor i kształt Dyskretne Zmienne ilościowe (liczbowe) Ilościowe – wynik jest liczbą Ciągłe, np. wzrost, waga, stężenie Dyskretne, np. liczba wadliwych elementów, liczba gładkich i żółtych groszków Oznaczenia Zmienne: X,Y,Z; np.Y=wzrost (pojęcie) Obserwacja: x,y,z; np. y=182cm (wynik) Próba: y1,y2,…,yn (wielokrotne obserwacje) Rozmiar próby: n, czasem n1,n2 Statystyki opisowe: Tabela częstości Próba a próbka Groszki:gładkie/pomarszczone, zielone/żółte Biolog mierzy poziom glukozy we krwi 20 ludzi. „20 próbek krwi”? (biolog) „Jedna próba 20 pomiarów glukozy.” (statystyk) Będziemy używali “pomiar” tam, gdzie biolog użyłby słowa “próba”. Klasy Liczba Gładkie, żółte 315 Gładkie, zielone 108 Pomarszczone, żółte 101 Pomarszczone, zielone 32 3 Wykres słupkowy (dane jakościowe) groszki generacji F2 400 liczność 300 200 100 0 round, yellow round, green wrinkled, yellow wrinkled, green Wykształcenie Liczba (w mln) Podstawowe lub 4.7 zawodowe Szkoła średnia 11.8 Procent 12.3 Szkoła policealna 10.9 28.3 Licencjat 8.5 22.1 Wykształcenie wyższe 2.5 6.6 Wykres kołowy Wykres słupkowy Dane Dane ilościowe dyskretne Liczba potomstwa u n=36 macior. Liczność miotu jest liczbą całkowitą (zmienna dyskretna). 30.7 10 12 10 7 14 11 14 11 10 13 10 10 8 11 7 13 12 13 10 8 5 11 11 12 11 11 9 8 12 10 9 11 10 12 10 9 4 Histogram liczebności Liczba potomstwa Liczba macior 5 1 6 0 7 2 8 3 9 3 10 9 11 8 12 5 13 3 14 2 Liczba (macior) Rozkład liczebności 5 6 7 8 9 10 11 12 13 14 Liczność miotu Jak wybierać klasy: Histogram (liczebności) 10 9 8 7 6 5 4 3 2 1 0 Grupowanie podobnych obserwacji zwykle jest pomocne Prawie zawsze postępujemy tak z danymi ciągłymi Definiujemy “klasy” (przedziały) obserwacji i zliczamy liczbę obserwacji wpadających do każdej klasy Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy są rozłączne i pokrywają wszystkie możliwe wyniki) Rozmiar (szerokość) klas (przedziałów) jest zwykle taki sam Używamy wygodnych granic przedziałów, np. 20-29, a nie 19.82 – 29.26 Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n ≤ 50); więcej, gdy duża próba Przykład Dane : długość łodygi papryki (n=15) 12.4 12.2 13.4 10.9 12.2 12.1 11.8 13.5 12 14.1 12.7 13.2 12.6 11.9 13.1 Min=10.9, max=14.1, zakres=max-min=3.2 Wybieramy szerokość klasy, np. 0.5 i początek 10.5, aby pokryć zakres 10.5 – 14.5. Zliczamy liczby wystąpień i rysujemy histogram. Ew. zmieniamy szerokość klas, aby uzyskać pożądany kształt. Za mała szerokość klas=dużo „szumu”, za duża = utrata informacji 5 Tabela liczebności (klas) - Liczność 1 0 2 5 2 3 1 1 10.99 11.49 11.99 12.49 12.99 13.49 13.99 14.49 Liczność Klasa 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 Histogram liczebności 6 4 2 0 10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 Klasa Przykład: Stężenia serum CK 121 82 100 151 68 58 95 145 64 201 101 163 84 57 139 60 78 94 119 104 110 113 118 203 62 83 67 93 92 110 25 123 70 48 95 42 Serum CK Liczność 20 - 39 1 40 - 59 4 60 - 79 7 80 - 99 8 100 - 119 8 120 - 139 3 140 - 159 2 160 - 179 1 180 - 199 0 200 - 219 2 Suma 36 Min=25, max=203 Rozstęp =178 Szerokość klasy =20 Punkt początkowy=20 6 Interpretacja pola powierzchni pod histogramem (przy równej szerokość klas) Opis histogramu: Centralny szczyt (moda) w okolicach 100 J/L Zasadnicza masa rozkładu między 40 a 140 J/L Niesymetryczny–skośny na prawo Nad odcinkiem 60 -100 J/L leży: 42% całkowitej powierzchni histogramu Do tego odcinka wpada: 42% (15 z 36) wartości CK Nierówna szerokość klas Powierzchnia pod histogramem nie jest proporcjonalna do liczności W tak „spaczonym’’ histogramie (patrz dalej) powierzchnia między 140 a 220J/L stanowi 39% całkowitej powierzchni (mimo, że te stężenia stanowią tylko 14% obserwacji) Rozwiązanie – podzielić liczności przez długość odcinka (liczbę zgrupowanych klas) Oś Y na przekształconym histogramie – średnia liczność (w zgrupowanych klasach) Histogram częstości Często rysujemy histogram tak, że na osi pionowej zaznaczamy częstość (względną) =liczba wystąpień / n Histogram częstości jest użyteczny, zwłaszcza dla porównania zbiorów danych o różnych rozmiarach n 7 Histogram częstości Histogram liczebności 6 0,35 5 0,3 L ic z n o ś ć C z ę s to ś ć 4 3 2 Diagram łodygi i liścia (Stem and leaf plot) 0,25 0,2 0,15 0,1 1 0,05 0 0 10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 - 10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 - 10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 Klasa Długość łodygi Jest to inny sposób podsumowania danych; zachowuje prawie wszystkie informacje. Wybieramy „łodygę” („pień”) liczby-zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie dziesiętnym Zapisujemy wszystkie „łodygi” w jednej kolumnie w kolejności rosnącej, i rysujemy pionową linię oddzielającą (od „liści”) Przykład: Stężenie glukozy w przedniej Diagram łodygi i liścia (Stem and leaf plot) cd. komorze prawego oka u 31 zdrowych psów Znajdujemy ``pień’’ odpowiadający każdej obserwacji. Za linią pionową zapisujemy pozostałe (bez pnia) cyfry danej obserwacji. Ta część zapisu obserwacji nazywana jest „liściem”. Dostajemy (obrócony) histogram Ograniczenie: trudniej manipulować liczbą klas 81 85 93 93 99 76 75 84 78 84 81 82 89 81 96 82 74 70 84 86 80 70 131 75 88 102 115 89 82 79 106 Opis histogramu (rozkładu) Symetryczny / asymetryczny W kształcie dzwonu (normalny) / ciężkie ogony (spłaszczony) Skośny na prawo lub lewo Jednomodalny (jeden główny wierzchołek) Dwumodalny (dwa główne wierzchołki) Wykładniczy (malejący) Rozrzut (duży lub mały) 8 Statystyka Miary położenia rozkładu Statystyka – liczbowa charakterystyka danych Średnia z próby: • symbol y oznacza liczbę; arytmetyczną średnią z obserwacji • Symbol Y oznacza pojęcie średniej z próby • Średnia jest „środkiem ciężkości” zbioru danych Przykłady statystyk: próba: y1=24,y2=35, y3=26 ,y4=36 min=24, max=36, rozstęp= 36-24=12 Opis danych: kształt, centrum, rorzut Przykład: Przyrost wagi owiec 6 ∑y i =1 i Odchylenia Dane : 11, 13, 19, 2, 10, 1 y1=11, y2=13,…, y6=1 devi = yi − y dev1 = y1 − y = 11 − 9.33 = 1.67 = y1 + y2 + ... + y6 = 11 + 13 + ... + 1 = 56 Σ devi= (?) y = 56 / 6 = 9.33 Mediana próbkowa: Przykłady Środkowa obserwacja, jeżeli n jest nieparzyste Średnia z dwóch środkowych wartości, gdy n jest parzyste Przykład 1 (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia z próby = 32/5 = 6.4 Mediana = Przykład 2 (n = 6) Dane: 366 327 274 292 274 230 Średnia z próby = 293.8 Mediana = 9 Średnia a mediana Przykład 1 cd. (n = 5) Średnia a mediana Dane: 6.3 5.9 7.0 6.9 5.9 Średnia = 32/5 = 6.4 Mediana = 6.3 Błąd w zapisie danych: Dane: 6.3 5.9 70 6.9 5.9 Średnia = 19 Mediana = 6.3 Średnia a mediana Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone. Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana. Obie te miary położenia są jednakowo ważne. Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później). Przykład Dane: 3 5 6 2 1 7 4 Mediana dzieli powierzchnię histogramu na połowę Jest odporna – nie mają na nią wpływu obserwacje „odstające” Średnia to „środek ciężkości” histogramu Obserwacje odstające mają duży wpływ na średnią – średnia nie jest odporna Miary położenia cd.:Kwartyle Kwartyle dzielą zbiór danych na cztery grupy. Drugi kwartyl (Q2) to mediana. Pierwszy kwartyl (Q1) to mediana grupy obserwacji mniejszych niż Q2. Trzeci kwartyl (Q3) to mediana grupy obserwacji większych niż Q2. Przykład (n=15) 7 12 8 2 4 3 5 4 3 4 5 6 9 3 5 10 Rozstęp międzykwartylowy Wykres ramkowy (Boxplot) IRQ=Q3-Q1 (inter-quartile range) BoxPlot 12 10 8 6 4 2 0 Boxplot – graficzna reprezentacja: mediany, kwartyli, maximum i minimum. „Ramka” („pudełko”) powstaje z obrysowania kwartyli Linie („wąsy”) ciągą się do wartości najmniejszej i największej. Zmodyfikowany Boxplot Obserwacja odstająca: błąd w zapisie danych, błąd maszyny, zmiana warunków eksperymentu itp. Kryterium do identyfikacji obserwacji odstających: Dolna granica = Q1 - 1.5*IQR Górna granica = Q3 + 1.5*IQR 10 Dane : 1 2 2 3 3 4 4 4 5 6 6 7 8 15 16 5 15 Przykładowy zmodyfikowany wykres ramkowy (boxplot) 11 Próbkowe odchylenie standardowe (SD, s) Miary rorzutu: Rozstęp=max – min (bardzo wrażliwy na obserwacje odstające, nieprzydatny do testowania) Rozstęp międzykwartylowy (IRQ=Q3-Q1) – rozstęp środkowych 50% obserwacji Wyrażone w jednostkach pomiarowych Informuje o ile przeciętnie odległe od średniej są obserwacje. s= n ∑(y i =1 i − y ) 2 /( n − 1) (definition) n Standardowe odchylenie / Wariancja Współczynnik zmienności (CV) = (∑ yi2 − ny 2 ) /( n − 1) (calculations) i =1 W mianowniku jest n-1: s= Próbkowa wariancja: s2 SS ,where n −1 n n SS = ∑ ( yi − y ) = ∑ yi2 − ny 2 2 i =1 i =1 Dlaczego n-1 ? s2 jest nieobciążonym estymatorem wariancji w populacji Σ devi=0 stąd Mierzona w jednostkach będących kwadratem jednostek, w których wyrażone są dane Miary rozrzutu, cd. n −1 Przeciętny kwadrat odległości od średniej próbkowej: s2=SS/(n-1) Współczynnik zmienności (CV) CV = s / y devn = − ∑ devi i =1 n oserwacji daje tu tylko n-1 stopni swobody = n-1 jednostek informacji 12 Przykład: dane 35.1, 30.6, 36.9, 29.8 (n=4) Ogólne uwagi Suma obserwacji: Σy = 35.1 + 30.6 + 36.9 + 29.8 = 132.4 y średnia: s z definicji: SS = wariancja: s2 = s= CV= Uwaga: Proszę zachowywać dużo cyfr znaczących przy rachunkach. Zaokrąglamy dopiero na koniec. Duże s=duży rozrzut. Małe s=mały rozrzut. Jeżeli histogram (rozkład ) jest w kształcie dzwonu („normalny”), to około: 68% obserwacji jest w odległości ± 1 s od średniej 95% obserwacji jest w odległości ± 2 s od średniej 99% obserwacji jest w odległości ± 3 s od średniej Nierówność Czebyszewa Nawet, gdy rozkład nie jest normalny to co najmniej 75% obserwacji jest w odległości ± 2 s od średniej co najmniej 89% obserwacji jest w odległości ± 3 s od średniej. Przykład Przykład cd 13 14 12 14 13 12 17 14 13 19 14 11 10 14 15 13 20 20 18 12 Średnia y = 14.4, odchylenie std. s = 2.9. I = ( y − 2s, y + 2 s) zawiera około 95 % danych. Ocena s = (długość I) /4. Reguła działa najlepiej, gdy histogram jest w kształcie dzwonu (bliski normalnemu). 13 Odporność miar rozrzutu i położenia Załóżmy, że mamy dość skupiony „dzwonowy” (normalny) zbiór danych. Co się stanie, gdy jedną dużą obserwację zastąpimy bardzo dużą wartością? Mediana: Rozstęp: Średnia: Kwartyle i rozstęp międzykwartylowy: Standardowe odchylenie: 14