Metody statystyczne w badaniu Oceny: Zalecane podręczniki:
Transkrypt
Metody statystyczne w badaniu Oceny: Zalecane podręczniki:
Oceny: Metody statystyczne w badaniu Semestr letni 2014/2015 Wykładowca: dr hab. Małgorzata Bogdan Strona internetowa: www.im.pwr.wroc.pl/~mbogdan Kolokwia: 27 kwietnia i 8 czerwca Cztery kartkówki – extra punkty. 50%: dst, 70%: db, 90%: bdb Skreślam osoby, które opuściły oba kolokwia. Zaliczenie poprawkowe (15 czerwca) daje ocenę co najwyżej dst+. Dodatkowe uwagi: Zalecane podręczniki: Statystyka dla studentów kierunków technicznych i przyrodniczych, J. Koronacki, J. Mielniczuk, WNT 2004, wyd. II Introduction to the Practice of Statistics, D. Moore, G. McCabe, Freeman 2003, wyd. IV (w bibliotece w C-11) Statistics for the Life Sciences, M. Samuels, J. Witmer, 2003, wyd. III Listy zadań są dostępne na stronie www kursu. Część zadań pochodzi z podanych podręczników, a część-ze skryptu H. Jasiulewicz i W. Kordeckiego „Rachunek prawdopodobieństwa i statystyka matematyczna. Przykłady i zadania", wyd. II. Proszę zaopatrzyć się w kalkulator; powinien liczyć średnią i odchylenie standardowe dla danego ciągu liczb. Kalkulator jest obowiązkowy na testach (tel. komórkowe niedozwolone). 1 Przygotowanie studenta do zajęć: Proszę przeczytać poprzedni wykład, rozwiązać aktualną listę zadań, Dane wydrukować i przejrzec bieżącą prezentację z Internetu, żeby ułatwić sobie śledzenie wykładu i notowanie. Używamy danych, aby odpowiedzieć na pytania dotyczące badanych populacji. Zachęcam do zadawania pytań i dyskusji. Na ogół dane charakteryzują się losową zmiennością. Oceniamy informację zawartą w danych, w obliczu losowego szumu. Przykład 1 Czym jest statystyka jako nauka? Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą? • To nauka rozumienia danych i podejmowania decyzji w obliczu losowości. • To także zbiór metod do planowania eksperymentu i analizowania danych tak, aby uzyskać informację i ocenę jej wiarygodności. Grupa eksperymentalna ćwiczy, grupa kontrolna-nie. Kogo dotyczy pytanie? Kogo dotyczą pomiary? Co wpłynie na pomiary? Ludzie mają naturalnie różne poziomy cholesterolu, reagują różnie na ten sam reżim ćwiczeń. Ćwiczenia mogą wpływać na inne czynniki. 2 Przykład 3 Reakcja owiec na bakterie wąglika Przykład 2 Eksperyment mikromacierzowy porównuje komórki rakowe i normalne. Czy zaobserwowany, dwukrotnie wyższy, poziom ekspresji genu dowodzi faktycznie różnej ekspresji? Reakcja Ważne aspekty: Śmierć 0 24 Przeżycie 24 0 100% 0% Czy mamy dość liczne powtórzenia eksperymentu? Czy w powtórzeniach wyniki są podobne? Procent przetrwania Dwukrotnie czy raczej czterokrotnie wyższy poziom ekspresji stanowi wystarczający dowód? Przykład 4 E. coli a rozwój raka wątroby u myszy Rak wątroby 8 Wolne od zarazków 19 Zdrowa 5 30 Suma 13 49 62% 39% Procent myszy z rakiem wątroby Nie szczepione Sygnał i szum E. coli Szczepione Przykład 3 – brak zmienności, mocna konkluzja Przykład 4 – duża zmienność, niepewna konkluzja Ważne pytania metodologiczne: Czy na podstawie danej proby można wnioskować, że badany czynnik ma wpływ na interesujące nas zjawisko w populacji? Jak duża powinna być próba, aby tak wnioskować? 3 Próba: Schemat badań naukowych Pytanie naukowe Planowanie eksperymentu Eksperyment / zbieranie danych Analiza danych Wnioski statystyczne Wnioski naukowe Składa się z obserwacji lub z danych eksperymentalnych. Jest konkretną reprezentacją „populacji”. Rozmiar próby: “n” np. n=10, n=35, n=556 Przykłady: Wysokość 10 kłosów żyta (10 obserwacji) Poziom hemoglobiny u 35 dawców Kolor i kształt ziaren grochu Zmienna Rodzaje zmiennych: Zmienne Jakiś aspekt tego, co obserwujemy. Przykłady: wysokość, poziom hemoglobiny, kolor i kształt. Jakościowe Porządkowe Nie porządkowe Ilościowe Ciągłe Dyskretne 4 Zmienne jakościowe (kategoryczne) Jakościowe (kwalifikujące do kategorii): Zmienne ilościowe (liczbowe) Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze Nie porządkowe, np.: kolor i kształt Zmienne: X, Y, Z; np.Y=wzrost (pojęcie) Obserwacja: x, y, z; np. y=182cm (wartość) Próba: y1, y2,…, yn (ciąg obserwacji) Rozmiar próby: n, czasem n1, n2 Ciągłe, np. wzrost, waga, stężenie Dyskretne, np. liczba wadliwych elementów, liczba gładkich i żółtych groszków w strączku „Próba” a „próbka” Typowe oznaczenia Ilościowe (wynik jest liczbą): Biolog mierzy poziom glukozy we krwi 20 ludzi. „20 próbek krwi.” (biolog) „Jedna próba; 20 pomiarów glukozy.” (statystyk) Bezpieczniej jest użyć słowa “pomiar” tam, gdzie biolog użyłby słowa “próbka”. 5 Statystyka opisowa: Opisy rozkładu: Tabela częstości Wykres słupkowy (dane jakościowe) Groszki: gładkie/pomarszczone, zielone/żółte groszki generacji F2 Liczba Gładkie, żółte 315 Gładkie, zielone 108 Pomarszczone, żółte 101 Pomarszczone, zielone 32 400 300 liczność Klasy 200 100 0 round, yellow Tabela częstości dla poziomu wykształcenia (USA, ludzie w wieku 25-34 lat, AD 2000) Wykształcenie Liczba (w mln) Podstawowe lub 4.7 zawodowe Szkoła średnia 11.8 Procent 12.3 Szkoła policealna 10.9 28.3 Licencjat 8.5 22.1 Wykształcenie wyższe 2.5 6.6 round, green wrinkled, yellow wrinkled, green Wykres słupkowy 30.7 6 Wykres kołowy Dane ilościowe dyskretne (przykład) Tabela (rozkład) liczności miotu Dane (wielkość miotu): 10 12 10 7 14 11 14 11 10 13 10 10 8 11 7 13 12 13 10 8 5 11 11 12 11 11 9 8 12 10 9 11 10 12 10 Liczba potomstwa u n=36 macior. Liczność miotu jest liczbą całkowitą (zmienna dyskretna). 9 Liczność miotu Liczba macior 5 1 6 0 7 2 8 3 9 3 10 9 11 8 12 5 13 3 14 2 7 Liczba (macior) Histogram liczności Histogram (liczności) 10 9 8 7 6 5 4 3 2 1 0 Grupowanie podobnych obserwacji zwykle poprawia czytelność. Prawie zawsze postępujemy tak z danymi ciągłymi. Definiujemy “klasy” (przedziały) obserwacji i zliczamy (liczbę) obserwacji wpadających do każdej klasy. 5 6 7 8 9 10 11 12 13 14 Liczność miotu Jak wybierać klasy: Klasy są rozłączne i pokrywają wszystkie możliwe wyniki (każda obserwacja wpada do dokładnie jednej klasy). Rozmiar (szerokość) klas (przedziałów) jest często stały. Używamy wygodnych granic przedziałów, np. 2029, a nie 19.82 – 29.26. Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n 50); używamy więcej, gdy próba jest duża. Przykład Dane : długość łodygi papryki (n=15) 12.4 12.2 13.4 10.9 12.2 12.1 11.8 13.5 12 14.1 12.7 13.2 12.6 11.9 13.1 8 Tabela liczebności (klas) Min=10.9, max=14.1, rozstęp=max-min=3.2 Klasa Wybieramy np. szerokość klasy 0.5 oraz początek 10.5, by pokryć zakres 10.5 – 14.5. Zliczamy liczby wystąpień i rysujemy histogram. Rozważamy zmianę szerokości klas, aby uzyskać bardziej informacyjny i czytelny kształt. Za mała szerokość klas=dużo „szumu”, za duża = utrata informacji. Liczność 10.5 - 10.99 1 11.0 - 11.49 0 11.5 - 11.99 2 12.0 - 12.49 5 12.5 - 12.99 2 13.0 - 13.49 3 13.5 - 13.99 1 14.0 - 14.49 1 Przykład: Stężenia serum CK Liczność Histogram liczności 6 5 4 3 2 1 0 121 82 100 151 68 58 95 145 64 201 101 163 84 57 139 60 78 94 119 104 110 113 118 203 62 83 67 93 92 110 25 123 70 48 95 42 10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 Klasa 9 Dane do histogramu: Min=25, max=203 Rozstęp=178 Szerokość klasy=20 Punkt początkowy=20 Serum CK Liczność 20 - 39 1 40 - 59 4 60 - 79 7 80 - 99 8 100 - 119 8 120 - 139 3 140 - 159 2 160 - 179 1 180 - 199 0 200 - 219 2 Suma 36 Opis histogramu CK: Centralny szczyt (moda) w okolicach 100 J/L Zasadnicza masa rozkładu między 40 a 140 J/L Niesymetryczny–skośny na prawo (=wyciągnięty w prawo) 10 Interpretacja pola powierzchni pod histogramem przy równej szerokość klas Do odcinka 60 - 100 J/L wpada 42% (15 z 36) wartości CK. = Nad odcinkiem 60 - 100 J/L leży: 42% całkowitej powierzchni histogramu. Co robić przy nierównej szerokości klas? Wizualnie wielkość klasy = pole słupka. Dlatego warto podzielić liczności klas przez długość odcinka tak, aby pole było proporcjonalne do liczności. 11 Histogram częstości Histogram liczności Histogram częstości 0,35 5 0,3 4 0,25 Częstość Często rysujemy histogram tak, że na osi pionowej zaznaczamy częstość (względną) =liczba wystąpień / n Liczność 6 3 2 1 0,2 0,15 0,1 0,05 0 0 10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 - 10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 - 10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 Długość łodygi Długość łodygi Histogram częstości jest użyteczny np. dla porównania zbiorów danych o różnych rozmiarach n Diagram łodygi i liścia (Stem and leaf plot) Jest to inny sposób podsumowania rozkładu danych; zachowuje prawie pełne informacje. Wybieramy „łodygę” („pień”) liczby-zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie dziesiętnym. Zapisujemy możliwe „łodygi” w jednej kolumnie w kolejności rosnącej, i rysujemy pionową linię oddzielającą je od „liści”. Diagram łodygi i liścia (Stem and leaf plot) cd. Znajdujemy „łodygę” odpowiadającą każdej obserwacji. Za linią pionową zapisujemy pozostałe cyfry danej obserwacji=„liść”. Uwagi: Wygodne do szybkiego zilustrowania rozkładu Dostajemy (obrócony) „histogram” Ograniczenie: trudniej manipulować liczbą klas 12 Miejsce na diagram łodygi i liścia: Przykład: Stężenie glukozy w przedniej komorze prawego oka u 31 zdrowych psów 81 85 93 93 99 76 75 84 78 84 81 82 89 81 96 82 74 70 84 86 80 70 131 75 88 102 115 89 82 79 106 Opisywanie histogramu/rozkładu (słownictwo): Symetryczny / asymetryczny W kształcie dzwonu („normalny”) / ciężkie ogony (spłaszczony) Skośny na /rozciągniety w prawo lub lewo Jednomodalny (jeden główny wierzchołek) Dwumodalny (dwa główne wierzchołki) Wykładniczy (malejący jak eksponenta ) Rozrzut (duży lub mały) „Statystyka” jako procedura obliczeniowa Statystyka = (najczęściej) liczbowa charakterystyka danych Przykłady statystyk dla próby y1=24, y2=35, y3=26, y4=36: min=24, max=36 rozstęp= 36-24=12 Statystyka może precyzować kształt, centrum rozkładu, rozrzut itp. 13 Przykład: Przyrost wagi owiec Miary położenia rozkładu Średnia z próby: • symbol y oznacza konkretną liczbę; arytmetyczną średnią z obserwacji Dane : 11, 13, 19, 2, 10, 1 y1=11, y2=13,…, y6=1 6 • Średnia jest „środkiem ciężkości” zbioru danych y i y1 y2 ... y6 11 13 ... 1 56 i 1 • Symbol Y oznacza pojęcie/ procedurę obliczania średniej z próby dla różnych prób y 56 / 6 9.33 Przykłady Mediana próbkowa: Definicja Środkowa obserwacja, jeżeli n jest nieparzyste Przykład 1 (n = 5) Średnia z dwóch środkowych wartości, gdy n jest parzyste Dane: 6.3 5.9 7.0 6.9 5.9 Średnia z próby = 32/5 = 6.4 Mediana = Przykład 2 (n = 6) Dane: 366 327 274 292 274 230 Średnia z próby = 293.8 Mediana = 14 Średnia a mediana Przykład 1 cd. (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia = 32/5 = 6.4 Mediana = 6.3 Średnia a mediana (cd.) Błąd w zapisie danych: Dane: 6.3 5.9 70 6.9 5.9 Średnia = 19 Mediana = 6.3 Średnia a mediana (cd.) Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone. Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana. Obie te miary położenia są jednakowo ważne. Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później). Mediana „dzieli” powierzchnię histogramu na połowę. Jest odporna – nie mają na nią wpływu obserwacje „odstające”. Średnia to „środek ciężkości” histogramu Obserwacje odstające mają duży wpływ na średnią – średnia nie jest odporna. Miary położenia cd.: Kwartyle Kwartyle dzielą zbiór danych na ćwiartki: Drugi kwartyl (Q2) to mediana. Pierwszy kwartyl (Q1) to mediana grupy obserwacji mniejszych niż Q2. Trzeci kwartyl (Q3) to mediana grupy obserwacji większych niż Q2. 15 Przykład Przykład (n=15) Dane: 3 5 6 2 1 7 4 Rozstęp międzykwartylowy 7 12 8 2 4 3 5 4 3 4 5 6 9 3 5 Wykres ramkowy (Boxplot) IRQ=Q3-Q1 (inter-quartile range) Boxplot – graficzna reprezentacja 5 liczb: kwartyli, maximum i minimum. „Ramka” („pudełko”) powstaje z obrysowania kwartyli. Linie („wąsy”) ciągną się do wartości najmniejszej i największej. 16 Zmodyfikowany Boxplot Dane : 1 2 2 3 3 4 4 4 5 6 6 7 8 15 16 Czy są oo? Obserwacja odstająca: Typowe żródła oo: błąd w zapisie danych, błąd maszyny, zmiana warunków eksperymentu itp. Nasze kryterium dla identyfikacji obserwacji odstających: Dolna granica = Q1 - 1.5*IQR Górna granica = Q3 + 1.5*IQR Zmodyfikowany wykres ramkowy (boxplot) wskazuje też oo: 15 10 12 10 8 6 4 2 0 5 BoxPlot 17 Miary rorzutu: Rozstęp=max – min Rozstęp jest bardzo wrażliwy na obserwacje odstające, nieprzydatny do testowania. Rozstęp międzykwartylowy=IRQ=Q3-Q1 = rozstęp środkowych 50% obserwacji Odchylenia (od średniej): devi yi y dev1 y1 y 11 9.33 1.67 Standardowe odchylenie / wariancja Współczynnik zmienności (CV) Próbkowe odchylenie standardowe (SD, s) Pytanie: Σ devi=..... (?) W mianowniku jest n-1: Wyrażone w jednostkach pomiarowych Informuje o ile przeciętnie odległe od średniej są obserwacje. s n s (y i y )2 /(n 1) (definition) i 1 n ( yi2 ny 2 ) /( n 1) (calculations) SS ,where n 1 n n 2 SS ( yi y ) yi2 ny 2 i 1 i 1 i 1 18 Dlaczego n-1? Próbkowa wariancja: s2 Podaje „przeciętny” kwadrat odległości od średniej próbkowej: s2=SS/(n-1). Jest mierzona w jednostkach będących kwadratem jednostek, w których wyrażone są dane. s2 jest nieobciążonym estymatorem wariancji w populacji (te pojęcia wyjaśnimy później) Σ devi=0 stąd n 1 devn devi i 1 n obserwacji daje tylko „n-1 stopni swobody” = n-1 jednostek informacji Przykład: dane 35.1, 30.6, 36.9, 29.8 (n=4) Miary rozrzutu, cd. Współczynnik zmienności (CV) CV s / y Suma obserwacji: y = 35.1 + 30.6 + 36.9 + 29.8 = 132.4 średnia: y = s z definicji: SS = wariancja: s2 = s= CV= Uwaga: Proszę zachowywać dużo cyfr znaczących przy rachunkach, zwłaszcza przed odejmowaniem. Zaokrąglamy na koniec (po odejmowaniu). Odpowiedzi: 3 lub więcej cyfr znaczących. 19 Ogólne uwagi Duże s=duży rozrzut. Małe s=mały rozrzut. Jeżeli histogram (rozkład) jest w kształcie dzwonu („normalny”), to w przybliżeniu: 68% obserwacji jest w odległości 1 s od średniej 95% obserwacji jest w odległości 2 s od średniej 99% obserwacji jest w odległości 3 s od średniej Przykład Nierówność Czebyszewa Gdy rozkład jest dowolny, to zawsze: 13 14 12 14 13 co najmniej 75% obserwacji jest w odległości 2 s od średniej co najmniej 89% obserwacji jest w odległości 3 s od średniej. 12 17 14 13 19 14 11 10 14 15 13 20 20 18 12 20 Przykład cd. Średnia y = 14.4, odchylenie std. s = 2.9. I ( y 2s, y 2 s) zawiera około 95 % danych. Ocena s = (długość I) /4. Odporność miar rozrzutu i położenia Załóżmy, że mamy dość skupiony „dzwonowy” (normalny) zbiór danych. Czy statystyki zmienią się, gdy jedną obserwację zastąpimy bardzo dużą wartością/błędem? Reguła 68-95-99 działa, gdy histogram jest w kształcie dzwonu (bliski normalnemu). Mediana: Rozstęp: Średnia: Kwartyle i rozstęp międzykwartylowy: Standardowe odchylenie: Praca własna (przypomnienie): 1. Proszę przeczytać ponownie wykład, 2. przeczytać i przygotować listę zadań, zapisać w zeszycie rozwiązania, 3. wydrukować i przejrzeć następny wykład (WWW, za kilka dni), 4. powtórzyć 1.-3. po każdym wykładzie. 21