P - Janusz Piechota
Transkrypt
P - Janusz Piechota
„Statystyka w analizie i planowaniu eksperymentu” Wprowadzenie Prowadzący zajęcia: dr Janusz Piechota Zakład Biofizyki Kierownik zajęć: dr Paweł Błażej Zakład Genomiki Na zajęciach przydają się: dobre chęci, myślenie, zdrowy rozsądek, kalkulatory, tablice statystyczne. Program zajęć 1. Kryteria oceny metod analitycznych. 1.1. Rzetelność metody 1.2. Dokładność metody 1.3. Powtarzalność metody 2. Ocena błędów popełnianych podczas pomiarów. 2.1. Rodzaje popełnianych błędów: 2.1.1. błędy przypadkowe (losowe) 2.1.2. błędy systematyczne 2.1.3. błędy grube 2.2. Błąd pomiaru (błąd bezwzględny), błąd względny, błąd procentowy. 2.3. Ocena rzetelności pojedynczego wyniku z próby 2.4. Test Q Dixona 2.5. Test Grubbsa Program zajęć 3. Pomiary w biologii i graficzne przedstawienie danych. 3.1. Rodzaje skal: 3.1.1. nominalna 3.1.2. porządkowa 3.1.3. interwałowa 3.2. Procenty, stosunki, proporcje 3.3. Dokładność pomiarów i zaokrąglanie liczb 3.4. Kodowanie danych 3.5. Graficzne przedstawienie danych 3.5.1. ogiwa 3.5.2. wielobok liczebności 3.5.3. histogramy itp. Program zajęć 4. Miary tendencji centralnej 4.1. Średnie: 4.1.1. arytmetyczna 4.1.2. ważona 4.1.3. geometryczna 4.1.4. harmoniczna 4.2. Mediana 4.3. Moda 5. Miary zmienności. Idea graficznego przedstawiania zmienności. 5.1. zakres 5.2. odchylenie standardowe 5.3. wariancja 5.4. odchylenie standardowe średnie arytmetycznej 5.5. współczynnik zmienności (wskaźnik Pearsona) Program zajęć 6. Kurtoza 7. Skośność 8. Wiarygodność wyników pomiarowych: rozkład normalny. 8.1. standaryzacja pomiarów 8.2 skala Z 8.3. skala centylowa 8.4. przedział normy 8.5. przedział krytyczny 9. Rozkład t. Zastosowanie testu t-Studenta. 9.1. poziom istotności 9.2. poziom ufności 9.3. ocena istotności różnic dwóch wartości średnich (test t dla grup zależnych, test t dla grup niezależnych, test t dla jednej próby) 9.4. istotność współczynnika korelacji liniowej 9.5. test C – Cochrana-Coxa Program zajęć 10. Rozkład F. Podstawy analizy wariancji. 10.1. porównanie jednorodności wariancji dwóch szeregów statystycznych 10.2. test F 11. Współzależność zmiennych – korelacja Pearsonowska. 11.1. korelacja, współczynnik korelacji, współczynnik determinacji 11.2. regresja liniowa, współczynnik regresji 11.3. odchylenie standardowe resztkowe zmiennej zależnej 12. Analiza frekwencji. 12.1. test istotności różnicy frakcji 12.2. test zgodności (test χ2) Literatura: A. Zgirski, R. Gondko, „Obliczenia biochemiczne”; A. Łomnicki, „Wprowadzenie do statystyki dla przyrodników”; K. Doerffel, „Statystyka dla biochemików”; R. Gondko, A. Zgirski, M. Adamska, „Biostatystyka w zadaniach”. Statystyka Statystyka dzieli się na statystykę opisową oraz statystykę matematyczną (wnioskowanie statystyczne). Statystyka opisowa – umożliwia opis, uporządkowanie, zestawienie danych liczbowych i ich reprezentację w postaci szeregów, tabel i wykresów. Statystyka matematyczna - zbiór recept do opracowania danych doświadczalnych. Również pewien sposób myślenia w których oceniamy wpływ czynników losowych. Statystyka matematyczna dostarcza narzędzi do odpowiedniego zaplanowania, analizy i interpretacji wszelkiego rodzaju eksperymentów empirycznych. Populacja Przedmiotem badań statystycznych jest zbiorowość statystyczna określana mianem populacji. Populacja może być: ● skończona – zbiorowość o ustalonej lub możliwej do ustalenia liczbie elementów. ● nieskończona – zbiór elementów zbiorowości jest nieograniczony lub niemożliwy do ustalenia. Badania obejmujące całą populację (wszystkie jej jednostki) są badaniami kompletnymi. Badania, które obejmują tylko część populacji zwanej próbą są badaniami częściowymi. Aby badania częściowe były wiarygodne próba musi być losowa (tzn. każdy element populacji będzie miał takie samo prawdopodobieństwo dostania się do próby) i reprezentatywna (tzn. tj. jej struktura musi być jak najbardziej zbliżona do struktury całej zbiorowości statystycznej). Przykład: Sondaż przedwyborczy poparcia dwóch kandydatów na prezydenta wskazywał, że kandydat X cieszy się poparciem 54%, zaś kandydata Y popiera 46% respondentów. Badania przeprowadzono na próbie 1000 osób w badaniu telefonicznym przeprowadzonym w dniu .... w godzinach 8-15. Dopuszczalny błąd badania wynosi 3%. Kilka dni później w wyborach kandydat X dostaje 46%, zaś kandydat Y 54% poparcia. Dlaczego? Czy potrafisz wskazać możliwe źródła błędów w przeprowadzonym sondażu? Przykład: Dwóch studentów dostało tackę z 40 roślinami. Każdy z nich miał wybrać 10 roślin, zważyć je i policzyć średnią masę rośliny. Wyniki uzyskane przez każdego ze studentów znacząco się od siebie różniły. Dlaczego? Student 1 Student 2 Jak należałoby postąpić w sposób prawidłowy? Przykład prawidłowego rozwiązania Przykład: Testowano dwie odmiany pszenicy pod względem plonowania. W tym celu określony areał podzielono na dwa poletka, na których wysiano testowane odmiany. Plon zebrany z odmiany 2 był prawie dwukrotnie wyższy od plonu uzyskanego z odmiany 1. Czy uzyskany wynik jest wiarygodny? JEZIORO Odmiana 2 Odmiana 1 LAS Czy taki układ jest lepszy? Odmiana 1 Odmiana 2 JEZIORO LAS A taki? Odmiana 1 Odmiana 2 Odmiana 2 Odmiana 1 JEZIORO LAS Statystyka matematyczna: Dyscyplina dostarczająca informacji niezbędnych do: ● planowania doświadczeń; ● sposobu zbierania danych; ● sposobu analizy uzyskanych danych liczbowych; ● sposobu wnioskowania na podstawie danych liczbowych. Zadaniem wnioskowania statystycznego jest: ● ● ● estymacja nieznanych parametrów np. średniej badanej wartości w danej populacji; testowanie istotności hipotez; wysnuwanie właściwych wniosków z obserwacji poczynionych na próbie i przenoszenie ich na badane populacje. CECHY 1) Mierzalne (skalarne, ciągłe) – wyrażone w liczbach rzeczywistych, mogące przyjąć dowolną wartość, np. Wzrost, masa ciała, stężenie związku itp. 2) Policzalne (skokowe, dyskretne) – wyrażone w liczbach naturalnych, przyjmujące tylko określone wartości, np. liczba dzieci w rodzinie. 3) Niemierzalne (jakościowe) – zaliczane do wcześniej ustalonych kategorii, np. kolor oczu. SKALA INTERWAŁOWA W tej skali zmienność jest ciągła. Przykłady: 1) Pomierzono długości nóg 10-ciu wróbli. Pomiar wykonano z dokładnością do 0,1 cm: 2,8; 2,8; 3,0; 3,2; 3,6; 3,6; 4,0; 4,5; 5,1; 5,4. Zakres 2,8 – 5,4. 2) Oznaczono zawartość chlorofilu w 7-miu preparatach chloroplastów wyizolowanych z 1 g liści groszku hodowanego w warunkach hydroponicznych. (Każdy 1 g liści pochodził z odrębnej rośliny). Pomiar wykonano z dokładnością do 0,001 mg: 0,132; 0,140; 0,195; 0,195; 0,280; 0,353; 0,378. Zakres 0,132 – 0,378. 3) Badano wpływ metali ciężkich na rozwój roślin. W pewnym doświadczeniu analizowano zawartość białka w 5-ciu preparatach mitochondriów izolowanych z 1 g liści roślin uprawianych na pożywce zawierającej metale ciężkie oraz w 6-ciu preparatach mitochondriów izolowanych z 1 g liści kontrolnych. Pomiar wykonano z dokładnością do 0,001 mg. Grupa badana: 0,440; 0,476; 0,485; 0,604; 0,505 (zakres: 0,440 – 0,505). Grupa kontrolna: 0,485; 0,485: 0,516; 0,520; 0,522 (zakres: 0,485 - 0,522). SKALA PORZĄDKOWA W tej skali nadajemy poszczególnym obiektom badanym rangi. SKALA NOMINALNA W tej skali przydzielamy poszczególne obiekty do określonych kategorii. Skalę interwałową można zamienić na skalę porządkową, zaś skalę porządkową na skalę nominalną. Nie można tego uczynić w drugą stronę. Szeregi Szereg prosty (statystyczny): rosnący lub malejący – uzyskuje się porządkując uzyskane wyniki rosnąco lub malejąco. Przy dużej liczbie pomiarów dane grupuje się w klasy (przedziały) tworząc szereg rozdzielczy (zgrupowany). Liczba klas nie powinna być mniejsza od 6 ani większa od 30. Z szeregu rozdzielczego łatwo tworzy się szereg skumulowany, który wskazuje ogólną liczbę pomiarów wartości cechy, poniżej określonej wartości górnej granicy danej klasy. Graficzna reprezentacja wyników Graficzna reprezentacja wyników Graficzna reprezentacja wyników Szereg rozdzielczy zgrupowany wielostopniowy Szereg taki otrzymujemy przez podział wartości cechy ciągłej na klasy oraz przyporządkowanie poszczególnym klasom odpowiednich liczebności wartości zmiennej. Postępowanie: 1) ustalenie liczby klas (k) k =od N / 2 do N gdzie N to liczba pomiarów. 2) ustalenie szerokości klas (h) gdzie R to rozstęp. h= R: k 3) określenie granic przedziałów. Dolna granica pierwszej klasy to wartość: X min.−/2 Górna granica pierwszej klasy to wartość: X min.−/2h Górna granica jednej klasy jest jednocześnie dolną granicą klasy następnej. Xmin. - najmniejsza wartość pomiaru α - niedokładność pomiaru. Zadanie Z populacji mężczyzn, celem określenia ich masy, wybrano losowo próbę złożoną z 58 osób. Ich masę określono z dokładnością do 0.1 kg. Otrzymano następujące dane liczbowe: 49,1 53,2 54,0 54,1 54,5 55,4 56,3 57,7 58,4 59,0 60,7 60,9 61,0 61,5 62,2 62,8 63,0 63,4 64,0 64,6 65,0 65,6 66,7 66,8 67,0 67,4 68,3 68,9 69,0 69,5 70,0 70,4 70,9 71,6 71,9 72,6 72,7 73,1 73,3 74,0 74,4 74,9 75,0 75,0 75,2 75,6 75,9 76,2 76,5 78,1 78,2 78,7 79,0 79,4 82,1 83,8 85,5 87,1 Uporządkować otrzymane dane tworząc: a) szereg rozdzielczy zgrupowany, b) szereg skumulowany. Przedstawić otrzymane dane w postaci wykresu: c) histogramu liczności (wartości bezwględne); histogramu częstości procentowych; e) histogramu gęstości; f) diagramu; g) histogramu wartości skumulowanych bezwględnych; h) histogramu skumulowanych częstości względnych; i) dystrybuanty empirycznej. Ustalamy ilość klas i ich szerokość: k= 58=7,61≈8 R 87,1−49,1 38 h= = = =4,75≈5 k 8 8 Szereg rozdzielczy i skumulowany:zastawienie zbiorcze. Nr Granice Liczność klasy klas klas ni -11 2 3 4 5 6 7 8 -2- -3- Frakcja Wi Gęstość Szereg skumulowany (%) częstości Częstości Σni Frakcji (%)ΣWi ni/h (ni/N)*100% -4-5-6-7- Trochę o prawdopodobieństwach Jakie jest prawdopodobieństwo wyrzucenia orła/reszki w jednym rzucie monetą? Jakie jest prawdopodobieństwo wyrzucenia dwóch orłów przy dwukrotnym rzuceniu monetą? Jakie jest prawdopodobieństwo wyrzucenia przynajmniej dwóch reszek przy trzech rzutach monetą? Jakie jest prawdopodobieństwo wyrzucenia 2 orłów w 10 rzutach monetą? Rozkład dwumianowy Bernouliego r n−r P r , n , p= n p q r p – prawdopodobieństwo sukcesu q – prawdopodobieństwo porażki (q = 1 - p) n – liczba powtórzeń (wielkość próby) r – liczba sukcesów n! n= r n−r ! r! - dwumian Newtona Wartość dwumianu Newtona można określić z trójkąta Pascala P r , n , p= n p r q n−r r r 10−r P 2 ; 10 ; 0,5= n p r q n−r = 10 r 2 1 2 1 1− 2 r 10−r 1 =45∗ 2 1 2 10 1 =45∗ 2 = 45 1024 Należy obliczyć prawdopodobieństwo otrzymania r sukcesów dla r ∈〈0, 10〉 P(r=0) = P(r=1) = P(r=2) = P(r=3) = P(r=4) = P(r=5) = P(r=6) = P(r=7) = P(r=8) = P(r=9) = P(r=10) = Należy obliczyć prawdopodobieństwo otrzymania r sukcesów dla r ∈〈0, 10〉 0,300 0,250 0,200 P(r) P(r=0) = 1/1024 P(r=1) = 10/1024 P(r=2) = 45/1024 P(r=3) = 120/1024 P(r=4) = 210/1024 P(r=5) = 252/1024 P(r=6) = 210/1024 P(r=7) = 120/1024 P(r=8) = 45/1024 P(r=9) = 10/1024 P(r=10) = 1/1024 0,150 0,100 0,050 0,000 0 1 2 3 4 5 r 6 7 8 9 10 Jakie jest prawdopodobieństwo uzyskania mniej niż 7 reszek w 10 rzutach monetą? P(r=0) = 1/1024 P(r=1) = 10/1024 P(r=2) = 45/1024 P(r=3) = 120/1024 P(r=4) = 210/1024 P(r=5) = 252/1024 P(r=6) = 210/1024 P(r=7) = 120/1024 P(r=8) = 45/1024 P(r=9) = 10/1024 P(r=10) = 1/1024 Jakie jest prawdopodobieństwo uzyskania mniej niż 7 reszek w 10 rzutach monetą? 1,2 1,0 0,8 ΣP(r) P(r=0) = 1/1024 P(r<=1) = 11/1024 P(r<=2) = 56/1024 P(r<=3) = 176/1024 P(r<=4) = 386/1024 P(r<=5) = 638/1024 P(r<=6) = 848/1024 P(r<=7) = 968/1024 P(r<=8) = 1013/1024 P(r<=9) = 1023/1024 P(r<=10) = 1024/1024 0,6 0,4 0,2 0,0 0 1 2 3 4 5 6 7 8 r P(r<7) = 848/1024 = 0,83 9 10 Zadanie: W 10 rzutach monetą uzyskano 2 reszki i 8 orłów. Czy na tej podstawie można powiedzieć, że moneta jest krzywa? Rozwiązanie: Sposób 1: Obliczenie prawdopodobieństwa otrzymania wyniku takiego takiego, jaki został uzyskany lub bardziej skrajnego. P(r=0) = 1/1024 P(r=1) = 10/1024 P(r=2) = 45/1024 P(r=3) = 120/1024 P(r=4) = 210/1024 P(r=5) = 252/1024 P(r=6) = 210/1024 P(r=7) = 120/1024 P(r=8) = 45/1024 P(r=9) = 10/1024 P(r=10) = 1/1024 p = 112/1024 = 10,9% Rozwiązanie: Sposób 2: Wyznaczenie przedziału ufności i obszaru krytycznego. p = 22/1024 = 2,1% 0,300 0,250 0,200 P(r) P(r=0) = 1/1024 P(r=1) = 10/1024 P(r=2) = 45/1024 P(r=3) = 120/1024 P(r=4) = 210/1024 P(r=5) = 252/1024 P(r=6) = 210/1024 P(r=7) = 120/1024 P(r=8) = 45/1024 P(r=9) = 10/1024 P(r=10) = 1/1024 0,150 0,100 0,050 0,000 0 1 2 3 4 5 6 7 8 9 10 r α/2 Przedział ufności Obszar krytyczny dla α = 0,05 α/2