P - Janusz Piechota

Transkrypt

P - Janusz Piechota
„Statystyka w analizie i planowaniu eksperymentu”
Wprowadzenie
Prowadzący zajęcia: dr Janusz Piechota
Zakład Biofizyki
Kierownik zajęć: dr Paweł Błażej
Zakład Genomiki
Na zajęciach przydają się:
dobre chęci, myślenie, zdrowy rozsądek,
kalkulatory, tablice statystyczne.
Program zajęć
1. Kryteria oceny metod analitycznych.
1.1. Rzetelność metody
1.2. Dokładność metody
1.3. Powtarzalność metody
2. Ocena błędów popełnianych podczas pomiarów.
2.1. Rodzaje popełnianych błędów:
2.1.1. błędy przypadkowe (losowe)
2.1.2. błędy systematyczne
2.1.3. błędy grube
2.2. Błąd pomiaru (błąd bezwzględny), błąd względny, błąd
procentowy.
2.3. Ocena rzetelności pojedynczego wyniku z próby
2.4. Test Q Dixona
2.5. Test Grubbsa
Program zajęć
3. Pomiary w biologii i graficzne przedstawienie danych.
3.1. Rodzaje skal:
3.1.1. nominalna
3.1.2. porządkowa
3.1.3. interwałowa
3.2. Procenty, stosunki, proporcje
3.3. Dokładność pomiarów i zaokrąglanie liczb
3.4. Kodowanie danych
3.5. Graficzne przedstawienie danych
3.5.1. ogiwa
3.5.2. wielobok liczebności
3.5.3. histogramy itp.
Program zajęć
4. Miary tendencji centralnej
4.1. Średnie:
4.1.1. arytmetyczna
4.1.2. ważona
4.1.3. geometryczna
4.1.4. harmoniczna
4.2. Mediana
4.3. Moda
5. Miary zmienności. Idea graficznego przedstawiania
zmienności.
5.1. zakres
5.2. odchylenie standardowe
5.3. wariancja
5.4. odchylenie standardowe średnie arytmetycznej
5.5. współczynnik zmienności (wskaźnik Pearsona)
Program zajęć
6. Kurtoza
7. Skośność
8. Wiarygodność wyników pomiarowych: rozkład normalny.
8.1. standaryzacja pomiarów
8.2 skala Z
8.3. skala centylowa
8.4. przedział normy
8.5. przedział krytyczny
9. Rozkład t. Zastosowanie testu t-Studenta.
9.1. poziom istotności
9.2. poziom ufności
9.3. ocena istotności różnic dwóch wartości średnich (test t dla grup
zależnych, test t dla grup niezależnych, test t dla jednej próby)
9.4. istotność współczynnika korelacji liniowej
9.5. test C – Cochrana-Coxa
Program zajęć
10. Rozkład F. Podstawy analizy wariancji.
10.1. porównanie jednorodności wariancji dwóch szeregów
statystycznych
10.2. test F
11. Współzależność zmiennych – korelacja Pearsonowska.
11.1. korelacja, współczynnik korelacji, współczynnik determinacji
11.2. regresja liniowa, współczynnik regresji
11.3. odchylenie standardowe resztkowe zmiennej zależnej
12. Analiza frekwencji.
12.1. test istotności różnicy frakcji
12.2. test zgodności (test χ2)
Literatura:
A. Zgirski, R. Gondko, „Obliczenia biochemiczne”;
A. Łomnicki, „Wprowadzenie do statystyki dla przyrodników”;
K. Doerffel, „Statystyka dla biochemików”;
R. Gondko, A. Zgirski, M. Adamska, „Biostatystyka w zadaniach”.
Statystyka
Statystyka dzieli się na statystykę opisową oraz statystykę
matematyczną (wnioskowanie statystyczne).
Statystyka opisowa – umożliwia opis, uporządkowanie,
zestawienie danych liczbowych i ich reprezentację w postaci
szeregów, tabel i wykresów.
Statystyka matematyczna - zbiór recept do opracowania
danych doświadczalnych. Również pewien sposób myślenia w
których oceniamy wpływ czynników losowych. Statystyka
matematyczna dostarcza narzędzi do odpowiedniego
zaplanowania, analizy i interpretacji wszelkiego rodzaju
eksperymentów empirycznych.
Populacja
Przedmiotem badań statystycznych jest zbiorowość
statystyczna określana mianem populacji.
Populacja może być:
● skończona – zbiorowość o ustalonej lub możliwej do ustalenia
liczbie elementów.
● nieskończona – zbiór elementów zbiorowości jest
nieograniczony lub niemożliwy do ustalenia.
Badania obejmujące całą populację (wszystkie jej jednostki) są
badaniami kompletnymi.
Badania, które obejmują tylko część populacji zwanej próbą są
badaniami częściowymi. Aby badania częściowe były
wiarygodne próba musi być losowa (tzn. każdy element
populacji będzie miał takie samo prawdopodobieństwo dostania
się do próby) i reprezentatywna (tzn. tj. jej struktura musi być
jak najbardziej zbliżona do struktury całej zbiorowości
statystycznej).
Przykład:
Sondaż przedwyborczy poparcia dwóch kandydatów na
prezydenta wskazywał, że kandydat X cieszy się poparciem
54%, zaś kandydata Y popiera 46% respondentów.
Badania przeprowadzono na próbie 1000 osób w badaniu telefonicznym
przeprowadzonym w dniu .... w godzinach 8-15. Dopuszczalny błąd badania wynosi
3%.
Kilka dni później w wyborach kandydat X dostaje 46%, zaś
kandydat Y 54% poparcia.
Dlaczego? Czy potrafisz wskazać możliwe źródła błędów w
przeprowadzonym sondażu?
Przykład:
Dwóch studentów dostało tackę z 40 roślinami. Każdy z nich
miał wybrać 10 roślin, zważyć je i policzyć średnią masę
rośliny. Wyniki uzyskane przez każdego ze studentów
znacząco się od siebie różniły. Dlaczego?
Student 1
Student 2
Jak należałoby postąpić w sposób prawidłowy?
Przykład prawidłowego
rozwiązania
Przykład:
Testowano dwie odmiany pszenicy pod względem plonowania.
W tym celu określony areał podzielono na dwa poletka, na
których wysiano testowane odmiany. Plon zebrany z odmiany
2 był prawie dwukrotnie wyższy od plonu uzyskanego z
odmiany 1. Czy uzyskany wynik jest wiarygodny?
JEZIORO
Odmiana 2
Odmiana 1
LAS
Czy taki układ jest lepszy?
Odmiana 1
Odmiana 2
JEZIORO
LAS
A taki?
Odmiana 1 Odmiana 2
Odmiana 2 Odmiana 1
JEZIORO
LAS
Statystyka matematyczna:
Dyscyplina dostarczająca informacji niezbędnych do:
●
planowania doświadczeń;
●
sposobu zbierania danych;
●
sposobu analizy uzyskanych danych liczbowych;
●
sposobu wnioskowania na podstawie danych liczbowych.
Zadaniem wnioskowania statystycznego jest:
●
●
●
estymacja nieznanych parametrów np. średniej badanej wartości
w danej populacji;
testowanie istotności hipotez;
wysnuwanie właściwych wniosków z obserwacji poczynionych
na próbie i przenoszenie ich na badane populacje.
CECHY
1) Mierzalne (skalarne, ciągłe) – wyrażone w liczbach
rzeczywistych, mogące przyjąć dowolną wartość, np.
Wzrost, masa ciała, stężenie związku itp.
2) Policzalne (skokowe, dyskretne) – wyrażone w liczbach
naturalnych, przyjmujące tylko określone wartości, np.
liczba dzieci w rodzinie.
3) Niemierzalne (jakościowe) – zaliczane do wcześniej
ustalonych kategorii, np. kolor oczu.
SKALA INTERWAŁOWA
W tej skali zmienność jest ciągła.
Przykłady:
1) Pomierzono długości nóg 10-ciu wróbli. Pomiar wykonano z
dokładnością do 0,1 cm: 2,8; 2,8; 3,0; 3,2; 3,6; 3,6; 4,0; 4,5; 5,1; 5,4.
Zakres 2,8 – 5,4.
2) Oznaczono zawartość chlorofilu w 7-miu preparatach
chloroplastów wyizolowanych z 1 g liści groszku hodowanego w
warunkach hydroponicznych. (Każdy 1 g liści pochodził z odrębnej
rośliny). Pomiar wykonano z dokładnością do 0,001 mg: 0,132; 0,140;
0,195; 0,195; 0,280; 0,353; 0,378. Zakres 0,132 – 0,378.
3) Badano wpływ metali ciężkich na rozwój roślin. W pewnym
doświadczeniu analizowano zawartość białka w 5-ciu preparatach
mitochondriów izolowanych z 1 g liści roślin uprawianych na pożywce
zawierającej metale ciężkie oraz w 6-ciu preparatach mitochondriów
izolowanych z 1 g liści kontrolnych. Pomiar wykonano z dokładnością
do 0,001 mg. Grupa badana: 0,440; 0,476; 0,485; 0,604; 0,505
(zakres: 0,440 – 0,505). Grupa kontrolna: 0,485; 0,485: 0,516; 0,520;
0,522 (zakres: 0,485 - 0,522).
SKALA PORZĄDKOWA
W tej skali nadajemy poszczególnym obiektom badanym rangi.
SKALA NOMINALNA
W tej skali przydzielamy poszczególne obiekty do określonych
kategorii.
Skalę interwałową można zamienić na skalę porządkową, zaś
skalę porządkową na skalę nominalną. Nie można tego
uczynić w drugą stronę.
Szeregi
Szereg prosty (statystyczny): rosnący lub malejący –
uzyskuje się porządkując uzyskane wyniki rosnąco lub
malejąco.
Przy dużej liczbie pomiarów dane grupuje się w klasy
(przedziały) tworząc szereg rozdzielczy (zgrupowany).
Liczba klas nie powinna być mniejsza od 6 ani większa
od 30.
Z szeregu rozdzielczego łatwo tworzy się szereg
skumulowany, który wskazuje ogólną liczbę pomiarów
wartości cechy, poniżej określonej wartości górnej
granicy danej klasy.
Graficzna reprezentacja wyników
Graficzna reprezentacja wyników
Graficzna reprezentacja wyników
Szereg rozdzielczy zgrupowany wielostopniowy
Szereg taki otrzymujemy przez podział wartości cechy ciągłej na
klasy oraz przyporządkowanie poszczególnym klasom
odpowiednich liczebności wartości zmiennej.
Postępowanie:
1) ustalenie liczby klas (k)
k =od  N / 2 do  N
gdzie N to liczba pomiarów.
2) ustalenie szerokości klas (h)
gdzie R to rozstęp.
h= R: k
3) określenie granic przedziałów.
Dolna granica pierwszej klasy to wartość: X min.−/2
Górna granica pierwszej klasy to wartość: X min.−/2h
Górna granica jednej klasy jest jednocześnie dolną granicą klasy
następnej.
Xmin. - najmniejsza wartość pomiaru
α - niedokładność pomiaru.
Zadanie
Z populacji mężczyzn, celem określenia ich masy, wybrano losowo
próbę złożoną z 58 osób. Ich masę określono z dokładnością do
0.1 kg. Otrzymano następujące dane liczbowe:
49,1
53,2
54,0
54,1
54,5
55,4
56,3
57,7
58,4
59,0
60,7
60,9
61,0
61,5
62,2
62,8
63,0
63,4
64,0
64,6
65,0
65,6
66,7
66,8
67,0
67,4
68,3
68,9
69,0
69,5
70,0
70,4
70,9
71,6
71,9
72,6
72,7
73,1
73,3
74,0
74,4
74,9
75,0
75,0
75,2
75,6
75,9
76,2
76,5
78,1
78,2
78,7
79,0
79,4
82,1
83,8
85,5
87,1
Uporządkować otrzymane dane tworząc: a) szereg rozdzielczy
zgrupowany, b) szereg skumulowany. Przedstawić otrzymane
dane w postaci wykresu: c) histogramu liczności (wartości
bezwględne); histogramu częstości procentowych; e) histogramu
gęstości; f) diagramu; g) histogramu wartości skumulowanych
bezwględnych; h) histogramu skumulowanych częstości
względnych; i) dystrybuanty empirycznej.
Ustalamy ilość klas i ich szerokość:
k= 58=7,61≈8
R 87,1−49,1 38
h= =
= =4,75≈5
k
8
8
Szereg rozdzielczy i skumulowany:zastawienie zbiorcze.
Nr Granice Liczność
klasy
klas
klas ni
-11
2
3
4
5
6
7
8
-2-
-3-
Frakcja Wi Gęstość
Szereg skumulowany
(%)
częstości Częstości Σni Frakcji (%)ΣWi
ni/h
(ni/N)*100%
-4-5-6-7-
Trochę o prawdopodobieństwach
Jakie jest prawdopodobieństwo wyrzucenia orła/reszki w jednym
rzucie monetą?
Jakie jest prawdopodobieństwo wyrzucenia dwóch orłów przy
dwukrotnym rzuceniu monetą?
Jakie jest prawdopodobieństwo wyrzucenia przynajmniej dwóch
reszek przy trzech rzutach monetą?
Jakie jest prawdopodobieństwo wyrzucenia 2 orłów w 10
rzutach monetą?
Rozkład dwumianowy Bernouliego

r n−r
P r , n , p= n p q
r
p – prawdopodobieństwo sukcesu
q – prawdopodobieństwo porażki (q = 1 - p)
n – liczba powtórzeń (wielkość próby)
r – liczba sukcesów
n!
n=
r n−r ! r!

- dwumian Newtona
Wartość dwumianu Newtona można określić z trójkąta Pascala

P r , n , p= n p r q n−r
r

r
10−r
    
P 2 ; 10 ; 0,5= n p r q n−r = 10
r
2
1
2
1
1−
2
r
10−r
  
1
=45∗
2
1
2
10

1
=45∗
2
=
45
1024
Należy obliczyć prawdopodobieństwo otrzymania r
sukcesów dla r ∈〈0, 10〉
P(r=0) =
P(r=1) =
P(r=2) =
P(r=3) =
P(r=4) =
P(r=5) =
P(r=6) =
P(r=7) =
P(r=8) =
P(r=9) =
P(r=10) =
Należy obliczyć prawdopodobieństwo otrzymania r
sukcesów dla r ∈〈0, 10〉
0,300
0,250
0,200
P(r)
P(r=0) = 1/1024
P(r=1) = 10/1024
P(r=2) = 45/1024
P(r=3) = 120/1024
P(r=4) = 210/1024
P(r=5) = 252/1024
P(r=6) = 210/1024
P(r=7) = 120/1024
P(r=8) = 45/1024
P(r=9) = 10/1024
P(r=10) = 1/1024
0,150
0,100
0,050
0,000
0
1
2
3
4
5
r
6
7
8
9
10
Jakie jest prawdopodobieństwo uzyskania mniej niż 7 reszek w
10 rzutach monetą?
P(r=0) = 1/1024
P(r=1) = 10/1024
P(r=2) = 45/1024
P(r=3) = 120/1024
P(r=4) = 210/1024
P(r=5) = 252/1024
P(r=6) = 210/1024
P(r=7) = 120/1024
P(r=8) = 45/1024
P(r=9) = 10/1024
P(r=10) = 1/1024
Jakie jest prawdopodobieństwo uzyskania mniej niż 7 reszek w
10 rzutach monetą?
1,2
1,0
0,8
ΣP(r)
P(r=0) = 1/1024
P(r<=1) = 11/1024
P(r<=2) = 56/1024
P(r<=3) = 176/1024
P(r<=4) = 386/1024
P(r<=5) = 638/1024
P(r<=6) = 848/1024
P(r<=7) = 968/1024
P(r<=8) = 1013/1024
P(r<=9) = 1023/1024
P(r<=10) = 1024/1024
0,6
0,4
0,2
0,0
0
1
2
3
4
5
6
7
8
r
P(r<7) = 848/1024 = 0,83
9
10
Zadanie: W 10 rzutach monetą uzyskano 2 reszki i 8 orłów. Czy
na tej podstawie można powiedzieć, że moneta jest krzywa?
Rozwiązanie:
Sposób 1: Obliczenie prawdopodobieństwa otrzymania wyniku
takiego takiego, jaki został uzyskany lub bardziej skrajnego.
P(r=0) = 1/1024
P(r=1) = 10/1024
P(r=2) = 45/1024
P(r=3) = 120/1024
P(r=4) = 210/1024
P(r=5) = 252/1024
P(r=6) = 210/1024
P(r=7) = 120/1024
P(r=8) = 45/1024
P(r=9) = 10/1024
P(r=10) = 1/1024
p = 112/1024 = 10,9%
Rozwiązanie:
Sposób 2: Wyznaczenie przedziału ufności i obszaru
krytycznego.
p = 22/1024 = 2,1%
0,300
0,250
0,200
P(r)
P(r=0) = 1/1024
P(r=1) = 10/1024
P(r=2) = 45/1024
P(r=3) = 120/1024
P(r=4) = 210/1024
P(r=5) = 252/1024
P(r=6) = 210/1024
P(r=7) = 120/1024
P(r=8) = 45/1024
P(r=9) = 10/1024
P(r=10) = 1/1024
0,150
0,100
0,050
0,000
0
1
2
3
4
5
6
7
8
9
10
r
α/2
Przedział ufności
Obszar krytyczny
dla α = 0,05
α/2

Podobne dokumenty