STATYSTYKA I ANALIZA DANYCH

Transkrypt

STATYSTYKA I ANALIZA DANYCH
STATYSTYKA I ANALIZA DANYCH
Zad.1 Z pewnej partii włókien wełny wylosowano dwie próbki włókien, a w każdej z nich
zmierzono średnicę włókien różnymi metodami. Otrzymano następujące wyniki:
I próbka: n=50; średnia średnica włókien 22,9um, odchylenie standardowe 4,16um
II próbka: n= 120, średnia średnica włókien 23,2um, odchylenie standardowe 6,87um.
Zweryfikować, na poziomie istotności α= 0,05; hipotezę, że obie metody pomiaru stanowią
tak samo dobrą miarę średnicy włókien.
Dane:
PI : n1=50 xśr=22,9um s= 4,16um
PII : n2=120 xśr=23,2um s=6,87um
Typowe zadanie, liczebność obu prób >30 więc korzystamy z „PORÓWNANIE DUŻYCH
PRÓB”
1. Pierwszym krokiem w obliczeniu tego zadania jest policzenie jej zmiennej losowej (uw)
charakteryzującej się rozkładem normalnym.
xśr1 − xśr 2
22,9 − 23,2
uw =
=
= 0,349
s12 s22
4,16 2 6,87 2
+
+
n1 n2
50
120
2. Następnie wyznaczoną wartość uw porównuje się z szerokością przedziału określonego
przez funkcję rozkładu normalnego, dla założonego prawdopodobieństwa P.
Poziom istotności w naszym zadaniu jest równy α= 0,05 = 5%, zatem nasze
prawdopodobieństwo w przedziale określonym funkcją rozkładu normalnego ma wynosić
95%.
Zadane 95% znajduje się w zaznaczonym na szaro obszarze. Dla tego prawdopodobieństwa
należy odczytać wartości –up i up. Ponieważ dysponujemy tablicami jednostronnymi musimy w
pierwszej kolejności odczytać wartość up. Prawdopodobieństwo dla przedziału − ∞, u p
wynosi 97,5%, (95%+ „lewy ogon”, a on wynosi 0,5 ⋅ 5% ). Z tablic odczytujemy, iż wartość ta
wynosi up=1,96. Wiadomo, że rozkład normalny jest rozkładem symetrycznym, zatem skoro
nasze up=1,96 to –up będzie logicznie wynosiło -1,96.
3. Uzyskana wartość uw=0,349 mieści się w przedziale ( –up ; up )
− 1,96 < 0,349 < 1,96
Wówczas można stwierdzić, iż porównane próby należą do tej samej populacji generalnej z
prawdopodobieństwem 95% (lub na zadanym poziomie istotności α= 0,05), Potwierdzenie
przynależności do tej samej populacji generalnej jest też potwierdzeniem na zadane w treści
zadania pytanie.
Zatem odpowiedź brzmi :Tak, obie te metody pomiaru stanowią tak samo dobrą miarę
średnicy włókien z prawdopodobieństwem 95%.
Zad.2 Spośród uczniów pewnego liceum wylosowano 15 z klas pierwszych oraz 12 z klas
drugich i obliczono średnią ocen uzyskanych w półroczu dla każdego z tych uczniów.
Otrzymano następujące rezultaty:
Klasa I: 3,71; 4,28; 2,95; 3,20; 3,38; 4,05; 4,07; 4,98; 3,20; 3,43; 3,09; 4,50; 3,12; 3,68; 3,90
Klasa II: 3,10; 3,38; 4,06; 3,60; 3,81; 4,50; 4,00; 3,25; 4,11; 4,85; 2,80; 4,00.
Zweryfikować hipotezę, że przeciętne oceny uzyskiwane przez uczniów badanych klas są
jednakowe.
We wszystkich obliczeniach przyjmij poziom istotności równy α=0,05.
To kolejny przykład na porównywanie prób o różnej liczebności (posiadamy dane dla 2
różnych grup oraz prosi się nas aby je porównać). Aby je porównać należy wybrać
odpowiednią metodę. Liczebności obu klas nie przekraczają umownej granicy 30, zatem
wykorzystamy tu metodę „Porównanie małych prób”. Zmienna losowa w tej metodzie
charakteryzuje się rozkładem t-Studenta. Porównanie dwu prób o różnej liczebności
sprowadza się do obliczenia parametru Studenta t i porównanie go z parametrem krytycznym
tα,r .
1. Obliczamy parametr t:
xsr − y sr m ⋅ n
t=
m+n
S −2
Jak widać ze wzoru niezbędne są wartości średnie dla obu prób oraz wariancję zbiorczą,
którą wyliczymy z wzoru :
_2
s 2 (m − 1) + s y2 (n − 1) 0,589 2 (15 − 1) + 0,5912 (12 − 1)
S = x
= 0,348
=
m+n−2
15 + 12 − 2
Mając już obliczoną wariancję zbiorczą możemy przystąpić do obliczania parametru t:
3,703 − 3,788 15 ⋅ 12
t=
= 0,372
15 + 12
0,348
2. Następnie należy określić parametr krytyczny tα,r. Dobieramy go na podstawie tablic
rozkładu t-Studenta dla odpowiedniej liczby stopni swobody (m+n-2) i zadanego poziomu
istotności α. W naszym przypadku liczba stopni swobody jest równa 25; (15+12-2) i α=0,05.
tα , r = 2,06
3. t < tα , r , zatem jest to potwierdzenie naszej hipotezy zerowej. Odpowiedź brzmi: tak,
przeciętne oceny uzyskiwane przez uczniów badanych klas są jednakowe.
Zad.3 W czterech niezależnych pomiarach głębokości oceanu otrzymano następujące wyniki
(w km): 7,8; 7,5; 8,2 i 8,4. Określić średnią głębokość oraz przedział ufności tej wielkości dla
α=0,05
Średnia głębokość to nic innego jak średnia arytmetyczna z uzyskanych pomiarów.
xśr= 7,975 km
Przedział ufności zmiennej losowej obliczamy ze wzoru:
µ x = xśr ± tα S , gdzie to odchylenie standardowe średniej
x
S
( pamiętając, iż ono też
n
posiada jednostkę, taką jak zmienna).
S= 0,403 km
S _ = 0,2015 km
x
Parametr Studenta t odczytujemy z tablic t-Studenta dla α=0,05 i liczby stopni swobody
f=(n-1)=3.
tα = 3,182
Zatem przedział ufności zmiennej losowej przedstawia się następująco:
µ x = xśr ± tα S x = 7,975 ± 3,182 ⋅ 0,2015 = 7,975 ± 0,64117 km
x
Ostateczna postać po poprawnym zaokrągleniu przedstawia się następująco:
µ x = 7,98 ± 0,65km
Zad.4 Średnia próby o liczebności 49, spełniającej rozkład normalny wynosi 25,5; a jej
wariancja równa się 8,5. Jaka część populacji będzie posiadała wartości większe od 30? Ile
wynosi prawdopodobieństwo, iż z próby otrzymamy wartości mniejsze niż 20?
W każdym z podpunktów zadania należy policzyć prawdopodobieństwo. Wiemy, że próba
charakteryzuje się rozkładem normalnym, zatem możemy skorzystać ze wzoru:
x − xśr
u=
S
30 − 25,5
u1 =
= 1,54 , z tablic rozkładu normalnego odczytamy wartość prawdopodobieństwa
2,915
(dystrybuanty) P dla przedziału (−∞; u ) , która wynosi 93,82% lub 0,9382, w naszym
przypadku potrzebna jest wartość prawdopodobieństwa P dla (u >1,54), obliczymy ją
wiedząc, że całkowite prawdopodobieństwo pod krzywą Gaussa jest równe 100% lub po
prostu 1. Zatem 100-93,82=6,18%, tyle wynosi prawdopodobieństwo dla u >1,54. W zadaniu
wymagane jest od nas abyśmy podali jaka część populacji ma wartości większe od 30.
Obliczamy to mnożąc liczebność próby przez prawdopodobieństwo.
nx > 30 = 49 ⋅ 0,0618 = 3,0
W kolejnym podpunkcie, podobnie jak w poprzednim, mamy obliczyć prawdopodobieństwo
występowania wartości mniejszych od 20. Tok obliczeń wygląda prawie identycznie jak wyżej.
x − xśr 20 − 25,5
=
= −1,89
S
2,915
Prawdopodobieństwo P dla (u<1,89) wynosi 97,06%.
P(u>1,89) = P(u<-1,89) = 1 - 0,9706 = 0,0294 ≅ 3%
u=
Zad5. Dwóm grupom robotników zlecono wykonanie tej samej pracy, przy czym robotnicy I
grupy przeszli wcześniej przeszkolenie. Wydajność pracy w I grupie kształtowała się
następująco (w szt./godz.) 18,6 17,9 18,1 17,0 18,7 18,3; podczas gdy w II grupie
zaobserwowano następujące wydajności 17,3 17,6 17,1 16,0 17,8. na poziomie istotności
α=0,05 zweryfikować hipotezę, że średnia wydajność pracy zależy od uprzedniego
przeszkolenia.
Typowe zadanie na porównanie prób ( typowo dwie grupy różno liczebne).
Liczebność mniejsza od umownej wartości 30, zatem korzystamy z testu „Porównanie małych
prób”
IG: m=6 xśr=18,1 S2=0,368
IIG: n=5 yśr=17,16 S2=0,493
Obliczamy parametr Studenta t:
t=
xsr − y sr
_2
S
m ⋅ n 18,1 − 17,16
=
m+n
0,4235
6⋅5
= 2,385
6+5
Wariancję zbiorczą obliczamy ze wzoru:
_2
s x2 (m − 1) + s 2y (n − 1) 0,368(6 − 1) + 0,493(5 − 1)
S =
=
= 0,4235
m+n−2
6+5−2
(jeśli ktoś nie zauważył, a się dziwi to podstawiłem od razu wartości wariancji)
Następnie wyznaczamy parametr krytyczny Studenta tα , r . Dla 9 stopni swobody (6+5-2) i
poziomu istotności α=0,05, parametr ten przyjmuje wartość:
tα , r = 2,262
Zatem t > tα , r , 2,385 > 2,262. Postawiona w zadaniu hipoteza została obalona a zatem
odpowiedź brzmi: Tak, średnia wydajność pracy zależy od uprzedniego przeszkolenia.
Zad.6 Zawartość Fe2O3 w badanym roztworze oznaczano spektrofotometrycznie (po
utworzeniu barwnego kompleksu rodankowego) i otrzymano następujące wyniki (w mg/dm3):
350; 342; 366; 350; 353; 343; 354; 358; 354; 360. Niezależnie wykonana seria 8 oznaczeń
metodą grawimetryczną (po wytrąceniu jako Fe(OH)3) dała wyniki xśr=358,5; s2=114.
sprawdzić, czy wynik 366 z pierwszej serii obarczony jest błędem grubym, a następnie
zweryfikować hipotezy o jednakowej precyzji i dokładności obu metod (α=0,05)
Sprawdzamy czy jakaś wartość jest obarczona błędem grubym (czy nie pasuje do reszty
wyników) za pomocą Testu Q-Dixona. Pierwszym krokiem jest uszeregowanie wyników w
ciąg niemalejący: 342; 343; 350; 350; 353; 354; 354; 358; 360; 366
Następnie Obliczamy zmienną losową tego testu, czyli Q:
x − xs
Q= w
R
Gdzie:
xw to wynik wątpliwy.
xs to wynik sąsiadujący z wynikiem wątpliwym.
R to rozstęp, czyli różnica wyniku ostatniego i pierwszego. R = 366-342= 24
366 − 360
Q=
= 0,25
24
Ostatnim krokiem jest odczytanie z tablicy Q-Dixona parametru krytycznego Qkr i
porównanie go z uzyskaną wartością Q. Odczytywana wartość jest dla liczby pomiarów n i
prawdopodobieństwa P = 1-α
Qkr=0,41
Skoro Q < Qkr, 0,25<0,41; możemy stwierdzić, iż wynik wątpliwy jest elementem próby.
Do porównania precyzji dwóch metod analitycznych najlepszym, choć nie jedynym, jest test
F-Snedecora.
Pierwszym krokiem w obliczeniach jest wyliczeni wariancji dla obu prób, następnie
podstawienie ich do wzoru:
s2
F = 12
s2
Pamiętając, iż wariancja w liczniku musi być większa od tej w mianowniku.
s12 = 114
s22 = 53,778 ; podstawiając do wzoru otrzymujemy wartość parametru F:
114
F=
= 2,12
53,778
W ostatnim już kroku porównujemy uzyskany parametr F z odczytanym z tablic parametrem
krytycznym Fkr. Parametr krytyczny odczytujemy w ten sposób, że liczebność wariancji z
mianownika odpowiada wierszom (m) z tablicy a liczebność z licznika kolumnom (n).
Pamiętając, że odczytujemy (j-1) i (k-1). Gdzie j i k to liczebności poszczególnych prób.
Fkr= 3,29
F < Fkr zatem możemy stwierdzić, iż obie metody są tak samo precyzyjne.
Czy obie metody są dokładne, określa nam ”Porównanie małych prób”.
Obliczamy parametr Studenta t:
xsr − y sr m ⋅ n
353 − 358,5 10 ⋅ 8
t=
=
= 1,295
2
_
m+n
10 + 8
80,12
S
Wariancję zbiorczą obliczyliśmy na podstawie wzoru:
_2
s x2 (m − 1) + s y2 (n − 1) 114(8 − 1) + 53,778(10 − 1)
S =
= 80,12
=
m+n−2
8 + 10 − 2
Następnie wyznaczamy parametr krytyczny Studenta tα , r . Dla 16 stopni swobody (10+8-2) i
poziomu istotności równego α=0,05, parametr ten przyjmuje wartość:
tα , r = 2,12
Zatem t < tα , r , 1,295 <2,12. Zatem stwierdzam, iż obie metody są jednakowo dokładne z
prawdopodobieństwem 95%.
Zad.7 W celu zbadania czy istnieje prostoliniowa korelacja pomiędzy krotnością dawki
pewnego preparatu (zmienna x), a masą wątroby szczura w gramach (zmienna y),
przeprowadzono odpowiednie badania i otrzymano następujące wyniki:
1
2
3
4
5
6
7
8
9
10
Krotność(x)
3,2
4,5
3,8
4,8
5,5
4,2
3,5
5,0
5,2
4,0
Masa (y)
Na poziomie istotności a=0,05 zweryfikować hipotezę o braku korelacji między
krotnością dawki preparatu, a masa wątroby szczura.
Zadanie to można policzyć wykorzystując analizę regresji. W pierwszej kolejności należy
policzyć współczynnik korelacji r (współczynnik liniowości, przyjmuje wartości od 0 do 1 i im
bardziej zbliżony do 1 tym funkcja bardziej liniowa).
n
n
n
i =1
i =1
i =1
n ⋅ ∑ xi yi − ∑ xi ∑ yi
r=
r=
 n 2  n 2   n 2  n  2 
n∑ xi −  ∑ xi   ⋅ n ∑ yi −  ∑ yi  
 i =1    i =1
 i =1  
 i =1
10 ⋅ 246,8 − 55 ⋅ 43,7
[10 ⋅ 385 − (55) ]⋅ [10 ⋅196,15 − (43,7) ]
2
2
= 0,312
Kwadrat współczynnika korelacji r2=0,pokazuje nam jak bardzo nieliniowa/liniowa jest nasza
zależność ( w tym wypadku funkcja jest liniowa zaledwie w 10%) . Nie można jednak opierać
się tylko na tym, trzeba sprawdzić istotność regresji.
Obliczamy parametr t:
n−2
10 − 2
t=r⋅
= 0,312 ⋅
= 0,9286 ; gdzie n – liczebność
1− r2
1 − 0,097
A następnie porównujemy go z parametrem krytycznym t r ,α , który dla warunków naszego
zadania tzn. 9 stopni swobody i α=0,05 wynosi 2,262.
t < t r ,α
Zatem można stwierdzić na poziomie istotności α=0,05, iż nie ma korelacji (prostoliniowej
zależności) pomiędzy krotnością dawki preparatu, a masa wątroby szczura. Nie ma sensu
obliczać parametry regresji prostoliniowej.
Zad.8 Wykonano 10 pomiarów ciśnienia wewnątrz zbiornika próżniowego otrzymując
następujące wyniki (w kPa) ;43, 45, 44, 58, 47, 45, 38, 44, 48 i 46. Wyznaczyć przedział
ufności średniej odrzucając ewentualnie na mocy odpowiedniego kryterium wynik(i)
wątpliwe.
Wyniki wątpliwe odrzucamy wykorzystując test Q-Dixona.
Wartości ciśnienia należy uszeregować w ciąg niemalejący: 38; 43; 44; 44; 45; 45; 46; 47;
48; 58.
Wartość średnia wynosi 45,8; wynikiem wątpliwym wydaje się być 58. Aby to sprawdzić
należy obliczyć parametr Q i porównać go z parametrem krytycznym Qkr.
x − xs
Q= w
R
Gdzie:
xw to wynik wątpliwy.
xs to wynik sąsiadujący z wynikiem wątpliwym.
R to rozstęp, czyli różnica wyniku ostatniego i pierwszego. R = 58-38= 20
x − xs 58 − 48
Q= w
=
= 0,5
R
20
Parametr krytyczny Qkr odczytany z tablicy testu Q-Dixona, dla 95% prawdopodobieństwa
i 10 pomiarów, wynosi 0,41.
Q > Qkr
Z 95% prawdopodobieństwem odrzucamy wynik wątpliwy. (za pomocą testu
Q-Dixona można odrzucić tylko jeden wątpliwy wynik).
Aby obliczyć przedział ufności wartości średniej należy policzyć odchylenie standardowe
dla wartości po odrzuceniu wyniku wątpliwego. Następnie odczytać wartość parametru t
dla nowej serii wartości ciśnienia.
S=2,877, my do obliczeń musimy użyć odchylenie standardowe
S
2,877
średniej
=
= 0,959
n
9
Parametr Studenta t odczytujemy z tablic dla poziomu istotności α=0,05 i liczby stopni
swobody równej 9-1=8.
tα = 2,306
Przedział ufności dla wartości średniej Obliczamy ze wzoru:
µ x = xśr ± tα S śr
µ x = 45,8 ± 2,306 ⋅ 0,959
µ x = 45,8 ± 2,3