STATYSTYKA I ANALIZA DANYCH
Transkrypt
STATYSTYKA I ANALIZA DANYCH
STATYSTYKA I ANALIZA DANYCH Zad.1 Z pewnej partii włókien wełny wylosowano dwie próbki włókien, a w każdej z nich zmierzono średnicę włókien różnymi metodami. Otrzymano następujące wyniki: I próbka: n=50; średnia średnica włókien 22,9um, odchylenie standardowe 4,16um II próbka: n= 120, średnia średnica włókien 23,2um, odchylenie standardowe 6,87um. Zweryfikować, na poziomie istotności α= 0,05; hipotezę, że obie metody pomiaru stanowią tak samo dobrą miarę średnicy włókien. Dane: PI : n1=50 xśr=22,9um s= 4,16um PII : n2=120 xśr=23,2um s=6,87um Typowe zadanie, liczebność obu prób >30 więc korzystamy z „PORÓWNANIE DUŻYCH PRÓB” 1. Pierwszym krokiem w obliczeniu tego zadania jest policzenie jej zmiennej losowej (uw) charakteryzującej się rozkładem normalnym. xśr1 − xśr 2 22,9 − 23,2 uw = = = 0,349 s12 s22 4,16 2 6,87 2 + + n1 n2 50 120 2. Następnie wyznaczoną wartość uw porównuje się z szerokością przedziału określonego przez funkcję rozkładu normalnego, dla założonego prawdopodobieństwa P. Poziom istotności w naszym zadaniu jest równy α= 0,05 = 5%, zatem nasze prawdopodobieństwo w przedziale określonym funkcją rozkładu normalnego ma wynosić 95%. Zadane 95% znajduje się w zaznaczonym na szaro obszarze. Dla tego prawdopodobieństwa należy odczytać wartości –up i up. Ponieważ dysponujemy tablicami jednostronnymi musimy w pierwszej kolejności odczytać wartość up. Prawdopodobieństwo dla przedziału − ∞, u p wynosi 97,5%, (95%+ „lewy ogon”, a on wynosi 0,5 ⋅ 5% ). Z tablic odczytujemy, iż wartość ta wynosi up=1,96. Wiadomo, że rozkład normalny jest rozkładem symetrycznym, zatem skoro nasze up=1,96 to –up będzie logicznie wynosiło -1,96. 3. Uzyskana wartość uw=0,349 mieści się w przedziale ( –up ; up ) − 1,96 < 0,349 < 1,96 Wówczas można stwierdzić, iż porównane próby należą do tej samej populacji generalnej z prawdopodobieństwem 95% (lub na zadanym poziomie istotności α= 0,05), Potwierdzenie przynależności do tej samej populacji generalnej jest też potwierdzeniem na zadane w treści zadania pytanie. Zatem odpowiedź brzmi :Tak, obie te metody pomiaru stanowią tak samo dobrą miarę średnicy włókien z prawdopodobieństwem 95%. Zad.2 Spośród uczniów pewnego liceum wylosowano 15 z klas pierwszych oraz 12 z klas drugich i obliczono średnią ocen uzyskanych w półroczu dla każdego z tych uczniów. Otrzymano następujące rezultaty: Klasa I: 3,71; 4,28; 2,95; 3,20; 3,38; 4,05; 4,07; 4,98; 3,20; 3,43; 3,09; 4,50; 3,12; 3,68; 3,90 Klasa II: 3,10; 3,38; 4,06; 3,60; 3,81; 4,50; 4,00; 3,25; 4,11; 4,85; 2,80; 4,00. Zweryfikować hipotezę, że przeciętne oceny uzyskiwane przez uczniów badanych klas są jednakowe. We wszystkich obliczeniach przyjmij poziom istotności równy α=0,05. To kolejny przykład na porównywanie prób o różnej liczebności (posiadamy dane dla 2 różnych grup oraz prosi się nas aby je porównać). Aby je porównać należy wybrać odpowiednią metodę. Liczebności obu klas nie przekraczają umownej granicy 30, zatem wykorzystamy tu metodę „Porównanie małych prób”. Zmienna losowa w tej metodzie charakteryzuje się rozkładem t-Studenta. Porównanie dwu prób o różnej liczebności sprowadza się do obliczenia parametru Studenta t i porównanie go z parametrem krytycznym tα,r . 1. Obliczamy parametr t: xsr − y sr m ⋅ n t= m+n S −2 Jak widać ze wzoru niezbędne są wartości średnie dla obu prób oraz wariancję zbiorczą, którą wyliczymy z wzoru : _2 s 2 (m − 1) + s y2 (n − 1) 0,589 2 (15 − 1) + 0,5912 (12 − 1) S = x = 0,348 = m+n−2 15 + 12 − 2 Mając już obliczoną wariancję zbiorczą możemy przystąpić do obliczania parametru t: 3,703 − 3,788 15 ⋅ 12 t= = 0,372 15 + 12 0,348 2. Następnie należy określić parametr krytyczny tα,r. Dobieramy go na podstawie tablic rozkładu t-Studenta dla odpowiedniej liczby stopni swobody (m+n-2) i zadanego poziomu istotności α. W naszym przypadku liczba stopni swobody jest równa 25; (15+12-2) i α=0,05. tα , r = 2,06 3. t < tα , r , zatem jest to potwierdzenie naszej hipotezy zerowej. Odpowiedź brzmi: tak, przeciętne oceny uzyskiwane przez uczniów badanych klas są jednakowe. Zad.3 W czterech niezależnych pomiarach głębokości oceanu otrzymano następujące wyniki (w km): 7,8; 7,5; 8,2 i 8,4. Określić średnią głębokość oraz przedział ufności tej wielkości dla α=0,05 Średnia głębokość to nic innego jak średnia arytmetyczna z uzyskanych pomiarów. xśr= 7,975 km Przedział ufności zmiennej losowej obliczamy ze wzoru: µ x = xśr ± tα S , gdzie to odchylenie standardowe średniej x S ( pamiętając, iż ono też n posiada jednostkę, taką jak zmienna). S= 0,403 km S _ = 0,2015 km x Parametr Studenta t odczytujemy z tablic t-Studenta dla α=0,05 i liczby stopni swobody f=(n-1)=3. tα = 3,182 Zatem przedział ufności zmiennej losowej przedstawia się następująco: µ x = xśr ± tα S x = 7,975 ± 3,182 ⋅ 0,2015 = 7,975 ± 0,64117 km x Ostateczna postać po poprawnym zaokrągleniu przedstawia się następująco: µ x = 7,98 ± 0,65km Zad.4 Średnia próby o liczebności 49, spełniającej rozkład normalny wynosi 25,5; a jej wariancja równa się 8,5. Jaka część populacji będzie posiadała wartości większe od 30? Ile wynosi prawdopodobieństwo, iż z próby otrzymamy wartości mniejsze niż 20? W każdym z podpunktów zadania należy policzyć prawdopodobieństwo. Wiemy, że próba charakteryzuje się rozkładem normalnym, zatem możemy skorzystać ze wzoru: x − xśr u= S 30 − 25,5 u1 = = 1,54 , z tablic rozkładu normalnego odczytamy wartość prawdopodobieństwa 2,915 (dystrybuanty) P dla przedziału (−∞; u ) , która wynosi 93,82% lub 0,9382, w naszym przypadku potrzebna jest wartość prawdopodobieństwa P dla (u >1,54), obliczymy ją wiedząc, że całkowite prawdopodobieństwo pod krzywą Gaussa jest równe 100% lub po prostu 1. Zatem 100-93,82=6,18%, tyle wynosi prawdopodobieństwo dla u >1,54. W zadaniu wymagane jest od nas abyśmy podali jaka część populacji ma wartości większe od 30. Obliczamy to mnożąc liczebność próby przez prawdopodobieństwo. nx > 30 = 49 ⋅ 0,0618 = 3,0 W kolejnym podpunkcie, podobnie jak w poprzednim, mamy obliczyć prawdopodobieństwo występowania wartości mniejszych od 20. Tok obliczeń wygląda prawie identycznie jak wyżej. x − xśr 20 − 25,5 = = −1,89 S 2,915 Prawdopodobieństwo P dla (u<1,89) wynosi 97,06%. P(u>1,89) = P(u<-1,89) = 1 - 0,9706 = 0,0294 ≅ 3% u= Zad5. Dwóm grupom robotników zlecono wykonanie tej samej pracy, przy czym robotnicy I grupy przeszli wcześniej przeszkolenie. Wydajność pracy w I grupie kształtowała się następująco (w szt./godz.) 18,6 17,9 18,1 17,0 18,7 18,3; podczas gdy w II grupie zaobserwowano następujące wydajności 17,3 17,6 17,1 16,0 17,8. na poziomie istotności α=0,05 zweryfikować hipotezę, że średnia wydajność pracy zależy od uprzedniego przeszkolenia. Typowe zadanie na porównanie prób ( typowo dwie grupy różno liczebne). Liczebność mniejsza od umownej wartości 30, zatem korzystamy z testu „Porównanie małych prób” IG: m=6 xśr=18,1 S2=0,368 IIG: n=5 yśr=17,16 S2=0,493 Obliczamy parametr Studenta t: t= xsr − y sr _2 S m ⋅ n 18,1 − 17,16 = m+n 0,4235 6⋅5 = 2,385 6+5 Wariancję zbiorczą obliczamy ze wzoru: _2 s x2 (m − 1) + s 2y (n − 1) 0,368(6 − 1) + 0,493(5 − 1) S = = = 0,4235 m+n−2 6+5−2 (jeśli ktoś nie zauważył, a się dziwi to podstawiłem od razu wartości wariancji) Następnie wyznaczamy parametr krytyczny Studenta tα , r . Dla 9 stopni swobody (6+5-2) i poziomu istotności α=0,05, parametr ten przyjmuje wartość: tα , r = 2,262 Zatem t > tα , r , 2,385 > 2,262. Postawiona w zadaniu hipoteza została obalona a zatem odpowiedź brzmi: Tak, średnia wydajność pracy zależy od uprzedniego przeszkolenia. Zad.6 Zawartość Fe2O3 w badanym roztworze oznaczano spektrofotometrycznie (po utworzeniu barwnego kompleksu rodankowego) i otrzymano następujące wyniki (w mg/dm3): 350; 342; 366; 350; 353; 343; 354; 358; 354; 360. Niezależnie wykonana seria 8 oznaczeń metodą grawimetryczną (po wytrąceniu jako Fe(OH)3) dała wyniki xśr=358,5; s2=114. sprawdzić, czy wynik 366 z pierwszej serii obarczony jest błędem grubym, a następnie zweryfikować hipotezy o jednakowej precyzji i dokładności obu metod (α=0,05) Sprawdzamy czy jakaś wartość jest obarczona błędem grubym (czy nie pasuje do reszty wyników) za pomocą Testu Q-Dixona. Pierwszym krokiem jest uszeregowanie wyników w ciąg niemalejący: 342; 343; 350; 350; 353; 354; 354; 358; 360; 366 Następnie Obliczamy zmienną losową tego testu, czyli Q: x − xs Q= w R Gdzie: xw to wynik wątpliwy. xs to wynik sąsiadujący z wynikiem wątpliwym. R to rozstęp, czyli różnica wyniku ostatniego i pierwszego. R = 366-342= 24 366 − 360 Q= = 0,25 24 Ostatnim krokiem jest odczytanie z tablicy Q-Dixona parametru krytycznego Qkr i porównanie go z uzyskaną wartością Q. Odczytywana wartość jest dla liczby pomiarów n i prawdopodobieństwa P = 1-α Qkr=0,41 Skoro Q < Qkr, 0,25<0,41; możemy stwierdzić, iż wynik wątpliwy jest elementem próby. Do porównania precyzji dwóch metod analitycznych najlepszym, choć nie jedynym, jest test F-Snedecora. Pierwszym krokiem w obliczeniach jest wyliczeni wariancji dla obu prób, następnie podstawienie ich do wzoru: s2 F = 12 s2 Pamiętając, iż wariancja w liczniku musi być większa od tej w mianowniku. s12 = 114 s22 = 53,778 ; podstawiając do wzoru otrzymujemy wartość parametru F: 114 F= = 2,12 53,778 W ostatnim już kroku porównujemy uzyskany parametr F z odczytanym z tablic parametrem krytycznym Fkr. Parametr krytyczny odczytujemy w ten sposób, że liczebność wariancji z mianownika odpowiada wierszom (m) z tablicy a liczebność z licznika kolumnom (n). Pamiętając, że odczytujemy (j-1) i (k-1). Gdzie j i k to liczebności poszczególnych prób. Fkr= 3,29 F < Fkr zatem możemy stwierdzić, iż obie metody są tak samo precyzyjne. Czy obie metody są dokładne, określa nam ”Porównanie małych prób”. Obliczamy parametr Studenta t: xsr − y sr m ⋅ n 353 − 358,5 10 ⋅ 8 t= = = 1,295 2 _ m+n 10 + 8 80,12 S Wariancję zbiorczą obliczyliśmy na podstawie wzoru: _2 s x2 (m − 1) + s y2 (n − 1) 114(8 − 1) + 53,778(10 − 1) S = = 80,12 = m+n−2 8 + 10 − 2 Następnie wyznaczamy parametr krytyczny Studenta tα , r . Dla 16 stopni swobody (10+8-2) i poziomu istotności równego α=0,05, parametr ten przyjmuje wartość: tα , r = 2,12 Zatem t < tα , r , 1,295 <2,12. Zatem stwierdzam, iż obie metody są jednakowo dokładne z prawdopodobieństwem 95%. Zad.7 W celu zbadania czy istnieje prostoliniowa korelacja pomiędzy krotnością dawki pewnego preparatu (zmienna x), a masą wątroby szczura w gramach (zmienna y), przeprowadzono odpowiednie badania i otrzymano następujące wyniki: 1 2 3 4 5 6 7 8 9 10 Krotność(x) 3,2 4,5 3,8 4,8 5,5 4,2 3,5 5,0 5,2 4,0 Masa (y) Na poziomie istotności a=0,05 zweryfikować hipotezę o braku korelacji między krotnością dawki preparatu, a masa wątroby szczura. Zadanie to można policzyć wykorzystując analizę regresji. W pierwszej kolejności należy policzyć współczynnik korelacji r (współczynnik liniowości, przyjmuje wartości od 0 do 1 i im bardziej zbliżony do 1 tym funkcja bardziej liniowa). n n n i =1 i =1 i =1 n ⋅ ∑ xi yi − ∑ xi ∑ yi r= r= n 2 n 2 n 2 n 2 n∑ xi − ∑ xi ⋅ n ∑ yi − ∑ yi i =1 i =1 i =1 i =1 10 ⋅ 246,8 − 55 ⋅ 43,7 [10 ⋅ 385 − (55) ]⋅ [10 ⋅196,15 − (43,7) ] 2 2 = 0,312 Kwadrat współczynnika korelacji r2=0,pokazuje nam jak bardzo nieliniowa/liniowa jest nasza zależność ( w tym wypadku funkcja jest liniowa zaledwie w 10%) . Nie można jednak opierać się tylko na tym, trzeba sprawdzić istotność regresji. Obliczamy parametr t: n−2 10 − 2 t=r⋅ = 0,312 ⋅ = 0,9286 ; gdzie n – liczebność 1− r2 1 − 0,097 A następnie porównujemy go z parametrem krytycznym t r ,α , który dla warunków naszego zadania tzn. 9 stopni swobody i α=0,05 wynosi 2,262. t < t r ,α Zatem można stwierdzić na poziomie istotności α=0,05, iż nie ma korelacji (prostoliniowej zależności) pomiędzy krotnością dawki preparatu, a masa wątroby szczura. Nie ma sensu obliczać parametry regresji prostoliniowej. Zad.8 Wykonano 10 pomiarów ciśnienia wewnątrz zbiornika próżniowego otrzymując następujące wyniki (w kPa) ;43, 45, 44, 58, 47, 45, 38, 44, 48 i 46. Wyznaczyć przedział ufności średniej odrzucając ewentualnie na mocy odpowiedniego kryterium wynik(i) wątpliwe. Wyniki wątpliwe odrzucamy wykorzystując test Q-Dixona. Wartości ciśnienia należy uszeregować w ciąg niemalejący: 38; 43; 44; 44; 45; 45; 46; 47; 48; 58. Wartość średnia wynosi 45,8; wynikiem wątpliwym wydaje się być 58. Aby to sprawdzić należy obliczyć parametr Q i porównać go z parametrem krytycznym Qkr. x − xs Q= w R Gdzie: xw to wynik wątpliwy. xs to wynik sąsiadujący z wynikiem wątpliwym. R to rozstęp, czyli różnica wyniku ostatniego i pierwszego. R = 58-38= 20 x − xs 58 − 48 Q= w = = 0,5 R 20 Parametr krytyczny Qkr odczytany z tablicy testu Q-Dixona, dla 95% prawdopodobieństwa i 10 pomiarów, wynosi 0,41. Q > Qkr Z 95% prawdopodobieństwem odrzucamy wynik wątpliwy. (za pomocą testu Q-Dixona można odrzucić tylko jeden wątpliwy wynik). Aby obliczyć przedział ufności wartości średniej należy policzyć odchylenie standardowe dla wartości po odrzuceniu wyniku wątpliwego. Następnie odczytać wartość parametru t dla nowej serii wartości ciśnienia. S=2,877, my do obliczeń musimy użyć odchylenie standardowe S 2,877 średniej = = 0,959 n 9 Parametr Studenta t odczytujemy z tablic dla poziomu istotności α=0,05 i liczby stopni swobody równej 9-1=8. tα = 2,306 Przedział ufności dla wartości średniej Obliczamy ze wzoru: µ x = xśr ± tα S śr µ x = 45,8 ± 2,306 ⋅ 0,959 µ x = 45,8 ± 2,3