Wykład nr 5: Testowanie hipotez statystycznych w środowisku R
Transkrypt
Wykład nr 5: Testowanie hipotez statystycznych w środowisku R
Agnieszka Nowak – Brzezińska Wykład dla przedmiotu „Biostatystyka” Testy parametryczne – weryfikują hipotezy dotyczące wartości parametrów rozkładu badanej populacji (najczęściej średnie, wariancje, odsetki). W większości przypadków statystyki testowe obliczane są przy wykorzystaniu bezpośrednich danych pochodzących z próby, a ich rozkład zależy od rozkładu analizowanych zmiennych. Testy nieparametryczne – służą do weryfikacji różnorakich hipotez, lecz nie są one bezpośrednio powiązane z parametrami rozkładu (bywają wyjątki). Dotyczą one raczej samej postaci rozkładu (kształtu), podobieństwa pomiędzy rozkładami, losowości. Testy te operują na danych „przekształconych” – najczęściej rang, wobec czego rozkład statystyki z próby nie zależą bezpośrednio od rozkładu danych. 1. 2. 3. 4. 5. Sformułowanie tezy rzeczowej i ustaleniu hipotez H0 i Ha; Wyboru właściwej funkcji testowej (statystyki z próby); Przyjęciu stosownego poziomu istotności ; Odczytaniu wartości krytycznych w tablicach dystrybuanty właściwego rozkładu i ustaleniu obszaru krytycznego; Odrzuceniu hipotezy zerowej na korzyść hipotezy alternatywnej, gdy funkcja testowa obliczona z próby znajduje się w obszarze krytycznym i nie odrzucenie jej, gdy funkcja testowa jest poza obszarem krytycznym. Porównanie poziomów parametrów medycznych dla dwóch grup sprowadza się z reguły do porównania przeciętnych poziomów zmiennych lub też porównania rozkładów analizowanego parametru 2. Należy ustalić czy próby są niezależne czy też zależne 3. Czy znane są rozkłady cech w populacji, w próbkach ? 4. Jeżeli spełnione są wszystkie założenia (głównie normalność, ewentualnie równość wariancji, liczebność prób) należy wykonać test parametryczny: – Test t dla prób niezależnych – Test t dla prób zależnych (założenie: rozkład różnic ma być zbliżony do normalnego) 5. W przypadku naruszenia jakiegokolwiek z założeń (np. jedna z grup ma rozkład cechy istotnie różny od normalnego lub jest bardzo mała) wówczas wykonuje się test nieparametryczny: – Dla prób niezależnych: test Manna-Whitneya-Wilcoxona – Dla prób zależnych: test kolejności par Wilcoxona (rangowanych znaków) Alternatywa: normalizacja danych, wykonywanie testów parametrycznych na danych rangowanych. 1. Liczba grup do porównania nie powinna być za duża (teoretycznie kilkanaście, praktycznie najlepiej kilka). Jeżeli porównanie ma być reprezentatywne to próby powinny być raczej liczne oraz mieć zbliżone liczności (nie powinna występować sytuacja, w której np. dwie grupy liczą po 40 obserwacji, a trzecie 8). Większość medycznych porównań wielu grup dotyczy poziomów analizowanych parametrów medycznych (głównie średnie). W przypadku zmiennych jakościowych porównuje się po prostu odsetki w kilku grupach (k>2). Najczęściej mamy też do czynienia z analizą jednoczynnikową (jeden czynnik grupujący/efekt/zmienna zależna). W przypadku wielu czynników można badać interakcje pomiędzy czynnikami (jeżeli jest to uzasadnione). 1. 2. 3. Sparowany test t Studenta: sprawdza różnicę między parą obserwacji na tym samym obiekcie. Czyli bada istotność wpływu jednego czynnika na zachowanie określonej zmiennej. Np. wpływ leku na parametr krwi. Test t Studenta (bada czy średnia próby jest istotnie różna od hipotetycznej średniej) Test normalny (test z): stosowany dla licznych prób (n>60). Hipoteza zerowa mówi, że średnia różnica między wartościami dwóch zmiennych na jednym obiekcie =0 Jeżeli różnica między parami zmiennych obserwacji posiada rozkład normalny, to wartość ( x - µ)/(s/ n ) należy do pola pod krzywą rozkładu t Studenta o n-1 stopniach swobody. A skoro H0 zakłada, że różnica µ =0 to statystyka t przyjmuje tu wartość: t par x s/ n Porównujemy tą wartość z wartością teoretyczną odczytaną z tablic: Jeżeli tpar >=tteor odrzucamy H0 Jeżeli tpar < tteor nie mamy podstaw do odrzucenia H0 bada czy średnia próby jest istotnie różna od x hipotetycznej średniej t par s/ n Porównujemy tą wartość z wartością teoretyczną odczytaną z tablic: Jeżeli tpar >=tteor odrzucamy H0 Jeżeli tpar < tteor nie mamy podstaw do odrzucenia H0 Dla dużych prób Gdy znamy s to: z z x / n x s/ n Istotą jest badanie, czy zmienność międzygrupowa przeważa nad wewnątrzgrupową. Jeżeli zakres zmienności obserwowanej wewnątrz każdej grupy jest mniejszy niż między grupami to mówimy, że grupy są odseparowane od siebie i mogą tworzyć izolowane populacje. Tutaj wymaga się dodatkowo, aby odchylenia standardowe nie różniły się istotnie od siebie. Porównywanie średnich wymaga aby próby były niezależne. Więc jeśli mamy porównywanie średnich ale dla tej samej próby to stosujemy test t Studenta (sparowany). Hipoteza zerowa (H0): średnie w obu populacjach są równe 2 2 Zmienność różnic wyraża wzór: SE 1 2 n1 n2 1. Test normalny (duża liczebność prób) 2. Test t Studenta dla prób niezależnych (mała liczebność prób) z x1 x2 s12 s22 n1 n2 Przedział ufności: Dla dużych prób: Gdy znamy x1 x2 12 n1 22 n2 CI ( x1 x2 ) ( z 'SE ) SE Gdy znamy z s12 s22 n1 n2 CI ( x1 x2 ) ( z 'SE ) SE 12 n1 22 n2 t x1 x2 1 1 s n1 n2 Gdzie: (n1 1) s12 (n2 1) s22 d.f.=n1+n2-2 s n1 n2 2 CI ( x1 x2 ) (t 'SE ) 1 1 SE s n1 n2 Próby mają mieć rozkład normalny i odchylenia standardowe muszą być równe. Gdy nie ma równości wariancji to: 1. Transformacja danych (np. logarytmiczna) 2. Testy nieparametryczne (Wlcoxona, U Manna-Whitneya) 1. 2. Służą one do weryfikacji hipotez parametrycznych, odnoszących się do parametrów rozkładu badanej cechy w populacji generalnej. Najczęściej weryfikują sądy o takich parametrach populacji jak średnia arytmetyczna, wskaźnik struktury i wariancja. Testy te konstruowane są przy założeniu znajomości postaci dystrybuanty w populacji generalnej. Biorąc pod uwagę zakres ich zastosowań, testy te można podzielić na dwie grupy: Testy parametryczne służące do weryfikacji własności populacji jednowymiarowych, Testy parametryczne służące do porównania własności dwóch populacji. Testy parametryczne służące do weryfikacji własności populacji jednowymiarowych, a wśród nich wyróżnia się: ◦ testy dla średniej ◦ test dla proporcji (wskaźnika struktury) ◦ test dla wariancji W testach tych oceny parametrów uzyskane z próby losowej są porównywane z hipotetycznymi wielkościami parametrów, traktowanymi jako pewien wzorzec. Testy parametryczne służące do porównania własności dwóch populacji, do których należą: ◦ test dla dwóch średnich ◦ test dla dwóch proporcji ◦ test dla dwóch wariancji Testy te porównują oceny parametrów, uzyskane z dwóch prób losowych. 1. 2. Służą do weryfikacji różnorodnych hipotez, dotyczących m.in. zgodności rozkładu cechy w populacji z określonym rozkładem teoretycznym, zgodności rozkładów w dwóch populacjach, a także losowości doboru próby. Biorąc pod uwagę zakres ich zastosowań, testy te można podzielić na dwie grupy: Testy nieparametryczne służące do porównania własności dwóch populacji, Testy nieparametryczne służące do weryfikacji własności populacji jednowymiarowych Test Manna-Whitneya jest jedną z najpopularniejszych alternatyw dla testu t-Studenta dla prób niezależnych. Jeżeli dane nie spełniają założeń dla zastosowania testu t-Studenta, warto skorzystać z testu Manna-Whitneya, gdy chcemy porównać ze sobą dwie niezależne wobec siebie grupy. Zaleta: niewielkie wymogi: Zmienna zależna musi być mierzona na skali co najmniej porządkowej (może być również mierzona na skali ilościowej). Może też być skala dychotomiczna (czyli 0-1), dlatego, że jest to przypadek zmiennej nominalnej, która jest zarazem zmienną porządkową. Zastosowanie testu Manna-whitneya nie wymaga równoliczności grup, rozkładu normalnego czy też homogenicznych wariancji. To sprawia, że może być on szeroko stosowany. Test Manna-Whitneya polega na rangowaniu wyników zmiennej zależnej (od najmniejszej do największej) w badanych grupach, a następnie grupy są ze sobą porównywane. Przykład zastosowania: Chcemy sprawdzić, czy kobiety różnią się od mężczyzn pod względem poziomu wykształcenia mierzonego na skali (podstawowe, zawodowe, średnie, wyższe). Z racji, że zmienna zależna (poziom wykształcenia) jest mierzona na skali porządkowej zastosujemy test Manna-Whitneya do sprawdzenia różnic pomiędzy badanymi grupami. Podstawową wadą tego testu jest fakt, że test nie bierze pod uwagę wariancji wyników w badanych grupach. To sprawia, że grupy mogą mieć różną wariancję wyników, co może nie zostać "wykryte" przez test, podczas gdy testy parametryczne biorą to pod uwagę. Wniosek: Test Manna-Whitneya ma słabszą moc interpretacyjną uzyskanych danych. W porównaniu do testu t-Studenta należy zachować większą ostrożność w interpretowaniu uzyskanych wyników. gdzie: R oznacza sumę rang n1, n2 oznacza liczebność w badanych grupach. Należy obliczyć statystykę U zarówno dla R1 (suma rang w I grupie) jak i dla R2 (suma rang w II grupie). Mniejsza z dwóch wartości U stanowi statystykę U, a istotność statystyczna odczytywana jest z tabel. Dalej, dla próby większej niż 20, stosuje się inny wzór (zakłada się, że rozkład U jest wtedy w przybliżeniu normalny. Wzór ten ma postać: Analiza korelacji służy do "wychwycenia" czy zachodzi związek pomiędzy dwiema zmiennymi (właściwościami, cechami). Co oznacza związek? Choć istnieje podobieństwo (przynajmniej przez analogię) do związków interpresonalnych to jednak należy tutaj rozumieć związek jako rodzaj podobieństwa w "zachowywaniu się dwóch cech". Gdy jedna cecha, właściwość wzrasta to czy druga również wzrasta? A może maleje? A może w ogóle się nie zmienia? Przykład: Czy poziom kondycji fizycznej jest związana z ilością spożywanego tygodniowo alkoholu? W tym celu zapytano 100 losowo wybranych osób o średnią ilość (w litrach ;-) spożywanego alkoholu w tygodniu oraz zmierzono ich wynik w biegu na 400m. Aby stwierdzić, czy istnieje związek pomiędzy spożywanym alkoholem a kondycją fizyczną (rozumianą tutaj jako wynik w biegu na 400m) należy przeprowadzić analizę korelacji r-Pearsona pomiędzy wynikami dla tych dwóch zmiennych. Nieparametryczny odpowiednik jednoczynnikowej analizy wariancji dla pomiarów powtarzanych. Uznawany za najlepszy nieparametryczny test dla danych tego rodzaju. Najczęściej są to wyniki dla tych samych osób otrzymane w n (n>>2) różnych badaniach lub wyniki równoważnych grup osób. Występuje kilka zależnych pomiarów. Wyniki pomiarów rejestrowane dla każdej jednostki porządkuje się w kolejności niemalejącej i nadaje kolejne rangi. H0: Nie istnieje różnica miedzy efektami działania różnych poziomów czynnika kontrolowanego H1: Istnieje różnica miedzy efektami działania różnych poziomów czynnika kontrolowanego Statystyka ma postać: gdzie k to liczba kategorii czynnika kontrolowanego, n – liczba jednostek w próbie, rij – ranga nadana j-tej obserwacji zmiennej zależnej u i-tej jednostki. bardzo podobny do Statystyka ma postać testu Friedmana. gdzie n – liczba jednostek we wszystkich próbach łącznie, nj – liczba jednostek w j-tej próbie (j=1,...,k), rij – ranga nadana i-tej obserwacji zmiennej zależnej z j-tej próby Nieparametryczny odpowiednik jednoczynnikowej analizy wariancji. Za pomocą tego testu sprawdzamy, czy „n” niezależnych próbek pochodzi z tej samej populacji, czy z populacji z taką samą medianą. Próbki nie muszą być tej samej liczebności. Maks. 10 grup. Celem analizy wariancji (ANOVA) jest zazwyczaj testowanie istotności różnic pomiędzy średnimi. W przypadku porównywania dwóch średnich ANOVA daje takie same rezultaty, jak test t dla prób niezależnych (jeśli porównujemy dwie różne grupy przypadków lub obserwacji) lub test t dla prób zależnych (jeśli porównujemy dwie zmienne dla tego samego zbioru przypadków lub obserwacji). Anova pozwala stwierdzić, czy analizowane czynniki wywierają wpływ na obserwowane zmienne. Celem ANOVA jest traktowanie istotności różnic pomiędzy średnimi. Założenia: Analizowana zmienna zależna jest mierzalna Analizowana zmienna w każdej z rozważanych k populacji ma rozkład normalny Rozkłady te mają jednakową wariancję 12= 22=…= k2 Dlaczego porównujemy tu średnie ? Bo jeśli średnie różnią się istotnie to analizowany czynnik wpływa na zmienną zależną. Może wydawać się dziwne, że procedura służąca do porównywania średnich jest określana nazwą analiza wariancji. Nazwa ta wywodzi się z faktu, że w celu testowania statystycznej istotności różnic pomiędzy średnimi w rzeczywistości przeprowadzamy porównanie (tzn. analizę) wariancji. Każda populacja musi mieć rozkład normalny Pobrane do analizy próby są niezależne Próby pobrane z każdej populacji muszą być losowymi próbami prostymi Wariancje w populacjach są równe UWAGA: W przypadku, gdy założenia analizy wariancji nie są spełnione należy posługiwać się testem KruskalaWallisa. Rozważmy r populacji o rozkładzie normalnym, jednakowej wariancji 2 i wartości oczekiwanej µi , gdzie i=1,…,r . Z populacji tych losujemy niezależne próby o liczebnościach ni, na których przeprowadzamy pomiary otrzymując wartości xij dla i=1,…,r i j=1,…,ni . Całkowita wielkość próby wynosi n = n1 + n2 + …+ nr. . Układ hipotez jest następujący: Hipoteza zerowa: Hipoteza alternatywna: nie wszystkie µi są sobie równe: (i=1,…,r) Do weryfikacji powyższej hipotezy obliczamy wartość statystyki F postaci: gdzie: MSTR oznacza średni kwadratowy błąd "zabiegowy", MSE oznacza średni kwadratowy błąd losowy, xi oznacza średnią arytmetyczną z i-tej próby, x̂ oznacza średnią arytmetyczną ze wszystkich obserwacji ze wszystkich r prób. Przy założeniu prawdziwości hipotezy zerowej statystyka ma rozkład F-Snedecora z r-1 stopniami swobody w liczniku i n-r stopniami swobody w mianowniku. Obszar krytyczny jest postaci: gdzie F jest wartością krytyczną odczytaną z tablic rozkładu F-Snedecora dla (r-1,n-r) stopni swobody. Jeżeli obliczona wartość statystyki F należy do obszaru krytycznego Q to hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej i wnioskujemy, że badane średnie nie są jednorodne. Jeżeli obliczona wartość statystyki F nie należy do obszaru krytycznego Q to nie ma podstaw do odrzucenia hipotezy zerowej i wnioskujemy, że badane średnie są jednorodne. Fabryka gwoździ zamierza kupić jedną z czterech maszyn do produkcji. Wszystkie maszyny mają podobną cenę. Na podstawie analizy wariancji należy sprawdzić czy istnieje istotna różnica między wydajnościami maszyn. Tabela przedstawia procentowe wydajności uzyskane na poszczególnych maszynach. Wyniki dla każdej z maszyn to inna populacja. Dane: r = 4, a każde próba ni ma wielkość 19. Łączna wartość próby n wynosi zatem 76. Dla danych z tabeli: MSTR = 21.23 MSE = 4.26 Wartość emipryczna statystyki F wynosi 4.99 Liczba stopni swobody licznika wynosi 3, natomiast liczba stopni swobody mianownika wynosi 72. Dla rozkładu F-Snedecora(3,72) wartość krytyczna na poziomie istotności α = 0.05 wynosi 2.732. Obliczona wartość empiryczna statystyki testowej odpowiada p-wartości równej 0.0034. Należy zatem odrzucić hipotezę zerową na rzecz hipotezy alternatywnej. http://www.itl.nist.gov/div898/handbook/eda/section3/eda3673.htm Większa liczba czynników. Jedną z ważnych przyczyn, dla których powinno się stosować raczej metody ANOVA niż wielokrotne badanie dwóch grup przy pomocy testów t jest to, że ANOVA jest bardziej efektywna, dzięki czemu możemy uzyskać więcej informacji dysponując mniejszą liczbą obserwacji. Kontrola czynników. Przypuśćmy, że w przykładzie dwóch grup wprowadzimy kolejny czynnik grupujący, np. Płeć. Wyobraźmy sobie, że w każdej z grup mamy 3 mężczyzn i 3 kobiety. Układ ten moglibyśmy zestawić w tabeli 2x2: całkowitą wariancję możemy rozdzielić na co najmniej trzy składniki: (1) zmienność spowodowaną błędem (wariancja wewnątrzgrupowa), (2) zmienność spowodowaną przynależnością do grupy eksperymentalnej oraz (3) zmienność spowodowaną czynnikiem płci. (Zauważmy, że jest jeszcze dodatkowe źródło zmienności -- interakcja). Co by się stało, gdybyśmy w analizie nie uwzględnili czynnika Płeć lecz przeprowadzili prosty test t? Test t ANOVA suma kwadratów odchyleń od średniej (SS) pomijając czynnik Płeć (stosujemy średnie wewnątrzgrupowe łącząc grupy badanych o różnej płci): SS=10+10=20 Gdy uwzględniamy płeć: Czyli stosujemy średnie wewnątrzgrupowe w obrębie SS; po 2 w każdej z grup, tak więc połączone wewnętrzne sumy kwadratów odchyleń będą równe 2+2+2+2=8 20 > 8 Różnica ta jest spowodowana faktem, iż średnie dla mężczyzn są systematycznie niższe od średnich dla kobiet i różnica ta powoduje wzrost zmienności, w przypadku gdy pomijamy ten czynnik. Kontrola wariancji błędu zwiększa moc testu. W przypadku metody ANOVA możemy oceniać wpływ każdego z czynników, kontrolując wszystkie pozostałe; jest to prawdziwa przyczyna, dla której ANOVA charakteryzuje się wyższą mocą niż prosty test t (tzn. potrzebujemy mniej obserwacji, aby stwierdzić istotny wpływ). Jest jeszcze jedna przewaga analizy wariancji nad prostymi testami t: ANOVA umożliwia wykrywanie efektów interakcji pomiędzy zmiennymi i w związku z tym testowanie bardziej złożonych hipotez na temat otaczającej nas rzeczywistości. Efekty główne, interakcja dwuczynnikowa. Wyobraźmy sobie, że mamy grupę studentów nastawionych na osiągnięcia oraz drugą grupę pozbawioną tych "dążeń". Utwórzmy następnie w sposób losowy dwie podgrupy o równej liczebności w każdej z prób i wśród studentów jednej podgrupy przeprowadźmy test o wysokim stopniu trudności, a wśród studentów drugiej podgrupy test o niskim poziomie trudności. Mierzymy wyniki uzyskane przez studentów w teście. Uzyskane w tym (fikcyjnym) badaniu średnie są następujące: (1) (2) (3) (4) testy bardziej wymagające powodują, że studenci pracują bardziej intensywnie, studenci nastawieni na osiągnięcia pracują intensywniej od studentów nie nastawionych na osiągnięcia? Żadne z tych stwierdzeń nie odzwierciedla istoty tych wyraźnie regularnych relacji pomiędzy średnimi. testy wymagające powodują intensywniejszą pracę tylko wśród studentów nastawionych na osiągnięcia, podczas gdy łatwe testy wpływają mobilizująco na studentów nie nastawionych na osiągnięcia. Inaczej mówiąc, rodzaj nastawienia na osiągnięcia oraz stopień trudności testu współdziałają we wpływie na wysiłek studentów, w szczególności jest to przykład dwuczynnikowej interakcji pomiędzy nastawieniem na osiągnięcia a stopniem trudności testu. Podczas gdy interakcja dwuczynnikowa może być stosunkowo łatwo wyrażona werbalnie, interakcje wyższego rzędu są coraz trudniejsze do wyrażenia słowami. Wyobraźmy sobie, że w przedstawionym powyżej badaniu osiągnięć uwzględniliśmy czynnik Płeć i otrzymaliśmy następujący układ średnich: Kobiety nastawione na osiągnięcia pracują intensywniej z testami bardziej wymagającymi niż z testami łatwymi, podczas gdy kobiety nie nastawione na osiągnięcia pracują intensywniej nad testami łatwymi niż nad trudnymi. W przypadku mężczyzn interakcja ta ma charakter przeciwny. Jak więc widać opis interakcji stał się bardziej złożony. Ogólny sposób wyrażania interakcji. Ogólnym sposobem wyrażenia wszystkich interakcji jest stwierdzenie, że dany efekt jest modyfikowany (warunkowany) przez inny efekt. Spróbujmy to prześledzić na przykładzie zaprezentowanej powyżej interakcji pomiędzy dwoma czynnikami. Efekt główny w postaci trudności testu jest modyfikowany przez nastawienia na osiągnięcia. Dwuczynnikowa interakcja pomiędzy trudnością testu i nastawieniem na osiągnięcia jest modyfikowana (warunkowana) przez czynnik Płeć. Mając do czynienia z czteroczynnikową interakcją, możemy powiedzieć, że trójczynnikowa interakcja jest modyfikowana poprzez wpływ czwartej zmiennej, to znaczy istnieją różne rodzaje interakcji na różnych poziomach oddziaływania czwartej zmiennej. Jak się okazuje, w wielu dziedzinach badań interakcje piątego lub wyższych stopni nie należą do rzadkości. to metoda statystyczna, służąca do badania obserwacji, które zależą od jednego lub wielu działających równocześnie czynników. Metoda ta wyjaśnia, z jakim prawdopodobieństwem wyodrębnione czynniki mogą być powodem różnic między obserwowanymi średnimi grupowymi. Analiza wariancji została stworzona w latach dwudziestych przez Ronalda Fishera. Modele analizy wariancji można podzielić na: modele jednoczynnikowe - wpływ każdego czynnika jest rozpatrywany oddzielnie, tą klasą zagadnień zajmuje się jednoczynnikowa analiza wariancji, modele wieloczynnikowe - wpływ różnych czynników jest rozpatrywany łącznie, tą klasą zagadnień zajmuje się wieloczynnikowa analiza wariancji. Według kryterium podział modeli przebiega następująco: model efektów stałych - obserwacje są z góry podzielone na kategorie, model efektów losowych - kategorie mają charakter losowy, model mieszany - część kategorii jest ustalona, a część losowa. Średnia dla całego zbioru (z wartościami pustymi) będzie inna niż dla zbioru bez wartości pustych: Zakładamy, że zα∕2 oznacza 100(1 −α∕2) percentyl standardowego rozkładu normalnego. Dla losowej próbki odpowiednio dużego zbioru danych, koniec przedziału ufności (1 − α) dla wartości średniej wyznaczymy jako: Zakładając, że odchylenie standardowe populacji dotyczącej wzrostu studentów w badaniu wynosiło σ= 9.48. Chcemy znaleźć margines błędu dla oszacowanego przedziału na 95% poziomie ufności. Jeśli to test dwustronny w rozkładzie normalnym, to 95% przedział ufności oznacza, że rozkłada nam się równo po 2.5% na lewą i prawą stronę, przez co do rozważenia bierzemy 97.5ty percentyl lewostronnego przedziału. Przez to zα∕2 wyznaczymy jako qnorm(.975). Mnożymy to przez błąd standardowy średniej „sem” i otrzymujemy margines błędu. Teraz dodajemy obliczoną wartość błędu do średniej i znajdujemy przedział ufności Zakładając, że odchylenie standardowe populacji równe jest 9.48, margines błędu dotyczący wzrostu studentów na 95% przedziale ufności wynosi 1.2852. Przez to przedział ufności wynosi: (171.10 ,173.67). Można użyć testu z.test z pakietu: <TeachingDemos>. Nie jest on domyślnym pakietem środowiska R – dlatego trzeba go najpierw zainstalować i załadować, by móc z niego korzystać. Po oszacowaniu wartości średniej populacji możemy potrzebować określić dokładność. Ale w przypadku gdy nie znamy wariancji. tα∕2 –to 100(1 −α∕2) percentyl studentyzowanego rozkładu normalnego z n− 1 stopniami swobody. Dla losowo wybranych próbek odpowiednio dużej populacji, z odchyleniem standardowym (s), obliczymy (1 −α) przedział ufności jako: Np. nie znając odchylenia standardowego populacji chcemy oszacować przedział ufności dla wzrostu studentów – 95%. Rozwiązanie Najpierw pozbądźmy się wartości pustych, które wpływają na średnią – za pomocą funkcji na.omit i zapiszmy nową kolumnę jako „height.response”. Skoro mówimy o teście dwustronnym dla poziomu ufności 95%, interesuje nas 97.5ty percentyl studentyzowanego rozkładu normalnego. Dlatego tα∕2 będzie dane jako qt(.975, df=n-1). Mnożymy tę wartość przez błąd standardowy SE i otrzymujemy margines błędu. Dodajemy do średniej utworzony przedział i w ten sposób znajdujemy przedział ufności dla średniej. Jeśli nie znamy odchylenia standardowego populacji, to zakres błędu na 95 % poziomie ufności wynosi 1.3429 cm wzrostu studenta. Przedział ufności wynosi wtedy (171.04,173.72). t.test (biblioteka stats) Jakość badania próby można poprawić przez zwiększenie rozmiaru próby. Formuła wyznaczenia optymalnego rozmiaru próby na poziomie ufności (1 −α), z błędem E, i wariancją populacji σ2 jest następująca: zα∕2 to 100(1 − α∕2) percentyl standardowego rozkładu normalnego. Zakładając, że znamy odchylenie standardowe(σ) wzrostu studentów w badaniu jako 9.48. Chcemy znaleźć rozmiar próby niezbędny by otrzymać błąd nie większy niż 1.2 cm na poziomie ufności 95%. Jako że mamy dwustronny test, to dla 95% poziomu ufności bierzemy pod uwagę 97.5ty percentyl rozkładu normalnego. Więc: zα∕2 będzie dany jakoqnorm(.975). Zakładając, że odchylenie standardowe populacji wynosi 9.48, potrzebujemy przynamniej 240 elementów w próbie by uzyskać margines błędu nie większy niż 1.2cm. Testy dla proporcji to testy parametryczne służące do weryfikacji hipotez dotyczących wartości proporcji w populacji generalnej lub też do porównania wartości proporcji w kilku populacjach – na podstawie znajomości wartości tej proporcji w losowej próbie (czy też dwóch lub kilku próbach) pobranych z populacji. Proporcją w statystyce nazywamy liczbę (ułamek, procent) wyrażający, jaka część elementów pewnego zbioru spełnia określony warunek. Inne równoważnie stosowane określenia to: frakcja, wskaźnik struktury. Na przykład, jeśli w grupie n osób jest m palących, to proporcja osób palących w tej grupie jest równa Test prawostronny dla proporcji populacji może być wyrażony jako: Gdzie p0 jest zakładaną minimalną wartością dla proporcji populacji p. Definiujemy statystykę z na podstawie przykładowej próby i jej rozmiaru: Odrzucimy hipotezę zerową jeśli z ≤−zα , gdzie zα jest 100(1 − α) percentylem standarodowego rozkładu normalnego. Test lewostronny dla proporcji populacji może być wyrażony jako: Gdzie p0 jest zakładaną minimalną wartością dla proporcji populacji p. Definiujemy statystykę z na podstawie przykładowej próby i jej rozmiaru: Odrzucimy hipotezę zerową jeśli z > zα , gdzie zα jest 100(1 − α) percentylem standarodowego rozkładu normalnego. Gdzie p0 jest zakładaną minimalną wartością dla proporcji populacji p. Definiujemy statystykę z na podstawie przykładowej próby i jej rozmiaru: Odrzucimy hipotezę zerową jeśli z ≤−zα/2 lub z ≥ zα∕2 , gdzie zα/2 jest 100(1 − α) percentylem standarodowego rozkładu normalnego. Spośród żarówek wyprodukowanych przez pewną fabrykę wylosowano n=200 szt. i sprawdzono ich jakość. Okazało się, iż 50 żarówek jest złych. Czy można się zgodzić z przypuszczeniem, że braki stanowią 28% produkowanych żarówek? Przyjąć a = 0,06. ROZWIĄZANIE: dane: badana zbiorowość - żarówki zmienna losowa X – odsetek złych żarówek zmienna losowa X ma nieznany rozkład w zbiorowości generalnej próba: n = 200, n'=50 w = n’/n = 50/200 = 0,25 szukane: H0 : p = 0,28 (w zbiorowości generalne żarówek braki stanowią 28%) H1 : p ¹ 0,28 (w zbiorowości generalne żarówek braki nie stanowią 28%) rozkład normalny hipoteza alternatywna jest dwustronna zatem obszar krytyczny przyjmuje postać (u odczytujemy z tablic rozkładu normalnego przy zadanym ) Nie mamy podstaw do odrzucenia hipotezy zerowej mówiącej, iż procent wadliwych żarówek wynosi 28%. Skoro wartość -0.94 leży w środku przedziału krytycznego a więc na poziomie istotności 0,06 nie mamy podstaw by odrzucić hipotezę zerową. Najczęściej w ankietach badamy procent jednej grupy w odniesieniu do całości. Problem Chcemy znaleźć oszacowanie proporcji kobiet wśród studentów danej uczelni. Rozwiązanie Filtrowanie danych (survey$Sex) za pomocą funkcji na.omit co zapiszemy w zmiennej: gender.response. By znaleźć liczbę kobiet wystarczy zliczyć obiekty które w zmiennej gender.response mają wartość: ’Female’, Potem podzielimy to przez liczbę wszystkich obiektów (n) co da nam szukaną proporcję. Wynik: 50%. Gdy już wiemy jak oszacować wartość średniej populacji możemy chcieć oszacować przedział ufności. Niech zα∕2 będzie 100(1 −α∕2) percentylem standardowego rozkładu normalnego. Jeśli rozmiar próby (n) i proporcja populacji spełniają warunek: np ≥ 5 oraz n(1 − p) ≥ 5, wówczas koniec przedziału na poziomie istotności (1 − α) jest zdefiniowany jako: Oblicz błąd i przedział ufności dla liczby kobiet w grupie studentów na poziomie ufności 95%. Rozwiązanie Najpierw oszacujemy średnią wartość dla proporcji. Skoro przedział ufności wynosi 95 % to tak naprawdę 5 % dzielimy na 2 przy dwustronnym teście – co daje 97.5ty percentyl standardowego rozkładu normalnego. Przez to zα∕2 jest dany przez qnorm(.975). Wtedy mnożymy tę wartość przez błąd standardowy SE i obliczamy margines błędu. Wynik: na poziomie istotności 95 %, kobiet wśród studentów uczelni stanowią między 43.6% a 56.3%, z błędem 6.4%. Można użyć prop.test z pakietu stats Dwie próby są sparowane jeśli pochodzą z obserwacji tych samych obiektów. Zakładamy rozkład normalny w danych. Stosując sparowany test t-test, możemy określić przedział ufności różnicy między średnimi w populacji. W zbiorze „immer”, zapisano zbiory jęczmienia z dwóch lat: 1931 i 1932 z tych samych pól. Są one prezentowane w kolumnach Y1 i Y2. Problem Zakładając ze dane pochodzą z rozkładu normalnego, chcemy znaleźć 95% przedział ufności dla różnicy między średnimi w zbiorach jęczmienia z lat 1931 i 1932. Rozwiązanie Stosujemy test t.test by obliczyć różnice między średnimi. Ponieważ to test sparowany, wymaga argumentu "paired„ ustawionego na wartość TRUE. Między rokiem 1932 a 1932 w zbiorze immer 95 % przedział ufności dla różnicy między średnimi należy do przedziału (6.122 , 25.705). Dwie próby są niezależne jeśli pochodzą z populacji które nie są ze sobą skorelowane a próby nie wpływają na siebie wzajemnie. Zakładamy, że populacje pochodzą z rozkładu normalnego. Stosując test niesparowany możemy określić przedział ufności dla różnicy między średnimi w obu populacjach. przykład W zbiorze mtcars zajmiemy się cechą mpg określającą zużycie paliwa (gas mileage) z różnych samochodów roku 1974. Możemy użyć t.test by obliczyć różnice między średnimi. W zbiorze mtcars, średnie zużycie palowa wynosi dla skrzyni automatycznej 17.147 a dla ręcznej 24.392. 95% przedział ufności dla średniego zużycia paliwa to: (3.2097,11.2802) Możemy też stworzyć zmienną odpowiedzi (objaśnianą) mtcars$mpg na podstawie mtcars$am, i potem zastosować t.test do oszacowania różnicy między średnimi w populacji: Wiadomo, że badanie 2 różnych populacji da nam inne wyniki. Jest to jednak często niezbędne by porównać wyniki między dwoma populacjami. Zakładamy jednak, że obie pochodzą z rozkładu normalnego. Tabele krzyżowe (albo rozdzielcze, kontyngencji) przedstawiają łączne rozkłady dwóch lub większej ilości zmiennych. Podczas gdy rozkład częstości informuje o rozkładzie jednej zmiennej, tablica kontyngencji opisuje jednocześnie rozkład dwóch lub większej ilości zmiennych. Każda komórka pokazuje ilość respondentów, którzy udzielili określonej kombinacji odpowiedzi. Zmienna potencjał konsumpcyjny ma trzy kategorie: zje dużo, zje mało, nic nie zje. Kategorie są wzajemnie rozłączne i wyczerpujące, więc wartości w kolumnach sumują się do 100%. Druga zmienna poziom głodu posiada dwie kategorie: głodny, najedzony. W tym przypadku, wartości w wierszach nie muszą sumować się do 100%. Każda z komórek odzwierciedla procent respondentów posiadających daną kombinację cech. Są łatwe do zrozumienia, także dla ludzi, którzy nie rozumieją bardziej wyszukanych miar. Mogą być używane w przypadku zmiennych mierzonych na dowolnym poziomie: nominalnym, porządkowym, interwałowym czy ilorazowym - tablice krzyżowe traktują wszystkie dane tak - jakby były mierzone na poziomie nominalnym. Łatwiej jest zauważyć związki między zmiennymi analizując taką tablicę niż oddzielne statystyki. Rozwiązują problem braków danych. W zbiorze quine dzieci z australijskich miast są klasyfikowane na pochodzenie etniczne, płeć, wiek, status kształcenia i liczbę dni nieobecności w szkole. W wyniku, kolumna „Eth” określa czy uczeń jest Aboriginal czy nie ("A" or "N"), a kolumna „Sex” określa kobietę albo mężczyznę („F" / „M"). W środowisku R jest możliwe przedstawienie rozkładu danych płci i pochodzenia etnicznego w tablicy. W wyniku z 38 uczniów pochodzenia „Aboriginal” 38 jest to kobiety. A w grupie „Non-Aboriginal” 42 osoby to kobiety. Zakładając, że dane te pochodzą z rozkładu normalnego, chcemy znaleźć 95% przedział ufności dla różnicy między proporcją kobiet w grupie uczniów z klasy Aboriginal i kobiet w grupie drugiej klasy (Non-Aboriginal). Stosujemy funkcję R: prop.test by wyznaczyć różnice w proporcjach kobiet. 95% przedział ufności dla różnicy między średnimi w obu grupach kobiet z różnych grup etnicznych wynosi: (-15.6% , 16.7%) 2 losowe zmienne x i y nazywamy niezależnymi, gdy prawdopodobieństwo rozkładu jednej zmiennej nie zależy od obecności tej drugiej zmiennej. Zakładając, że fij oznacza liczność częstości zdarzeń przynależności do obu kategorii: i-tej dla x i j-tej dla y. oraz zakładając, że eij jest oczekiwaną wartością tego, że obie zmienne są niezależne. Hipoteza zerowa niezależności między zmiennymi będzie odrzucona jeśli pvalue testu Chi-kwadrat będzie mniejsza niż zadany poziom istotności α. W zbiorze survey, kolumna Smoke ("Heavy", "Regul" (regularly), "Occas" (occasionally) i "Never". ) oznacza zwyczaj palenia studentów, zaś kolumna Exer ("Freq" (frequently), "Some" i "None")oznacza częstość palenia. Możemy sprawdzić rozkład poszczególnych wartości znów w tabeli: Testujemy hipotezę, czy częstość palenia zależy od liczby wypalonych papierosów na poziomie istotności .05. Rozwiązanie Stosujemy funkcję R: chisq.test by stworzyć tablicę kontyngencji i znajdujemy wartość p-value jako 0.4828. Skoro wartość p-value = 0.4828 jest większa niż poziom istotności.05 – to nie możemy odrzucić hipotezy zerowej mówiącej, że zmienna „habit” nie zależy od „exer”. łączymy drugą i trzecią kolumnę tbl, i zapisujemy w nową tabelę o nazwie ctbl. Następnie stosujemy chisq.test: Item1 22 42 44 52 45 37 Item2 Item3 52 16 33 24 8 19 47 18 43 34 32 39 Algorytm: 1. Skopiuj powyższy zbiór do pliku i nazwij go "fastfood-1.txt“. 2. Załaduj plik jako data frame i nazwij df1 za pomocą funkcji read.table. Pierwsza linia naturalnie określa nazwy kolumn (header=TRUE). 3. Połącz wiersze df1 w jeden wektor „r” . 4. Określ nowe zmienne dla określenia poziomu czynnika i liczby obserwacji. 5. Stwórz wektor czynników odpowiadających każdemu elementowi „r” w kroku 3 za pomocą funkcji „gl”. 6. Zastosuj funkcję „aov” by zbadać zależność „r” a czynnikiem „tm”. 7. Wyświetl tablicę ANOVA jako podsumowanie: Skoro p-value = 0.11 jest większe niż .05 poziom istotności, nie możemy odrzucić hipotezy zerowej mówiącej że średnia sprzedaż dla nowych pozycji menu są równe. Nadal jest tylko jeden czynnik główny badany. Ale podobne przedmioty są łączone w grupy (bloki). Każdy blok jest testowany – czy zależy od głównego czynnika badanego. To ma wykluczyć wpływ innych czynników dodatkowych. przykład Ten sam przykład z fastfood ale 6 restauracji tworzących jeden blok będzie testowana odnośnie wszystkich 3 nowych produktów. Ale tylko jeden produkt na każdy osobny tydzień. Losowy jest wybór produktów do testowania (kolejność). Problem Załóżmy, że mamy następujące dane. Sprawdź, czy na poziomie istotności .05 średnie sprzedaży wszystkich 3 nowych produktów są takie same. Item1 Item2 31 27 31 28 45 29 21 18 42 36 32 17 Item3 24 31 46 48 46 40 Algorytm: 1. Skopiuj dane do pliku o nazwie"fastfood-2.txt". 2. Załaduj plik do ramki data frame i nazwij df2. 3. Połącz wiersze w jeden wektor „r” . 4. Określ nowe zmienne „treatment levels” oraz „liczba bloków” 5. Stwórz wektor „treatment factors” który odpowiada każdemu elementowi z wektora „r” z kroku 3 za pomocą funkcji „gl”. 6. Stwórz wektor czynników bloków dla każdego elementu z wektora „r” 7. Zastosuj funkcję „aov”. 8. Wyświetl rezultat ANOVA Skoro p-value = 0.032 jest mniejsze niż .05 to odrzucamy hipotezę zerową mówiącą że średnie sprzedaży wszystkich produktów są równe. Rozważa się tylko jeden główny czynnik który może wpływać na inne. przykład Sieć fastfood testuje 3 nowe produkty wprowadzone na rynek. By przekonać się, czy cieszą się one tą samą popularnością, wybrano 18 losowych restauracji do badania. Podzielono jest losowo na te 3 grupy, po 6 dla każdego nowego produktu. Problem Załóżmy, że tak się rozkłada sprzedaż po tygodniu testów. Na poziomie istotności .05 średnie sprzedaży wszystkich 3 produktów są takie same. Tutaj może istnieć więcej niż jedne czynnik do rozważenia. Przykład Nadal rozważamy fastfood który testuje 3 nowe produkty na obu wybrzeżach wschodnim (East) i zachodnim (West) USA. By się przekonać, że wszystkie produkty cieszą się tą samą popularnością 12 restauracji z wybrzeża wschodniego zostało wybranych do analizy. Założeniem jest w analizie czynnikowej, że 12 restauracji będzie podzielone: 4 do badania 1 produktu, 4 do drugiego i 4 do trzeciego. To samo w przypadku restauracji z zachodniego wybrzeża. Problem Zakładając, że dane są takie jak w tabeli, po tygodniu testów. Każdy wiersz w górnej tabeli reprezentuje sprzedaż w 3 różnych restauracjach na wschodnim wybrzeżu. Dolna połowa reprezentuje restauracje zachodniego wybrzeża. Na poziomie istotności .05 chcemy przeprowadzić test czy średnie sprzedaży są takie same dla wszystkich produktów. I czy region wpływa na wartość sprzedaży. East Coast: ========== Item1 Item2 Item3 E1 25 39 36 E2 36 42 24 E3 31 39 28 E4 26 35 29 West Coast: ========== Item1 Item2 Item3 W1 51 43 42 W2 47 39 36 W3 47 53 32 W4 52 46 33 1. 2. 3. 4. 5. 6. 7. 8. Zapisz dane do pliku o nazwie "fastfood-3.csv Załaduj dane jako data frame i nazwij df3 stosując funkcję read.csv Połącz dane w wierszach w jeden wektor „r” Oznacz nowe zmienne „treatment levels” oraz „number of observations”. Stwórz wektor odpowiadający pierwszej wartości „treatment level” w zmiennej odpowiedzi w kroku 3 element po elemencie za pomocą funkcji „gl”. Podobnie stwórz wektor korespondujący z 2 wartością cechy „treatment level” w zmiennej odpowiedzi wektora „r” z kroku 3. Zastosuj funkcję „aov” by opisać zmienną odpowiedzi „r” za pomocą czynników „tm1” i „tm2”. Pokaż wyniki ANOVA. Ponieważ wartość p-value = 0.0015 jest mniejsza niż poziom istotności .05 – odrzucamy hipotezę zerową mówiącą, że średnia sprzedaż nowych produktów jest taka sama wszędzie. Co więcej, wartość p-value = 1.2e-05 dla porównania wybrzeży wschód-zachód jest również mniejsza niż zadany poziom istotności. To pokazuje, że istnieje różnica w ogólnej wartości sprzedaży między wybrzeżami. Ostatecznie, w analizie wykazano też, że pvalue = 0.0113 (< 0.05) określa możliwe interakcje między produktami z menu a lokalizacją restauracji – jakoże klienci z różnych regionów mogą mieć inne upodobania kulinarne. Nie zakłada się żadnych założeń co do rozkładu populacji, ani co do wielkości próby Przypominając: metody parametryczne wymagają by dane były ilościowe, by miały rozkład normalny, i by rozmiar próby był odpowiednio duży. Oczywiście testy nieparametryczne nie są tak mocne jak te parametryczne, ale mają mniej założeń, są bardziej elastyczne, i mogą być użyte do danych jakościowych ! Test ten stosujemy, gdy chcemy sprawdzić czy rozkład binominalny ma równe szanse porażki/sukcesu. Producent napojów wymyślił nowy napój i chce sprawdzić czy będzie tak popularny jak jego dotychczasowy najpopularniejszy napój. W tym celu zaangażował 18 ochotników do testów. Każdy z nich próbuje obu drinków: nowy i stary w losowej kolejności. Okazało się, że 5 uczestników wybrało nowy napój jako lepszy, reszta wybrała dotychczasowy. Na poziomie istotności = .05 czy możemy odrzucić hipotezę, że sympatia do obu napojów jest taka sama ? Rozwiązanie Zerowa hipoteza ma sprawdzić czy napoje są tak samo lubiane. Stosujemy test: binom.test. Wartość p-value= 0.096525, i jako że jest większa niż zadany poziom istotności .05, nie mamy podstaw by odrzucić tę hipotezę. Tutaj dwie próby są sparowany gdy pochodzą z powtórnych obserwacji tych samych obiektów. Stosując ten test możemy decydować, czy korespondujące rozkłady dwu populacji są takie same nie zakładając, że pochodzą z rozkładu normalnego. Stosujemy zbiór „immer” ze zbiorami jęczmienia z lat 1931 i 1932. Są odpowiednio zapisane w kolumnach Y1 i Y2. Bez założeń o rozkładzie normalnym, na poziomie istotności .05 chcemy sprawdzić czy dane mają te same rozkładu w dwóch różnych latach. Rozwiązanie Hipoteza zerowa że jęczmień w dwóch latach zbiorów miał takie same wartości. Aby testować tę hipotezę stosujemy test wilcox.test by porównać pasujące próbki. Dla testu sparowanego pamiętajmy o ustawieniu parametru "paired" na wartość TRUE. Skoro pvalue = 0.005318 jest mniejsza niż zadany poziom istotności .05 - odrzucamy hipotezę zerową. Na poziomie istotności .05 wnioskujemy, że zbiory jęczmienia z latach 1931 i 1932 nie są identycznymi populacjami. Dwie próby są niezależne jeśli pochodzą z różnych populacji i nie wpływają jedna na drugą. Stosując test Manna-Whitneya-Wilcoxona możemy ocenić czy rozkłady populacji są identyczne nie zakładając ze pochodzą z rozkładu normalnego. Mamy zbiór mtcars, i dane dotyczące zużycia paliwa różnych samochodów w roku 1974. Mamy też dana „am” określającą czy skrzynia biegów jest ręczna czy automatyczna (0 = automatic, 1 = manual). Przyjmuje się, że zużycie paliwa nie ma związku z typem skrzyni biegów. Sprawdzimy to… Nie zakładając rozkładu normalnego chcemy sprawdzić, czy na poziomie istotności .05 zużycie paliwa skrzyni automatycznych i ręcznych mają te same rozkłady danych. Rozwiązanie Hipoteza zerowa mówić będzie, że zużycie paliwa dla skrzyni ręcznych ma taką samą populację jak zużycie paliwa skrzyni automatycznych. Aby to sprawdzić użyjemy funkcji R: wilcox.test by porównać wartości w niezależnych próbkach. Skoro wartość p-value= 0.001817 i jest ona mniejsza niż .05 – odrzucamy hipotezę zerową na rzecz alternatywnej mówiącej, że jednak wartości zużycia paliwa w obu typach skrzyni jest różna. Na poziomie istotności testu = .05 stwierdzamy, że zużycie paliwa w skrzyniach ręcznych i automatycznych nie są takie same. Zakłada się, że kolekcje próbek danych są niezależne jeśli pochodzą z niezwiązanych populacji i nie wpływają jedna na drugą. Stosując test Kruskala-Wallisa, możemy oceniać, czy rozkłady populacji są identyczne bez konieczności zakładania rozkładu normalnego. W zbiorze „airquality” mamy pomiary dzienne jakości powietrza z Nowego Jorku z okresu od maja do września 1973 roku. Gęstość ozonu przedstawiono w kolumnie o nazwie :Ozone. Problem Bez założeń o rozkładzie normalnym populacji chcemy sprawdzić na poziomie istotności.05 czy miesięczna wartość gęstości ozonu w Nowym Jorku ma taki sam rozkład w miesiącach od maja do września. Rozwiązanie Hipoteza zerowa mówi, że miesięczna gęstość ozonu jest taka sama we wszystkich populacjach. Aby to sprawdzić stosujemy funkcję R: kruskal.test by porównać dane z niezależnych miesięcy. Wartość p-value zmierza do 0 (6.901e06). Dlatego odrzucamy hipotezę zerową. Na poziomie istotności .05 stwierdzamy, że miesięczna gęstość ozonu w Nowym Jorku w miesiącach od maja do września nie pochodziła z identycznych populacji.