ROZGRZEWKA Uogólnienia testu Studenta - e
Transkrypt
ROZGRZEWKA Uogólnienia testu Studenta - e
Laboratorium nr 6 z wielowymiarowej analizy danych – Daniel Kosiorowski ROZGRZEWKA x<-c(1,1,1,1,3,3,5) #tworzymy tablicę kontyngencji# y<-c(3,3,2,7,7,7,5) ftable(x,y) ?HairEyeColor dane<-HairEyeColor ftable(dane) library(vcd) assocstats(ftable(x,y)) mosaic(HairEyeColor, shade=TRUE, legend=TRUE) assoc(HairEyeColor, shade=TRUE) Uogólnienia testu Studenta PRZYKŁAD 26 #TEST ANOVA i TESTY HOTELLINGA T2# Dysponujemy próbami x11,..., xn 1 z populacji X1 , x12 ,..., xn 22 1 x11 x 21 C x12 x 22 x1C x 2C xn 1 xn 2 xn C 1 2 W teście ANOVA stawiamy hipotezę H 0 : m1 populacji j z populacji X2 , …, x1C ,..., xn C z populacji XC : m2 C mC , gdzie m j to wartość oczekiwana w ... 1,...,C . Okazuje się, że mam miejsce następująca dekompozycja całkowitej sumy kwadratów nj C i 1 j 1 SST (xij C x)2 j 1 = n j (x j SSC gdzie: SST to tzw. całkowita suma kwadratów, SSC to suma kwadratów kolumn (efekt populacji), SSE to resztowa suma kwadratów, i indeks wskazujący obserwację, j indeks wskazujący populację, C liczba populacji, n j liczba obserwacji w populacji j , x globalna średnia, x j średnia w populacji j . nj x)2 C i 1 j 1 + (xij SSE x j )2 1 Laboratorium nr 6 z wielowymiarowej analizy danych – Daniel Kosiorowski 2 Powyższa formuła jest podstawą testu nazywanego ANOVA – przy powyższych oznaczeniach statystyka testowa w tym teście ma postać F gdzie MSC SSC , MSE C 1 MSC , MSE SSE . n C ZADANIE: A. (trudniejsze) Napisz procedurę obliczającą wartość statystyki testowej ANOVA dla danych podanych w formie układu wektorów x1,…,xC zawierających próby z populacji 1 do C. B. Policz wartość statystyki testowej dla następującego przykładu: przypuśćmy, że badamy czas telefonicznej obsługi klienta dla czterech różnych „doradców audio-tele”. X1 6.33 6.26 6.31 6.29 6.40 X2 6.26 6.36 6.23 6.27 6.19 6.50 6.19 6.22 X3 6.44 6.38 6.58 6.54 6.56 6.34 6.58 X4 6.29 6.23 6.19 6.21 TESTY HOTELLINGA A. Badamy pewną populację ze względy na p – wymiarową cechę statystyczną Y Zamierzamy zweryfikować hipotezę, że wektor wartości oczekiwanych E(Y) jest równy określonej wartości m0 m (Y1,Y2 ,...,Yp ) . (m1, m2 ,..., mp ) (m10 , m20 ,..., mp 0 ) . Przedmiotem naszego zainteresowania jest następujący układ hipotez: H0 : m m0 vs. H1 : m m0 Zakładamy, że badana cecha statystyczna ma p – wymiarowy rozkład normalny N p (μ, Σ) przy czym nie znamy macierzy kowariancji Σ . Ustalamy pewien poziom istotności np. 0.05 . W celu zweryfikowania hipotezy zerowej pobieramy n – elementową próbę z populacji, oznaczmy elementy próby: y1, y2 ,..., yn . Obliczamy wektor średnich z próby y i wariancję z próby S , następnie obliczamy wartość, jaką przyjmuje statystyka testowej T2 w naszej próbie: T2 n(y 0 )T S 1 (y 0 ), tzn. obliczamy standaryzowaną odległość pomiędzy y i m0 Jeżeli H 0 : m m0 jest prawdziwa, to statystyka testowa T 2 ma rozkład T 2 Hotellinga w p – wymiarach i z n – 1 stopniami swobody. Odrzucamy H 0 jeżeli T 2 Zauważmy dla p T 2,p,n 1 1 , statystyka T 2 sprowadza się do jednowymiarowej statystyki t – Studenta: Laboratorium nr 6 z wielowymiarowej analizy danych – Daniel Kosiorowski T2 B. )(s 2 ) 1(y 0 n(y ) 0 n(y 0 )2 s2 3 t2 . Badamy dwie populacje ze względu na p – wymiarową cechę statystyczną Y (Y1,Y2 ,...,Yp ) . Przypuśćmy, że jesteśmy zainteresowani zweryfikowaniem hipotezy głoszącej równość wektorów wartości oczekiwanych w badanych dwóch populacjach. Zamierzamy zweryfikować następujący układ hipotez: H 0 : m1 = m2 vs. H1 : m1 m2 Jeżeli spełnione jest założenie, że badane cechy populacji mają p – wymiarowe rozkłady normalne o być może nieznanej lecz identycznej macierzy kowariancji tzn. Σ1 = Σ2 wówczas w celu zweryfikowanie postawionego układu możemy posłużyć się następującym testem: Pobieramy niezależnie dwie próby, y11, y12 ,..., y1n ~ N p (m1, 1 y21, y22 ,..., y2n ~ N p (m2 , 2 2 1 ) próbę o wielkości n1 z populacji Y1, próbę ) o wielkości n2 z populacji Y2. Dla stosowalności testu zakładamy, że Σ1 = Σ2 = Σ (czy znamy test służący do weryfikacji hipotezy o równości macierzy kowariancji?). Następnie obliczamy: y1 n1 y2 n2 i 1 i 1 W1 n1 W2 n1 y1i n1 - wektor przeciętnych z próby populacji Y1 y2i n2 - wektor przeciętnych z próby dla drugiej populacji Y2 i 1 i 1 (y1i y1 )(y1i y1 )T (n1 1)S1 - wartość estymatora macierzy kowariancji dla Y1 (y2i y2 )(y2i y2 )T (n2 1)S2 - wartość estymatora macierzy kowariancji dla Y2 Obliczamy wartość estymatora macierzy kowariancji dla dwóch połączonych prób: Spl W1 W2 n1 n2 (n1 1)S1 n1 2 1)S2 (n2 n2 2 , (łatwo wykazać, że powyższy estymator jest nieobciążonym estymatorem wspólnej dla dwóch populacji macierzy kowariancji tzn.: E(Spl ) Σ ) Obliczmy wartość następującej statystykę testowej T2 Hotellinga: T2 n1n2 n1 n2 Statystyka ma rozkład Tp2,n 1 (y1 n2 2 y2 )T Spl1 (y1 y2 ) , Hotellinga, gdy H 0 jest prawdziwa. Odrzucamy H 0 , gdy T 2 Testy Hotellinga można przeprowadzić w pakiecie {rrcov} library(MASS) m1<-c(5,10) m2<-c(5,15) cov1 <- matrix(c(1,-0.4,-0.4,1),2,2) cov2 <- matrix(c(1,0.9,0.9,1),2,2) T 2,p,n 1 n2 2 . Laboratorium nr 6 z wielowymiarowej analizy danych – Daniel Kosiorowski dane1<-mvrnorm(50,m1,cov1,empirical=TRUE) dane2<-mvrnorm(50,m2,cov1,empirical=TRUE) library(rrcov) ?T2.test T2.test(dane1, y = NULL, mu =c( 5,9.5), conf.level = 0.95, method="c") T2.test(dane1,dane2) ZADANIE: W systemie MOODLE znajdziemy zbiór danych „HOSPITAL” dotyczący kosztów leczenia w wybranych szpitalach USA. Należy podzielić zmienne „Beds” i „Admissions” przez zmienną „Personel” a następnie przeprowadzić test Hotellinga T 2 dla otrzymanych zmiennych i w podziale na próby indukowanym przez zmienną „Geog.Region” (należy wybrać dwa regiony geograficzne USA). PRZYKŁAD 27 „składowe główne” install.packages("psych",dep=TRUE) library(psych) library(stats) ?USArrests describe(USArrests) opis<-describe(USArrests) opis opis$skew fit <- princomp(USArrests, cor=TRUE) summary(fit) # statystyki wyjaśnionej wariancji loadings(fit) # ładunki plot(fit,type="lines",lwd=3,cex.lab=1.4,main="dopasowanie") # wykres osypiska fit$scores # obserwacje we współrzędnych wyznaczonych 2 składowych biplot(fit) Zadanie: W systemie MOODLE mamy zbiór danych DGP_1 dotyczący liczby popełnionych przestępstw i wykroczeń w podregionach Polski w latach 2006-2007 z uwzględnieniem kategorii przestępstwa 1. Załadować plik do programu R 2. Liczby przestępstw i wykroczeń podzielić przez liczby ludności w regionach 3. Usunąć z macierzy danych zmienną LL2006 4. Przeprowadzić analizę głównych składowych uzyskanych zmiennych. 4