ROZGRZEWKA Uogólnienia testu Studenta - e

Transkrypt

ROZGRZEWKA Uogólnienia testu Studenta - e
Laboratorium nr 6 z wielowymiarowej analizy danych – Daniel Kosiorowski
ROZGRZEWKA
x<-c(1,1,1,1,3,3,5) #tworzymy tablicę kontyngencji#
y<-c(3,3,2,7,7,7,5)
ftable(x,y)
?HairEyeColor
dane<-HairEyeColor
ftable(dane)
library(vcd)
assocstats(ftable(x,y))
mosaic(HairEyeColor, shade=TRUE, legend=TRUE)
assoc(HairEyeColor, shade=TRUE)
Uogólnienia testu Studenta
PRZYKŁAD 26 #TEST ANOVA i TESTY HOTELLINGA T2#
Dysponujemy próbami x11,..., xn 1 z populacji X1 , x12 ,..., xn
22
1
x11
x 21
C
x12
x 22
x1C
x 2C
xn 1 xn 2
xn C
1
2
W teście ANOVA stawiamy hipotezę H 0 : m1
populacji j
z populacji X2 , …, x1C ,..., xn C z populacji XC :
m2
C
mC , gdzie m j to wartość oczekiwana w
...
1,...,C .
Okazuje się, że mam miejsce następująca dekompozycja całkowitej sumy kwadratów
nj
C
i 1 j 1
SST
(xij
C
x)2
j 1
=
n j (x j
SSC
gdzie:
SST to tzw. całkowita suma kwadratów,
SSC to suma kwadratów kolumn (efekt populacji),
SSE to resztowa suma kwadratów,
i indeks wskazujący obserwację,
j indeks wskazujący populację,
C liczba populacji,
n j liczba obserwacji w populacji j ,
x globalna średnia,
x j średnia w populacji j .
nj
x)2
C
i 1 j 1
+
(xij
SSE
x j )2
1
Laboratorium nr 6 z wielowymiarowej analizy danych – Daniel Kosiorowski
2
Powyższa formuła jest podstawą testu nazywanego ANOVA – przy powyższych oznaczeniach statystyka testowa
w tym teście ma postać
F
gdzie MSC
SSC
, MSE
C 1
MSC
,
MSE
SSE
.
n C
ZADANIE:
A. (trudniejsze) Napisz procedurę obliczającą wartość statystyki testowej ANOVA dla danych podanych w formie
układu wektorów x1,…,xC zawierających próby z populacji 1 do C.
B. Policz wartość statystyki testowej dla następującego przykładu: przypuśćmy, że badamy czas telefonicznej
obsługi klienta dla czterech różnych „doradców audio-tele”.
X1
6.33
6.26
6.31
6.29
6.40
X2
6.26
6.36
6.23
6.27
6.19
6.50
6.19
6.22
X3
6.44
6.38
6.58
6.54
6.56
6.34
6.58
X4
6.29
6.23
6.19
6.21
TESTY HOTELLINGA
A. Badamy pewną populację ze względy na p – wymiarową cechę statystyczną Y
Zamierzamy zweryfikować hipotezę, że wektor wartości oczekiwanych E(Y)
jest równy określonej wartości m0
m
(Y1,Y2 ,...,Yp ) .
(m1, m2 ,..., mp )
(m10 , m20 ,..., mp 0 ) .
Przedmiotem naszego zainteresowania jest następujący układ hipotez:
H0 : m
m0 vs. H1 : m
m0
Zakładamy, że badana cecha statystyczna ma p – wymiarowy rozkład normalny N p (μ, Σ) przy czym nie
znamy macierzy kowariancji Σ . Ustalamy pewien poziom istotności
np.
0.05 .
W celu zweryfikowania hipotezy zerowej pobieramy n – elementową próbę z populacji, oznaczmy elementy
próby: y1, y2 ,..., yn .
Obliczamy wektor średnich z próby y i wariancję z próby S , następnie obliczamy wartość, jaką przyjmuje
statystyka testowej T2 w naszej próbie:
T2
n(y
0
)T S 1 (y
0
),
tzn. obliczamy standaryzowaną odległość pomiędzy y i m0
Jeżeli H 0 : m
m0 jest prawdziwa, to statystyka testowa T 2 ma rozkład T 2 Hotellinga w p – wymiarach i
z n – 1 stopniami swobody. Odrzucamy H 0 jeżeli T 2
Zauważmy dla p
T 2,p,n
1
1 , statystyka T 2 sprowadza się do jednowymiarowej statystyki t – Studenta:
Laboratorium nr 6 z wielowymiarowej analizy danych – Daniel Kosiorowski
T2
B.
)(s 2 ) 1(y
0
n(y
)
0
n(y
0
)2
s2
3
t2 .
Badamy dwie populacje ze względu na p – wymiarową cechę statystyczną Y
(Y1,Y2 ,...,Yp ) .
Przypuśćmy, że jesteśmy zainteresowani zweryfikowaniem hipotezy głoszącej równość wektorów wartości
oczekiwanych w badanych dwóch populacjach. Zamierzamy zweryfikować następujący układ hipotez:
H 0 : m1 = m2 vs. H1 : m1
m2
Jeżeli spełnione jest założenie, że badane cechy populacji mają p – wymiarowe rozkłady normalne o być
może nieznanej lecz identycznej macierzy kowariancji tzn. Σ1 = Σ2 wówczas w celu zweryfikowanie
postawionego układu możemy posłużyć się następującym testem:
Pobieramy niezależnie dwie próby, y11, y12 ,..., y1n ~ N p (m1,
1
y21, y22 ,..., y2n ~ N p (m2 ,
2
2
1
) próbę o wielkości n1 z populacji Y1, próbę
) o wielkości n2 z populacji Y2. Dla stosowalności testu zakładamy, że Σ1 = Σ2 = Σ
(czy znamy test służący do weryfikacji hipotezy o równości macierzy kowariancji?).
Następnie obliczamy:
y1
n1
y2
n2
i 1
i 1
W1
n1
W2
n1
y1i n1 - wektor przeciętnych z próby populacji Y1
y2i n2 - wektor przeciętnych z próby dla drugiej populacji Y2
i 1
i 1
(y1i
y1 )(y1i
y1 )T
(n1
1)S1 - wartość estymatora macierzy kowariancji dla Y1
(y2i
y2 )(y2i
y2 )T
(n2
1)S2 - wartość estymatora macierzy kowariancji dla Y2
Obliczamy wartość estymatora macierzy kowariancji dla dwóch połączonych prób:
Spl
W1
W2
n1
n2
(n1
1)S1
n1
2
1)S2
(n2
n2
2
,
(łatwo wykazać, że powyższy estymator jest nieobciążonym estymatorem wspólnej dla dwóch populacji macierzy
kowariancji tzn.: E(Spl ) Σ )
Obliczmy wartość następującej statystykę testowej T2 Hotellinga:
T2
n1n2
n1
n2
Statystyka ma rozkład Tp2,n
1
(y1
n2 2
y2 )T Spl1 (y1
y2 ) ,
Hotellinga, gdy H 0 jest prawdziwa. Odrzucamy H 0 , gdy T 2
Testy Hotellinga można przeprowadzić w pakiecie {rrcov}
library(MASS)
m1<-c(5,10)
m2<-c(5,15)
cov1 <- matrix(c(1,-0.4,-0.4,1),2,2)
cov2 <- matrix(c(1,0.9,0.9,1),2,2)
T 2,p,n
1
n2 2
.
Laboratorium nr 6 z wielowymiarowej analizy danych – Daniel Kosiorowski
dane1<-mvrnorm(50,m1,cov1,empirical=TRUE)
dane2<-mvrnorm(50,m2,cov1,empirical=TRUE)
library(rrcov)
?T2.test
T2.test(dane1, y = NULL, mu =c( 5,9.5), conf.level = 0.95, method="c")
T2.test(dane1,dane2)
ZADANIE: W systemie MOODLE znajdziemy zbiór danych „HOSPITAL” dotyczący
kosztów leczenia w wybranych szpitalach USA. Należy podzielić zmienne „Beds” i
„Admissions” przez zmienną „Personel” a następnie przeprowadzić test Hotellinga T 2
dla otrzymanych zmiennych i w podziale na próby indukowanym przez zmienną
„Geog.Region” (należy wybrać dwa regiony geograficzne USA).
PRZYKŁAD 27 „składowe główne”
install.packages("psych",dep=TRUE)
library(psych)
library(stats)
?USArrests
describe(USArrests)
opis<-describe(USArrests)
opis
opis$skew
fit <- princomp(USArrests, cor=TRUE)
summary(fit) # statystyki wyjaśnionej wariancji
loadings(fit) # ładunki
plot(fit,type="lines",lwd=3,cex.lab=1.4,main="dopasowanie") # wykres osypiska
fit$scores # obserwacje we współrzędnych wyznaczonych 2 składowych
biplot(fit)
Zadanie: W systemie MOODLE mamy zbiór danych DGP_1 dotyczący liczby popełnionych przestępstw
i wykroczeń w podregionach Polski w latach 2006-2007 z uwzględnieniem kategorii przestępstwa
1. Załadować plik do programu R
2. Liczby przestępstw i wykroczeń podzielić przez liczby ludności w regionach
3. Usunąć z macierzy danych zmienną LL2006
4. Przeprowadzić analizę głównych składowych uzyskanych zmiennych.
4