Wielka SGH-owa powtórka ze statystyki

Transkrypt

Wielka SGH-owa powtórka ze statystyki
WIELKA SGH-OWA POWTÓRKA
ZE STATYSTYKI
Test zgodności i analiza wariancji
Analiza wariancji
Test zgodności Chi-kwadrat
Sprawdza się za jego pomocą
ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY
Z ROZKŁADEM HIPOTETYCZNYM (np. rozkładem
normalnym)
ZGODNOŚĆ DWÓCH LUB WIĘCEJ ROZKŁADÓW Z
PRÓBY
Test zgodności Chi-kwadrat
H0 : F(x) = F0(x)
H1: F(x) ≠ F0(x)
• należy wylosować z populacji DUŻĄ PRÓBĘ – co najmniej 100-elementowa (bo
korzystamy z granicznego rozkładu pewnej statystyki)
•wyniki z próby należy przedstawić w postaci rozkładu empirycznego poprzez utworzenie
r rozłącznych klas wartości badanej zmiennej w próbie (ni - liczebność w i-tej klasie)
Rozkład statystyki Chi-kwadrat
PRAWOSTRONNY
OBSZAR KRYTYCZNY
Test zgodności Chi-kwadrat
•przyjmując, że prawdziwa jest H0 - rozkład populacji generalnej jest opisany
dystrybuantą F0(x), należy obliczyć prawdopodobieństwo pi - że badana zmienna
losowa przyjmie wartość z i-tej klasy
•LICZEBNOŚĆ TEORETYCZNA POSZCZEGÓLNYCH KLAS = npi
• npi ≥ 5 – gdyby wartości były niższe, należy połączyć dwie sąsiadujące ze
sobą klasy
Test zgodności Chi-kwadrat
• rozkład asymptotyczny χ2 ,
• r-k-1 stopni swobody ( r- liczba klas wartości zmiennej; k – liczba oszacowanych
parametrów z próby – najczęściej wynosi 2)
• obszar krytyczny określony przez : P( χ2 ≥ χ2 α, r-k-1) = α
ZADANIE 1
Zbadano czas (w godz.) przeznaczony przez 150 losowo wybranych studentów na
naukę statystyki dzień przed egzaminem. Otrzymano średni czas równy 6 godzin
i odchylenie standardowe równe 2,76 godz.
czas
0–2
2–4
4–6
6–8
8 – 10
10 – 12
liczba studentów
13
22
41
38
23
13
Czy zaprezentowane wyniki mogą być podstawą do
twierdzenia, że czas przeznaczony na naukę statystyki
na dzień przed egzaminem ma wśród wszystkich
studentów rozkład normalny? Przyjąć poziom istotności
równy 0,1.
ZADANIE 1
H0 : F(x) = F0(x)
czas
x0i - x1i
liczba
s.
Górna
granica
u1i
F(u1i)
pi
npi
H1: F(x) ≠ F0(x)
2 i mniej
13
2
-1,45
0,0735
0,0735
11,025
0,3538
2-4
22
4
-0,72
0,2358
0,1623
24,345
0,2259
4-6
41
6
0
0,5
0,2642
39,63
0,0474
6-8
38
8
0,72
0,7642
0,2642
39,63
0,067
8-10
23
10
1,45
0,9265
0,1623
24,345
0,0743
ponad 10
13
12
2,17
1
0,0735
11,025
0,3538
x = 6 , s = 2,76
u11 =
= -1,45
F(u11) = 1 - φ(1,45) = 1- 0,9265 = 0,0735
p2 = F(u12) - F(u11) = 0,2327 – 0,0735 = 0,1623
np1 = 150 × 0,0735 = 11,025
χ2
= 0,3538 + 0,2259 + 0,0474 + 0,067 + 0,0743 +
0,3538 = 1,1222
ZADANIE 1
χ2
= 0,3538 + 0,2259 + 0,0474 + 0,067 + 0,0743 + 0,3538 = 1,1222
α = 0,1
v = r – k -1 = 6 – 2- 1 = 3
χ2 0,1;3 = 6,251
INTERPRETACJA:
Wartość testu 1,1222 nie znajduje się w obszarze
krytycznym, dlatego na poziomie istotności α = 0,1
nie ma podstaw do odrzucenia hipotezy zerowej,
że badany rozkład jest ROZKŁADEM NORMALNYM.
ZADANIE 2
Postawiono przypuszczenie, że miesięczne wydatki (w zł) na papierosy osób
palących mają rozkład N(200, 50). Dla 300-elementowej losowej próby osób
palących utworzono 7 klas wielkości wydatków i obliczono wartość χ2 = 14,4.
Przy jakim poziomie istotności można uznać, że przypuszczenie jest słuszne?
Jaka była hipotetyczna liczba palaczy, których wydatki wynosiły od 150 do 170 zł?
ZADANIE 2
Przy jakim poziomie istotności można uznać, że przypuszczenie jest słuszne?
n = 300 ; r = 7 ; χ2 = 14,4
v = r – k -1 = 7 – 2 – 1 = 4 - liczba stopni swobody
ODPOWIEDŹ: Na poziomie istotności α = 0,005 można uznać, że
przypuszczenie o rozkładzie normalnym jest słuszne.
ZADANIE 2
Jaka była hipotetyczna liczba palaczy, których wydatki wynosiły od 150 do 170 zł?
n= 300; rozkład N(200, 50).
pi = P(150< X < 170) = P ( -1 <U < -0,6) = 1 - φ(0,6) – (1 - φ(1)) = φ(1) – φ(0,6) =
0,8413 – 0,7257 = 0,1156
npi = 300 × 0,1156 = 34,68
ODPOWIEDŹ: Hipotetyczna liczba palaczy, których wydatki wynosiły od 150 do
170 zł wynosiła 34,68.
Analiza wariancji
Analiza wariancji
Metoda rozstrzygania o istnieniu różnic między średnimi w
grupach
Testowanie, czy dany czynnik ma wpływ na rozkład cechy w
grupach
Badane r grup (subpopulacji) wyodrębnionych w związku z
działaniem pewnego czynnika
Analiza wariancji- przykłady
Czy rodzaj opakowania istotnie wpływa na przychody ze sprzedaży
nowego produktu?
Czy na cenę truskawek w maju istotnie wpływa dzielnica, w której są one
sprzedawane?
Czy fakt tankowania paliwa na jednej ze stacji (Shell, BP, Orlen) wpływa
na przeciętne zużycie paliwa przez samochód?
ZADANIE 1
Znany producent soków chce wprowadzić na rynek nowy produkt i zastanawia się
nad rodzajem opakowania. W 40 losowo wybranych sklepach pewnej sieci
handlowej obserwowano pewnego dnia przychód ze sprzedaży (zł) soku w
różnych opakowaniach:
Średni
przychód (zł)
Odchylenie
standardowe
(nieobciążone)
10
174
30,82
Plastik
10
213
23,35
Karton
10
180
29,43
Puszka
10
183
12,19
Ogółem
40
187.5
28,50
Rodzaj
opakowania
n
Szkło
Suma
kwadratów
odchyleń
Między
grupami
9090
Wewnątrz
grup
22590
Ogółem
31680
df
Średni 𝑭𝒐𝒃𝒍. Istotność
kwadrat
(kryt.
odchyleń
poz.
istotn.)
,005
Hipotezy analizy wariancji
Założenia analizy wariancji
1. Próby zostały wylosowane w sposób niezależny w każdej z r populacji
2. Badana cecha w każdej z populacji ma rozkład normalny o jednakowej
wariancji 𝜎 2 .
Odchylenie całkowite obserwacji jako suma odchylenia wyjaśnionego
i błędu losowego
Zróżnicowanie całkowite
SST (Sum of Squares Total)
𝑟
𝑆𝑆𝑇 =
𝑛𝑖
(𝑦𝑘𝑖 − 𝑦)2
𝑖=1 𝑘=1
R- liczba grup
Ni- liczba obserwacji w i-tej grupie
𝑦- średnia ogólna dla wszystkich obserwacji
Zróżnicowanie międzygrupowe
SSB (Sum of Squares Between Groups)
wynika z wpływu wyodrębnionego czynnika
𝑟
𝑛𝑖 (𝑦𝑖 − 𝑦)2
𝑆𝑆𝐵 =
𝑖=1
1
𝑦𝑖 =
𝑛𝑖
𝑛𝑖
𝑦𝑘𝑖
𝑘=1
średnia dla i-tej grupy
1
𝑦=
𝑛
𝑟
𝑛𝑖
𝑦𝑘𝑖
𝑖=1 𝑘=1
1
=
𝑛
średnia ogólna
𝑟
𝑦𝑖 𝑛𝑖
𝑖=1
Zróżnicowanie wewnątrzgrupowe
SSE (Sum of Squares for Error)- wynika z różnic wewnątrz każdej grupy
𝑟
𝑆𝑆𝐸 =
𝑛𝑖
(𝑦𝑘𝑖 − 𝑦𝑖 )2
𝑖=1 𝑘=1
1
𝑦𝑖 =
𝑛𝑖
𝑛𝑖
𝑦𝑘𝑖
𝑘=1
średnia dla i-tej grupy
Całkowita suma kwadratów odchyleń od średniej ogólnej
𝑟
𝑛𝑖
𝑟
𝑛𝑖
(𝑦𝑘𝑖 − 𝑦)2 =
𝑖=1 𝑘=1
𝑟
(𝑦𝑘𝑖 − 𝑦𝑖 )2 +
𝑖=1 𝑘=1
𝑆𝑆𝑇
=
𝑛𝑖 (𝑦𝑖 − 𝑦)2
𝑖=1
𝑆𝑆𝐸
+
𝑆𝑆𝐵
Analiza wariancji
Źródło zmienności
Suma kwadratów
odchyleń
Stopnie swobody
Zróżnicowanie
międzygrupoweczynnik
SSB
r-1
Zróżnicowanie
wewnątrzgrupowebłąd losowy
SSE
Zróżnicowanie
całkowite
SST
Średni kwadrat
odchyleń
MSB
(Mean Square Between)
n-r
MSE
(Mean Square Error)
n-1
-
Testowanie hipotezy
𝑀𝑆𝐵
𝐹=
𝑀𝑆𝐸
Gdzie:
𝑆𝑆𝐵
𝑀𝑆𝐵 =
𝑟−1
Suma kwadratów odchyleń między grupami
Suma kwadratów odchyleń wewnątrzgrupowych
𝑀𝑆𝐸 =
𝑆𝑆𝐸
𝑛−𝑟
r- liczba grup
n- całkowita liczba obserwacji we wszystkich próbach
Testowanie hipotezy
Statystyka (test):
𝐹=
𝑀𝑆𝐵
𝑀𝑆𝐸
Przy założeniu prawdziwości H0 statystyka F ma rozkład F- Snedecora o
stopniach swobody licznika i mianownika odpowiednio r-1 oraz n-r.
Obszar krytyczny: P(F ≥ 𝐹𝛼 ) = 𝛼
Dalsza analiza
Metoda najmniejszej istotnej różnicy Fishera (LSD- least significant difference)
polega na porównaniu różnic między parami średnich z próby z pewną wielkością
zwaną najmniejszą istotną różnicą (LSD).
1
1
𝐿𝑆𝐷 = 𝑡𝛼 𝑀𝑆𝐸( + )
𝑛𝑖 𝑛𝑗
𝑡𝛼 -wartość z rozkładu t-studenta dla n-r stopni swobody
Gdzie:
Jeśli dla dwóch średnich zachodzi:
𝑦𝑖 − 𝑦𝑗 ≥ 𝐿𝑆𝐷
To różnica między tymi średnimi jest statystycznie istotna
ZADANIE 1
H0 : 𝑚1 = 𝑚2 =𝑚3 średni czas snu jest jednakowy
H1 ∶ 𝑚𝑖 ≠ 𝑚𝑗 średni czas snu nie jest jednakowy
Lp.
𝒏𝒊
𝒚𝒊
𝑺𝟐𝒊 (obciążony)
1.
100
8,2
0,5
2.
100
7,9
0,5
3.
50
7,8
0,4
ZADANIE 1
Obliczamy wartość średnią dla wszystkich grup:
𝑦=
𝑦1 ∗ 𝑛1 + 𝑦2 ∗ 𝑛2 + 𝑦3 ∗ 𝑛3 8,2 ∗ 100 + 7,9 ∗ 100 + 7,8 ∗ 50
=
=8
𝑁
250
Zróżnicowanie międzygrupowe:
3
(𝑦𝑖 − 𝑦)2 ∗ 𝑛𝑖 = 8,2 − 8
𝑆𝑆𝐵 =
2
∗ 100 + 7,9 − 8
2
∗ 100 + 7,8 − 8
2
∗ 50 = 7
𝑖=1
Zróżnicowanie wewnątrzgrupowe:
𝑆𝑆𝐸 = 𝑛1 ∗ 𝑆12 + 𝑛2 ∗ 𝑆22 + 𝑛3 ∗ 𝑆32 = 100 ∗ 0,6 + 100 ∗ 0,5 + 50 ∗ 0,4 = 130
ZADANIE 1
Stopnie swobody:
𝑟=3
𝑁 = 250
𝑣1 = 3 − 1 = 2
𝑣2 = 250 − 3 = 247
Średni kwadrat odchyleń:
7
𝑀𝑆𝐵 = = 3,5
2
Test F
𝐹𝑒𝑚𝑝. =
𝑀𝑆𝐵
3,5
=
= 6,65
𝑀𝑆𝐸 0,526
𝑀𝑆𝐸 =
130
= 0,526
247
ZADANIE 1
Wartość krytyczna F dla 𝑣1 = 2, 𝑣2 = 247 stopni swobody oraz 𝛼 = 0,05:
∗
𝐹𝛼𝑣
= 3,07
1 𝑣2
𝐹𝑒𝑚𝑝. = 6,65
∗
𝐹𝑜𝑏𝑙. > 𝐹𝛼𝑣
1 𝑣2
Przy poziomie istotności 𝛼 = 0,05 𝑜𝑑𝑟𝑧𝑢𝑐𝑎𝑚 𝐻0 𝑛𝑎 𝑟𝑧𝑒𝑐𝑧 𝐻1 .
Średni czas snu nie jest jednakowy
ZADANIE 2
Znany producent soków chce wprowadzić na rynek nowy produkt i zastanawia się
nad rodzajem opakowania. W 40 losowo wybranych sklepach pewnej sieci
handlowej obserwowano pewnego dnia przychód ze sprzedaży (zł) soku w
różnych opakowaniach:
Średni
przychód
Odchylenie
standardowe
(nieobciążone)
10
174
30,82
Plastik
10
213
23,35
Karton
10
180
29,43
Puszka
10
183
12,19
Ogółem
40
187.5
28,50
Rodzaj
opakowania
n
Szkło
Suma
kwadratów
odchyleń
Między
grupami
9090
Wewnątrz
grup
22590
Ogółem
31680
df
Średni 𝑭𝒐𝒃𝒍. Istotność
kwadrat
(kryt.
odchyleń
poz.
istotn.)
,005
ZADANIE 2
Suma
kwadratów
odchyleń
df
Średni
kwadrat
odchyleń
𝑭𝒐𝒃𝒍.
Istotność
(kryt. poz.
istotn.)
Między
grupami
SSB
r-1
MSB
𝑀𝑆𝐵
𝑀𝑆𝐸
,005
Wewnątrz
grup
SSE
n-r
MSE
Ogółem
SST
Zadanie 2
Hipotezy badawcze:
𝐻0 : 𝑚𝑖 = 𝑚𝑗 dla każdego i oraz j. Średnie przychody dla różnych opakowań nie różnią się istotnie
𝐻1 : 𝑚𝑖 ≠ 𝑚𝑗 dla jakiegoś i ≠ j. Rodzaj opakowania istotnie wpływa na średnie przychody
Suma
kwadratów
odchyleń
r-1
n-r
Między
grupami
9090
Wewnątr
z grup
22590
Ogółem
31680
df
3
(SSB)
Średni
kwadrat
odchyleń
3030
𝑭𝒐𝒃𝒍.
4,96
Istotnoś
ć (kryt.
poz.
istotn.)
,005
(MSB)
36
(SSE)
610,5
𝑀𝑆𝐵 =
𝑀𝑆𝐸 =
𝑆𝑆𝐵
𝑟−1
𝑆𝑆𝐸
𝑛−𝑟
𝐹𝑜𝑏𝑙 > 𝐹 ∗
4,96 >2,84
(2,84)
(MSE)
40
Odrzucamy 𝐻0 na rzecz 𝐻1 . Rodzaj opakowania istotnie wpływa na średni przychód ze sprzedaży
PYTANIA TESTOWE – TEST ZGODNOŚCI
CHI - KWADRAT
1) Test zgodności Chi-kwadrat
a) wymaga znajomości parametrów rozkładu zmiennej losowej w
populacji
b)służy do sprawdzania zgodności wartości parametrów w dwóch
różnych populacjach
c)Wykorzystuje rozkład graniczny statystyki testowej
PYTANIA TESTOWE – TEST ZGODNOŚCI
CHI - KWADRAT
1) Test zgodności Chi-kwadrat
a) wymaga znajomości parametrów rozkładu zmiennej losowej w
populacji - NIE
b)służy do sprawdzania zgodności wartości parametrów w dwóch
różnych populacjach - NIE
c)Wykorzystuje rozkład graniczny statystyki testowej - TAK
PYTANIA TESTOWE – TEST ZGODNOŚCI
CHI - KWADRAT
2) Test zgodności Chi-kwadrat
a) pozwala sprawdzić, że populacja ma rozkład Poissona
b)wymaga, by liczebności teoretyczne były nie mniejsze niż 5
c)wymaga, by liczebności empiryczne były nie mniejsze niż 5
PYTANIA TESTOWE – TEST ZGODNOŚCI
CHI - KWADRAT
2) Test zgodności Chi-kwadrat
a) pozwala sprawdzić, że populacja ma rozkład Poissona - TAK
b)wymaga, by liczebności teoretyczne były nie mniejsze niż 5 - TAK
c)wymaga, by liczebności empiryczne były nie mniejsze niż 5 - NIE
PYTANIA TESTOWE – ANALIZA WARIANCJI
2) Analizę wariancji możemy zastosować, gdy chcemy ocenić:
a)czy średnie w kilku wyodrębnionych populacjach są identyczne
b)czy istnieje wpływ wyróżnionego czynnika na badaną zmienną
c)czy wariancje w kilku wyodrębnionych populacjach są identyczne
PYTANIA TESTOWE – ANALIZA WARIANCJI
2) Analizę wariancji możemy zastosować, gdy chcemy ocenić:
a)czy średnie w kilku wyodrębnionych populacjach są identyczne - TAK
b)czy istnieje wpływ wyróżnionego czynnika na badaną zmienną – TAK
c)czy wariancje w kilku wyodrębnionych populacjach są identyczne NIE
PYTANIA?
Dziękujemy za uwagę! 
Katarzyna Kajta
Kamil Sarzyński

Podobne dokumenty