Wielka SGH-owa powtórka ze statystyki
Transkrypt
Wielka SGH-owa powtórka ze statystyki
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM (np. rozkładem normalnym) ZGODNOŚĆ DWÓCH LUB WIĘCEJ ROZKŁADÓW Z PRÓBY Test zgodności Chi-kwadrat H0 : F(x) = F0(x) H1: F(x) ≠ F0(x) • należy wylosować z populacji DUŻĄ PRÓBĘ – co najmniej 100-elementowa (bo korzystamy z granicznego rozkładu pewnej statystyki) •wyniki z próby należy przedstawić w postaci rozkładu empirycznego poprzez utworzenie r rozłącznych klas wartości badanej zmiennej w próbie (ni - liczebność w i-tej klasie) Rozkład statystyki Chi-kwadrat PRAWOSTRONNY OBSZAR KRYTYCZNY Test zgodności Chi-kwadrat •przyjmując, że prawdziwa jest H0 - rozkład populacji generalnej jest opisany dystrybuantą F0(x), należy obliczyć prawdopodobieństwo pi - że badana zmienna losowa przyjmie wartość z i-tej klasy •LICZEBNOŚĆ TEORETYCZNA POSZCZEGÓLNYCH KLAS = npi • npi ≥ 5 – gdyby wartości były niższe, należy połączyć dwie sąsiadujące ze sobą klasy Test zgodności Chi-kwadrat • rozkład asymptotyczny χ2 , • r-k-1 stopni swobody ( r- liczba klas wartości zmiennej; k – liczba oszacowanych parametrów z próby – najczęściej wynosi 2) • obszar krytyczny określony przez : P( χ2 ≥ χ2 α, r-k-1) = α ZADANIE 1 Zbadano czas (w godz.) przeznaczony przez 150 losowo wybranych studentów na naukę statystyki dzień przed egzaminem. Otrzymano średni czas równy 6 godzin i odchylenie standardowe równe 2,76 godz. czas 0–2 2–4 4–6 6–8 8 – 10 10 – 12 liczba studentów 13 22 41 38 23 13 Czy zaprezentowane wyniki mogą być podstawą do twierdzenia, że czas przeznaczony na naukę statystyki na dzień przed egzaminem ma wśród wszystkich studentów rozkład normalny? Przyjąć poziom istotności równy 0,1. ZADANIE 1 H0 : F(x) = F0(x) czas x0i - x1i liczba s. Górna granica u1i F(u1i) pi npi H1: F(x) ≠ F0(x) 2 i mniej 13 2 -1,45 0,0735 0,0735 11,025 0,3538 2-4 22 4 -0,72 0,2358 0,1623 24,345 0,2259 4-6 41 6 0 0,5 0,2642 39,63 0,0474 6-8 38 8 0,72 0,7642 0,2642 39,63 0,067 8-10 23 10 1,45 0,9265 0,1623 24,345 0,0743 ponad 10 13 12 2,17 1 0,0735 11,025 0,3538 x = 6 , s = 2,76 u11 = = -1,45 F(u11) = 1 - φ(1,45) = 1- 0,9265 = 0,0735 p2 = F(u12) - F(u11) = 0,2327 – 0,0735 = 0,1623 np1 = 150 × 0,0735 = 11,025 χ2 = 0,3538 + 0,2259 + 0,0474 + 0,067 + 0,0743 + 0,3538 = 1,1222 ZADANIE 1 χ2 = 0,3538 + 0,2259 + 0,0474 + 0,067 + 0,0743 + 0,3538 = 1,1222 α = 0,1 v = r – k -1 = 6 – 2- 1 = 3 χ2 0,1;3 = 6,251 INTERPRETACJA: Wartość testu 1,1222 nie znajduje się w obszarze krytycznym, dlatego na poziomie istotności α = 0,1 nie ma podstaw do odrzucenia hipotezy zerowej, że badany rozkład jest ROZKŁADEM NORMALNYM. ZADANIE 2 Postawiono przypuszczenie, że miesięczne wydatki (w zł) na papierosy osób palących mają rozkład N(200, 50). Dla 300-elementowej losowej próby osób palących utworzono 7 klas wielkości wydatków i obliczono wartość χ2 = 14,4. Przy jakim poziomie istotności można uznać, że przypuszczenie jest słuszne? Jaka była hipotetyczna liczba palaczy, których wydatki wynosiły od 150 do 170 zł? ZADANIE 2 Przy jakim poziomie istotności można uznać, że przypuszczenie jest słuszne? n = 300 ; r = 7 ; χ2 = 14,4 v = r – k -1 = 7 – 2 – 1 = 4 - liczba stopni swobody ODPOWIEDŹ: Na poziomie istotności α = 0,005 można uznać, że przypuszczenie o rozkładzie normalnym jest słuszne. ZADANIE 2 Jaka była hipotetyczna liczba palaczy, których wydatki wynosiły od 150 do 170 zł? n= 300; rozkład N(200, 50). pi = P(150< X < 170) = P ( -1 <U < -0,6) = 1 - φ(0,6) – (1 - φ(1)) = φ(1) – φ(0,6) = 0,8413 – 0,7257 = 0,1156 npi = 300 × 0,1156 = 34,68 ODPOWIEDŹ: Hipotetyczna liczba palaczy, których wydatki wynosiły od 150 do 170 zł wynosiła 34,68. Analiza wariancji Analiza wariancji Metoda rozstrzygania o istnieniu różnic między średnimi w grupach Testowanie, czy dany czynnik ma wpływ na rozkład cechy w grupach Badane r grup (subpopulacji) wyodrębnionych w związku z działaniem pewnego czynnika Analiza wariancji- przykłady Czy rodzaj opakowania istotnie wpływa na przychody ze sprzedaży nowego produktu? Czy na cenę truskawek w maju istotnie wpływa dzielnica, w której są one sprzedawane? Czy fakt tankowania paliwa na jednej ze stacji (Shell, BP, Orlen) wpływa na przeciętne zużycie paliwa przez samochód? ZADANIE 1 Znany producent soków chce wprowadzić na rynek nowy produkt i zastanawia się nad rodzajem opakowania. W 40 losowo wybranych sklepach pewnej sieci handlowej obserwowano pewnego dnia przychód ze sprzedaży (zł) soku w różnych opakowaniach: Średni przychód (zł) Odchylenie standardowe (nieobciążone) 10 174 30,82 Plastik 10 213 23,35 Karton 10 180 29,43 Puszka 10 183 12,19 Ogółem 40 187.5 28,50 Rodzaj opakowania n Szkło Suma kwadratów odchyleń Między grupami 9090 Wewnątrz grup 22590 Ogółem 31680 df Średni 𝑭𝒐𝒃𝒍. Istotność kwadrat (kryt. odchyleń poz. istotn.) ,005 Hipotezy analizy wariancji Założenia analizy wariancji 1. Próby zostały wylosowane w sposób niezależny w każdej z r populacji 2. Badana cecha w każdej z populacji ma rozkład normalny o jednakowej wariancji 𝜎 2 . Odchylenie całkowite obserwacji jako suma odchylenia wyjaśnionego i błędu losowego Zróżnicowanie całkowite SST (Sum of Squares Total) 𝑟 𝑆𝑆𝑇 = 𝑛𝑖 (𝑦𝑘𝑖 − 𝑦)2 𝑖=1 𝑘=1 R- liczba grup Ni- liczba obserwacji w i-tej grupie 𝑦- średnia ogólna dla wszystkich obserwacji Zróżnicowanie międzygrupowe SSB (Sum of Squares Between Groups) wynika z wpływu wyodrębnionego czynnika 𝑟 𝑛𝑖 (𝑦𝑖 − 𝑦)2 𝑆𝑆𝐵 = 𝑖=1 1 𝑦𝑖 = 𝑛𝑖 𝑛𝑖 𝑦𝑘𝑖 𝑘=1 średnia dla i-tej grupy 1 𝑦= 𝑛 𝑟 𝑛𝑖 𝑦𝑘𝑖 𝑖=1 𝑘=1 1 = 𝑛 średnia ogólna 𝑟 𝑦𝑖 𝑛𝑖 𝑖=1 Zróżnicowanie wewnątrzgrupowe SSE (Sum of Squares for Error)- wynika z różnic wewnątrz każdej grupy 𝑟 𝑆𝑆𝐸 = 𝑛𝑖 (𝑦𝑘𝑖 − 𝑦𝑖 )2 𝑖=1 𝑘=1 1 𝑦𝑖 = 𝑛𝑖 𝑛𝑖 𝑦𝑘𝑖 𝑘=1 średnia dla i-tej grupy Całkowita suma kwadratów odchyleń od średniej ogólnej 𝑟 𝑛𝑖 𝑟 𝑛𝑖 (𝑦𝑘𝑖 − 𝑦)2 = 𝑖=1 𝑘=1 𝑟 (𝑦𝑘𝑖 − 𝑦𝑖 )2 + 𝑖=1 𝑘=1 𝑆𝑆𝑇 = 𝑛𝑖 (𝑦𝑖 − 𝑦)2 𝑖=1 𝑆𝑆𝐸 + 𝑆𝑆𝐵 Analiza wariancji Źródło zmienności Suma kwadratów odchyleń Stopnie swobody Zróżnicowanie międzygrupoweczynnik SSB r-1 Zróżnicowanie wewnątrzgrupowebłąd losowy SSE Zróżnicowanie całkowite SST Średni kwadrat odchyleń MSB (Mean Square Between) n-r MSE (Mean Square Error) n-1 - Testowanie hipotezy 𝑀𝑆𝐵 𝐹= 𝑀𝑆𝐸 Gdzie: 𝑆𝑆𝐵 𝑀𝑆𝐵 = 𝑟−1 Suma kwadratów odchyleń między grupami Suma kwadratów odchyleń wewnątrzgrupowych 𝑀𝑆𝐸 = 𝑆𝑆𝐸 𝑛−𝑟 r- liczba grup n- całkowita liczba obserwacji we wszystkich próbach Testowanie hipotezy Statystyka (test): 𝐹= 𝑀𝑆𝐵 𝑀𝑆𝐸 Przy założeniu prawdziwości H0 statystyka F ma rozkład F- Snedecora o stopniach swobody licznika i mianownika odpowiednio r-1 oraz n-r. Obszar krytyczny: P(F ≥ 𝐹𝛼 ) = 𝛼 Dalsza analiza Metoda najmniejszej istotnej różnicy Fishera (LSD- least significant difference) polega na porównaniu różnic między parami średnich z próby z pewną wielkością zwaną najmniejszą istotną różnicą (LSD). 1 1 𝐿𝑆𝐷 = 𝑡𝛼 𝑀𝑆𝐸( + ) 𝑛𝑖 𝑛𝑗 𝑡𝛼 -wartość z rozkładu t-studenta dla n-r stopni swobody Gdzie: Jeśli dla dwóch średnich zachodzi: 𝑦𝑖 − 𝑦𝑗 ≥ 𝐿𝑆𝐷 To różnica między tymi średnimi jest statystycznie istotna ZADANIE 1 H0 : 𝑚1 = 𝑚2 =𝑚3 średni czas snu jest jednakowy H1 ∶ 𝑚𝑖 ≠ 𝑚𝑗 średni czas snu nie jest jednakowy Lp. 𝒏𝒊 𝒚𝒊 𝑺𝟐𝒊 (obciążony) 1. 100 8,2 0,5 2. 100 7,9 0,5 3. 50 7,8 0,4 ZADANIE 1 Obliczamy wartość średnią dla wszystkich grup: 𝑦= 𝑦1 ∗ 𝑛1 + 𝑦2 ∗ 𝑛2 + 𝑦3 ∗ 𝑛3 8,2 ∗ 100 + 7,9 ∗ 100 + 7,8 ∗ 50 = =8 𝑁 250 Zróżnicowanie międzygrupowe: 3 (𝑦𝑖 − 𝑦)2 ∗ 𝑛𝑖 = 8,2 − 8 𝑆𝑆𝐵 = 2 ∗ 100 + 7,9 − 8 2 ∗ 100 + 7,8 − 8 2 ∗ 50 = 7 𝑖=1 Zróżnicowanie wewnątrzgrupowe: 𝑆𝑆𝐸 = 𝑛1 ∗ 𝑆12 + 𝑛2 ∗ 𝑆22 + 𝑛3 ∗ 𝑆32 = 100 ∗ 0,6 + 100 ∗ 0,5 + 50 ∗ 0,4 = 130 ZADANIE 1 Stopnie swobody: 𝑟=3 𝑁 = 250 𝑣1 = 3 − 1 = 2 𝑣2 = 250 − 3 = 247 Średni kwadrat odchyleń: 7 𝑀𝑆𝐵 = = 3,5 2 Test F 𝐹𝑒𝑚𝑝. = 𝑀𝑆𝐵 3,5 = = 6,65 𝑀𝑆𝐸 0,526 𝑀𝑆𝐸 = 130 = 0,526 247 ZADANIE 1 Wartość krytyczna F dla 𝑣1 = 2, 𝑣2 = 247 stopni swobody oraz 𝛼 = 0,05: ∗ 𝐹𝛼𝑣 = 3,07 1 𝑣2 𝐹𝑒𝑚𝑝. = 6,65 ∗ 𝐹𝑜𝑏𝑙. > 𝐹𝛼𝑣 1 𝑣2 Przy poziomie istotności 𝛼 = 0,05 𝑜𝑑𝑟𝑧𝑢𝑐𝑎𝑚 𝐻0 𝑛𝑎 𝑟𝑧𝑒𝑐𝑧 𝐻1 . Średni czas snu nie jest jednakowy ZADANIE 2 Znany producent soków chce wprowadzić na rynek nowy produkt i zastanawia się nad rodzajem opakowania. W 40 losowo wybranych sklepach pewnej sieci handlowej obserwowano pewnego dnia przychód ze sprzedaży (zł) soku w różnych opakowaniach: Średni przychód Odchylenie standardowe (nieobciążone) 10 174 30,82 Plastik 10 213 23,35 Karton 10 180 29,43 Puszka 10 183 12,19 Ogółem 40 187.5 28,50 Rodzaj opakowania n Szkło Suma kwadratów odchyleń Między grupami 9090 Wewnątrz grup 22590 Ogółem 31680 df Średni 𝑭𝒐𝒃𝒍. Istotność kwadrat (kryt. odchyleń poz. istotn.) ,005 ZADANIE 2 Suma kwadratów odchyleń df Średni kwadrat odchyleń 𝑭𝒐𝒃𝒍. Istotność (kryt. poz. istotn.) Między grupami SSB r-1 MSB 𝑀𝑆𝐵 𝑀𝑆𝐸 ,005 Wewnątrz grup SSE n-r MSE Ogółem SST Zadanie 2 Hipotezy badawcze: 𝐻0 : 𝑚𝑖 = 𝑚𝑗 dla każdego i oraz j. Średnie przychody dla różnych opakowań nie różnią się istotnie 𝐻1 : 𝑚𝑖 ≠ 𝑚𝑗 dla jakiegoś i ≠ j. Rodzaj opakowania istotnie wpływa na średnie przychody Suma kwadratów odchyleń r-1 n-r Między grupami 9090 Wewnątr z grup 22590 Ogółem 31680 df 3 (SSB) Średni kwadrat odchyleń 3030 𝑭𝒐𝒃𝒍. 4,96 Istotnoś ć (kryt. poz. istotn.) ,005 (MSB) 36 (SSE) 610,5 𝑀𝑆𝐵 = 𝑀𝑆𝐸 = 𝑆𝑆𝐵 𝑟−1 𝑆𝑆𝐸 𝑛−𝑟 𝐹𝑜𝑏𝑙 > 𝐹 ∗ 4,96 >2,84 (2,84) (MSE) 40 Odrzucamy 𝐻0 na rzecz 𝐻1 . Rodzaj opakowania istotnie wpływa na średni przychód ze sprzedaży PYTANIA TESTOWE – TEST ZGODNOŚCI CHI - KWADRAT 1) Test zgodności Chi-kwadrat a) wymaga znajomości parametrów rozkładu zmiennej losowej w populacji b)służy do sprawdzania zgodności wartości parametrów w dwóch różnych populacjach c)Wykorzystuje rozkład graniczny statystyki testowej PYTANIA TESTOWE – TEST ZGODNOŚCI CHI - KWADRAT 1) Test zgodności Chi-kwadrat a) wymaga znajomości parametrów rozkładu zmiennej losowej w populacji - NIE b)służy do sprawdzania zgodności wartości parametrów w dwóch różnych populacjach - NIE c)Wykorzystuje rozkład graniczny statystyki testowej - TAK PYTANIA TESTOWE – TEST ZGODNOŚCI CHI - KWADRAT 2) Test zgodności Chi-kwadrat a) pozwala sprawdzić, że populacja ma rozkład Poissona b)wymaga, by liczebności teoretyczne były nie mniejsze niż 5 c)wymaga, by liczebności empiryczne były nie mniejsze niż 5 PYTANIA TESTOWE – TEST ZGODNOŚCI CHI - KWADRAT 2) Test zgodności Chi-kwadrat a) pozwala sprawdzić, że populacja ma rozkład Poissona - TAK b)wymaga, by liczebności teoretyczne były nie mniejsze niż 5 - TAK c)wymaga, by liczebności empiryczne były nie mniejsze niż 5 - NIE PYTANIA TESTOWE – ANALIZA WARIANCJI 2) Analizę wariancji możemy zastosować, gdy chcemy ocenić: a)czy średnie w kilku wyodrębnionych populacjach są identyczne b)czy istnieje wpływ wyróżnionego czynnika na badaną zmienną c)czy wariancje w kilku wyodrębnionych populacjach są identyczne PYTANIA TESTOWE – ANALIZA WARIANCJI 2) Analizę wariancji możemy zastosować, gdy chcemy ocenić: a)czy średnie w kilku wyodrębnionych populacjach są identyczne - TAK b)czy istnieje wpływ wyróżnionego czynnika na badaną zmienną – TAK c)czy wariancje w kilku wyodrębnionych populacjach są identyczne NIE PYTANIA? Dziękujemy za uwagę! Katarzyna Kajta Kamil Sarzyński