Modelowanie statystyczne z pakietem R (semestr zimowy, 2015
Transkrypt
Modelowanie statystyczne z pakietem R (semestr zimowy, 2015
Modelowanie statystyczne z pakietem R (semestr zimowy, 2015/2016) PRZYKLADOWE PYTANIA NA EGZAMIN 1. Podać przyklady zmiennych losowych (a) dyskretnych, (b) cia̧glych. Niech X bȩdzie zmienna̧ losowa̧ cia̧gla̧ i a ∈ R. Ile wynosi P (X = a)? 2. Zmienna losowa X ma rozklad dany tabelka̧: xk pk -1 1 10 0 C 1 1 10 . Wyznaczyć C. Obliczyć wartość oczekiwana̧, wariancjȩ i odchylenie standardowe X. 3. Podać parȩ wlasności rozkladu normalnego. 4. Kiedy zmienne losowe X1 , X2 , . . . , Xd , tworza̧ce wektor losowy X, sa̧ niezależne? Podać warunek równoważny niezależności w przypadku wektorów losowych (a) dyskretnych, (b) cia̧glych, (c) dowolnych. 5. Niech X = (X1 , X2 , . . . , Xd ) bȩdzie wektorem losowym o d-wymiarowym rozkladzie normalnym Nd (µ, Σ). Podać interpretacjȩ parametrów µ i Σ. Kiedy zmienne losowe X1 , X2 , . . . , Xd sa̧ niezależne - warunek podać w terminach parametrów. 6. Podać, wraz z zalożeniami, model jednokrotnej regresji liniowej. W jaki sposób możemy szacować parametry tego modelu? 7. Podać przyklad danych (najlepiej zilustrować je na wykresie rozproszenia), do których dopasowywanie modelu jednokrotnej regresji liniowej (a) nie ma sensu, (b) jest uzasadnione. 8. Omówić wspólczynnik determinacji R2 . Podać jego interpretacjȩ. 9. Sformuować model wielokrotnej regresji linowej z piȩcioma zmiennymi objaśniaja̧cymi. Podać zalożenia tego modelu. Jakie testy możemy przeprowadzać w tym modelu - podać hipotezy zerowe i alternatywne tych testów oraz ich interpretacjȩ. 10. Co zakladamy o blȩdach w modelu regresji liniowej? Jak sprawdzić czy dla konkretnych danych zalożenia te sa̧ spelnione? Jak postȩpować w przypadku, gdy nie możemy uznać, że zalożenie o równych wariancjach blȩdów jest spelnione? 11. Co to sa̧ obserwacje wplywowe oraz obserwacje odstaja̧ce w modelu regresji liniowej? Jak je wykryć? Jakie informacje możemy uzyskać analizuja̧c odleglości Cooke’a? Jak postȩpować w przypadku wykrycia obserwacji wplywowych lub odstaja̧cych? 12. Omówić metodȩ Boxa-Coxa. 13. Omówić na przykladzie problem wspólliniowości zmiennych objaśniaja̧cych w modelu regresji liniowej. Jakie informacje uzyskujemy z analizy wspólczynników podbicia wariancji? 14. Wymienić kryteria sluża̧ce do wyboru najlepszego modelu spośród wielu modeli regresji liniowej. Kiedy i dlaczego zamist wspólczynnika determinacji stosujemy skorygowany wspólczynnik determinacji? 1 Modelowanie statystyczne z pakietem R (semestr zimowy, 2015/2016) 15. Omówić metody wyboru najlepszego podzbioru zmiennych objaśniaja̧cych do modelu regresji liniowej. Jako kryterium wyboru najlepszego modelu przyja̧ć (a) skorygowany wspólczynnik determinacji, (b) kryterium Akaike, (c) kryterium Schwarza. 16. Poniższa tabela zawiera koszty produkcji (w PLN) pewnego wyrobu, który może być wytwarzany trzema metodami: A, B, C. Chcemy ocenić czy koszty produkcji sa̧ takie same dla każdej z tych metod. Jakie narzȩdzie statystyczne należy użyć do rozwia̧zania tego problemu, jakie zalożenia sprawdzić i jakie hipotezy postawić? metoda A 10 15 30 25 20 metoda B 50 30 40 20 45 metoda C 30 35 20 10 15 17. Sformuować i opisać model jednoczynnikowej analizy wariancji. Podać zalożenia tego modelu. (a) Jakie hipotezy w tym modelu weryfikujemy i co w praktyce oznacza ich przyjȩcie ba̧dź odrzucenie? (b) Jak sprawdzić czy zalożenia analizy wariancji sa̧ spelnione, gdy i. liczności grup sa̧ duże, ii. liczności grup sa̧ bardzo male? 18. Co to znaczy, że pomiȩdzy dwoma czynnikami (czynnik A i czynnik B) wystȩpuja̧ interakcje, gdy badamy ich wplyw na zmienna̧ odpowiedzi? Jak w przypadku istnienia interakcji wygla̧daja̧ wykresy średnich wewna̧trzgrupowych? Sformuować i opisać model dwuczynnikowej analizy wariancji z interakcjami i podać zalożenia tego modelu. Jakie hipotezy w tym modelu weryfikujemy i co oznacza ich przyjȩcie ba̧dź odrzucenie? 19. Co to znaczy, że pomiȩdzy dwoma czynnikami (czynnik A i czynnik B) nie ma interakcji, gdy badamy ich wplyw na zmienna̧ odpowiedzi? Jak w przypadku braku interakcji wygla̧daja̧ wykresy średnich wewna̧trzgrupowych? Sformuować i opisać model dwuczynnikowej analizy wariancji bez interakcjami i podać zalożenia tego modelu. Jakie hipotezy w tym modelu weryfikujemy i co oznacza ich przyjȩcie ba̧dź odrzucenie? 20. Chcemy zbadać czy poziom cholesterolu wśród kobiet zamieszkuja̧cych trzy stany USA: Kaliforniȩ, Alabamȩ i Alaskȩ jest taki sam. Ponieważ wiadomo, że poziom cholesterolu wzrasta wraz z wiekiem, do badania wprowadzimy kozmienna̧ wiek. Jaki model statystyczny wykorzystamy do rozstrzygniȩcia postawionego problemu (podać nazwȩ modelu i jego równanie ba̧dź równania). Jakie zalożenia powinny być w tym modele spelnione? Jakie postawimy hipotezy i jak bȩdziemy interpretować ich przyjȩcie ba̧dź odrzucenie? 21. Co to jest (a) odchylenie resztowe, (b) odchylenie zerowe modelu regresji logistycznej ba̧dź probitowej? Jak interpretujemy wartość tego odchylenia? Jaki test możemy skonstuować w oparciu o to odchylenie? Czy możemy użyć tego testu gdy model zbudowaliśmy na podstawie (i) n = 1000 danych niepogrupowanych, (ii) n = 7 danych niepogrupowanych? 22. Omówić metody weryfikacji czy dany model regresji logitowej jest dobrze dopasowany do danych. 2 Modelowanie statystyczne z pakietem R (semestr zimowy, 2015/2016) 23. W celu zbadania skuteczności pewnego środka owadobójczego w zależności od jego dawki, przeprowadzono doświadczenie i jego wyniki zapisano w poniższej tabeli: logarytm stȩżenia środka 0 1 2 3 4 liczba insektów poddanych dzialaniu środka 30 30 30 30 30 liczba zabitych insektów 2 8 15 23 27 Jaki model statystyczny użyjemy do rozwia̧zania postawionego problemu (podać nazwȩ modelu i jego równanie). Jak graficznie bȩdziemy mogli sprawdzić czy model ten jest dobrze dopasowany do danych? ROZWIA̧ZANIE zadania 2: C = 0, 8; EX = 0; V ar(X) = 0, 2; σX = 3 √ 0, 2.