ANALIZA WARIANCJI
Transkrypt
ANALIZA WARIANCJI
WPROWADZENIE DO PRACY Z SYSTEMEM STATISTICA ANALIZA WARIANCJI WPROWADZENIE Zad. 1 Stworzyć zbiór danych zawierający następujące zmienne: nazwisko, wiek, pensja, płeć (K, M), stanowisko (maksymalnie cztery różne wartości), liczba dzieci (maksymalnie trzy różne wartości), premia (nie wszyscy pracownicy dostają premię, wstawiamy wartości o 1000 mniejsze od pensji). Zmienne powinny mieć wyżej wymienione nazwy i być odpowiedniego typu. Wstawić dane piętnastu pracowników. Zad. 2 Sporządzić wykres rozrzutu zmiennej pensja względem zmiennej stanowisko. Dla wykresu ustawić: symbole punktów wykresu, tło wykresu, tytuł i podtytuł wykresu, tytuły osi, znaczniki osi (mają pozostać wyłącznie główne znaczniki i towarzyszące im linie siatki). Znaczniki mają być takie same w przypadku prawej i lewej osi pionowych oraz górnej i dolnej osi poziomych. Zad. 3 Sporządzić wielokrotny wykres rozrzutu zmiennych pensja i premia względem zmiennej stanowisko. Zmienić wygląd wykresu tak, aby był on „czytelny”. Zad. 4 Sporządzić wykres ramka-wąsy dla zmiennych: pensja (zależna), płeć (niezależna). Charakterystyki wykresu: punkt środkowy - średnia arytmetyczna, ramka - przedział ufności przy poziomie ufności 0.99. Punkty środkowe nie powinny być połączone. Zad. 5 Sporządzić wielokrotny wykres słupkowy dla zmiennych grupujących: stanowisko, płeć oraz zmiennej zależnej: pensja, gdzie wysokość słupka określana będzie przez średnią arytmetyczną, wąs to +/- błąd standardowy. Przykładowy wykres: średnia pensja +/- błąd standardowy 11000 10000 plec: M plec: K 9000 8000 pensja 7000 6000 5000 4000 3000 2000 1000 analityk informatyk przedstaw iciel stanowisko Joanna Gościk, Anna Łupińska-Dubicka, Magdalena Topczewska księgow y kierow nik prezes ANALIZA WARIANCJI Zadanie 1 W pliku powiaty.sta umieszczone są dane dotyczące przyrostu naturalnego oraz liczby mieszkańców na km 2 z uwzględnieniem podziału na województwa i rodzaj powiatu (miejskie, wewnętrzne i graniczne) na rok 2000. Na poziomie istotności 0.05 i 0.01 zweryfikować hipotezę, że przeciętny przyrost naturalny w powiatach miejskich, wewnętrznych i granicznych jest taki sam. 1. Przy użyciu testów: • Levene'a, • Cochrana, Bartletta i Hartleya. sprawdzić, czy spełnione są założenia testu analizy wariancji. Sporządzić wykres normalności rozkładu zmiennej zależnej w obrębie każdej z grup. ANOVA → Jednoczynnikowa ANOVA → opcja Więcej wyników → karta Założenia 2. Wyznaczyć średnie brzegowe i odchylenia standardowe oraz 95% przedziały ufności dla każdego efektu. Sporządzić wykres oczekiwanych średnich brzegowych. karta Podsumowanie → Statystyki podklas karta Podsumowanie → przycisk Średnie/Wykresy 3. Przeanalizować tabelę analizy wariancji. karta Podsumowanie → Wyniki jednowym. 4. Przy użyciu testu po fakcie Tukeya sprawdzić, która z metod powoduje odrzucenie hipotezy zerowej. karta Post-hoc → Istotne różnice 5. Wyznaczyć grupy jednorodne. karta Post-hoc → Jednorodne grupy Zadanie 2 W pliku nadcisnienie.sta zawarto porównanie czterech metod leczenia nadciśnienia. W badaniu wzięło udział 40 pacjentów, których losowo przypisano do jednej z porównywanych metod. W eksperymencie uwzględniono trzy nowe metody leczenia oraz metodę tradycyjną (IV). Oceniano zmiany ciśnienia rozkurczowego krwi po zastosowaniu leczenia. Wartości ujemne oznaczają wzrost ciśnienia. Zweryfikować hipotezę o braku różnic pomiędzy badanymi metodami leczenia. 1. Wyznaczyć tabelę analizy wariancji. 2. Wyznaczyć średnie grupowe dla zmian ciśnienia przy zastosowaniu metod leczenia. Sporządzić skategoryzowane wykresy ramka-wąsy. Czy można stwierdzić, że nowe metody leczenia są lepsze od tradycyjnej? Odpowiedź należy uzasadnić. karta średnie → obserwowane, nieważone → obserwowane, ważone → oczekiwane, brzegowe Wykresy → wykresy skategoryzowane → ramka wąsy zakładka Więcej → wąs: min-maks właściwości wykresu → kategoryzacja → wygląd kategorii: nałożone 3. W jakim stopniu znajomość zastosowanej metody wyjaśnia zmiany ciśnienia u pacjenta? Ocenę siły zależności w próbie określa następujący wzór: SS efekt 2 = ⋅100 SS całkowite gdzie: SSefekt - suma kwadratów związana z danym efektem SScałkowite - całkowita suma kwadratów dane bierzemy z karta Podsumowanie → Wyniki jednowym. Joanna Gościk, Anna Łupińska-Dubicka, Magdalena Topczewska Zadanie 3 Plik miazdzyca.sta zawiera dane o 120 pacjentach, wśród których badano stężenie cholesterolu LDL. Chorzy leczeni byli czterema różnymi środkami farmakologicznymi aplikowanymi w pięciu różnych dawkach. Dodatkowo w trakcie leczenia stosowano dwa rodzaje diet. 1. Wyznaczyć tabelę analizy wariacji. (ANOVA → ANOVA dla układów czynnikowych → opcja Więcej wyników → karta Podsumowanie → Wszystkie efekty). Jaki wpływ ma poziom każdego z czynników na średnią wartość LDL? Jakie jest współdziałanie między parami czynników? Czy istnieje trójczynnikowa interakcja między rozpatrywanymi czynnikami? 2. Sporządzić wykresy średnich ważonych z uwzględnieniem błędów standardowych (z 99% przedziałami ufności) dla interakcji wszystkich par czynników. średnie/wykresy (ustawiamy poziom ufności) → średnie: ważone wyśw. +/- błd. std. NASTĘPNE ZAJĘCIA: ANALIZA REGRESJI Joanna Gościk, Anna Łupińska-Dubicka, Magdalena Topczewska