ANALIZA WARIANCJI

Transkrypt

ANALIZA WARIANCJI
WPROWADZENIE DO PRACY Z SYSTEMEM
STATISTICA
ANALIZA WARIANCJI
WPROWADZENIE
Zad. 1
Stworzyć zbiór danych zawierający następujące zmienne: nazwisko, wiek, pensja, płeć (K, M), stanowisko (maksymalnie
cztery różne wartości), liczba dzieci (maksymalnie trzy różne wartości), premia (nie wszyscy pracownicy dostają premię,
wstawiamy wartości o 1000 mniejsze od pensji). Zmienne powinny mieć wyżej wymienione nazwy i być odpowiedniego
typu. Wstawić dane piętnastu pracowników.
Zad. 2
Sporządzić wykres rozrzutu zmiennej pensja względem zmiennej stanowisko. Dla wykresu ustawić: symbole
punktów wykresu, tło wykresu, tytuł i podtytuł wykresu, tytuły osi, znaczniki osi (mają pozostać wyłącznie główne
znaczniki i towarzyszące im linie siatki). Znaczniki mają być takie same w przypadku prawej i lewej osi pionowych oraz
górnej i dolnej osi poziomych.
Zad. 3
Sporządzić wielokrotny wykres rozrzutu zmiennych pensja i premia względem zmiennej stanowisko. Zmienić wygląd
wykresu tak, aby był on „czytelny”.
Zad. 4
Sporządzić wykres ramka-wąsy dla zmiennych: pensja (zależna), płeć (niezależna). Charakterystyki wykresu: punkt
środkowy - średnia arytmetyczna, ramka - przedział ufności przy poziomie ufności 0.99. Punkty środkowe nie powinny
być połączone.
Zad. 5
Sporządzić wielokrotny wykres słupkowy dla zmiennych grupujących: stanowisko, płeć oraz zmiennej zależnej:
pensja, gdzie wysokość słupka określana będzie przez średnią arytmetyczną, wąs to +/- błąd standardowy.
Przykładowy wykres:
średnia pensja +/- błąd standardowy
11000
10000
plec: M
plec: K
9000
8000
pensja
7000
6000
5000
4000
3000
2000
1000
analityk
informatyk
przedstaw iciel
stanowisko
Joanna Gościk, Anna Łupińska-Dubicka, Magdalena Topczewska
księgow y
kierow nik
prezes
ANALIZA WARIANCJI
Zadanie 1
W pliku powiaty.sta umieszczone są dane dotyczące przyrostu naturalnego oraz liczby mieszkańców na km 2 z
uwzględnieniem podziału na województwa i rodzaj powiatu (miejskie, wewnętrzne i graniczne) na rok 2000.
Na poziomie istotności 0.05 i 0.01 zweryfikować hipotezę, że przeciętny przyrost naturalny w powiatach
miejskich, wewnętrznych i granicznych jest taki sam.
1. Przy użyciu testów:
•
Levene'a,
•
Cochrana, Bartletta i Hartleya.
sprawdzić, czy spełnione są założenia testu analizy wariancji.
Sporządzić wykres normalności rozkładu zmiennej zależnej w obrębie każdej z grup.
ANOVA → Jednoczynnikowa ANOVA → opcja Więcej wyników → karta Założenia
2. Wyznaczyć średnie brzegowe i odchylenia standardowe oraz 95% przedziały ufności dla każdego
efektu. Sporządzić wykres oczekiwanych średnich brzegowych.
karta Podsumowanie → Statystyki podklas
karta Podsumowanie → przycisk Średnie/Wykresy
3. Przeanalizować tabelę analizy wariancji.
karta Podsumowanie → Wyniki jednowym.
4. Przy użyciu testu po fakcie Tukeya sprawdzić, która z metod powoduje odrzucenie hipotezy zerowej.
karta Post-hoc → Istotne różnice
5. Wyznaczyć grupy jednorodne.
karta Post-hoc → Jednorodne grupy
Zadanie 2
W pliku nadcisnienie.sta zawarto porównanie czterech metod leczenia nadciśnienia. W badaniu wzięło udział
40 pacjentów, których losowo przypisano do jednej z porównywanych metod. W eksperymencie uwzględniono
trzy nowe metody leczenia oraz metodę tradycyjną (IV). Oceniano zmiany ciśnienia rozkurczowego krwi po
zastosowaniu leczenia. Wartości ujemne oznaczają wzrost ciśnienia.
Zweryfikować hipotezę o braku różnic pomiędzy badanymi metodami leczenia.
1. Wyznaczyć tabelę analizy wariancji.
2. Wyznaczyć średnie grupowe dla zmian ciśnienia przy zastosowaniu metod leczenia. Sporządzić
skategoryzowane wykresy ramka-wąsy. Czy można stwierdzić, że nowe metody leczenia są lepsze od
tradycyjnej? Odpowiedź należy uzasadnić.
karta średnie
→ obserwowane, nieważone
→ obserwowane, ważone
→ oczekiwane, brzegowe
Wykresy → wykresy skategoryzowane → ramka wąsy
zakładka Więcej → wąs: min-maks
właściwości wykresu → kategoryzacja → wygląd kategorii: nałożone
3. W jakim stopniu znajomość zastosowanej metody wyjaśnia zmiany ciśnienia u pacjenta?
Ocenę siły zależności w próbie określa następujący wzór:
SS efekt
2 =
⋅100
SS całkowite
gdzie: SSefekt - suma kwadratów związana z danym efektem
SScałkowite - całkowita suma kwadratów
dane bierzemy z
karta Podsumowanie → Wyniki jednowym.
Joanna Gościk, Anna Łupińska-Dubicka, Magdalena Topczewska
Zadanie 3
Plik miazdzyca.sta zawiera dane o 120 pacjentach, wśród których badano stężenie cholesterolu LDL. Chorzy
leczeni byli czterema różnymi środkami farmakologicznymi aplikowanymi w pięciu różnych dawkach.
Dodatkowo w trakcie leczenia stosowano dwa rodzaje diet.
1. Wyznaczyć tabelę analizy wariacji. (ANOVA → ANOVA dla układów czynnikowych → opcja Więcej
wyników → karta Podsumowanie → Wszystkie efekty). Jaki wpływ ma poziom każdego z
czynników na średnią wartość LDL? Jakie jest współdziałanie między parami czynników? Czy istnieje
trójczynnikowa interakcja między rozpatrywanymi czynnikami?
2. Sporządzić wykresy średnich ważonych z uwzględnieniem błędów standardowych (z 99% przedziałami
ufności) dla interakcji wszystkich par czynników.
średnie/wykresy (ustawiamy poziom ufności) →
średnie: ważone
wyśw. +/- błd. std.
NASTĘPNE ZAJĘCIA: ANALIZA REGRESJI
Joanna Gościk, Anna Łupińska-Dubicka, Magdalena Topczewska