tabele liczności • wykresy słupkowe • histogramy • wykresy kołowe

Transkrypt

tabele liczności • wykresy słupkowe • histogramy • wykresy kołowe
STATYSTYKA OPISOWA (lab. 4)
opr. Marek Sobolewski
ANALIZA ZALEŻNOŚCI POMIĘDZY DWIEMA CECHAMI STATYSTYCZNYMI.
TABELE WIELODZIELCZE, ANALIZA KORELACJI, STATYSTYKI W GRUPACH.
ELEMENTY WNIOSKOWANIA STATYSTYCZNEGO
NA PRZYKŁADZIE TESTU NIEZALEŻNOŚCI CHI-KWADRAT.
W trakcie zajęć wprowadzone zostaną metody analizy zależności pomiędzy dwiema cechami
statystycznymi. Wybór odpowiedniej techniki analitycznej uwarunkowany jest charakterem
porównywanych cech:
 dla dwóch cech nominalnych tworzy się dwuwymiarową tabelę liczności, w której
wyznacza się strukturę procentową odpowiedzi na jedno pytanie względem wariantów
drugiej cechy (i/lub vice versa) – w programie STATISTICA jest to analiza TABEL
WIELODZIELCZYCH;
 w przypadku, gdy jedna cecha ma charakter liczbowy a druga nominalny, wyznacza się
statystyki opisowe (średnią, medianę i inne) dla cechy liczbowej względem wariantów
cechy nominalnej – w programie STATISTICA służy do tego analiza PRZEKROJE
(ANOVA);
 kiedy obie cechy mają charakter liczbowy, wyznacza się współczynnik korelacji, który
pozwala określić siłę i kierunek zależności – w programie STATISTICA służy do tego
analiza MACIERZE KORELACJI.
O testach statystycznych
TESTY STATYSTYCZNE służą do oceny, czy zależności zaobserwowane w próbie są efektem
ogólniejszej prawidłowości panującej w całej populacji czy tylko przypadkowym rezultatem.
Wynikiem testu statystycznego jest tzw. PRAWDOPODOBIEŃSTWO TESTOWE (p), którego
niskie wartości świadczą o istotności statystycznej rozważanej zależności. Przyjmuje się przy tym
najczęściej następujące reguły:
 gdy p < 0,05 mówimy o statystycznie istotnej zależności (oznaczamy ten fakt za pomocą *);
 p < 0,01 to wysoce istotna zależności (**);
 p < 0,001 to bardzo wysoko istotna statystycznie zależność (***).
Przykład 1 (Opinie o integracji z UE (2004))
Badanie przeprowadzono bezpośrednio po wejściu Polski do UE w lecie 2004 r. Stosując poznane już
metody grupowania danych w programie STATISTICA proszę odpowiedzieć na następujące pytania:
 ile osób ……… i jaki procent ankietowanych osób ………% obawiał się podwyżek cen
żywności po wejściu Polski do UE;
 ile osób ……… i jaki procent ankietowanych osób ………% obawiał się podwyżek cen
energii elektrycznej po wejściu Polski do UE;
Celem dalszej analizy będzie porównanie poglądów na te kwestie wśród mieszkańców miast i wsi.
Ponieważ rozważane cechy mają charakter nominalny, więc właściwym narzędziem będzie
ANALIZA TABEL WIELODZIELCZYCH.
Etapy analizy:
1)
Za pomocą polecenia STATYSTYKA wybieramy grupę analiz STATYSTYKI PODSTAWOWE I
TABELE a następnie TABELE WIELODZIELCZE. Określamy tabelę (wybieramy zmienne) –
na pierwszej liście wskazujemy Miejsce zamieszkania a na drugiej Czy obawiasz się wzrostu
cen żywności? – i przechodzimy do okna wyników za pomocą przycisku OK.
2)
Wywołujemy tabelę wynikową za pomocą przycisku PODSUMOWANIE. Dowiadujemy się,
jak mieszkańcy miast i wsi odpowiadali na rozważane pytanie – jednak porównanie opinii obu
tych grup jest trudne, bez wyznaczenia struktury procentowej. Ponieważ miejsce ustawione
jest „w wierszach”, w zakładce OPCJE zaznaczamy PROCENTY W WIERSZACH.
1
STATYSTYKA OPISOWA (lab. 4)
opr. Marek Sobolewski
3)
Zaznaczamy także test CHIKWADRAT Pearsona i NW. Aby
wywołać tabele wynikowe nie
posługujemy
się
przyciskiem
PODSUMOWANIE lecz w zakładce
WIĘCEJ naciskamy DOKŁADNE
TABELE DWUDZIELCZE.
W dwóch tabelach wynikowych
znajdują się liczności i procenty
oraz wynik testu niezależności chikwadrat. Wyniki komponujemy w
poniższej
tabeli a następnie
interpretujemy wartość p i opisujmy
charakter zależności, jeżeli takowa występuje.
Miejsce
zamieszkania
miasto
wieś
Razem
Czy obawiasz się wzrostu cen żywności? (p =
tak
nie
…… (…… %)
…… (…… %)
…… (…… %)
…… (…… %)
……
……
)
Razem
……
……
……
Opis i interpretacja wartości p oraz struktury procentowej odpowiedzi .............................................................
..............................................................................................................................................................................
..............................................................................................................................................................................
..............................................................................................................................................................................
Przykład 2 (Opinie o integracji z UE (2004))
W analogiczny sposób proszę zbadać zależności pomiędzy:
 płcią i obawą przed wzrostem cen żywności;
 sytuacją finansową i sposobem głosowania w referendum europejskim.
Liczności i wartości procentowe proszę umieścić w poniższych tabelach, podobnie wartości p – proszę
zinterpretować uzyskane wyniki. Dla każdej tabeli należy przemyśleć sposób wyznaczania struktury
procentowej – według wierszy czy według kolumn?
Czy obawiasz się wzrostu
cen żywności?
tak
nie
Razem
Płeć (p =
mężczyzna
…… (…… %)
…… (…… %)
……
)
kobieta
…… (…… %)
…… (…… %)
……
Razem
……
……
……
Opis i interpretacja wartości p oraz struktury procentowej odpowiedzi .............................................................
..............................................................................................................................................................................
..............................................................................................................................................................................
..............................................................................................................................................................................
Sposób głosowania w
referendum europejskim
tak
nie
Razem
raczej dobra
Sytuacja finansowa (p =
dobra
średnia
)
raczej zła
zła
…… (…… %) …… (…… %) …… (…… %) …… (…… %) …… (…… %)
…… (…… %) …… (…… %) …… (…… %) …… (…… %) …… (…… %)
……
……
……
……
……
Razem
……
……
……
Opis i interpretacja wartości p oraz struktury procentowej odpowiedzi .............................................................
..............................................................................................................................................................................
..............................................................................................................................................................................
..............................................................................................................................................................................
2
STATYSTYKA OPISOWA (lab. 4)
opr. Marek Sobolewski
Przykład 3 (Wybrane wskaźniki (Europa))
Celem analizy będzie porównanie poziomu rozwoju społeczeństw postkomunistycznych do
pozostałych państw europejskich. Analiza będzie miała charakter ogólny, porównamy pewne
statystyki opisowe wybranych wskaźników rozwoju społecznego i gospodarczego w grupie państw
postkomunistycznych i kapitalistycznych („od zawsze”). Ponieważ jedna z porównywanych cech ma
charakter nominalny a pozostałe liczbowy, do analizy wykorzystana zostanie metoda PRZEKROJE
(PROSTA ANOVA) z grupy STATYSTYKI PODSTAWOWE I TABELE.
Po otworzeniu okna tej analizy należy dokonać wyboru zmiennych.
Uwaga! Proszę zwrócić uwagę, iż na drugiej liście zmiennych wybieramy cechę nominalną
(grupującą) – w naszym przypadku zmienną Historia, zaś na pierwszej liście cechę (lub cechy) o
charakterze liczbowych – lista tych cech znajduje się w poniższej tabeli.
Po zatwierdzeniu wyboru zmiennych, przechodzi do okna Statystyki w grupach (wyniki). W tym oknie
w zakładce Statystyki opisowe wybieramy takie miary, by móc uzupełnić poniższą tabelę. Wyniki
proszę sformatować, a wybrane statystyki umieścić w poniższej tabeli.
Wybrane miary poziomu rozwoju
społecznego i gospodarczego
Państwa…
postkomunistyczne
kapitalistyczne
Me
min
max
Me
min
max
Oczekiwany czas trwania życia mężczyzn (2010)
PKB per capita (2010) $PPP
Indeks Wolności Gospodarczej (2012)
Na podstawie uzyskanych wielkości proszę opisać wyniki, zwracając szczególną uwagę na kwestię
porównania obu grup krajów ...............................................................................................................................
..............................................................................................................................................................................
..............................................................................................................................................................................
..............................................................................................................................................................................
..............................................................................................................................................................................
..............................................................................................................................................................................
Proszę wznowić analizę i wykonać ilustrację graficzną wyników za pomocą wykresu
SKATEGORYZOWANEGO RAMKA-WĄSY (proszę wybrać wykres, na którym pokazany zostanie
poziom mediany każdego wskaźnika w grupie państw postkomunistycznych i pozostałych).
3
STATYSTYKA OPISOWA (lab. 4)
opr. Marek Sobolewski
Przykład 4 (Wybrane wskaźniki (Europa))
Celem analizy będzie zbadanie zależności pomiędzy PKB per capita a poziomem bezrobocia w roku
2010. Ponieważ obie cechy mają charakter liczbowy, więc odpowiednim narzędziem do wykonania
analizy będzie współczynnik korelacji.
Proszę teraz zapoznać się z podstawowymi informacjami o współczynniku korelacji zawartymi w
przypisie1.
1) Aby wyznaczyć wartość współczynnika korelacji z grupy STATYSTYKI PODSTAWOWE I
TABELE wybieramy MACIERZE KORELACJI. Następnie dokonujemy wyboru zmiennych za
pomocą przycisku DWIE LISTY ZMIENNYCH. Na pierwszej liście wskazujemy cechę, którą
uznajemy bardziej za przyczynę niż skutek (tu proponujemy wybrać PKB per capita (2010)
zaś na drugiej liście cechę, której wartości mogą być uzależnione od pierwszej (wybieramy
Stopę bezrobocia (2010), zakładając że bogate państwa mają mniejsze problemy z sytuacją na
rynku pracy). Oczywiście zmienne można wybrać też na odwrót – wyniki obliczeń będą
identyczne, zaś jedyna różnica będzie dotyczyła układu tabeli i wykresu.
2) Wywołujemy wyniki za pomocą przycisku podsumowanie. Proszę odczytać i podać wartość
współczynnika korelacji: r = ……..., a następnie zinterpretować otrzymanego wyniki (czy
zależność istnieje, a jeżeli tak to jaka jest jej siła i kierunek): ...............................................................
.................................................................................................................................................................
.................................................................................................................................................................
3) Proszę przywołać okno analizy i zilustrować wyniki za pomocą wykresu rozrzutu (zakładka
Więcej, 2W Rozrzutu). Można też wywołać wykres Z nazwami przypadków, na którym
wszystkie kraje będą podpisane (przy dużej liczbie przypadków ten wykres jest raczej trudny
do sformatowania, tak by jego wygląd był estetyczny i czytelny, ale można się z niego
dowiedzieć, w których krajach badane cechy przyjmują wartości skrajne).
4) W analogiczny sposób proszę zbadać wpływ poziomu wolności gospodarczej2 na trzy
zmienne: PKB per capita (2010), oczekiwany czas trwania życia mężczyzn (2010) i stopę
bezrobocia (2010). Na którą z tych zmiennych poziom wolności gospodarczej nie ma niemal
żadnego wpływu?
1
2
Współczynnik korelacji liniowej służy do badania siły zależności liniowej pomiędzy dwiema cechami
liczbowymi i jest wskaźnikiem przyjmującym wartości z przedziału  1 do 1. O sile korelacji świadczy
wartość bezwzględna współczynnika a znak o jego kierunku. Tak więc, współczynniki korelacji 0,9 czy –0,9
świadczą o tej samej (bardzo wysokiej sile korelacji), choć wnioski wyciągane na ich podstawie będą
przeciwstawne – w pierwszym przypadku wraz ze wzrostem wartości jednej cechy wartości drugiej też rosną,
a w drugim przypadku spadają. Przyjmuje się następującą skalę przymiotnikową, dotyczącą siły korelacji:
 | r | < 0,3 – brak korelacji;
 0,3  | r | < 0,5 – słaba korelacja;
 0,5  | r | < 0,7 – przeciętna korelacja;
 0,7  | r | < 0,9 – silna korelacja;
 0,9  | r | < 1 – bardzo silna korelacja;
 | r | = 1 – idealna korelacja.
Dodatkowe informacje: wyniki mogą (i powinny) być uzupełniane rezultatami testu istotności współczynnika
korelacji (p), które pozwalały ocenić, czy znaleziona w próbie zależność jest odbiciem ogólniejszej relacji
panującej w całej populacji, czy tylko kwestią przypadku. Kwadrat współczynnika korelacji (R2), zwany
współczynnikiem determinacji, określa jaki procent zmienności jednej cechy jest wyjaśniany przez wartości
drugiej cechy (współczynnik determinacji jest zwykle wyrażany w procentach).
Indeks Wolności Gospodarczej jest wskaźnikiem wyznaczanym corocznie dla większości państw świata.
Wartości indeksu są syntezą informacji o obciążeniach fiskalnych, możliwości założenia własnej działalności
gospodarczej, stopniu koncesjonowania działalności gospodarczej przez państwo i wielu innych czynników.
Wartość Indeksu Wolności Gospodarczej zawiera się w przedziale od 0 do 100, przy czym wyższe wartości
oznaczają większą swobodę w działalności gospodarczej.
4