Wykrywanie zależności między zmiennymi

Transkrypt

Wykrywanie zależności między zmiennymi
Przedstawianie zależności między zmiennymi
Zależność możemy zdefiniować jako powiązanie wartości jednej zmiennej z wartościami drugiej
zmiennej.
Zależność może mieć charakter przyczynowo-skutkowy tzn. zmiana wartości zmiennej X jest
przyczyną zmiany wartości zmiennej Y (zależność przyczynowo-skutkową nazywamy wpływem).
Związki przyczynowo-skutkowe można wykryć jedynie za pomocą procedury eksperymentalnej
(badacz wywołuje zmianę zmiennej X i obserwuje czy w efekcie pojawia się zmiana zmiennej Y).
Zależność może mieć charakter korelacyjny. O korelacji (związku) między zmiennymi powiemy, gdy
nie można jednoznacznie określić, co jest przyczyną a co skutkiem lub nie można wykluczyć, że
zależność jest pozorna. Korelacja oznacza, że zmiany wartości dwóch zmiennych są jakoś powiązane,
towarzyszą sobie. Korelacja pozorna oznacza, że związek między X i Y wynika z tego, że zarówno X jak
i Y zależą od wartości trzeciej zmiennej Z. Przykład wielkość strat z pożaru (Y) jest tym większa im
więcej strażaków gasiło pożar (X) ale ta zależność wynika z wielkości pożaru (Z). Duży pożar oznacza
ostatecznie wielkie straty a do jego gaszenia wysyła się zwykle wielu strażaków.
W badaniach typu sondażowego możemy mówić jedynie o korelacjach (związkach) między
zmiennymi, nie ma tu uzasadnienia użycie słowa wpływ, przyczyna (gdyż nie jesteśmy w stanie go
udowodnić bez użycia eksperymentu)
Jak można opisać korelacje (związki) między zmiennymi? To zależy od tego, z którym poziomem
skali pomiarowej mamy do czynienia.
Związek między dwoma zmiennymi nominalnymi możemy zademonstrować za pomocą tzw. tabeli
dwudzielnej. Dwudzielnej, gdyż pokazuje ona wszystkie możliwe kombinacje wartości dwóch
zmiennych i odpowiadające im liczebności. Zatem każdy obiekt zbioru jest przypisany do określonej
kombinacji dwóch zmiennych. Rozkład liczebności w tego rodzaju tabeli pozwala ocenić, czy
określonej wartości zmiennej X częściej towarzyszą określone wartości zmiennej Y. Jeśli tak jest to
można mówić o związku między zmiennymi. Przykład (żeby uniknąć obliczania odsetek, sumy kobiet i
mężczyn ustalone zostały na 100).
Tabela 1. Związek płci z występowaniem zainteresowań technicznych.
Płeć
Mężczyźni
Kobiety
Suma
Zainteresowania techniczne
Występują
Nie występują
70
30
20
80
90
110
Suma
100
100
200
Zainteresowania techniczne znaczenie częściej występują u mężczyzn (70), niż u kobiet (20). W
przypadku większości kobiet takich zainteresowań brak (80), podczas gdy brak zainteresowań
technicznych u mężczyzn stwierdza się dość rzadko (30).
Zależność jest tu dobrze widoczna. Jednak nie mamy pewności, czy taki wynik nie jest dziełem
przypadku. Aby uogólnić ten wynik na populację generalną, trzeba przedstawić argumenty w postaci
testu statystycznego. Test statystyczny to procedura matematyczna, za pomocą której określamy
prawdopodobieństwo błędnego uogólnienia rezultatów na populację generalną. Im mniejsze jest to
prawdopodobieństwo, tym bardziej istotny statystycznie jest rezultat badań. Aby uogólnienie
wyników było uprawnione, próba (czyli badany zbiór) musi być wylosowana z populacji generalnej i
musi być odpowiednio liczna. Oba warunki są niezbędne. Jeśli próba jest zbyt mała, wówczas wyniki
przypadkowe ważą w próbie zbyt dużo (błędy losowe mogą znacząco zniekształcić wyniki). Jeśli
próba nie była pobrana losowo, to mogą pojawić się tzw. błędy systematyczne, które bez względu na
liczebność próby mogą zniekształcać uzyskane rezultaty.
Zadanie 1.
Dla danych z tabeli dwudzielnej należy zastosować test chi-kwadrat albo test istotności różnic w
odsetkach. Znajdź w podręczniku sposób obliczania wyżej wymienionych testów i przeprowadź je dla
umieszczonych w tabeli danych. Określ poziom istotności i podaj wniosek dotyczący hipotezy o
zależności zainteresowań technicznych od płci.
Związek między zmiennymi metrycznymi lub porządkowymi można ocenić za pomocą
współczynnika korelacji i dodatkowo zilustrować za pomocą wykresu korelacyjnego.
Korelacja oznacza, że dwie zmienne charakteryzuje współzmienność, to znaczy, że jeśli
zmienia się wartość jednej zmiennej, to zmienia się również wartość drugiej zmiennej. Korelacja
może być dodatnia (jeśli rośnie wartość X to rośnie też wartość zmiennej Y) albo ujemna (jeśli rośnie
wartość X, to zmniejsza się wartość Y). Mówimy wówczas o zależności liniowej (odpowiada to pojęciu
funkcji liniowej y=ax+b). Trzeba jednak zauważyć, że zależności nie muszą mieć charakteru liniowego
lecz mogą być krzywoliniowe (ten ostatni wątek nie będzie w tym miejscu omawiany).
Gdyby zmienna Y zależała jedynie od zmiennej X, to znając wartość X moglibyśmy na tej
podstawie wyliczyć dokładnie wartość Y korzystając z równiania funkcji liniowej. W rzeczywistości
każda zmienna ma wiele różnych uwarunkowań. Zatem wartości X nie przekładają się dokładnie na
wartości Y czyli mamy sporo wyjątków od reguły wiążącej obie zmienne. Konieczne było więc
opracowanie miary za pomocą, której byłoby możliwe określenie dokładności przewidywania
wartości Y na podstawie wartości X. Miarą tą jest współczynnik korelacji. Jest to liczba mieszcząca się
w przedziale 0±1. Podaje się ją jako ułamek dziesiętny, zwykle z dokładnością do 2-3 miejsc po
przecinku. Wartość 0 oznacza brak jakiegokolwiek związku między zmiennymi (nie można nic
powiedzieć o zmiennej Y znając wartość X i vice wersa). Wartość +1 albo -1 oznacza pełną korelację,
czyli możliwość dokładnego przewidzenia wartości jednej zmiennej na podstawie wartości drugiej.
Korelacje stosunkowo niewiele odbiegające od 0 określa się jako słabe, korelacje stosunkowo
niewiele odbiegające od 1 lub -1 jako silne, zaś pozostałe wartości są przeciętne. Różni autorzy
podają w tym względzie różne przedziały wartości. Zwykle za słabe uznaje się korelacje poniżej 0,30 a
za silne powyżej 0,70.
Wzór współczynnika korelacji dla danych metrycznych opracował Pearson, więc mówimy o
współczynniku korelacji Pearsona. Należy od do tzw. testów parametrycznych, co oznacza, że aby
go poprawnie użyć, nie wystarczy by próba była losowa i odpowiednio duża, lecz poza tym obie
zmienne muszą być metryczne, powinny również mieć rozkład normalny i porównywalne wariancje.
Zwróć uwagę na poniższe wykresy. Osie współrzędnych wskazują możliwe wartości dwóch
zmiennych X, Y. Jeden punkt postawiony międy osiami oznacza jedną osobę badaną, zatem można
określić charakteryzujące daną osobę wartości X i Y.
Na pierwszym diagramie przedstawiono silną dodatnią korelację, na drugim słabą dodatnią
korelację, na trzecim silną ujemną korelację, na czwartym słabą ujemną korelację, zaś na piątym
diagramie przedstawiono brak korelacji.
Sposób obliczania współczynnika Pearsona znajdziesz w podręcznikach.
Pamiętaj, że współczynnik korelacji opisuje zależność występującą w próbie. Jeśli chcesz go
użyć w celu uogólnienia korelacji na populację generalną, konieczne będzie oznaczenie istotności tej
korelacji. Podanie współczynnika korelacji z pominięciem poziomu jego istotności jest poważnym
błędem (zawsze należy podawać korelację, istotność korelacji i liczebność próby).
Pamiętaj również, że jeśli nie są spełnione warunki poprawnego stosowania korelacji
Pearsona (metryczny poziom pomiaru obu zmiennych, normalność rozkładu, podobieństwo wariancji
obu zmiennych), to wówczas korelowane zmienne należy przekształcić do postaci rangowej lub
nominalnej i obliczyć inny współczynik korelacji – adekwatny do poziomu rangowego (np.
współczynnik Spearmana) lub nominalnego (np. współczynnik V Cramera, który jest pochodną
wartości chi-kwadrat).
Często istnieje konieczność określania zależności, które dotyczą zmiennych wyrażonych w
różnych skalach pomiarowych (na przykład jedna zmienna jest metryczna, jak poziom inteligencji ale
druga zmienna jest nominalna jak płeć). W takiej sytuacji mamy kilka możliwości testowania związku
między zmiennymi.
Po pierwsze, możemy sprowadzić zmienną metryczną do postaci nominalnej i analizować
zależność za pomocą tabeli dwudzielnej oraz właściwych dlań współczynników (np. chi-kwadrat
uzupełniony współczynnikiem V Cramera) ale jest to bardzo nieprecyzyjny sposób obliczeń (gdyż w
miejsce dokładnego poziomu inteligencji wstawiamy bardzo zgrzebne kategorie, dzieląc inteligencję
na niską, przeciętną i wysoką lub tylko niską i wysoką).
Po drugie, możemy zastosować współczynnik korelacji dwuseryjnej lub punktowodwuseryjnej, które są adekwatne, gdy jedna ze zmiennych jest dwuwartościowa a druga metryczna.
Jest to jednak metoda mało popularna, i trudno ją znaleźć w programach statystycznych.
Po trzecie, możemy zrezygnować z obliczania współczynnika korelacji i zastąpić go inną
procedurą statystyczną, polegającą na porównaniu średnich wartości zmiennej metrycznej w
podgrupach wydzielonych według wartości zmiennej nominalnej. Jest to bardzo często
wykorzystywany sposób. O tym czy istnieje zależność, przekonują nas różnice między średnimi w
porównywanych grupach (o ile te różnice są statystycznie istotne!)
Wzorcowymi testami tego rodzaju są: test t Studenta dla prób niezależnych oraz
jednoczynnikowa analiza wariancji. Oba testy są równie dobre. Test t Studenta przewidziany jest dla
porównania dwóch grup (zmienna grupująca musi więc być dwuwartościowa albo sprowadzona do
postaci 2-wartościowej). Analiza wariancji daje możliwość porównania więcej niż dwóch grup a więc
sprawdzi się, gdy zmienna grupująca przyjmuje trzy lub więcej wartości.
Test t oraz jednoczynnikowa analiza wariancji, są testami parametrycznymi a zatem
wymagają spełnienia szeregu założeń dla ich poprawnego użycia. Sprawdzane jest założenie
normalności rozkładu, homogeniczności wariancji w porównywanych grupach. Wskazane jest
również, by grupy nie różniły się nadmiernie liczebnością. Kiedy założenia te nie są spełnione należy
zmienną metryczną sprowadzić do postaci rangowej i zastosować odpowiedniki wzmiankowanych
testów właściwe dla skali rangowej. Są to testy: U Manna-Whitneya oraz test Kruskala-Wallisa.
Wspomniane testy będą miały zastosowanie również wtedy, gdy zmienna objaśniana (zależna) jest
rangowa z natury a nie sprowadzana do tej postaci a zmienna objaśniająca (niezależna) jest
nominalna lub sprowadzona do postaci nominalnej (na przykład porównywalibyśmy chłopców z
dziewczętami ze szkoły podstawowej pod względem poziomu wykształcenia jaki zamierzają zdobyć
(zawodowe, średnie, wyższe).
Zadanie 2. Niżej masz tabelę z danymi. Wyniki testu z wiedzy informatycznej osiągnięte przez
dziewczęta i chłopców z gimnazjum.
Zmienna zależna 10, 12, 14, 14, 15, 18, 20, 20
Zmienna niezależna Kobiety (N=8)
14, 16, 19, 21, 24, 26, 26, 27
Mężczyźni (N=8)
Sprawdź, czy można zastosować test t Studenta dla tych danych. W zależności od tego czy spełnione
są kryteria użyj tego testu albo zastosuj jego odpowiednik nieparametryczny.
Zadanie 3. Czy do powyższych danych można byłoby zastosować test chi-kwadrat po przekształceniu
zmiennej zależne do postaci nominalnej? Uzasadnij odpowiedź (musisz wiedzieć, jakie są warunki
poprawnego zastosowania testu chi-kwadrat).
http://www.socscistatistics.com/tests/ztest/Default2.aspx
http://www.socscistatistics.com/tests/studentttest/Default2.aspx
http://www.socscistatistics.com/tests/chisquare2/Default2.aspx
http://www.socscistatistics.com/tests/mannwhitney/Default.aspx
http://www.socscistatistics.com/tests/pearson/Default.aspx
http://www.socscistatistics.com/tests/spearman/Default.aspx

Podobne dokumenty