Wykrywanie zależności między zmiennymi
Transkrypt
Wykrywanie zależności między zmiennymi
Przedstawianie zależności między zmiennymi Zależność możemy zdefiniować jako powiązanie wartości jednej zmiennej z wartościami drugiej zmiennej. Zależność może mieć charakter przyczynowo-skutkowy tzn. zmiana wartości zmiennej X jest przyczyną zmiany wartości zmiennej Y (zależność przyczynowo-skutkową nazywamy wpływem). Związki przyczynowo-skutkowe można wykryć jedynie za pomocą procedury eksperymentalnej (badacz wywołuje zmianę zmiennej X i obserwuje czy w efekcie pojawia się zmiana zmiennej Y). Zależność może mieć charakter korelacyjny. O korelacji (związku) między zmiennymi powiemy, gdy nie można jednoznacznie określić, co jest przyczyną a co skutkiem lub nie można wykluczyć, że zależność jest pozorna. Korelacja oznacza, że zmiany wartości dwóch zmiennych są jakoś powiązane, towarzyszą sobie. Korelacja pozorna oznacza, że związek między X i Y wynika z tego, że zarówno X jak i Y zależą od wartości trzeciej zmiennej Z. Przykład wielkość strat z pożaru (Y) jest tym większa im więcej strażaków gasiło pożar (X) ale ta zależność wynika z wielkości pożaru (Z). Duży pożar oznacza ostatecznie wielkie straty a do jego gaszenia wysyła się zwykle wielu strażaków. W badaniach typu sondażowego możemy mówić jedynie o korelacjach (związkach) między zmiennymi, nie ma tu uzasadnienia użycie słowa wpływ, przyczyna (gdyż nie jesteśmy w stanie go udowodnić bez użycia eksperymentu) Jak można opisać korelacje (związki) między zmiennymi? To zależy od tego, z którym poziomem skali pomiarowej mamy do czynienia. Związek między dwoma zmiennymi nominalnymi możemy zademonstrować za pomocą tzw. tabeli dwudzielnej. Dwudzielnej, gdyż pokazuje ona wszystkie możliwe kombinacje wartości dwóch zmiennych i odpowiadające im liczebności. Zatem każdy obiekt zbioru jest przypisany do określonej kombinacji dwóch zmiennych. Rozkład liczebności w tego rodzaju tabeli pozwala ocenić, czy określonej wartości zmiennej X częściej towarzyszą określone wartości zmiennej Y. Jeśli tak jest to można mówić o związku między zmiennymi. Przykład (żeby uniknąć obliczania odsetek, sumy kobiet i mężczyn ustalone zostały na 100). Tabela 1. Związek płci z występowaniem zainteresowań technicznych. Płeć Mężczyźni Kobiety Suma Zainteresowania techniczne Występują Nie występują 70 30 20 80 90 110 Suma 100 100 200 Zainteresowania techniczne znaczenie częściej występują u mężczyzn (70), niż u kobiet (20). W przypadku większości kobiet takich zainteresowań brak (80), podczas gdy brak zainteresowań technicznych u mężczyzn stwierdza się dość rzadko (30). Zależność jest tu dobrze widoczna. Jednak nie mamy pewności, czy taki wynik nie jest dziełem przypadku. Aby uogólnić ten wynik na populację generalną, trzeba przedstawić argumenty w postaci testu statystycznego. Test statystyczny to procedura matematyczna, za pomocą której określamy prawdopodobieństwo błędnego uogólnienia rezultatów na populację generalną. Im mniejsze jest to prawdopodobieństwo, tym bardziej istotny statystycznie jest rezultat badań. Aby uogólnienie wyników było uprawnione, próba (czyli badany zbiór) musi być wylosowana z populacji generalnej i musi być odpowiednio liczna. Oba warunki są niezbędne. Jeśli próba jest zbyt mała, wówczas wyniki przypadkowe ważą w próbie zbyt dużo (błędy losowe mogą znacząco zniekształcić wyniki). Jeśli próba nie była pobrana losowo, to mogą pojawić się tzw. błędy systematyczne, które bez względu na liczebność próby mogą zniekształcać uzyskane rezultaty. Zadanie 1. Dla danych z tabeli dwudzielnej należy zastosować test chi-kwadrat albo test istotności różnic w odsetkach. Znajdź w podręczniku sposób obliczania wyżej wymienionych testów i przeprowadź je dla umieszczonych w tabeli danych. Określ poziom istotności i podaj wniosek dotyczący hipotezy o zależności zainteresowań technicznych od płci. Związek między zmiennymi metrycznymi lub porządkowymi można ocenić za pomocą współczynnika korelacji i dodatkowo zilustrować za pomocą wykresu korelacyjnego. Korelacja oznacza, że dwie zmienne charakteryzuje współzmienność, to znaczy, że jeśli zmienia się wartość jednej zmiennej, to zmienia się również wartość drugiej zmiennej. Korelacja może być dodatnia (jeśli rośnie wartość X to rośnie też wartość zmiennej Y) albo ujemna (jeśli rośnie wartość X, to zmniejsza się wartość Y). Mówimy wówczas o zależności liniowej (odpowiada to pojęciu funkcji liniowej y=ax+b). Trzeba jednak zauważyć, że zależności nie muszą mieć charakteru liniowego lecz mogą być krzywoliniowe (ten ostatni wątek nie będzie w tym miejscu omawiany). Gdyby zmienna Y zależała jedynie od zmiennej X, to znając wartość X moglibyśmy na tej podstawie wyliczyć dokładnie wartość Y korzystając z równiania funkcji liniowej. W rzeczywistości każda zmienna ma wiele różnych uwarunkowań. Zatem wartości X nie przekładają się dokładnie na wartości Y czyli mamy sporo wyjątków od reguły wiążącej obie zmienne. Konieczne było więc opracowanie miary za pomocą, której byłoby możliwe określenie dokładności przewidywania wartości Y na podstawie wartości X. Miarą tą jest współczynnik korelacji. Jest to liczba mieszcząca się w przedziale 0±1. Podaje się ją jako ułamek dziesiętny, zwykle z dokładnością do 2-3 miejsc po przecinku. Wartość 0 oznacza brak jakiegokolwiek związku między zmiennymi (nie można nic powiedzieć o zmiennej Y znając wartość X i vice wersa). Wartość +1 albo -1 oznacza pełną korelację, czyli możliwość dokładnego przewidzenia wartości jednej zmiennej na podstawie wartości drugiej. Korelacje stosunkowo niewiele odbiegające od 0 określa się jako słabe, korelacje stosunkowo niewiele odbiegające od 1 lub -1 jako silne, zaś pozostałe wartości są przeciętne. Różni autorzy podają w tym względzie różne przedziały wartości. Zwykle za słabe uznaje się korelacje poniżej 0,30 a za silne powyżej 0,70. Wzór współczynnika korelacji dla danych metrycznych opracował Pearson, więc mówimy o współczynniku korelacji Pearsona. Należy od do tzw. testów parametrycznych, co oznacza, że aby go poprawnie użyć, nie wystarczy by próba była losowa i odpowiednio duża, lecz poza tym obie zmienne muszą być metryczne, powinny również mieć rozkład normalny i porównywalne wariancje. Zwróć uwagę na poniższe wykresy. Osie współrzędnych wskazują możliwe wartości dwóch zmiennych X, Y. Jeden punkt postawiony międy osiami oznacza jedną osobę badaną, zatem można określić charakteryzujące daną osobę wartości X i Y. Na pierwszym diagramie przedstawiono silną dodatnią korelację, na drugim słabą dodatnią korelację, na trzecim silną ujemną korelację, na czwartym słabą ujemną korelację, zaś na piątym diagramie przedstawiono brak korelacji. Sposób obliczania współczynnika Pearsona znajdziesz w podręcznikach. Pamiętaj, że współczynnik korelacji opisuje zależność występującą w próbie. Jeśli chcesz go użyć w celu uogólnienia korelacji na populację generalną, konieczne będzie oznaczenie istotności tej korelacji. Podanie współczynnika korelacji z pominięciem poziomu jego istotności jest poważnym błędem (zawsze należy podawać korelację, istotność korelacji i liczebność próby). Pamiętaj również, że jeśli nie są spełnione warunki poprawnego stosowania korelacji Pearsona (metryczny poziom pomiaru obu zmiennych, normalność rozkładu, podobieństwo wariancji obu zmiennych), to wówczas korelowane zmienne należy przekształcić do postaci rangowej lub nominalnej i obliczyć inny współczynik korelacji – adekwatny do poziomu rangowego (np. współczynnik Spearmana) lub nominalnego (np. współczynnik V Cramera, który jest pochodną wartości chi-kwadrat). Często istnieje konieczność określania zależności, które dotyczą zmiennych wyrażonych w różnych skalach pomiarowych (na przykład jedna zmienna jest metryczna, jak poziom inteligencji ale druga zmienna jest nominalna jak płeć). W takiej sytuacji mamy kilka możliwości testowania związku między zmiennymi. Po pierwsze, możemy sprowadzić zmienną metryczną do postaci nominalnej i analizować zależność za pomocą tabeli dwudzielnej oraz właściwych dlań współczynników (np. chi-kwadrat uzupełniony współczynnikiem V Cramera) ale jest to bardzo nieprecyzyjny sposób obliczeń (gdyż w miejsce dokładnego poziomu inteligencji wstawiamy bardzo zgrzebne kategorie, dzieląc inteligencję na niską, przeciętną i wysoką lub tylko niską i wysoką). Po drugie, możemy zastosować współczynnik korelacji dwuseryjnej lub punktowodwuseryjnej, które są adekwatne, gdy jedna ze zmiennych jest dwuwartościowa a druga metryczna. Jest to jednak metoda mało popularna, i trudno ją znaleźć w programach statystycznych. Po trzecie, możemy zrezygnować z obliczania współczynnika korelacji i zastąpić go inną procedurą statystyczną, polegającą na porównaniu średnich wartości zmiennej metrycznej w podgrupach wydzielonych według wartości zmiennej nominalnej. Jest to bardzo często wykorzystywany sposób. O tym czy istnieje zależność, przekonują nas różnice między średnimi w porównywanych grupach (o ile te różnice są statystycznie istotne!) Wzorcowymi testami tego rodzaju są: test t Studenta dla prób niezależnych oraz jednoczynnikowa analiza wariancji. Oba testy są równie dobre. Test t Studenta przewidziany jest dla porównania dwóch grup (zmienna grupująca musi więc być dwuwartościowa albo sprowadzona do postaci 2-wartościowej). Analiza wariancji daje możliwość porównania więcej niż dwóch grup a więc sprawdzi się, gdy zmienna grupująca przyjmuje trzy lub więcej wartości. Test t oraz jednoczynnikowa analiza wariancji, są testami parametrycznymi a zatem wymagają spełnienia szeregu założeń dla ich poprawnego użycia. Sprawdzane jest założenie normalności rozkładu, homogeniczności wariancji w porównywanych grupach. Wskazane jest również, by grupy nie różniły się nadmiernie liczebnością. Kiedy założenia te nie są spełnione należy zmienną metryczną sprowadzić do postaci rangowej i zastosować odpowiedniki wzmiankowanych testów właściwe dla skali rangowej. Są to testy: U Manna-Whitneya oraz test Kruskala-Wallisa. Wspomniane testy będą miały zastosowanie również wtedy, gdy zmienna objaśniana (zależna) jest rangowa z natury a nie sprowadzana do tej postaci a zmienna objaśniająca (niezależna) jest nominalna lub sprowadzona do postaci nominalnej (na przykład porównywalibyśmy chłopców z dziewczętami ze szkoły podstawowej pod względem poziomu wykształcenia jaki zamierzają zdobyć (zawodowe, średnie, wyższe). Zadanie 2. Niżej masz tabelę z danymi. Wyniki testu z wiedzy informatycznej osiągnięte przez dziewczęta i chłopców z gimnazjum. Zmienna zależna 10, 12, 14, 14, 15, 18, 20, 20 Zmienna niezależna Kobiety (N=8) 14, 16, 19, 21, 24, 26, 26, 27 Mężczyźni (N=8) Sprawdź, czy można zastosować test t Studenta dla tych danych. W zależności od tego czy spełnione są kryteria użyj tego testu albo zastosuj jego odpowiednik nieparametryczny. Zadanie 3. Czy do powyższych danych można byłoby zastosować test chi-kwadrat po przekształceniu zmiennej zależne do postaci nominalnej? Uzasadnij odpowiedź (musisz wiedzieć, jakie są warunki poprawnego zastosowania testu chi-kwadrat). http://www.socscistatistics.com/tests/ztest/Default2.aspx http://www.socscistatistics.com/tests/studentttest/Default2.aspx http://www.socscistatistics.com/tests/chisquare2/Default2.aspx http://www.socscistatistics.com/tests/mannwhitney/Default.aspx http://www.socscistatistics.com/tests/pearson/Default.aspx http://www.socscistatistics.com/tests/spearman/Default.aspx