wraz ze wzrostem wartości jednej zmiennej
Transkrypt
wraz ze wzrostem wartości jednej zmiennej
R-PEARSONA Zależność liniowa Interpretacja wyników: wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty przeznaczanej na wakacje) czyli np. im wyższe zarobki tym wyższa kwota na wakacje! Liniową zależność można opisać prostą regresji, ale o tym później Znając wartość współczynnika korelacji r (np. r=0,5) można przy tym stwierdzić, że wzrost kwoty przeznaczanej na wakacje można w 25% wyjaśnić wzrostem zarobków. RHO-SPEARMANA Zależność monotoniczna (wykres funkcji jest rosnący lub malejący, niekoniecznie liniowo!) Interpretacja wyników: Wraz ze wzrostem jednej zmiennej (np. temperatury) rosną wartości drugiej zmiennej (liczby sprzedawanych lodów). Wzrost ten jednak nie musi być liniowy (w końcu można zjeść ograniczoną liczbę lodów nawet jak wzrasta temperatura ), ale zależność jest monotoniczna. Wartość współczynnika Rho liczy się tak samo jak r z tym, że we wzorze nie używa się wartości zmiennych, ale ich rang (pozycji w uporządkowanym szeregu). Czyli siła związku wyznaczana jest właściwie dla rang. Ale interpretacja nie zmienia się. I wszystko wydaje się oczywiste dopóki nie pojawiają się tzw. rangi wiązane czyli takie same wartości rang. 1 RANGI WIĄZANE PRZYKŁAD 1 Wartości zmiennej: 35, 13, 17, 15, 22, 16, 10, 8, 19, 21 Wartości zmiennej uporządkowane: WARTOŚĆ 8 10 13 15 16 17 19 21 22 Pozycja 1 2 3 4 5 6 7 8 9 35 10 RANGA 1 2 3 4 5 6 7 8 9 10 każda wartość zmiennej ma inna rangę = brak rang wiązanych PRZYKŁAD 2 Wartości zmiennej: 22, 10, 13, 17, 13, 22, 22, 10, 8, 13, 13,19,17,30 Wartości zmiennej uporządkowane: WARTOŚĆ 8 10 10 13 13 13 13 17 19 22 22 22 Pozycja 1 2 3 4 5 6 7 8 9 10 11 12 30 13 RANGA 1 2,5 2,5 5,5 5,5 5,5 5,5 8 9 11 11 11 13 Obliczenie rang wiązanych (wartości zmiennej powtarzają się): dodajemy pozycje na których występują te same wartości i dzielimy sumę przez ich liczbę czyli liczymy średnią z pozycji obliczanie rangi wartości zmiennej „10” : „10” znajdują się na pozycji 2 i 3, zatem dodajemy numery pozycji i dzielimy przez ich liczbę (2 + 3)/2 =2,5 obliczanie rangi wartości zmiennej „13”: „13” znajdują się na pozycji 4,5,6,7 więc (4+5+6+7)/4=5,5 obliczanie rangi wartości zmiennej „22”: „22” znajdują się na pozycji 10,11,12 więc (10 + 11 + 12)/3=11 2 TAU - KENDALLA zmienne z dużą liczb rang wiązanych Jeśli w rozkładzie zmiennej wielokrotnie występują te same wartości to oznacza, że w przypadku rangowania zmiennej pojawią się rangi wiązane. Dlaczego rangi wiązane „zaciemniają” obraz zależności? Bo wartości jednej zmiennej odpowiada wtedy nie jedna a wiele różnych wartości drugiej zmiennej, co czyni niemiarodajnymi wartości współczynników r i Rho , (korzystamy z nich zatem, gdy liczba rang wiązanych nie jest duża!) Jeśli występuje dużo rang wiązanych to jako miarę korelacji wykorzystujemy tau-Kendalla. Bazuje ona na ustaleniu: - w ilu przypadkach jeśli rosła wartość jednej zmiennej, to rosła też wartość drugiej zmiennej, - w ilu przypadkach jeśli rosła wartość jednej zmiennej, to malała wartość drugiej zmiennej, - w ilu przypadkach jeśli rosła wartość jednej zmiennej, to wartość drugiej zmiennej nie zmieniła się, rangi wiązane – czyli wartość zmiennej x występuje w zbiorze wartości więcej niż raz (tyle razy ile „nad nią” punktów). Za każdym razem towarzyszy jej inna wartość y. Trudno zatem jednoznacznie stwierdzić czy wzrostowi zmiennej x towarzyszyć będzie wzrost/spadek wartości zmiennej y, gdyż wartości x odpowiadać może wiele wartości y. 3 Ustalenie liczby takich samych i przeciwnych uporządkowań y5 y4 y3 y2 y1 x1 x2 x3 x4 x5 x6 Sprawdzamy co się dzieje z wartościami drugiej zmiennej (y) jeśli wartości jednej zmiennej (x) rosną (maleją) analizujemy parę x1- x2 (x1 < x2) odpowiada jej para y2 - y4 przy czym y2 <y4 czyli wartości x wzrosły i wartości y wzrosły – odnotowujemy wzrost (+) analizujemy parę x1- x3 (x1 < x3) odpowiada jej para y2 - y1 przy czym y2 > y1 czyli wartości x wzrosły, wartości y zmalały – odnotowujemy spadek (-) analizujemy parę x1- x4 (x1 < x4) odpowiada jej para y2 - y3 przy czym y2 <y3 czyli wartości x wzrosły, wartości y też wzrosły – odnotowujemy wzrost (+) analizujemy parę x1- x5 (x1 < x5) odpowiada jej para y2 - y1 przy czym y2 >y1 czyli wartości x wzrosły, wartości y zmalały – odnotowujemy spadek (-) analizujemy parę x1- x6 (x1 < x6) odpowiada jej para y2 - y5 przy czym y2 <y5 czyli wartości x wzrosły, wartości y wzrosły – odnotowujemy spadek (-) ………. analizujemy parę x3- x5 (x3 < x5) odpowiada jej para y1 - y1 przy czym y1 =y1 czyli wartości x wzrosły, wartości y nie zmieniły się (wiązane rangi zmiennej y) – odnotowujemy brak zmiany (0) …….. Procedurę należy powtórzyć dla wszystkich par zmiennej x liczba wszystkich (+) oznacza sytuacje, kiedy wzrostowi wartości jednej zmiennej towarzyszy wzrost wartości drugiej liczba wszystkich (-) oznacza sytuację, kiedy wzrostowi wartości jednej zmiennej towarzyszy spadek wartości drugiej zmiennej Liczba wszystkich (0) oznacza sytuację, kiedy wzrostowi wartości jednej zmiennej nie towarzyszą zmiany wartości drugiej zmiennej. Wszystkich par zmiennych jest n(n-1)/2 Wartość tau – informuje, jak bardzo liczba par o ustalonym porządku (np. rosnących) przewyższa liczbę par o porządku przeciwnym (malejących) czyli jaka sytuacja występuje częściej jak rosną wartości jednej zmiennej – czy częściej wartości drugiej zmiennej rosną (tau dodatnie) czy maleją (tau ujemne). Wartość tau jest to różnica między prawdopodobieństwem tego, że dwie zmienne układają się w tym samym porządku (obie maleją lub rosną) w obrębie obserwowanych danych a prawdopodobieństwem, że ich uporządkowanie się różni (jedna maleje, druga rośnie lub odwrotnie) 4 Korelacje parametryczne – r-Pearsona, oparta na wartościach zmiennej (do jej wyznaczenia wykorzystujemy parametry – średnie, odchylenia standardowe), rozkład zmiennych nie powinien odbiegać od rozkładu normalnego. Korelacje nieparametryczne – Rho-Spearmana, tau-Kendalla, korelacje oparte na rangach (do ich wyznaczenia wykorzystujemy cechy rozkładu zmiennych), brak założeń dotyczących rozkładu INTERPRETACJA WYNIKÓW = 0,05 przyjęty arbitralnie przez badacza poziom istotności czyli dopuszczalne prawdopodobieństwo pomyłki przy uogólnianiu wyników na populację stąd: p< 0,05 współczynnik korelacji jest statystycznie istotny (czyli stwierdzenie zależności w próbie można uogólnić na populację) p> 0,05 współczynnik korelacji nie jest statystycznie istotny (czyli nie ma podstaw do uogólnienia wyniku, nie można mówić, że korelacja występuje w populacji) PRZYKŁAD 1 Interpretacja r-Pearsona p-wartość (istotność statystyczna, dokładna informacja o tym, jakie jest prawdopodobieństwo błędu (pomyłki) uogólnienia wyniku z próby na populację Przykładowy opis wyników (zależność liniowa) Korelacja jest istotna statystycznie na poziomie p<0,05 (a nawet p<0,001, ale nie wolno napisać, że p=0,0!) (oznacza to, że wyniki z próby można uogólnić na populację, z której została wylosowana, dopuszczamy przy tym, że w 5 przypadkach na 100 podejmiemy błędną decyzję stwierdzając korelację w populacji!) Korelacja jest dodatnia, co oznacza, że wraz ze wzrostem stażu pracy rosną liniowo zarobki. Korelacja między stażem pracy a zarobkami jest wysoka (r=0,57). Współczynnik determinacji wynosi r2=0,32 czyli 32% zmienności zarobków można wyjaśnić długością zatrudnienia. Pozostałe 68% zmienności/zróżnicowania zarobków zależy od innych (niebadanych tutaj) czynników np. zaangażowania w pracę, zajmowanego stanowiska, wykształcenia, itd. Wspólna wariancja (czyli wspólna część zmienności/zróżnicowania) wynosi 31%. Uwaga: Nawet jeśli związek między zmiennymi jest bardzo siny, współczynnik korelacji jest bardzo wysoki (np. 0,9) to zmienność jednej zmiennej wyjaśnia „tylko” 81% zmienności drugiej zmiennej. Prawie 1/5 (19%) zmienności wciąż pozostaje niewyjaśniona. Przy czym tak wysokie wartości współczynnika korelacji w badaniach społecznych występują bardzo rzadko. Na ogół najwyższe wartości współczynnika lokują się wokół wartości umiarkowanych (wyższe można nawet uznać za podejrzane! – błąd w danych) PRZYKŁAD 2 Interpretacja Rho-Spearmana Korelacja między czasem poświęcanym na naukę języka obcego a wynikiem testu z języka obcego jest istotna statystycznie (p<0,05). Korelacja jest dodatnia, co oznacza, że wraz ze wzrostem liczby dni nauki rośnie wynik z testu. Korelacja między liczbą dni nauki a wynikiem testu jest umiarkowana. 5 PRZYKŁAD 3 Interpretacja tau-b Analizowane zmienne: pozytywne widzenie przyszłości, koncentracja na planach (obie zmienne mierzone na skali porządkowej) Korelacja między zmiennymi jest istotna statystycznie na poziomie p<0,05. Korelacja jest dodatnia i umiarkowana (tau-b=0,497), co oznacza, że wraz z bardziej pozytywnym widzeniem przyszłości częściej rośnie poziom koncentracji na planach. Wzrost koncentracji na planach częściej współwystępuje ze wzrostem pozytywnego postrzegania przyszłości. Wzrostowi pozytywnego postrzegania przyszłości towarzyszy wzrost koncentracji na planach. Uwaga: W przypadku tau nie można stwierdzić, że im wyższa wartość jednej zmiennej tym wyższa drugiej, możemy natomiast stwierdzić, że jak jedna wartość wzrośnie to (jest bardziej prawdopodobne, że) druga również wzrośnie/zmaleje) PRZYKŁAD 4 Interpretacja wyników zadania 3 (tau-b) 2. a) Korelacja jest istotna statystycznie (p<0,05), Korelacja między poziomem akceptacji stwierdzenia „Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie złości” a poziomem akceptacji stwierdzenia „Moi rodzice wyjaśniają mi, dlaczego nie chcą czegoś, co ja chciałbym zrobić” jest dodatnia i umiarkowana (tau-b=0,33). Wraz ze wzrostem poziomu akceptacji stwierdzenia „Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie złości” częściej rośnie (niż maleje) poziom akceptacji stwierdzenie „Moi rodzice wyjaśniają mi, dlaczego nie chcą czegoś, co ja chciałbym zrobić”. Ponieważ korelacja jest symetryczna możemy wyrazić to również następująco: Wzrostowi poziomu akceptacji stwierdzenia „Moi rodzice wyjaśniają mi, dlaczego nie chcą czegoś, co ja chciałbym zrobić” częściej towarzyszy wzrost poziomu akceptacji stwierdzenia „Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie złości” 2. b) Korelacja między poziomem akceptacji stwierdzenia „Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie złości” a poziomem akceptacji stwierdzenia „Moje zdanie nie jest ważne, trzeba robić, to co powiedzą rodzice” jest istotna statystycznie (p<0,05). Korelacja jest ujemna i słaba (tau-b=-0,28) co oznacza, że ze wzrostem poziomu akceptacji stwierdzenia „Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie złości” częściej maleje (niż rośnie) poziom akceptacji stwierdzenie „Moje zdanie nie jest ważne, trzeba robić, to co powiedzą rodzice”. Ponieważ korelacja jest symetryczna możemy wyrazić to również następująco: Wzrost poziomu akceptacji stwierdzenia „Moje zdanie nie jest ważne, trzeba robić, to co powiedzą rodzice” częściej współwystępuje ze spadkiem poziomu akceptacji stwierdzenia „Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie złości”. 2. c) Wyniki badań nie pozwalają na stwierdzenie, że istnieje korelacja między poziomem akceptacji stwierdzeń „Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie złości” i „Pewne zasady nie podlegają dyskusji”. (istotność (p) jest p=0,86, a to oznacza, bardzo duże prawdopodobieństwo pomyłki przy uogólnianiu wyników na populację, dopuszczalna granica 0,05 zatem nie możemy stwierdzić, że korelacja występuje w populacji.) 6