wraz ze wzrostem wartości jednej zmiennej

Transkrypt

wraz ze wzrostem wartości jednej zmiennej
R-PEARSONA
Zależność liniowa
Interpretacja wyników:
wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty
przeznaczanej na wakacje) czyli np. im wyższe zarobki tym wyższa kwota na wakacje! Liniową zależność można opisać
prostą regresji, ale o tym później 
Znając wartość współczynnika korelacji r (np. r=0,5) można przy tym stwierdzić, że wzrost kwoty przeznaczanej na
wakacje można w 25% wyjaśnić wzrostem zarobków.
RHO-SPEARMANA
Zależność monotoniczna (wykres funkcji jest rosnący lub malejący, niekoniecznie liniowo!)
Interpretacja wyników:
Wraz ze wzrostem jednej zmiennej (np. temperatury) rosną wartości drugiej zmiennej (liczby sprzedawanych lodów).
Wzrost ten jednak nie musi być liniowy (w końcu można zjeść ograniczoną liczbę lodów nawet jak wzrasta
temperatura ), ale zależność jest monotoniczna.
Wartość współczynnika Rho liczy się tak samo jak r z tym, że we wzorze nie używa się wartości zmiennych, ale ich rang
(pozycji w uporządkowanym szeregu). Czyli siła związku wyznaczana jest właściwie dla rang. Ale interpretacja nie
zmienia się.
I wszystko wydaje się oczywiste dopóki nie pojawiają się tzw. rangi wiązane czyli takie same wartości rang.
1
RANGI WIĄZANE
PRZYKŁAD 1
Wartości zmiennej: 35, 13, 17, 15, 22, 16, 10, 8, 19, 21
Wartości zmiennej uporządkowane:
WARTOŚĆ
8
10
13
15
16
17
19
21
22
Pozycja
1
2
3
4
5
6
7
8
9
35
10
RANGA
1
2
3
4
5
6
7
8
9
10
każda wartość zmiennej ma inna rangę = brak rang wiązanych
PRZYKŁAD 2
Wartości zmiennej: 22, 10, 13, 17, 13, 22, 22, 10, 8, 13, 13,19,17,30
Wartości zmiennej uporządkowane:
WARTOŚĆ
8
10
10
13
13
13
13
17
19
22
22
22
Pozycja
1
2
3
4
5
6
7
8
9
10
11
12
30
13
RANGA
1
2,5
2,5
5,5
5,5
5,5
5,5
8
9
11
11
11
13
Obliczenie rang wiązanych (wartości zmiennej powtarzają się): dodajemy pozycje na których występują te same
wartości i dzielimy sumę przez ich liczbę czyli liczymy średnią z pozycji

obliczanie rangi wartości zmiennej „10” : „10” znajdują się na pozycji 2 i 3, zatem dodajemy numery
pozycji i dzielimy przez ich liczbę (2 + 3)/2 =2,5

obliczanie rangi wartości zmiennej „13”: „13” znajdują się na pozycji 4,5,6,7 więc (4+5+6+7)/4=5,5

obliczanie rangi wartości zmiennej „22”: „22” znajdują się na pozycji 10,11,12 więc (10 + 11 + 12)/3=11
2
TAU - KENDALLA
zmienne z dużą liczb rang wiązanych
Jeśli w rozkładzie zmiennej wielokrotnie występują te same wartości to oznacza, że w przypadku rangowania zmiennej
pojawią się rangi wiązane.
Dlaczego rangi wiązane „zaciemniają” obraz zależności? Bo wartości jednej zmiennej odpowiada wtedy nie jedna a
wiele różnych wartości drugiej zmiennej, co czyni niemiarodajnymi wartości współczynników r i Rho ,
(korzystamy z nich zatem, gdy liczba rang wiązanych nie jest duża!)
Jeśli występuje dużo rang wiązanych to jako miarę korelacji wykorzystujemy tau-Kendalla. Bazuje ona na ustaleniu:
- w ilu przypadkach jeśli rosła wartość jednej zmiennej, to rosła też wartość drugiej zmiennej,
- w ilu przypadkach jeśli rosła wartość jednej zmiennej, to malała wartość drugiej zmiennej,
- w ilu przypadkach jeśli rosła wartość jednej zmiennej, to wartość drugiej zmiennej nie zmieniła się,
rangi wiązane – czyli wartość zmiennej x występuje w zbiorze wartości więcej niż raz (tyle razy ile „nad nią”
punktów). Za każdym razem towarzyszy jej inna wartość y. Trudno zatem jednoznacznie stwierdzić czy wzrostowi
zmiennej x towarzyszyć będzie wzrost/spadek wartości zmiennej y, gdyż wartości x odpowiadać może wiele wartości y.
3
Ustalenie liczby takich samych i przeciwnych uporządkowań
y5
y4
y3
y2
y1
x1
x2
x3
x4
x5
x6
Sprawdzamy co się dzieje z wartościami drugiej zmiennej (y) jeśli wartości jednej zmiennej (x) rosną (maleją)
analizujemy parę x1- x2 (x1 < x2) odpowiada jej para y2 - y4 przy czym y2 <y4 czyli wartości x wzrosły i wartości y wzrosły –
odnotowujemy wzrost (+)
analizujemy parę x1- x3 (x1 < x3) odpowiada jej para y2 - y1 przy czym y2 > y1 czyli wartości x wzrosły, wartości y zmalały –
odnotowujemy spadek (-)
analizujemy parę x1- x4 (x1 < x4) odpowiada jej para y2 - y3 przy czym y2 <y3 czyli wartości x wzrosły, wartości y też wzrosły
– odnotowujemy wzrost (+)
analizujemy parę x1- x5 (x1 < x5) odpowiada jej para y2 - y1 przy czym y2 >y1 czyli wartości x wzrosły, wartości y zmalały –
odnotowujemy spadek (-)
analizujemy parę x1- x6 (x1 < x6) odpowiada jej para y2 - y5 przy czym y2 <y5 czyli wartości x wzrosły, wartości y wzrosły
– odnotowujemy spadek (-)
……….
analizujemy parę x3- x5 (x3 < x5) odpowiada jej para y1 - y1 przy czym y1 =y1 czyli wartości x wzrosły, wartości y nie
zmieniły się (wiązane rangi zmiennej y) – odnotowujemy brak zmiany (0)
……..
Procedurę należy powtórzyć dla wszystkich par zmiennej x
liczba wszystkich (+) oznacza sytuacje, kiedy wzrostowi wartości jednej zmiennej towarzyszy wzrost wartości drugiej
liczba wszystkich (-) oznacza sytuację, kiedy wzrostowi wartości jednej zmiennej towarzyszy spadek wartości drugiej
zmiennej
Liczba wszystkich (0) oznacza sytuację, kiedy wzrostowi wartości jednej zmiennej nie towarzyszą zmiany wartości
drugiej zmiennej.
Wszystkich par zmiennych jest n(n-1)/2
Wartość tau – informuje, jak bardzo liczba par o ustalonym porządku (np. rosnących) przewyższa liczbę par o
porządku przeciwnym (malejących) czyli jaka sytuacja występuje częściej jak rosną wartości jednej zmiennej – czy
częściej wartości drugiej zmiennej rosną (tau dodatnie) czy maleją (tau ujemne).
Wartość tau jest to różnica między prawdopodobieństwem tego, że dwie zmienne układają się w tym samym
porządku (obie maleją lub rosną) w obrębie obserwowanych danych a prawdopodobieństwem, że ich
uporządkowanie się różni (jedna maleje, druga rośnie lub odwrotnie)
4
Korelacje parametryczne – r-Pearsona, oparta na wartościach zmiennej (do jej wyznaczenia wykorzystujemy
parametry – średnie, odchylenia standardowe), rozkład zmiennych nie powinien odbiegać od rozkładu normalnego.
Korelacje nieparametryczne – Rho-Spearmana, tau-Kendalla, korelacje oparte na rangach (do ich wyznaczenia
wykorzystujemy cechy rozkładu zmiennych), brak założeń dotyczących rozkładu
INTERPRETACJA WYNIKÓW
 = 0,05 przyjęty arbitralnie przez badacza poziom istotności czyli dopuszczalne prawdopodobieństwo
pomyłki przy uogólnianiu wyników na populację
stąd:
p< 0,05 współczynnik korelacji jest statystycznie istotny (czyli stwierdzenie zależności w próbie można
uogólnić na populację)
p> 0,05 współczynnik korelacji nie jest statystycznie istotny (czyli nie ma podstaw do uogólnienia
wyniku, nie można mówić, że korelacja występuje w populacji)
PRZYKŁAD 1 Interpretacja r-Pearsona
p-wartość (istotność statystyczna,
dokładna informacja o tym, jakie
jest prawdopodobieństwo błędu
(pomyłki) uogólnienia wyniku z
próby na populację
Przykładowy opis wyników (zależność liniowa)
Korelacja jest istotna statystycznie na poziomie p<0,05 (a nawet p<0,001, ale nie wolno napisać, że p=0,0!)
(oznacza to, że wyniki z próby można uogólnić na populację, z której została wylosowana, dopuszczamy przy tym, że w
5 przypadkach na 100 podejmiemy błędną decyzję stwierdzając korelację w populacji!)
Korelacja jest dodatnia, co oznacza, że wraz ze wzrostem stażu pracy rosną liniowo zarobki.
Korelacja między stażem pracy a zarobkami jest wysoka (r=0,57). Współczynnik determinacji wynosi r2=0,32 czyli 32%
zmienności zarobków można wyjaśnić długością zatrudnienia.
Pozostałe 68% zmienności/zróżnicowania zarobków zależy od innych (niebadanych tutaj) czynników np.
zaangażowania w pracę, zajmowanego stanowiska, wykształcenia, itd. Wspólna wariancja (czyli wspólna część
zmienności/zróżnicowania) wynosi 31%.
Uwaga: Nawet jeśli związek między zmiennymi jest bardzo siny, współczynnik korelacji jest bardzo wysoki (np. 0,9) to
zmienność jednej zmiennej wyjaśnia „tylko” 81% zmienności drugiej zmiennej. Prawie 1/5 (19%) zmienności wciąż
pozostaje niewyjaśniona. Przy czym tak wysokie wartości współczynnika korelacji w badaniach społecznych występują
bardzo rzadko. Na ogół najwyższe wartości współczynnika lokują się wokół wartości umiarkowanych (wyższe można
nawet uznać za podejrzane! – błąd w danych)
PRZYKŁAD 2 Interpretacja Rho-Spearmana
Korelacja między czasem poświęcanym na naukę języka obcego a wynikiem testu z języka obcego jest istotna
statystycznie (p<0,05). Korelacja jest dodatnia, co oznacza, że wraz ze wzrostem liczby dni nauki rośnie wynik z testu.
Korelacja między liczbą dni nauki a wynikiem testu jest umiarkowana.
5
PRZYKŁAD 3 Interpretacja tau-b
Analizowane zmienne: pozytywne widzenie przyszłości, koncentracja na planach (obie zmienne mierzone na skali
porządkowej)
Korelacja między zmiennymi jest istotna statystycznie na poziomie p<0,05. Korelacja jest dodatnia i umiarkowana
(tau-b=0,497), co oznacza, że wraz z bardziej pozytywnym widzeniem przyszłości częściej rośnie poziom koncentracji
na planach. Wzrost koncentracji na planach częściej współwystępuje ze wzrostem pozytywnego postrzegania
przyszłości. Wzrostowi pozytywnego postrzegania przyszłości towarzyszy wzrost koncentracji na planach.
Uwaga: W przypadku tau nie można stwierdzić, że im wyższa wartość jednej zmiennej tym wyższa drugiej, możemy
natomiast stwierdzić, że jak jedna wartość wzrośnie to (jest bardziej prawdopodobne, że) druga również
wzrośnie/zmaleje)
PRZYKŁAD 4 Interpretacja wyników zadania 3 (tau-b)
2. a)
Korelacja jest istotna statystycznie (p<0,05), Korelacja między poziomem akceptacji stwierdzenia „Mogę rozmawiać z
rodzicami o pewnych zasadach i to ich nie złości” a poziomem akceptacji stwierdzenia „Moi rodzice wyjaśniają mi,
dlaczego nie chcą czegoś, co ja chciałbym zrobić” jest dodatnia i umiarkowana (tau-b=0,33). Wraz ze wzrostem
poziomu akceptacji stwierdzenia „Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie złości” częściej rośnie
(niż maleje) poziom akceptacji stwierdzenie „Moi rodzice wyjaśniają mi, dlaczego nie chcą czegoś, co ja chciałbym
zrobić”.
Ponieważ korelacja jest symetryczna możemy wyrazić to również następująco:
Wzrostowi poziomu akceptacji stwierdzenia „Moi rodzice wyjaśniają mi, dlaczego nie chcą czegoś, co ja chciałbym
zrobić” częściej towarzyszy wzrost poziomu akceptacji stwierdzenia „Mogę rozmawiać z rodzicami o pewnych
zasadach i to ich nie złości”
2. b)
Korelacja między poziomem akceptacji stwierdzenia „Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie
złości” a poziomem akceptacji stwierdzenia „Moje zdanie nie jest ważne, trzeba robić, to co powiedzą rodzice” jest
istotna statystycznie (p<0,05). Korelacja jest ujemna i słaba (tau-b=-0,28) co oznacza, że ze wzrostem poziomu
akceptacji stwierdzenia „Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie złości” częściej maleje (niż
rośnie) poziom akceptacji stwierdzenie „Moje zdanie nie jest ważne, trzeba robić, to co powiedzą rodzice”.
Ponieważ korelacja jest symetryczna możemy wyrazić to również następująco:
Wzrost poziomu akceptacji stwierdzenia „Moje zdanie nie jest ważne, trzeba robić, to co powiedzą rodzice” częściej
współwystępuje ze spadkiem poziomu akceptacji stwierdzenia „Mogę rozmawiać z rodzicami o pewnych zasadach i to
ich nie złości”.
2. c) Wyniki badań nie pozwalają na stwierdzenie, że istnieje korelacja między poziomem akceptacji stwierdzeń „Mogę
rozmawiać z rodzicami o pewnych zasadach i to ich nie złości” i „Pewne zasady nie podlegają dyskusji”.
(istotność (p) jest p=0,86, a to oznacza, bardzo duże prawdopodobieństwo pomyłki przy uogólnianiu wyników na
populację, dopuszczalna granica 0,05 zatem nie możemy stwierdzić, że korelacja występuje w populacji.)
6