Prezentacja, część 1

Transkrypt

Prezentacja, część 1
2016-12-16
•Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego
•Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną.
• Im wyższa korelacja tym lepiej potrafimy przewidzieć wartość jednej zmiennej na podstawie
znajomości wartości drugiej (predykacja)
• Korelacja dodatnia (ujemna) oznacza, że wraz ze wzrostem wartości jednej zmiennej wartości
drugiej zmiennej rosną (maleją)
• Wartość współczynników korelacji mieści się między <-1,1>.
• Siła związku: wartość bezwzględna z wartości współczynnika korelacji
0,00-0,10 bardzo niska
0,11-0,30 niska
0,31-0,50 umiarkowana
0,51-0,70 wysoka
0,71-1,00 bardzo wysoka
1
2016-12-16
•Jedynie siłę związku liniowego można mierzyć współczynnikiem korelacji r-Pearsona. Obie zmienne
muszą być ilościowe!
Przykład:
Współczynniki korelacji między wiekiem a czasem korzystania z Internetu wynosi r=-0,4.
Interpretacja:
Korelacja między wiekiem a czasem korzystania z Internetu jest umiarkowana i ujemna (r=-0,4)
co oznacza, że im starszy badany tym krótszy czas korzystania z sieci.
Interpretujemy również współczynnik determinacji r2, który opisuje jaką część wariancji (zmienności)
jednej zmiennej możemy objaśnić zmiennością drugiej zmiennej (wspólna wariancja).
16% (0,42) zmienności (zróżnicowania) czasu korzystania z Internetu można wyjaśnić zmiennością wieku.
Pozostałe 86% zmienności czasu przeznaczanego na Internet zależy od innych niebadanych czynników
(ceny dostępu, posiadania komputera, wolnego czasu, liczby posiadanych przyjaciół, itp.)
W badaniach społecznych wartość współczynnika korelacji powyżej 0,7 powinna budzić wątpliwości!
Jeśli chcemy wartość współczynnika korelacji interpretować jako estymator parametru w populacji
powinny być spełnione warunki:
- obie zmienne powinny mieć rozkład zbliżony do normalnego (A<-1,1> K<-3,3>)
- wariancje obu zmiennych powinny być zbliżone (jeśli mamy więcej niż 50 badanych ten warunek
można pominąć)
Współczynnik korelacji interpretujemy zaczynając od sprawdzenia czy jest istotny statystycznie czyli
czy można uzyskany wynik mówiący o korelacji między zmiennymi uogólnić na populację, z której
pochodzi próba.
Jeśli korelacja stwierdzona w próbie nie jest istotna to nie ma powodów by się nią zajmować 
• Jeśli współczynnik korelacji jest istotny – podajemy wartość współczynnika, kierunek zależności i
siłę związku oraz dokonujemy interpretacji
• Jeśli współczynnik korelacji nie jest istotny to można napisać, że w (tych!) badaniach nie
potwierdzono istnienia korelacji, co absolutnie nie oznacza, że ona nie istnieje 
O istotności korelacji orzekamy na podstawie tzw. p-wartości wyliczanej przez program statystyczny
P-wartość: istotność statystyczna, dokładna informacja o tym, jakie jest prawdopodobieństwo błędu
(pomyłki) przy uogólnienia wyniku z próby na populację (a dokładnie rzecz biorąc przy odrzucaniu
prawdziwej hipotezy zerowej – to informacja na przyszłość)
2
2016-12-16
5
Wartość współczynnika Rho wyznaczana jest nie w oparciu
o wartości zmiennej, ale ich rangi
Ranga to numer kolejny obserwacji w próbie po uporządkowaniu
obserwacji według wartości jednej ze zmiennych
6
3
2016-12-16
7
Obliczając Rho zakładamy, że rangi są liczbami całkowitymi. W przypadku pojawienia się
rang wiązach wartość założenie to nie jest spełnione, co wpływa znacząco na wynik Rho.
Można liczyć Rho przy rangach wiązanych jeśli związanych jest mniej niż jedna trzecia
pomiarów
8
4
2016-12-16
Procedurę należy powtórzyć dla wszystkich par zmiennej x
liczba wszystkich (+) oznacza sytuacje, kiedy wzrostowi
wartości jednej zmiennej towarzyszy wzrost wartości drugiej
liczba wszystkich (-) oznacza sytuację, kiedy wzrostowi
wartości jednej zmiennej towarzyszy spadek wartości drugiej
zmiennej
Liczba wszystkich (0) oznacza sytuację, kiedy wzrostowi
wartości jednej zmiennej nie towarzyszą zmiany wartości
drugiej zmiennej.
Wszystkich par zmiennych jest n(n-1)/
9
Wartość tau – informuje, jak bardzo liczba par o ustalonym porządku (np.
rosnących) przewyższa liczbę par o porządku przeciwnym (malejących) czyli
jaka sytuacja występuje częściej jak rosną wartości jednej zmiennej – czy
częściej wartości drugiej zmiennej rosną (tau dodatnie) czy maleją (tau
ujemne).
Wartość tau jest to różnica między prawdopodobieństwem tego, że dwie
zmienne układają się w tym samym porządku (obie maleją lub rosną) w
obrębie obserwowanych danych a prawdopodobieństwem, że ich
uporządkowanie się różni (jedna maleje, druga rośnie lub odwrotnie)
Interpretacja
tau b=0,7 czyli korelacja jest dodatnia i wysoka, co oznacza, że jeśli rosną
wartości jednej zmiennej to częściej rosną wartości drugiej zmiennej
10
5
2016-12-16
Korelacje parametryczne – r-Pearsona, oparta na wartościach zmiennej
(do jej wyznaczenia wykorzystujemy parametry – średnie,
odchylenia standardowe), rozkład zmiennych nie powinien
odbiegać od rozkładu normalnego.
Korelacje nieparametryczne – Rho-Spearmana, tau-Kendalla, d-Somersa
korelacje oparte na rangach (do ich wyznaczenia wykorzystujemy
cechy rozkładu zmiennych), brak założeń dotyczących rozkładu
11
r-Pearsona nie liczymy
• Jeśli nie są spełnione założenia o normalności rozkładu zmiennych
• Jeśli zależność nie jest liniowa należy interpretować korelację za pomocą współczynnika
Rho –Spearmana (możne wykonać wykres rozrzutu lub policzyć Rho i r jeśli wartości są zbliżone
to korelacja jest liniowa = interpretujemy r, w przeciwnym wypadku wybieramy rho.
Rho liczymy
• dla zmiennych ilościowych jeśli nie można policzyć r-Pearsona
• dla zmiennych porządkowych mierzonych na „długich” skalach. Jeśli skale są „krótkie”
to występuje wiele rang wiązanych i wtedy bardziej odpowiednim współczynnikiem jest tau.
Tau liczymy
• dla zmiennych porządkowych (Liczba kategorii większa niż 5) kiedy nie można policzyć Rho.
• nie jest błędem policzenie tau dla zmiennych ilościowych 
6
2016-12-16
• R-Pearsona zaniża oszacowanie związku nieliniowego, czyli jeśli nie ma korelacji liniowej
to może być silny związek nieliniowy mimo, że r jest słabe. R jest miarą związku liniowego
• Im większy zakres zmienności tym większa szansa na duże r.
Można się spodziewać silniejszej zależności między czasem nauki a wynikiem testu jeśli
wyniki są bardziej zróżnicowane. Jeśli wszyscy napiszą test dobrze (krótki przedział zmienności)
r będzie mniejsze.
Jeśli grupa jest bardzo zróżnicowana wiekowo to łatwiej będzie uzyskać wyższy współczynnik
korelacji np. korelacja między wiekiem a czasem korzystania z Internetu będzie wyższa wśród
wszystkich dorosłych niż wśród studentów.
7