Prezentacja, część 1
Transkrypt
Prezentacja, część 1
2016-12-16 •Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego •Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. • Im wyższa korelacja tym lepiej potrafimy przewidzieć wartość jednej zmiennej na podstawie znajomości wartości drugiej (predykacja) • Korelacja dodatnia (ujemna) oznacza, że wraz ze wzrostem wartości jednej zmiennej wartości drugiej zmiennej rosną (maleją) • Wartość współczynników korelacji mieści się między <-1,1>. • Siła związku: wartość bezwzględna z wartości współczynnika korelacji 0,00-0,10 bardzo niska 0,11-0,30 niska 0,31-0,50 umiarkowana 0,51-0,70 wysoka 0,71-1,00 bardzo wysoka 1 2016-12-16 •Jedynie siłę związku liniowego można mierzyć współczynnikiem korelacji r-Pearsona. Obie zmienne muszą być ilościowe! Przykład: Współczynniki korelacji między wiekiem a czasem korzystania z Internetu wynosi r=-0,4. Interpretacja: Korelacja między wiekiem a czasem korzystania z Internetu jest umiarkowana i ujemna (r=-0,4) co oznacza, że im starszy badany tym krótszy czas korzystania z sieci. Interpretujemy również współczynnik determinacji r2, który opisuje jaką część wariancji (zmienności) jednej zmiennej możemy objaśnić zmiennością drugiej zmiennej (wspólna wariancja). 16% (0,42) zmienności (zróżnicowania) czasu korzystania z Internetu można wyjaśnić zmiennością wieku. Pozostałe 86% zmienności czasu przeznaczanego na Internet zależy od innych niebadanych czynników (ceny dostępu, posiadania komputera, wolnego czasu, liczby posiadanych przyjaciół, itp.) W badaniach społecznych wartość współczynnika korelacji powyżej 0,7 powinna budzić wątpliwości! Jeśli chcemy wartość współczynnika korelacji interpretować jako estymator parametru w populacji powinny być spełnione warunki: - obie zmienne powinny mieć rozkład zbliżony do normalnego (A<-1,1> K<-3,3>) - wariancje obu zmiennych powinny być zbliżone (jeśli mamy więcej niż 50 badanych ten warunek można pominąć) Współczynnik korelacji interpretujemy zaczynając od sprawdzenia czy jest istotny statystycznie czyli czy można uzyskany wynik mówiący o korelacji między zmiennymi uogólnić na populację, z której pochodzi próba. Jeśli korelacja stwierdzona w próbie nie jest istotna to nie ma powodów by się nią zajmować • Jeśli współczynnik korelacji jest istotny – podajemy wartość współczynnika, kierunek zależności i siłę związku oraz dokonujemy interpretacji • Jeśli współczynnik korelacji nie jest istotny to można napisać, że w (tych!) badaniach nie potwierdzono istnienia korelacji, co absolutnie nie oznacza, że ona nie istnieje O istotności korelacji orzekamy na podstawie tzw. p-wartości wyliczanej przez program statystyczny P-wartość: istotność statystyczna, dokładna informacja o tym, jakie jest prawdopodobieństwo błędu (pomyłki) przy uogólnienia wyniku z próby na populację (a dokładnie rzecz biorąc przy odrzucaniu prawdziwej hipotezy zerowej – to informacja na przyszłość) 2 2016-12-16 5 Wartość współczynnika Rho wyznaczana jest nie w oparciu o wartości zmiennej, ale ich rangi Ranga to numer kolejny obserwacji w próbie po uporządkowaniu obserwacji według wartości jednej ze zmiennych 6 3 2016-12-16 7 Obliczając Rho zakładamy, że rangi są liczbami całkowitymi. W przypadku pojawienia się rang wiązach wartość założenie to nie jest spełnione, co wpływa znacząco na wynik Rho. Można liczyć Rho przy rangach wiązanych jeśli związanych jest mniej niż jedna trzecia pomiarów 8 4 2016-12-16 Procedurę należy powtórzyć dla wszystkich par zmiennej x liczba wszystkich (+) oznacza sytuacje, kiedy wzrostowi wartości jednej zmiennej towarzyszy wzrost wartości drugiej liczba wszystkich (-) oznacza sytuację, kiedy wzrostowi wartości jednej zmiennej towarzyszy spadek wartości drugiej zmiennej Liczba wszystkich (0) oznacza sytuację, kiedy wzrostowi wartości jednej zmiennej nie towarzyszą zmiany wartości drugiej zmiennej. Wszystkich par zmiennych jest n(n-1)/ 9 Wartość tau – informuje, jak bardzo liczba par o ustalonym porządku (np. rosnących) przewyższa liczbę par o porządku przeciwnym (malejących) czyli jaka sytuacja występuje częściej jak rosną wartości jednej zmiennej – czy częściej wartości drugiej zmiennej rosną (tau dodatnie) czy maleją (tau ujemne). Wartość tau jest to różnica między prawdopodobieństwem tego, że dwie zmienne układają się w tym samym porządku (obie maleją lub rosną) w obrębie obserwowanych danych a prawdopodobieństwem, że ich uporządkowanie się różni (jedna maleje, druga rośnie lub odwrotnie) Interpretacja tau b=0,7 czyli korelacja jest dodatnia i wysoka, co oznacza, że jeśli rosną wartości jednej zmiennej to częściej rosną wartości drugiej zmiennej 10 5 2016-12-16 Korelacje parametryczne – r-Pearsona, oparta na wartościach zmiennej (do jej wyznaczenia wykorzystujemy parametry – średnie, odchylenia standardowe), rozkład zmiennych nie powinien odbiegać od rozkładu normalnego. Korelacje nieparametryczne – Rho-Spearmana, tau-Kendalla, d-Somersa korelacje oparte na rangach (do ich wyznaczenia wykorzystujemy cechy rozkładu zmiennych), brak założeń dotyczących rozkładu 11 r-Pearsona nie liczymy • Jeśli nie są spełnione założenia o normalności rozkładu zmiennych • Jeśli zależność nie jest liniowa należy interpretować korelację za pomocą współczynnika Rho –Spearmana (możne wykonać wykres rozrzutu lub policzyć Rho i r jeśli wartości są zbliżone to korelacja jest liniowa = interpretujemy r, w przeciwnym wypadku wybieramy rho. Rho liczymy • dla zmiennych ilościowych jeśli nie można policzyć r-Pearsona • dla zmiennych porządkowych mierzonych na „długich” skalach. Jeśli skale są „krótkie” to występuje wiele rang wiązanych i wtedy bardziej odpowiednim współczynnikiem jest tau. Tau liczymy • dla zmiennych porządkowych (Liczba kategorii większa niż 5) kiedy nie można policzyć Rho. • nie jest błędem policzenie tau dla zmiennych ilościowych 6 2016-12-16 • R-Pearsona zaniża oszacowanie związku nieliniowego, czyli jeśli nie ma korelacji liniowej to może być silny związek nieliniowy mimo, że r jest słabe. R jest miarą związku liniowego • Im większy zakres zmienności tym większa szansa na duże r. Można się spodziewać silniejszej zależności między czasem nauki a wynikiem testu jeśli wyniki są bardziej zróżnicowane. Jeśli wszyscy napiszą test dobrze (krótki przedział zmienności) r będzie mniejsze. Jeśli grupa jest bardzo zróżnicowana wiekowo to łatwiej będzie uzyskać wyższy współczynnik korelacji np. korelacja między wiekiem a czasem korzystania z Internetu będzie wyższa wśród wszystkich dorosłych niż wśród studentów. 7