KORELACJE I REGRESJA LINIOWA

Transkrypt

KORELACJE I REGRESJA LINIOWA
KORELACJE
I
REGRESJA LINIOWA
Korelacje i regresja liniowa
Analiza korelacji:
Badanie, czy pomiędzy dwoma zmiennymi istnieje
zależność
Obie analizy się
wzajemnie przeplatają
Analiza regresji:
Opisanie modelem matematycznym zależności
pomiędzy dwoma zmiennymi
Korelacje i regresja liniowa
Badamy [%] wyciek soków tkankowych z tkanki mięśniowej ryb w
czasie chłodniczego przechowywania przez 2, 4, 6, 8 i 10 dni.
Chcemy określić wpływ długości przechowywania na wielkość
wycieku.
X
Zmienna
niezależna
Y
Zmienna
zależna
Czas
2
4
6
8
10
Wyciek
1,7
2,2
3,2
3,6
4,5
n=5
L-ba par zmiennych
XiY
Korelacje i regresja liniowa
4
6
3,5
5
3
4
2,5
2
3
1,5
2
1
1
0,5
0
0
0
2
4
6
8
10
0
12
2
4
6
8
10
12
5
2,5
4,5
4
2
3,5
3
1,5
2,5
2
1
1,5
1
0,5
0,5
0
0
0
0
2
4
6
8
10
12
2
4
6
8
10
12
Korelacje i regresja liniowa
4
6
3,5
5
3
4
2,5
2
3
1,5
2
1
1
0,5
0
0
0
2
4
6
8
10
0
12
2
4
6
8
10
12
5
2,5
4,5
4
2
3,5
3
1,5
2,5
2
1
1,5
1
0,5
0,5
0
0
0
0
2
4
6
8
10
12
2
4
6
8
10
12
Korelacje i regresja liniowa
5
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
0
2
4
6
8
10
12
Analiza korelacji
Analiza korelacji
Metoda
graficzna
Współczynnik
korelacji rang
Spearmana
Kowariancja
Współczynnik
korelacji liniowej
Pearsona
Analiza korelacji
Analiza korelacji
Metoda
graficzna
Współczynnik
korelacji rang
Spearmana
Kowariancja
Współczynnik
korelacji liniowej
Pearsona
Analiza korelacji
Metoda graficzna
Do wykrycia zależności (korelacji) służą wykresy rozrzutu
Wyniki układają
się wzdłuż linii
Jest zależność!
Wyniki układają się w
rozmytą chmurę punktów
Brak zależności!
Analiza korelacji
Metoda graficzna
Do wykrycia zależności (korelacji) służą wykresy rozrzutu
Zależność
wprosproporcjonalna
Zależność odwrotnie
proporcjonalna
Analiza korelacji
Analiza korelacji
Metoda
graficzna
Współczynnik
korelacji rang
Spearmana
Kowariancja
Współczynnik
korelacji liniowej
Pearsona
Analiza korelacji
Kowariancja
Liczbowa miara zależności dwóch zmiennych X i Y
1
𝑐𝑜𝑣 𝑋, 𝑌 =
𝑛
𝑛
𝑥𝑖 − 𝑥
2
𝑦𝑖 − 𝑦
1
21
1
𝑖=1
Zmienne X i Y są niezależne jeśli cov(X,Y)=0
Analiza korelacji
Kowariancja
Cov(X,Y) > 0
zależność wprostproporcjonalna
(ze wzrostem x rośnie y)
Cov(X,Y) < 0
zależność odwrotnie proporcjonalna
(ze wzrostem x maleje y)
Możemy ocenić kierunek zależności, ale
nie możemy ocenić jej siły!
Analiza korelacji
Analiza korelacji
Metoda
graficzna
Współczynnik
korelacji rang
Spearmana
Kowariancja
Współczynnik
korelacji liniowej
Pearsona
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
• Między zmiennymi X i Y istnieje zależność liniowa, jeżeli najlepszym
przybliżeniem obserwowanego związku jest linia prosta
• obliczając r Pearsona mierzymy, jak blisko linii prostej najlepiej
opisującej ich związek liniowy leżą punkty
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Dla populacji generalnej:
𝑐𝑜𝑣(𝑋, 𝑌)
r𝑟 =
𝜎 𝑋 ∙ 𝜎(𝑌)
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Dla próby:
𝑟=
𝑛
𝑖=1
𝑛
𝑖=1
𝑥𝑖 − 𝑥 ∗ 𝑦𝑖 − 𝑦
𝑥𝑖 − 𝑥
2
∗
𝑛
𝑖=1
𝑦𝑖 − 𝑦
2
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Właściwości:
• r przyjmuje wartości z przedziału od -1 do +1
• Znak r wskazuje, czy zależność jest
wprostproporcjonalna (dodatni r) czy odwrotnie
proporcjonalna (ujemny r)
• Wielkość r wskazuje, jak blisko linii prostej znajdują się
punkty
• X i Y można zamieniać miejscami bez wpływu na
wartość r
• Korelacja między X i Y niekoniecznie oznacza związek
przyczynowy
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
r=1
r = -1
Idealna zależność liniowa
wprostproporcjonalna
Idealna zależność liniowa
odwrotnie proporcjonalna
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
r = 0,90
Silna zależność liniowa
wprostproporcjonalna
r = -0,90
Silna zależność liniowa
odwrotnie proporcjonalna
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
r=0
Brak zależności
r = -0,5
Umiarkowana zależność
liniowa odwrotnie
proporcjonalna
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Na podstawie wartości r oceniamy siłę zależności:
 |r| = 0 zmienne nieskorelowane
 0 < |r|  0,3 korelacja niska
 0,3 < |r|  0,5 korelacja przeciętna (średnia)
 0,5 < |r|  0,7 korelacja wysoka
 0,7 < |r|  0,9 korelacja bardzo wysoka
 0,9 < |r| < 1 korelacja prawie pełna
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Aby ocenić korelację pomiędzy zmiennymi należy znać:
 poziom istotności p współczynnika r (określa, czy
korelacje jest/nie jest statystycznie istotna)
 wartość r (siła korelacji)
 znak +/- przy r (zależność wprost/odwrotnie
proporcjonalna)
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Jak ocenić czy r jest istotny?
Hipoteza zerowa:
H0: |r|=0
Hipoteza alternatywna:
H1: |r|0
1) Korzystamy z tablic wartości krytycznych
rkr(=0,05, n)
2) Wykorzystujemy funkcję testową t-studenta
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Jak ocenić czy r jest istotny?
Hipoteza zerowa:
H0: |r|=0
Hipoteza alternatywna:
H1: |r|0
1) Korzystamy z tablic wartości krytycznych
rkr(=0,05, n)
Analiza korelacji
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Jak ocenić czy r jest istotny?
Hipoteza zerowa:
H0: |r|=0
Hipoteza alternatywna:
H1: |r|0
1) Korzystamy z tablic wartości krytycznych
rkr(=0,05, n)
r<rkr - przyjmujemy hipotezę H0
r>rkr - przyjmujemy hipotezę H1
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Jak ocenić czy r jest istotny?
Hipoteza zerowa:
H0: |r|=0
Hipoteza alternatywna:
H1: |r|0
2) Wykorzystujemy funkcję testową t-studenta
𝑡=
𝑟
(1 −
𝑟2 )
∙ 𝑛−2
tkr(, f=n-2)
Z tablic rozkładu t-studenta
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Jak ocenić czy r jest istotny?
Hipoteza zerowa:
H0: |r|=0
Hipoteza alternatywna:
H1: |r|0
2) Wykorzystujemy funkcję testową t-studenta
t<tkr - przyjmujemy hipotezę H0
t>tkr - przyjmujemy hipotezę H1
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Stosujemy gdy:
 zmienne mają rozkład normalny
ORAZ
zależność ma charakter liniowy
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Kiedy nie należy obliczać r:
 istnieje nieliniowy związek między dwoma
zmiennymi (np. związek kwadratowy
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Kiedy nie należy obliczać r:
 występuje jedna lub więcej wartości odstających
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Kiedy nie należy obliczać r:
 dane zawierają podgrupy, dla których średnie
poziomy wartości dla co najmniej jednej zmiennej są
różne
Analiza korelacji
Analiza korelacji
Metoda
graficzna
Współczynnik
korelacji rang
Spearmana
Kowariancja
Współczynnik
korelacji liniowej
Pearsona
Analiza korelacji
Współczynnik korelacji rang Spearmana
Alternatywa dla współczynnika korelacji liniowej
Pearsona.
Nadaje się również do analizy zależności nieliniowych.
Stosujemy, gdy:
 zmienne nie mają rozkładu normalnego
ORAZ/LUB
 zależność ma charakter nieliniowy
Analiza korelacji
Współczynnik korelacji rang Spearmana
Uporządkowanym od najmniejszej do największej
wartości zmiennym nadaje się rangi i wylicza R
Spearmana:
6 𝑛𝑖=1 𝐷 2
𝑅 =1−
𝑛(𝑛2 − 1)
n – ilość pomiarów
D - różnica rang
Przyjmuje wartości od -1 do +1 interpretacja
taka jaka dla r Pearsona
Analiza korelacji
Współczynnik korelacji rang Spearmana
6 𝑛𝑖=1 𝐷 2
𝑅 =1−
𝑛(𝑛2 − 1)
X
2
5
5
8
9
10
Y
3
2
8
6
9
8
ranga X
1
2,5
2,5
4
5
6
ranga Y
2
1
4,5
3
6
4,5
D
-1
1,5
-2
1
-1
1,5
suma
D^2
1
2,25
4
1
1
2,25
11,5
Analiza korelacji
Współczynnik korelacji rang Spearmana
Jak ocenić czy R jest istotny?
Hipoteza zerowa:
H0: |R|=0
Hipoteza alternatywna:
H1: |R|0
Korzystamy z tablic wartości krytycznych
Rkr(=0,05, n)
Analiza korelacji
Analiza korelacji
Współczynnik korelacji rang Spearmana
Jak ocenić czy R jest istotny?
Hipoteza zerowa:
H0: |R|=0
Hipoteza alternatywna:
H1: |R|0
Korzystamy z tablic wartości krytycznych
Rkr(=0,05, n)
R<Rkr - przyjmujemy hipotezę H0
R>Rkr - przyjmujemy hipotezę H1
Analiza korelacji
Istotność różnic między wsp. korelacji
Gdy wykonujemy dwie serie niezależnych
pomiarów (dwie pary zmiennych X i Y), dla każdej
pary możemy uzyskać różny współczynnik
korelacji.
Aby ocenić, czy istotnie się między sobą różnią,
wykorzystujemy funkcję t-studenta.
Analiza korelacji
Istotność różnic między wsp. korelacji
Hipoteza zerowa:
H0: |r1|= |r2|
Hipoteza alternatywna:
H1: |r1| |r2|
1
1 + 𝑟1 (1 − 𝑟2 )
𝑡𝑟 = 𝑙𝑛
2
1 − 𝑟1 (1 + 𝑟2 )
𝑛1 − 3 (𝑛2 − 3)
𝑛1 + 𝑛2 − 6
tkr(=0,05, f=n1+n2-4)
tr<tkr - przyjmujemy hipotezę H0
tr>tkr - przyjmujemy hipotezę H1
Analiza regresji liniowej
Analiza regresji liniowej
Regresja liniowa jest rozszerzeniem korelacji liniowej i
pozwala na:
 graficzną prezentację linii prostej dopasowanej do
wykresu rozrzutu
 określenie równania opisujące zależność dwóch
zmiennych w postaci y = a + b* x
zmienna
zależna
wyraz
wolny
współczynnik
kierunkowy
prostej
zmienna
niezależna
Wynik testu
Analiza regresji liniowej
Iloraz inteligencji
Analiza regresji liniowej
Wynik testu
y = a + b* x
Iloraz inteligencji
Analiza regresji liniowej
W jaki sposób wyznaczana jest linia regresji liniowej?
przez minimalizację sumy kwadratów odchyleń
punktów doświadczalnych od linii regresji
tzw. metoda najmniejszych kwadratów
2
(𝑦𝑖 − 𝑦𝑖 𝑜𝑏𝑙 ) = 𝑚𝑖𝑛
yi – wartości doświadczalne
yi obl – wartości obliczone z równania regresji
Analiza regresji liniowej
Analiza regresji liniowej
W jaki sposób wyznaczana jest linia regresji
liniowej y=a+b*x ?
Sprowadza się to do obliczenia współczynników a i
b
𝑏=
𝑎=
𝑛
𝑥𝑖 ∙ 𝑦𝑖 −
𝑛 𝑥𝑖2 −
𝑦𝑖 − 𝑏 ∙
𝑛
𝑥𝑖
𝑥𝑖 ∙ 𝑦𝑖
𝑥𝑖 2
=𝑦−𝑏∙𝑥
Analiza regresji liniowej
y = a + b*x
a i b wyznaczamy na podstawie danych empirycznych ;
a i b pewnym oszacowaniem rzeczywistych wartości  i b
a i b obarczone są błędem!
Obliczamy go na podstawie wariancji resztowej
𝜎𝑟2 =
𝑦𝑖 − 𝑦𝑖 𝑜𝑏𝑙
𝑛−2
2
Analiza regresji liniowej
Dla współczynnika b:
2
𝜎𝑏
=
𝑛∙
Dla współczynnika a:
𝜎𝑎2
=
2
𝜎𝑟
𝑛∙
𝑥𝑖2 −
2
𝜎𝑏
𝑛
∙
𝑥𝑖
2
𝑥𝑖
2
Analiza regresji liniowej
Dokładność wyznaczenia współczynników:
 = a  t(P, f=n-2)  a
b = b  t(P, f=n-2)  b
Analiza regresji liniowej
Sprawdzamy, czy a i b istotnie różnią się od 0:
Hipoteza zerowa:
H0: a=0
H0: b=0
Hipoteza alternatywna: H1: a0
H1: b0
𝑎−0
𝑎
𝑡𝑎 =
=
𝜎𝑎
𝜎𝑎
𝑏−0
𝑏
𝑡𝑏 =
=
𝜎𝑏
𝜎𝑏
tkr(, f=n-2)
ta (tb) <tkr - przyjmujemy hipotezę H0
ta (tb) >tkr - przyjmujemy hipotezę H1
Analiza regresji liniowej
y = a+ b*x
Współczynniki a i b muszą istotnie różnić się od 0
aby były uwzględnione w równaniu.
Jeśli b=0 – wartości y są stałe (równe a)
Jeśli a=0 – równanie upraszcza się do y=b*x
Analiza regresji liniowej
Jeśli chcemy sprawdzić, czy a i b są zgodne z
wartościami literaturowymi (sens fizyko-chem):
Hipoteza zerowa:
H0: a=a0
H0: b=b0
Hipoteza alternatywna: H1: aa0
H1: bb0
𝑎 − 𝑎0
𝑡𝑎 =
𝜎𝑎
𝑏 − 𝑏0
𝑡𝑏 =
𝜎𝑏
tkr(, f=n-2)
ta (tb) <tkr - przyjmujemy hipotezę H0
ta (tb) >tkr - przyjmujemy hipotezę H1
Analiza regresji liniowej
Do czego służy wyznaczone równanie?
1) Na podstawie znanych x obliczamy y
2) Na podstawie znanych y obliczamy x
Analiza regresji liniowej
Do czego służy wyznaczone równanie?
1) Na podstawie znanych x obliczamy y
yk=a+b*xk
Błąd wyznaczenia yk
𝜎𝑦𝑘 =
𝜎𝑟2
+ 𝑥𝑘 − 𝑥
𝑛
2
∙ 𝜎𝑏2
y = yk  t(,f=n-2)yk
Im xk jest bardziej oddalony od wartości
średniej, tym większy błąd oszacowania
Analiza regresji liniowej
90
80
Wynik testu
70
60
Im xk jest bardziej oddalony od
wartości średniej, tym przedział
ufności jest szerszy
50
40
30
20
60
80
100
x
120
IQ
140
160
180
Analiza regresji liniowej
Do czego służy wyznaczone równanie?
2) Na podstawie znanych y obliczamy x
xk=(yk-a)/b
Błąd wyznaczenia xk
𝜎𝑥𝑘
1 𝜎𝑟2
𝑦𝑘 − 𝑦
=
+
𝑏 𝑛
𝑏2
2
∙ 𝜎𝑏2
x = xk  t(,f=n-2)xk
Im yk jest bardziej oddalony od wartości
średniej, tym większy błąd oszacowania
Analiza regresji liniowej
90
80
Wynik testu
70
60
Im yk jest bardziej oddalony od
wartości średniej, tym przedział
ufności jest szerszy
y
50
40
30
20
60
80
100
120
IQ
140
160
180
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona
Współczynnik determinacji
Współczynnik indeterminacji
Analiza reszt
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona
Współczynnik determinacji
Współczynnik indeterminacji
Analiza reszt
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona
Im r bliższy 1 tym lepsza jakość modelu
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona
Współczynnik determinacji
Współczynnik indeterminacji
Analiza reszt
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik determinacji
r2 – współczynnik korelacji liniowej Pearsona
podniesiony do kwadratu
Podawany w postaci:
- ułamkowej [0,1]
- procentowej 0-100%
Im bliższy 1 tym lepsza jakość modelu
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona
Współczynnik determinacji
Współczynnik indeterminacji
Analiza reszt
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik indeterminacji
2 = 1- r2 – tzw. współczynnik rozbieżności
Podawany w postaci:
- ułamkowej [0,1]
- procentowej 0-100%
Im bliższy 0 tym lepsza jakość modelu
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona
Współczynnik determinacji
Współczynnik indeterminacji
Analiza reszt
Analiza regresji liniowej
Ocena dobroci dopasowania
Analiza reszt ei
ei = yi – yi obl
Reszty powinny spełniać rozkład normalny, mieć
charakter losowy i nie wykazywać autokorelacji
• Normalność reszt – badamy testem chi-kwadrat lub testem
Kołmogorowa-Smirnowa
• Losowość reszt oceniamy na wykresie
Analiza regresji liniowej
reszty
Reszty losowo znajdują się powyżej i
poniżej 0

Podobne dokumenty