Regresja i Korelacja

Transkrypt

Regresja i Korelacja
Regresja i Korelacja
Regresja i Korelacja
W przyrodzie często obserwujemy związek między kilkoma
cechami, np.:
• drzewa grubsze są z reguły wyższe,
• drewno iglaste o węższych słojach ma większą gęstość,
• impregnowane drewno dłużej się pali.
Takie obserwacje bywają bardzo pomocne, dlatego ważne
jest poznanie metod analizy zależności (współzależności,
współwystępowania) cech, ponieważ pozwalają one poznać
charakter obserwowanych zależności, sprawdzić czy
rzeczywiście istnieją (nie są pozorne) a także opisać przy
pomocy formuł matematycznych ilościowe relacje między
zmiennymi.
Regresja i Korelacja
Charakter zależności oraz liczba analizowanych zmiennych
decyduje o wyborze metody analizy danych.
Na początek poznajmy sposoby analizy liniowej zależności dwóch
zmiennych
Przeanalizujmy zależność między dwiema zmiennymi: X oraz Y.
Zmienną Y będziemy określać jako zmienną zależną (objaśnianą),
natomiast zmienną X jako zmienną niezależną (objaśniającą).
Jeżeli zmienne X i Y są ze sobą powiązane to charakter takiej
zależności może być dwojakiego rodzaju:
- jeżeli konkretnej wartości zmiennej X odpowiada tylko jedna
wartość zmiennej Y to występuje wtedy zależność o charakterze
funkcyjnym,
Y
30
Y
30
25
25
20
20
15
15
10
10
5
5
0
0
0
10
20
30
X
40
0
10
20
30
X
40
- jeżeli danej wartości zmiennej X odpowiada kilka możliwych
wartości zmiennej Y wtedy mówimy o zależności o charakterze
korelacyjnym.
(zmienność wyników obserwacji)
Zależności takie mogą mieć charakter przyczynowy lub pozorny
Cele badania współzależności:
• stwierdzenie czy obserwowana relacja jest statystycznie
istotna,
• uzyskanie liczbowych miar charakteryzujących relację,
• dostarczenie możliwości prognozowania (predykcji) wartości
jednej zmiennej gdy znana jest wartość drugiej zmiennej.
Wymienione cele analizy zależności można zrealizować przez
podanie wzoru funkcji aproksymującej przebieg badanej zależności
oraz obliczenie współczynników pokazujących jej siłę i charakter.
Czego dotyczą pojęcia regresja i korelacja?
Termin regresja dotyczy kształtu zależności pomiędzy cechami (a
więc liczby parametrów i rodzaju funkcji aproksymującej).
Pojęcie korelacji dotyczy siły badanej współzależności.
Celem analizy regresji jest wyznaczenie funkcji
przebiegającej przez zbiór punktów.
Linia, o której mowa, nazywa się linią regresji albo linią trendu.
Współczynniki takiej funkcji są szacowane w taki sposób, by
suma kwadratów odchyleń punktów pomiarowych od tej linii
była jak najmniejsza. Metoda ta nosi nazwę metody
najmniejszych kwadratów
Linią (krzywą) regresji nazywamy wykres zależności E(y|x) od x.
Przedstawia więc ona zmianę przeciętnych wartości zmiennej Y dla
ustalonych wartości zmiennej X i jest funkcją o wzorze ogółnym:
f(X)=a+b*X
Poszukiwane wartości zmiennej Y będą się odchylać od linii regresji
o pewną losową wartość δ. Tak więc funkcję regresji możemy
przedstawić wzorem:
Y=f(X)+δ
Funkcja ta nosi nazwę modelu regresji.
Najważniejszym miernikiem siły związku prostoliniowego między
dwiema cechami mierzalnymi jest współczynnik korelacji
liniowej Pearsona lub krócej współczynnik korelacji.
cov( x, y )
r
s ( x)  s ( y )
gdzie:
cov(x,y) – kowariancja dwuwymiarowej zmiennej losowej XY,
s(x), s(y) – odchylenia standardowe zmiennych X i Y.
cov( x, y ) 


n
 ( x  x)  ( y  y )
i 1
i
i
n 1
Inną miarą siły związku między zmiennymi są wsóczynnik
determinacj (R2).
Współczynnik determinacji wskazuje jaką część zmienności
cechy Y możemy opisać za pomocą zmienności cechy X.
Po określeniu wartości współczynnika korelacji należy
sprawdzić, czy jego wartość (określona na podstawie próby)
oddaje rzeczywiste relacje zachodzące w populacji generalnej,
a więc czy korelacja określona dla próby nie jest zdarzeniem
losowym.
Test istotności współczynników korelacji opiera się na
założeniu o normalności rozkładu wartości resztowych
(odchyleń od linii regresji) zmiennej y, oraz o równości
wariancji wartości resztowych dla wszystkich wartości
zmiennej niezależnej x. W przypadku znacznych odchyłek od
tych założeń zachodzi konieczność zastosowania testów
nieparametrycznych.
Regresja nieliniowa
Regresja nieliniowa
Regresja nieliniowa stanowi ogólną procedurę dopasowania,
która służy do oszacowania dowolnego rodzaju zależności
między zmienną zależną (objaśnianą) a zmiennymi
niezależnymi.
W regresji nieliniowej modele możemy ogólnie wyrazić
zależnością:
y = F(x1, x2, ... , xn) + ε
gdzie F(x1,...) oznacza dowolną funkcję, za pomocą której sami
możemy określić typ zależności.
Na przykład możemy przyjąć, że zmienna zależna jest funkcją
logarytmiczną lub wykładniczą zmiennych niezależnych.
Regresja nieliniowa
Z dowolnością doboru modelu funkcji, na podstawie której
budowany jest model regresji wiąże się kilka problemów:
Jak wywnioskować o postaci modelu, czyli jaka faktycznie
występuje zależność pomiędzy zmiennymi?
Jaki rodzaj estymacji zastosować?
Jak otrzymane zależności sensownie zinterpretować?
Regresja nieliniowa – modele linearyzowane
W przypadku niektórych funkcji o nieliniowym przebiegu
poprzez odpowiednią transformację zmiennych lub
parametrów możemy sprowadzić je do prostszej postaci
liniowej.
W analizach tego typu należy postępować bardzo
rozważnie, gdyż stosując nieodpowiednią transformację,
możemy doprowadzić do nietrafnego modelu.
Regresja nieliniowa – estymacja modelu
Zadanie
Podczas realizacji projektu badawczego dotyczącego
Oszacowania akumulacji węgla przez sosnowe kompleksy
leśne w zachodniej Polsce pomierzono pierśnice i
wysokości 90 drzew próbnych po czym określono suchą
masę drewna tych drzew.
Opracuj możliwie najlepiej dopasowany model regresji
pozwalający na obliczanie masy drewna na podstawie
pierśnicy…
Regresja nieliniowa – segmentacja
Zadanie
Podczas realizacji projektu: Ekologiczne konsekwencje
sukcesji wtórnej brzozy brodawkowatej (Betula pendula
Roth.) na gruntach porolnych obliczono masę igieł na 100
drzewach.
Opracuj możliwie najlepiej dopasowany model regresji
wykorzystujący zależność masy igieł od wysokości a
później od wieku drzew, poszukaj najlepszych punktów
przełamania…

Podobne dokumenty