Regresja i Korelacja
Transkrypt
Regresja i Korelacja
Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: • drzewa grubsze są z reguły wyższe, • drewno iglaste o węższych słojach ma większą gęstość, • impregnowane drewno dłużej się pali. Takie obserwacje bywają bardzo pomocne, dlatego ważne jest poznanie metod analizy zależności (współzależności, współwystępowania) cech, ponieważ pozwalają one poznać charakter obserwowanych zależności, sprawdzić czy rzeczywiście istnieją (nie są pozorne) a także opisać przy pomocy formuł matematycznych ilościowe relacje między zmiennymi. Regresja i Korelacja Charakter zależności oraz liczba analizowanych zmiennych decyduje o wyborze metody analizy danych. Na początek poznajmy sposoby analizy liniowej zależności dwóch zmiennych Przeanalizujmy zależność między dwiema zmiennymi: X oraz Y. Zmienną Y będziemy określać jako zmienną zależną (objaśnianą), natomiast zmienną X jako zmienną niezależną (objaśniającą). Jeżeli zmienne X i Y są ze sobą powiązane to charakter takiej zależności może być dwojakiego rodzaju: - jeżeli konkretnej wartości zmiennej X odpowiada tylko jedna wartość zmiennej Y to występuje wtedy zależność o charakterze funkcyjnym, Y 30 Y 30 25 25 20 20 15 15 10 10 5 5 0 0 0 10 20 30 X 40 0 10 20 30 X 40 - jeżeli danej wartości zmiennej X odpowiada kilka możliwych wartości zmiennej Y wtedy mówimy o zależności o charakterze korelacyjnym. (zmienność wyników obserwacji) Zależności takie mogą mieć charakter przyczynowy lub pozorny Cele badania współzależności: • stwierdzenie czy obserwowana relacja jest statystycznie istotna, • uzyskanie liczbowych miar charakteryzujących relację, • dostarczenie możliwości prognozowania (predykcji) wartości jednej zmiennej gdy znana jest wartość drugiej zmiennej. Wymienione cele analizy zależności można zrealizować przez podanie wzoru funkcji aproksymującej przebieg badanej zależności oraz obliczenie współczynników pokazujących jej siłę i charakter. Czego dotyczą pojęcia regresja i korelacja? Termin regresja dotyczy kształtu zależności pomiędzy cechami (a więc liczby parametrów i rodzaju funkcji aproksymującej). Pojęcie korelacji dotyczy siły badanej współzależności. Celem analizy regresji jest wyznaczenie funkcji przebiegającej przez zbiór punktów. Linia, o której mowa, nazywa się linią regresji albo linią trendu. Współczynniki takiej funkcji są szacowane w taki sposób, by suma kwadratów odchyleń punktów pomiarowych od tej linii była jak najmniejsza. Metoda ta nosi nazwę metody najmniejszych kwadratów Linią (krzywą) regresji nazywamy wykres zależności E(y|x) od x. Przedstawia więc ona zmianę przeciętnych wartości zmiennej Y dla ustalonych wartości zmiennej X i jest funkcją o wzorze ogółnym: f(X)=a+b*X Poszukiwane wartości zmiennej Y będą się odchylać od linii regresji o pewną losową wartość δ. Tak więc funkcję regresji możemy przedstawić wzorem: Y=f(X)+δ Funkcja ta nosi nazwę modelu regresji. Najważniejszym miernikiem siły związku prostoliniowego między dwiema cechami mierzalnymi jest współczynnik korelacji liniowej Pearsona lub krócej współczynnik korelacji. cov( x, y ) r s ( x) s ( y ) gdzie: cov(x,y) – kowariancja dwuwymiarowej zmiennej losowej XY, s(x), s(y) – odchylenia standardowe zmiennych X i Y. cov( x, y ) n ( x x) ( y y ) i 1 i i n 1 Inną miarą siły związku między zmiennymi są wsóczynnik determinacj (R2). Współczynnik determinacji wskazuje jaką część zmienności cechy Y możemy opisać za pomocą zmienności cechy X. Po określeniu wartości współczynnika korelacji należy sprawdzić, czy jego wartość (określona na podstawie próby) oddaje rzeczywiste relacje zachodzące w populacji generalnej, a więc czy korelacja określona dla próby nie jest zdarzeniem losowym. Test istotności współczynników korelacji opiera się na założeniu o normalności rozkładu wartości resztowych (odchyleń od linii regresji) zmiennej y, oraz o równości wariancji wartości resztowych dla wszystkich wartości zmiennej niezależnej x. W przypadku znacznych odchyłek od tych założeń zachodzi konieczność zastosowania testów nieparametrycznych. Regresja nieliniowa Regresja nieliniowa Regresja nieliniowa stanowi ogólną procedurę dopasowania, która służy do oszacowania dowolnego rodzaju zależności między zmienną zależną (objaśnianą) a zmiennymi niezależnymi. W regresji nieliniowej modele możemy ogólnie wyrazić zależnością: y = F(x1, x2, ... , xn) + ε gdzie F(x1,...) oznacza dowolną funkcję, za pomocą której sami możemy określić typ zależności. Na przykład możemy przyjąć, że zmienna zależna jest funkcją logarytmiczną lub wykładniczą zmiennych niezależnych. Regresja nieliniowa Z dowolnością doboru modelu funkcji, na podstawie której budowany jest model regresji wiąże się kilka problemów: Jak wywnioskować o postaci modelu, czyli jaka faktycznie występuje zależność pomiędzy zmiennymi? Jaki rodzaj estymacji zastosować? Jak otrzymane zależności sensownie zinterpretować? Regresja nieliniowa – modele linearyzowane W przypadku niektórych funkcji o nieliniowym przebiegu poprzez odpowiednią transformację zmiennych lub parametrów możemy sprowadzić je do prostszej postaci liniowej. W analizach tego typu należy postępować bardzo rozważnie, gdyż stosując nieodpowiednią transformację, możemy doprowadzić do nietrafnego modelu. Regresja nieliniowa – estymacja modelu Zadanie Podczas realizacji projektu badawczego dotyczącego Oszacowania akumulacji węgla przez sosnowe kompleksy leśne w zachodniej Polsce pomierzono pierśnice i wysokości 90 drzew próbnych po czym określono suchą masę drewna tych drzew. Opracuj możliwie najlepiej dopasowany model regresji pozwalający na obliczanie masy drewna na podstawie pierśnicy… Regresja nieliniowa – segmentacja Zadanie Podczas realizacji projektu: Ekologiczne konsekwencje sukcesji wtórnej brzozy brodawkowatej (Betula pendula Roth.) na gruntach porolnych obliczono masę igieł na 100 drzewach. Opracuj możliwie najlepiej dopasowany model regresji wykorzystujący zależność masy igieł od wysokości a później od wieku drzew, poszukaj najlepszych punktów przełamania…