STATYSTYKA MATEMATYCZNA
Transkrypt
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA Wnioskowanie statystyczne - regresja i korelacja treść • Wprowadzenie • Regresja i korelacja liniowa dwóch zmiennych • Regresja i korelacja nieliniowa transformacja zmiennych • Regresja i korelacja wielokrotna Wprowadzenie Jednostki zbiorowości statystycznej mogą być charakteryzowane za pomocą wielu cech. Cechy te mogą być powiązane ze sobą jak np.: pierśnica i wysokość drzew w drzewostanie. Badaniem takich związków zajmuje się dział statystyki matematycznej zwany teorią regresji i korelacji. W badaniach współzaleŜności między cechami mierzalnymi (zmiennymi) mogą wystąpić: - związki funkcyjne - to takie, kiedy zmiana wartości jednej zmiennej powoduje ściśle określoną zmianę wartości pozostałych zmiennych - związki korelacyjne - to takie, kiedy zmiana wartości jednej zmiennej powoduje zmianę rozkładu prawdopodobieństwa pozostałych zmiennych. Badanie związków korelacyjnych sprowadza się do dwóch problemów: 1. Poszukiwanie funkcji regresji (funkcji, która najlepiej wyrówna badaną zaleŜność korelacyjną) 2. Określenie miar siły korelacji (stopnia zbliŜenia związku korelacyjnego do związku funkcyjnego) y y x x Regresja i korelacja liniowa dwóch zmiennych: W badaniach związków korelacyjnych miedzy zmiennymi X i Y moŜemy zarówno jedną traktować jako zmienną zaleŜną a drugą jako zmienną niezaleŜną lub odwrotnie. Zmienne te wzajemnie na siebie wpływają. Aby równanie regresji mogło znaleźć zastosowanie praktyczne, to jako zmienną zaleŜną powinniśmy przyjąć cechę trudniejszą do określania w danej populacji. Przykładowo: dla związku między wysokością a pierśnicą, zmienną zaleŜną powinna być wysokość. Dla zrozumienia na czym polega określanie siły związku korelacyjnego zajmiemy się obydwoma postaciami równań regresji: Y = α 1 + β1 X X = α 2 + β 2Y W zastosowaniu praktycznym równania regresji budujemy na podstawie wyników próby: yˆ = a1 + b1 x gdzie: xˆ = a2 + b2 y a1 , a2 , b1 , b2 są estymatorami α 1 , α 2 , β 1 , β 2 yˆ = a1 + b1 x y xˆ = a2 + b2 y x̂ y x̂ ŷ y x ŷ y x x yˆ = y ; a1 = y ; b1 = 0 xˆ = x ; a2 = x ; b2 = 0 y x̂ x ŷ y yˆ = a1 + b1 x b1 x = −a1 + y x x xˆ = − a1 1 a1 1 + y ; a2 = − ; b2 = b1 b1 b1 b1 Własności prostych regresji: * przecinają się w punkcie o współrzędnych x, y, * b1 i b2 mają ten sam znak (+) lub (-), który oznacza, Ŝe w miarę wzrostu jednej zmiennej druga teŜ rośnie (+) lub maleje (-), * wartość liczbowa współczynników kierunkowych b1 i b2 mówi o ile zmienia się zmienna zaleŜna jeŜeli zmienna niezaleŜna zmienia się o jednostkę, * przy braku związku między zmiennymi współczynniki kierunkowe b1 i b2 są równe zero, kąt między prostymi - 90o, * przy zaleŜności funkcyjnej proste pokrywają się, ich równania wzajemnie się przekształcają, kąt - 0o, * przy zaleŜności korelacyjnej proste przecinają się pod pewnym kątem. Im kąt ten jest bliŜszy 0 - związek silniejszy, im bliŜszy 90o - związek słabszy. Metoda najmniejszych kwadratów - układ równań normalnych: a1n + b1 ∑ xi = ∑ yi a2 n + b2 ∑ yi = ∑ xi a1 ∑ xi + b1 ∑ xi2 = ∑ xi yi a2 ∑ yi + b2 ∑ yi2 = ∑ xi yi b1 = a1 n∑ xi yi − ∑ xi ∑ yi n∑ x − (∑ xi ) y ∑ = 2 i i − b1 ∑ xi n 2 b2 = a2 n∑ xi yi − ∑ xi ∑ yi n∑ y − (∑ yi ) 2 2 i x −b ∑ y ∑ = 2 i n i Przykład: Na podstawie próby o liczebności n = 30 zbadać związek między pierśnicą i wysokością w 30-letnim drzewostanie sosnowym nr xi yi 1 5,2 9,64 2 11,6 11,2 3 4,3 9,03 4 8,1 10,9 5 10,4 11,7 6 7,3 10,38 7 9,8 11,4 8 12,5 11,19 9 4,7 8,45 10 8,1 10,48 nr xi yi 11 7,5 10,5 12 6,7 9,32 13 7 9,1 14 8,2 10,92 15 6,3 9,73 16 17 18 9,1 8 13,2 10,74 10,62 11,64 19 6,5 9,44 20 10,2 11,69 nr xi yi 21 12,8 11,9 22 8,9 10,43 23 7,7 9,8 24 6,7 9,35 25 11,6 11,02 26 8,4 10,2 29 9,8 10,5 30 8,6 10,5 27 6,1 9,65 28 11,9 11,16 lp xi yi xi2 yi2 xiyi 1 2 3 . . . 30 5,2 11,6 4,3 . . . 8,6 9,64 11,20 9,03 . . . 10,50 27,04 134,56 18,49 . . . 73,96 92,9296 125,4400 81,5409 . . . 110,2500 50,128 129,920 38,829 . . . 90,300 Σ 257,2 312,40 2372,72 3276,5000 2733,040 ∑x ∑x i 2 i ∑y ∑y = 257 , 2 = 2372 , 72 ∑xy i i i 2 i = 312 , 4 = 3276 ,5 = 2733 , 04 x = 8 ,57 y = 10 , 413 s x2 = 5 , 7813 s y2 = 0 ,80613 s x = 2 , 40 s y = 0 ,898 w x = 28 , 05 % w y = 8 , 62 % 30 * 2733,04 − 257,2 * 312,4 30 * 2372,72 − 257,2 2 b1 = 0,3264 30 * 2733,04 − 257,2 * 312,4 30 * 3276,5 − 312,4 2 b2 = 2,341 312,4 − 0,3264 * 257,2 a1 = = 7,615 30 257,2 − 2,341* 312,4 a2 = = 15,81 30 b1 = b2 = Zwiazek miedzy piersnica (x) i wysokoscia (y) PA-1 13 x̂ 12 ŷ Zwiazek miedzy piersnica (x) i wysokoscia (y) PA-1 11 y 13 12 10 9 y 11 10 9 8 4 6 8 4 8 6 yˆ = 7,6146 + 0,32645 x 10 8 xx 10 12 12 14 14 xˆ = −15,8061 + 2,34117 y Współczynnik korelacji liniowej dwóch zmiennych: Współczynnik korelacji liniowej jest kowariancją zmiennych X i Y podzieloną przez iloczyn odchyleń standardowych tych zmiennych. ρ = C xy = b1 = σ xσ r = y ∑ (x i − x )( y i − y ) n −1 C xy σ C xy 2 x z przykładu: r 2 = 0 , 764 b2 = C xy σ 2 y ∑ C xy sxsy xi yi = r2 = x ∑ ∑ − i n n −1 C xy2 2 x σ σ 2 y = b1 b 2 r = ± b1 b 2 r = 0 ,874 yi zaleznosc wysokosci (y) od piersnicy (x) - PA-1 13 12 y 11 10 9 8 4 6 8 x yˆ = a + bx r 2 (y ∑ = 12 ∑ (y 2 − y) 2 i 14 yˆ = 7,6146 + 0,32645 x − y ) − ∑ ( yi − yˆ ) 2 i 10 ( y − yˆ ) ∑ = 1− ∑ (y − y) 2 i 2 i ( y − yˆ ) ∑ = ∑ (y − y) 2 1− r i 2 ( y − yˆ ) ∑ 1− ∑ (y − y) 2 r=± 2 i i 2 i ( y) ∑ ∑ (y − y) = ∑ y − n ∑ ( y − yˆ ) = ∑ y − a∑ y − b∑ x y 2 2 2 i 2 2 i i i i i i i z przykładu: ∑ (y 2 i − y) 312,4 2 = 3276,5 − = 23,3747 30 2 ∑ ( yi − yˆ ) = 3276,5 − 7,6146 * 312,4 − 0,32645 * 2733,04 = 5,4981 5,4981 r = 1− = 0,7648 23,3747 2 r = 0,76478 = 0,8745 Własności współczynnika korelacji liniowej: * gdy ρ = 0 między zmiennymi nie ma liniowego związku korelacyjnego, * gdy ρ = 1 lub -1 między zmiennymi zachodzi funkcyjny związek liniowy, * gdy 0 < ρ < 1 lub 0< ρ < -1 między zmiennymi zachodzi liniowy związek korelacyjny, * jeŜeli ρ bliŜszy 1 lub -1 to związek jest silniejszy, * znak współczynnika korelacji jest taki sam jak znak współczynników kierunkowych regresji. Zmienność wokół linii regresji - zmienność y przy wyłączonym wpływie x. ( s y2. x = s y2 1 − rxy2 ) s y. x = s y 1 − rxy2 wy. x = wy 1 − rxy2 z przykładu: 2 s y. x = 0,898 1 − 0,874 = 0,436m 2 wy. x = 8,62 1 − 0,874 = 4,19% Uogólnienie miar mocy korelacji, regresja i korelacja nieliniowa, transformacja zmiennych: ˆˆ ) ( − y y ∑ 1− 2 R= i ∑ (y − y) 2 i Przykład: zaleznosc wysokosci (y) od piersnicy (x) - PA-1 13 12 y 11 10 9 8 4 6 8 10 12 14 x yˆˆ = a + b * ln (x ) R = 0,888 yˆˆ = 4,6227 + 2,7455 * ln (x ) 2 R = 0,789 Regresja i korelacja wielokrotna: x1 − zmienna zalezna ( y ) x2 , x3 , x4 ,..., xm − zmienne niezalezne ( x, z ,...) xˆˆ = a +b x +b x + ... + b 1 0.23...m 12.34...m 2 x 1m.234...( m −1) m 13.24...m 3 - dla trzech zmiennych: xˆˆ1 = a0.23 + b12.3 x2 + b13.2 x3 - układ równań normalnych: na0.23 + b12.3 ∑ x2i + b13.2 ∑ x3i = ∑ x1i a0.23 ∑ x2i + b12.3 ∑ x22i + b13.2 ∑ x2i x3i = ∑ x1i x2i a0.23 ∑ x3i + b12.3 ∑ x2i x3i + b13.2 ∑ x = ∑ x1i x3i 2 3i - współczynnik korelacji wielokrotnej: 2 1.23 R ( x ∑ = 1− ˆˆ − x 1i 1 ) 2 R1.23 = R12.23 2 ( ) x − x ∑ 1i 1 ∑ (x ) 2 ˆˆ = x 2 − a − x ∑ 1i 0.23 ∑ x1i − b12.3 ∑ x1i x2i − b13.2 ∑ x1i x3i 1i 1 - korelacja cząstkowa: ( )( R1.23 = 1 − 1 − r122 1 − r132 .2 r13 .2 = r13 − r12 r23 (1 − r )(1 − r ) 2 12 2 23 )