wyklad regresja
Transkrypt
wyklad regresja
Statystyka matematyczna dla kierunku Rolnictwo w SGGW Anna Rajfura KDiB BADANIE ZALEśNOŚCI CECHY Y OD CECHY X ANALIZA REGRESJI 1 Statystyka matematyczna dla kierunku Rolnictwo w SGGW Anna Rajfura KDiB Było: OPIS WSPÓŁZALEśNOŚCI CECH X i Y Przykład Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli: plon xi 20 zawartość skrobi yi 21 22 23 22 25 30 27 24 26 17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4 Diagram korelacyjny zawartość skrobi (% ) 17,2 17,1 17 16,9 16,8 16,7 16,6 16,5 16,4 16,3 16,2 18 20 22 24 26 28 30 32 plon współczynnik korelacji liniowej Pearsona r dla próby r = - 0,90, 2 Statystyka matematyczna dla kierunku Rolnictwo w SGGW Anna Rajfura KDiB Współczynnik r jest oceną parametru teoretycznego ρ: ρ̂ = r Współczynnik korelacji liniowej Pearsona ρ (teoretyczny, populacyjny, między zmiennymi losowymi X i Y): COV ( X , Y ) ρ= (DX ) ⋅ (DY ) , ρ ∈ − 1, 1 . IDEA OPISU ZALEśNOŚCI CECHY Y OD CECHY X (REGRESJI CECHY Y WZGLĘDEM CECHY X) cecha X : objaśniająca, opisująca, niezaleŜna cecha Y : objaśniana, opisywana, zaleŜna ZaleŜność między zmiennymi losowymi. 3 Statystyka matematyczna dla kierunku Rolnictwo w SGGW Model: Y=β·X+α Anna Rajfura KDiB lub Y = β1 · X + β0 β – współczynnik regresji, α – stała regresji X, Y – cechy obserwowane w doświadczeniu, n – liczba jednostek doświadczalnych, Wyniki doświadczenia: wartości cechy X: x1 x2 x3 ... x n wartości cechy Y: y1 y2 y3 ... y n Diagram korelacyjny cecha Y prosta regresji cecha X równanie prostej regresji: y = bx + a, 4 Statystyka matematyczna dla kierunku Rolnictwo w SGGW βˆ = b Anna Rajfura KDiB αˆ = a b - współczynnik regresji, a - stała regresji Metoda najmniejszych kwadratów (MNK): cecha Y ei yi xi cecha X prosta regresji: y = bx + a, ( xi , yi ), y( xi ) = bxi + a, ei = y( xi ) – yi 5 Statystyka matematyczna dla kierunku Rolnictwo w SGGW n ∑e i =1 2 i → min n b= ∑ (x i =1 Anna Rajfura KDiB i − x ) ⋅ (y i − y ) n 2 ( ) x − x ∑ i , a = y − b⋅x i =1 estymatory uzyskane metodą najmniejszych kwadratów warians cechy X: var x = ∑ (x i − x ) 2 i kowarians cech X i Y: cov xy = ∑ (x i − x )(y i − y ) i Interpretacja współczynnika regresji b 6 Statystyka matematyczna dla kierunku Rolnictwo w SGGW Anna Rajfura KDiB H0: β = 0 (hipoteza o braku regresji) α – poziom istotności test t Studenta: t emp b = sb gdzie: sb = var y − b ⋅ cov xy (n − 2) ⋅ var x t kryt = t α , v=n −2 WNIOSKOWANIE Jeśli |temp|>t kryt to H0 odrzucamy, wpp H0 nie moŜna odrzucić. test F - Fishera: Femp b ⋅ cov xy = var y − b cov xy 2 7 Statystyka matematyczna dla kierunku Rolnictwo w SGGW Anna Rajfura KDiB Fkryt = Fα , v1 =1,v2 =n −2 WNIOSKOWANIE Jeśli Femp > F kryt to H0 odrzucamy, wpp H0 nie moŜna odrzucić. Przykład Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli: plon xi zawartość skrobi yi 20 21 22 23 22 25 30 27 24 26 17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4 prosta regresji y = 18,64 – 0,08x H0: β = 0 (hipoteza o braku regresji) α = 0,05 test t Studenta: t emp = −5,83 t kryt = t 0, 05, 8 = 2,31 WNIOSKOWANIE |temp| = 5,83 > 2,31 = t kryt , zatem H0 odrzucamy. 8 Statystyka matematyczna dla kierunku Rolnictwo w SGGW Anna Rajfura KDiB Stwierdzamy statystycznie istotną zaleŜność zawartości skrobi od plonu bulw ziemniaka. test F - Fishera: Femp = 34 Fkryt = F0, 05, 1, 8 = 5,32 WNIOSKOWANIE Jeśli Femp = 34 > 5,32 = F kryt , zatem H0 odrzucamy. Interpretacja współczynnika regresji b: prosta regresji y = a + bx Jeśli wartość cechy X wzrośnie o jednostkę (w jednostkach cechy X), to wartość cechy Y zmieni się o | b | jednostek (w jednostkach cechy Y). Wzrośnie, gdy b > 0; zmaleje, gdy b < 0. 9 Statystyka matematyczna dla kierunku Rolnictwo w SGGW Anna Rajfura KDiB prosta regresji y = 18,64 – 0,08x b = -0, 08 Jeśli plon z bulw ziemniaka wzrośnie o 1 kg, to zawartość skrobi zmniejszy się o 0,08%. Współczynnik determinacji d: d = r2 · 100% r – współczynnik korelacji, Interpretacja współczynnika determinacji: współczynnik d oznacza, jaka część zmienności cechy Y objaśniona (wytłumaczona) jest zmiennością cechy X. W przykładzie: r = -0,9, W 81% to d = 0,81· 100% = 81% zmienność wytłumaczona zawartości zmiennością plonu. skrobi jest Tylko 9% 10 Statystyka matematyczna dla kierunku Rolnictwo w SGGW Anna Rajfura KDiB zmienności zawartości skrobi nie jest wytłumaczona zmiennością plonu. Praktyczne warunki ustalania cechy zaleŜnej i niezaleŜnej. 11