Wykład: Statystyka matematyczna – wprowadzenie
Transkrypt
Wykład: Statystyka matematyczna – wprowadzenie
Metody statystyczne w naukach biologicznych 2006-04-13 Wykład: Analiza regresji prostej oraz wielokrotnej. Co wspólnego z regresją ma analiza wariancji??? Istotność współczynnika regresji. Hipoteza zerowa w przypadku istotności współczynnika regresji ma następującą postać: Model I H0: β=0, zaś alternatywna H1: β≠0 Model II H0: ρ=0, zaś alternatywna H1: ρ≠0 d yp y Krótkie objaśnienie! y=Y- Y y – odchylenie wartości zmiennej zależnej od wartości średniej dla tej zmiennej d=Y-Yp d – odchylenie wartości zmiennej zależnej od wartości przewidywanej równaniem regresji yp=Yp- Y yp – odchylenie wartości przewidywanej od wartości średniej, jest to odchylenie wyjaśnione równaniem regresji Odchylenie pomiaru od średniej można rozbić na dwie części: y= yp + d Sumy kwadratów powyższych odchyleń pozostają względem siebie w następującej relacji: ∑y2 = ∑y2p + ∑d2 Odchylenie przewidywane, czyli yp wyjaśnia współczynnik regresji b, czyli yp= bx. Można więcej przyjąć, że kwadrat tegoż odchylenia ma następującą postać: Autor: Dariusz Piwczyński 1 Metody statystyczne w naukach biologicznych ∑y 2 p rxy = ( ) = ∑ b 2 x 2 =b 2 ∗ ∑ x 2 = ∑ xy x2 * y2 2006-04-13 ∑ ( xy ) ∗ x ∑ (∑ x ) 2 2 2 2 = ∑ ( xy ) ∑x 2 2 , wzór na współczynnik korelacji MSS = ∑ y 2p = rxy2 ∗ ∑ y 2 ( ) ESS = ∑ y d2 = ∑ y 2 − ∑ y 2p = ∑ y 2 − rxy2 ∗ ∑ y 2 = 1 − rxy2 ∗ ∑ y 2 TSS = ∑ y 2 Ogólna suma kwadratów = wyjaśniona + niewyjaśniona, tj. TSS=MSS+ESS The REG Procedure Model: MODEL1 Dependent Variable: wydrzzim Analysis of Variance ródło DF Sum of Squares Mean Square Warto¶ć F Pr > F Model Error Corrected Total 1 60 61 77.26130 312.10304 389.36434 77.26130 5.20172 14.85 0.0003 Root MSE Dependent Mean Coeff Var 2.28073 43.94532 5.18992 R-Square Adj R-Sq 0.1984 0.1851 Parameter Estimates Variable Intercept POWOKA DF Parameter Estimate Standard Error Warto¶ć t Pr > |t| 1 1 39.09144 0.41011 1.29233 0.10641 30.25 3.85 <.0001 0.0003 Zmienność spowodowana “Modelem”, to zmienność zmiennej zależnej wyjaśniona poprzez model regresji. Zmienność dla błędu (Error), to zmienność zmiennej zależnej niewyjaśniona równaniem regresji. Zmienność ogólna (Corrected Total) Sum of Squares – Sumy kwadratów odchyleń TSS – suma kwadratów odchyleń, zmienność ogólna MSS – suma kwadratów odchyleń, zmienność międzygrupowa ESS – suma kwadratów odchyleń, zmienność wewnątrzgrupowa Mean Square – Średni kwadrat odchyleń Wartość F – to stosunek zmienności zmiennej zależnej wyjaśnionej modelem do zmienności, która nie została wyjaśniona modelem regresji. W powyższym przykładzie skonstruowane równanie regresji prostej ma następującą postać: y=39,09 + 0,410x. Jednocześnie mamy podstawę do odrzucenia hipotezy zerowej, tj. β=0. Możemy zatem założyć, iż między wydajnością rzeźną zimną w powierzchnią oka polędwicy w populacji generalnej istnieje zależność. Autor: Dariusz Piwczyński 2 Metody statystyczne w naukach biologicznych 2006-04-13 REGRESJA WIELOKROTNA Y= β0 + β1X1 + β2X2 + β3X3.... + ε β1, β2, β3 – cząstkowe współczynniki regresji wielokrotnej; ε - błąd losowy (reszta), β0-wyraz wolny Miary jakości modelu: R-Square (współczynnik determinacji) – informacja o tym, w jakim stopniu równanie regresji wyjaśnia zmienność zmiennej zależnej. Przyjmuje wartość od 0 do 1 (0-100%). R2 ma tendencję do przyjmowania tym wyższych wartości, im więcej cech zostało umieszczonych w modelu. R 2 y ∑ = ∑y 2 p 2 Adj R-sq –poprawiony współczynnik determinacji, zawiera poprawkę na liczbę zmiennych niezależnych w równaniu regresji. Root MSE – odchylenie standardowe błędu, pierwiastek kwadratowy MSE. Służy do określania jakości modelu, im niższy Root MSE, tym lepszy model. Metody doboru zmiennych do modelu: R2; Adj R-sq, CP? Często, wskaźnikiem wykorzystywanym w ocenie modelu jest R2. W takiej sytuacji, ten model jest najlepszy, w przypadku którego R2 jest najwyższy. Prostym wskaźnikiem dobroci modelu jest też statystyka Cp. ( MSE p − MSE full )( n − p ) Cp = p + MSE full MSEp średni kwadrat odchyleń dla modelu z liczbą zmiennych niezależnych równą p (włącznie z wyrazem wolnym) MSEfull - średni kwadrat odchyleń dla modelu z wszystkimi wskazanymi zmiennymi (włącznie z wyrazem wolnym) n – liczba obserwacji p – liczba parametrów, tj. liczba cech + 1. Biorąc pod uwagę liczbę zmiennych oraz statystykę Cp, należy stwierdzić, że te modele są właściwe, w dla których Cp jest mniejsze lub równe p+1, tzn. Cp≤p+1. Kryterium oceny modelu mogą być statystyki: SBC (Schwarz’s Bayesian Criterion), AIC (Akaike’s Information Criterion). Spośród rozpatrywanych modeli ten jest najlepszy, w przypadku którego obie statystyki przyjmują najniższą wartość. AIC = n*ln(SSE/n)+2p SBC = n*ln(SSE/n)+(p)*ln(n) Autor: Dariusz Piwczyński 3 Metody statystyczne w naukach biologicznych 2006-04-13 Punkty odstające Automatyczne metody doboru zmiennych do modelu (Regresja hierarchiczna) Metody selekcji krokowej: FORWARD (krokowa postępująca) Jest to metoda, która polega na stopniowym dołączaniu do modelu kolejnych zmiennych. W pierwszym kroku tworzony jest model z jedną zmienną niezależną, zmienną, którą charakteryzuje najniższy poziom istotności z nią związany. W następnym kroku tworzony jest na tej samej zasadzie model z dwiema zmiennymi niezależnymi itd. Postępowanie trwa tak długo, aż nie zostanie znaleziona już zmienna, dla której poziom istotności jest mniejszy aniżeli 0.50, w takiej też sytuacji R2 jest najwyższe. BACKWARD (krokowa wsteczna) Punktem wyjścia jest model z wszystkim deklarowanymi zmiennymi. Kolejne kroki tejże metody polegają na usuwaniu pojedynczo zmiennych, które najmniej wnoszą do modelu, tzn. p jest największe. Analiza trwa do momentu, gdy pozostałe w modelu zmienne charakteryzują się p poniżej 0.10. STEPWISE (krokowa) Metoda będąca kombinacją dwóch poprzednich metod. Domyślny poziom istotności, przy którym zmienna jest wprowadzana i usuwana z modelu wynosi 0.15. Ocena założeń regresji! Włączenie do modelu regresyjnego zmiennej wymaga spełnienia wielu założeń: Zmienne niezależne winny być nielosowe. Model winien być linowy względem parametrów. Liczba obserwacji musi być większa od liczby parametrów. Niezmiernie ważna jest między innymi ocena reszt. Resztę należy rozumieć jako różnicę między rzeczywistą a oszacowaną wartością zmiennej zależnej. y i = Yi − Yˆi Konieczne jest, aby: wartość oczekiwana reszt, dla każdej oszacowanej wartości wynosiła 0. reszty posiadały rozkład normalny w każdym punkcie szacowanej wartości zmiennej zależnej posiadały podobną wariancję w każdym punkcie szacowanej zmiennej (homoscedastyczność) były niezależne (nieskorelowane) Oprócz oceny reszt konieczne jest prześledzenie współliniowości zmiennych (collinearity). Do wskaźników oceniających współlniowość należy, m.in VIF, CI i VP. Eliminacja wspołliniowości polega na usunięciu z modelu cech, które są liniową kombinacją innych zmiennych niezależnych. VIF (Variance Inflation Factor) zwany jest współczynnikiem podbicia wariancji. VIF pozwala wychwycić wzrost wariancji ze względu na współliniowość cechy. VIF > 10 wskazuje na obecną współliniowość. Użycie opcji COLLIN w modelu wariancji pozwala obliczyć, tzw. Condition index (CI) oraz Variance proportions (VP). Jak interpretować CI? CI pomiędzy 10 a 30 wskazuje na słabą współliniwość CI między 30 a 100 dowodzi silniejszej współliniowości. CI > 100 świadczy o bardzo silnej współliniowości. VP > 0.5 świadczy również o istnieniu współliniowości. Autor: Dariusz Piwczyński 4