Wykład: Statystyka matematyczna – wprowadzenie

Transkrypt

Metody statystyczne w naukach biologicznych
2006-04-13
Wykład: Analiza regresji prostej oraz wielokrotnej.
Co wspólnego z regresją ma analiza wariancji???
Istotność współczynnika regresji.
Hipoteza zerowa w przypadku istotności współczynnika regresji ma następującą postać:
Model I
H0: β=0, zaś alternatywna H1: β≠0
Model II
H0: ρ=0, zaś alternatywna H1: ρ≠0
d
yp
y
Krótkie objaśnienie!
y=Y- Y
y – odchylenie wartości zmiennej zależnej od wartości średniej dla tej zmiennej
d=Y-Yp
d – odchylenie wartości zmiennej zależnej od wartości przewidywanej równaniem regresji
yp=Yp- Y
yp – odchylenie wartości przewidywanej od wartości średniej, jest to odchylenie wyjaśnione
równaniem regresji
Odchylenie pomiaru od średniej można rozbić na dwie części:
y= yp + d
Sumy kwadratów powyższych odchyleń pozostają względem siebie w następującej relacji:
∑y2 = ∑y2p + ∑d2
Odchylenie przewidywane, czyli yp wyjaśnia współczynnik regresji b, czyli
yp= bx. Można więcej przyjąć, że kwadrat tegoż odchylenia ma następującą postać:
Autor: Dariusz Piwczyński
1
∑y
2
p
rxy =
(
)
= ∑ b 2 x 2 =b 2 ∗ ∑ x 2 =
∑ xy
x2 * y2
2006-04-13
∑ ( xy ) ∗ x
∑
(∑ x )
2
2
2 2
=
∑ ( xy )
∑x
2
2
, wzór na współczynnik korelacji
MSS = ∑ y 2p = rxy2 ∗ ∑ y 2
(
)
ESS = ∑ y d2 = ∑ y 2 − ∑ y 2p = ∑ y 2 − rxy2 ∗ ∑ y 2 = 1 − rxy2 ∗ ∑ y 2
TSS = ∑ y
2
Ogólna suma kwadratów = wyjaśniona + niewyjaśniona, tj. TSS=MSS+ESS
The REG Procedure
Model: MODEL1
Dependent Variable: wydrzzim
Analysis of Variance
ródło
DF
Sum of
Squares
Mean
Square
Warto¶ć
F
Pr > F
Model
Error
Corrected Total
1
60
61
77.26130
312.10304
389.36434
77.26130
5.20172
14.85
0.0003
Root MSE
Dependent Mean
Coeff Var
2.28073
43.94532
5.18992
R-Square
Adj R-Sq
0.1984
0.1851
Parameter Estimates
Variable
Intercept
POWOKA
DF
Parameter
Estimate
Standard
Error
Warto¶ć t
Pr > |t|
1
1
39.09144
0.41011
1.29233
0.10641
30.25
3.85
<.0001
0.0003
Zmienność spowodowana “Modelem”, to zmienność zmiennej zależnej wyjaśniona poprzez model
regresji.
Zmienność dla błędu (Error), to zmienność zmiennej zależnej niewyjaśniona równaniem regresji.
Zmienność ogólna (Corrected Total)
Sum of Squares – Sumy kwadratów odchyleń
TSS – suma kwadratów odchyleń, zmienność ogólna
MSS – suma kwadratów odchyleń, zmienność międzygrupowa
ESS – suma kwadratów odchyleń, zmienność wewnątrzgrupowa
Mean Square – Średni kwadrat odchyleń
Wartość F – to stosunek zmienności zmiennej zależnej wyjaśnionej modelem do
zmienności, która nie została wyjaśniona modelem regresji.
W powyższym przykładzie skonstruowane równanie regresji prostej ma następującą postać:
y=39,09 + 0,410x. Jednocześnie mamy podstawę do odrzucenia hipotezy zerowej, tj. β=0. Możemy
zatem założyć, iż między wydajnością rzeźną zimną w powierzchnią oka polędwicy w populacji
generalnej istnieje zależność.
2
2006-04-13
REGRESJA WIELOKROTNA
Y= β0 + β1X1 + β2X2 + β3X3.... + ε
β1, β2, β3 – cząstkowe współczynniki regresji wielokrotnej;
ε - błąd losowy (reszta), β0-wyraz wolny
Miary jakości modelu:
R-Square (współczynnik determinacji) – informacja o tym, w jakim stopniu równanie regresji
wyjaśnia zmienność zmiennej zależnej. Przyjmuje wartość od 0 do 1 (0-100%). R2 ma tendencję
do przyjmowania tym wyższych wartości, im więcej cech zostało umieszczonych w modelu.
R
2
y
∑
=
∑y
2
p
2
Adj R-sq –poprawiony współczynnik determinacji, zawiera poprawkę na liczbę zmiennych
niezależnych w równaniu regresji.
Root MSE – odchylenie standardowe błędu, pierwiastek kwadratowy MSE. Służy do określania
jakości modelu, im niższy Root MSE, tym lepszy model.
Metody doboru zmiennych do modelu:
R2; Adj R-sq, CP?
Często, wskaźnikiem wykorzystywanym w ocenie modelu jest R2. W takiej sytuacji, ten model jest
najlepszy, w przypadku którego R2 jest najwyższy.
Prostym wskaźnikiem dobroci modelu jest też statystyka Cp.
( MSE p − MSE full )( n − p )
Cp = p +
MSE full
MSEp średni kwadrat odchyleń dla modelu z liczbą zmiennych niezależnych równą p (włącznie z
wyrazem wolnym)
MSEfull - średni kwadrat odchyleń dla modelu z wszystkimi wskazanymi zmiennymi (włącznie z
wyrazem wolnym)
n – liczba obserwacji
p – liczba parametrów, tj. liczba cech + 1.
Biorąc pod uwagę liczbę zmiennych oraz statystykę Cp, należy stwierdzić, że te modele są
właściwe, w dla których Cp jest mniejsze lub równe p+1, tzn. Cp≤p+1.
Kryterium oceny modelu mogą być statystyki: SBC (Schwarz’s Bayesian Criterion), AIC
(Akaike’s Information Criterion). Spośród rozpatrywanych modeli ten jest najlepszy, w
przypadku którego obie statystyki przyjmują najniższą wartość.
AIC = n*ln(SSE/n)+2p
SBC = n*ln(SSE/n)+(p)*ln(n)
3
2006-04-13
Punkty odstające
Automatyczne metody doboru zmiennych do modelu (Regresja hierarchiczna)
Metody selekcji krokowej:
FORWARD (krokowa postępująca)
Jest to metoda, która polega na stopniowym dołączaniu do modelu kolejnych zmiennych.
W pierwszym kroku tworzony jest model z jedną zmienną niezależną, zmienną, którą
charakteryzuje najniższy poziom istotności z nią związany. W następnym kroku tworzony jest na tej
samej zasadzie model z dwiema zmiennymi niezależnymi itd. Postępowanie trwa tak długo, aż nie
zostanie znaleziona już zmienna, dla której poziom istotności jest mniejszy aniżeli 0.50, w takiej też
sytuacji R2 jest najwyższe.
BACKWARD (krokowa wsteczna)
Punktem wyjścia jest model z wszystkim deklarowanymi zmiennymi. Kolejne kroki tejże metody
polegają na usuwaniu pojedynczo zmiennych, które najmniej wnoszą do modelu, tzn. p jest
największe. Analiza trwa do momentu, gdy pozostałe w modelu zmienne charakteryzują się p
poniżej 0.10.
STEPWISE (krokowa)
Metoda będąca kombinacją dwóch poprzednich metod. Domyślny poziom istotności, przy którym
zmienna jest wprowadzana i usuwana z modelu wynosi 0.15.
Ocena założeń regresji!
Włączenie do modelu regresyjnego zmiennej wymaga spełnienia wielu założeń:
Zmienne niezależne winny być nielosowe.
Model winien być linowy względem parametrów.
Liczba obserwacji musi być większa od liczby parametrów.
Niezmiernie ważna jest między innymi ocena reszt. Resztę należy rozumieć jako różnicę między
rzeczywistą a oszacowaną wartością zmiennej zależnej.
y i = Yi − Yˆi
Konieczne jest, aby:
 wartość oczekiwana reszt, dla każdej oszacowanej wartości wynosiła 0.
 reszty posiadały rozkład normalny w każdym punkcie szacowanej wartości zmiennej
zależnej
 posiadały podobną wariancję w każdym punkcie szacowanej zmiennej
(homoscedastyczność)
 były niezależne (nieskorelowane)
Oprócz oceny reszt konieczne jest prześledzenie współliniowości zmiennych (collinearity). Do
wskaźników oceniających współlniowość należy, m.in VIF, CI i VP. Eliminacja wspołliniowości
polega na usunięciu z modelu cech, które są liniową kombinacją innych zmiennych niezależnych.
VIF (Variance Inflation Factor) zwany jest współczynnikiem podbicia wariancji. VIF pozwala
wychwycić wzrost wariancji ze względu na współliniowość cechy. VIF > 10 wskazuje na obecną
współliniowość.
Użycie opcji COLLIN w modelu wariancji pozwala obliczyć, tzw. Condition index (CI) oraz
Variance proportions (VP).
Jak interpretować CI?
CI pomiędzy 10 a 30 wskazuje na słabą współliniwość
CI między 30 a 100 dowodzi silniejszej współliniowości.
CI > 100 świadczy o bardzo silnej współliniowości.
VP > 0.5 świadczy również o istnieniu współliniowości.
4

Wykład: Statystyka matematyczna – wprowadzenie

Transkrypt

Podobne dokumenty

Piotr Jadwiszczak „Zrozumieć statystykę”

STATYSTYKA ćw 7

Model statystyczny Format danych Przedziały ufności i testy

Kalkulator matematyczny FB-82MS-L Quer

Przykladowy test

Zajmiemy się zbiorem: http://archive.ics.uci.edu/ml/datasets/Pima+

Ćwiczenie 10

Regresja i Korelacja