Modele i wnioskowanie statystyczne (MWS), sprawozdanie z

Transkrypt

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z
Modele i wnioskowanie statystyczne (MWS),
sprawozdanie z laboratorium 5
Konrad Miziński, nr albumu 233703
11 czerwca 2015
Zadanie 1
Współczynniki regresji liniowej:
y = ax + b
x = cy + d
wyznaczono w nastepuj
˛
acy
˛ sposób:
a=
XY − X Y
X2 − X
2
= 0.9044
b = Y − aX = −0.0334
c=
YX −Y X
Y2−Y
2
= 1.05501
d = X − cY = 0.03313
co jest tożsame, ze współczynnikami otrzymanymi za pomoca˛ dostepnej
˛
z pakietem R
implementacji regresji liniowej:
> lm(y~x)
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept)
-0.0334
x
0.9044
> lm(x~y)
Call:
lm(formula = x ~ y)
Coefficients:
(Intercept)
0.03313
y
1.05501
1
Otrzymane modele regresji liniowej przedstawiono na rysunkach 1 i 2.
Rysunek 1: Regresja liniowa zależności y od x.
Rysunek 2: Regresja liniowa zależności x od y.
2
Porównanie obu prostych regresji liniowej wykonano poprzez transformacje˛ drugiego
modelu z postaci x(y) do y(x):
x = cy + d ⇒ y =
1
d
x−
c
c
1
d
= 0.94786 6= a − = −0.0334 6= b
c
c
Jak widać otrzymane parametry sa˛ różne w przypadku obu modelu liniowych. Różnice
pomie˛ dzy prostymi regresji ilustruje dodatkowo rysunek 3.
Rysunek 3: Porównanie modeli regresji y(x) i x(y)
Zadanie 2
Współczynniki regresji liniowej:
y = av + b
√
y = cv + d
wyznaczono w nastepuj
˛
acy
˛ sposób:
a=
vy − v y
v2 − v2
= 0.672
b = y − av = −19.366
3
a=
√
√
v y−v y
= 0.07886
v2 − v2
√
d = y − cv = −0.51484
co jest tożsame, ze współczynnikami otrzymanymi za pomoca˛ dostepnej
˛
z pakietem R
implementacji regresji liniowej:
> lm(y~v)
Call:
lm(formula = y ~ v)
Coefficients:
(Intercept)
-19.366
v
0.672
> lm(sqrt.y~v)
Call:
lm(formula = sqrt.y ~ v)
Coefficients:
(Intercept)
-0.51484
v
0.07886
Otrzymane modele regresji liniowej przedstawiono na rysunkach 4 i 5.
Rysunek 4: Regresja liniowa zależności y od v.
4
Rysunek 5: Regresja liniowa zależności
√
y od v.
Porównanie obu modeli regresji przedstawiono na rysunku 6.
Rysunek 6: Porównanie 2 modeli regresji liniowej.
5
Do wyboru lepszego z modeli posłużono sie˛ współczynnikiem determinancji R2 :
n
X
Ry2 =
(ybi − y)2
i=1
n
X
= 0.9830
2
(yi − y)
i=1
n
X
√
√
yi − y)2
(d
2
R√
y =
i=1
n
X
√
√
( yi − y)2
= 0.9946
i=1
co oznacza, że oba modele sa˛ bardzo dobrze dopasowane, przy czym lepszym z nich
(wartość R2 bliższa 1) jest drugi model - ten, w którym regresja liniowa zastosowana
została do wyliczenie pierwiastka z wartości y. Może to świadczyć, że zależność y(v) ma
charakter wykładniczy.
Powyższe obliczenia daja˛ wyniki tożsame z tymi zwracanymi przez wbudowany w
pakiet R model regresji liniowej:
> c(summary(lm(y~v))$r.squared, summary(lm(sqrt(y)~v))$r.squared)
[1] 0.9830262 0.9946291
Zadanie 3
Zadanie rozpoczeto
˛ od zbudowania modelu regresji liniowej:
y = ax + b
a=
XY − X Y
X2 − X
2
= 0.672
b = Y − aX = −19.366
gdzie y oznacza interwał miedzy
˛
kolejnymi erupcjami, a x czas trwania pojedynczej erupcji.
Poprawność otrzymanego modelu potwierdza wbudowana w pakiet R implementacja regresji liniowej:
> lm(interval~duration)
Call:
lm(formula = interval ~ duration)
Coefficients:
(Intercept)
33.83
duration
10.74
6
Na podstawie tak uzyskanego modelu wyliczono czasy, jakie upłyna˛ do kolejnej erupcji
dla czasów trwania poprzedniej równych 2 i 4.5
55.31015 dla x = 2
yb = ax + b =
82.16258 dla x = 4.5
Poprawność powyższej predykcji potwierdza wbudowana w pakiet R implementacja regresji liniowej:
> predict(lm(interval~duration), data.frame(duration=c(2, 4.5)))
1
2
55.31015 82.16258
Bład
˛ powyższej predykcji oszacowany został za pomoca˛ wzoru:
s
1
(X − x)2
)
s∗ = s2 (1 + +
n n(X 2 − X 2 )
gdzie
n
s2 =
1 X
(ybi − yi )2
n − 2 i=1
Otrzymano dość podobne wyniki: 6.775818 dla x = 2 i 6.745245 dla x = 4.5.
Wizualizacje˛ wykorzystanego modelu regresji przedstawiono na rysunku 7.
7
Rysunek 7: Model regresji liniowej erupcji wulkanu.
8