Ćwiczenia 11_12 – KLASYCZNY MODEL REGRESJI - E-SGH

Transkrypt

Ćwiczenia 11_12 – KLASYCZNY MODEL REGRESJI - E-SGH
Ćwiczenia 11_12 – KLASYCZNY MODEL REGRESJI LINIOWEJ
Zadanie 1. W tabeli przedstawiono wysokość stawki celnej (X) oraz udział w rynku na pewien towar
importowany spoza UE (Y).
xi
5
15
0
10
8
20
yi
25
16
32
17
20
11
Należy w oparciu o podane informacje:
a. Zapisać równanie funkcji regresji liniowej i zinterpretować jego parametry.
b. Wyznaczyć nieobciążone estymatory odchyleń standardowych rozkładu zmiennej XY.
c. Zapisać równanie modelu regresji liniowej.
d. Sprawdzić istotność współczynnika regresji liniowej za pomocą weryfikacji odpowiedniej hipotezy
statystycznej.
e. Sprawdzić czy występuje statystycznie istotna ujemna zależność między badanymi zmiennymi. Przyjąć
poziom istotności 0,05.
f. Za pomocą estymacji przedziałowej wyznaczyć parametry regresji liniowej (α i β).
Przykład – wydruk komputerowy z kartki – Analiza wariancji w regresji
Zadanie 2. Oszacowano parametry równania regresji liniowej wartości maszyn eksploatacyjnych pewnej firmy
(Y – w tys zł) względem czasu ich eksploatacji (X – w latach):
- wyraz wolny: 31
- współczynnik regresji liniowej: - 4.
Współczynnik dopasowania modelu do danych empirycznych wyniósł 90,25.
Należy:
a. Zapisać równanie funkcji regresji liniowej oraz zinterpretować jego parametry.
b. Ocenić siłę i kierunek zależności między badanymi zmiennymi.
Zadanie 3. W badaniu regresji liniowej otrzymano oszacowanie współczynnika regresji liniowej na poziomie
-0,124. Standardowy błąd oceny wynosił 0,0606. Dla jakiego poziomu istotności otrzymany współczynnik jest
statystycznie istotny? Przyjąć liczbę stopni swobody s=29. Zinterpretować liczbę 0,0606.
Zadanie 4. Badanie zależności między stażem pracy (Y) i wiekiem pracowników (X) w 106-osobowej próbie
pracowników dostarczyło następujących danych:
= 0,8 + 31,2
- ze wzrostem wieku pracowników o 1 rok staż pracy rośnie przeciętnie o 0,4 roku,
- średni wiek pracowników wynosi 40 lat.
Należy:
a. Zapisać równanie regresji y względem x.
b. Wiedząc dodatkowo, że błąd oceny współczynnika wynosił 0,2 zweryfikować hipotezę o dodatnim,
statystycznie istotnym współczynniku regresji.
c. Ustalić teoretyczny staż pracy pracowników w wieku 50 lat, uwzględniając błąd predykcji i wiedząc, że
S(e)=0,59.
Zadanie 5. Dla 25 losowo wybranych widzów przeprowadzono badanie zależności między czasem trwania
reklamy (X – w sek.) a liczbą zapamiętanych szczegółów (Y – w szt.). Opracowana na tej podstawie funkcja
regresji była następująca: = 0,35 + 12
[0,25] [0,5]
Należy zbadać – przy poziomie istotności 0,1 – czy współczynnik regresji liniowej jest statystycznie istotny?
Proszę sformułować wniosek końcowy.
1
Zadanie 6. W badaniu zależności między funduszami własnymi 18 losowo wybranych banków spółdzielczych a
wysokością udzialanych przez nie kredytów otrzymano współczynnik korelacji liniowej Pearsona na poziomie
0,62. Na poziomie istotności 0,05 należy zweryfikować hipotezę o występowaniu zależności pomiędzy
badanymi zmiennymi. Proszę sformułować wniosek końcowy.
Zadanie 7. Analizowano regresję liniową zmiennych: X – powierzchnia mieszkania (w metrach kwadrat.), Y –
2
cena 1 m mieszkania (w tys. zł) dla próby 8 losowo wybranych ofert agencji nieruchomości w pewnym mieście.
Uzyskano wyniki:
4,1
4,0
3,8
3,6
3,3
3,1
2,8
2,5
4,5
4,2
3,5
3,4
3,1
3,0
2,9
2,6
( − )
= 0,4
Należy wyznaczyć współczynnik determinacji oraz podać jego interpretację.
Zadanie 8. W analizie regresji liniowej tygodniowego czasu poświęcanego na naukę (y – w godz.) względem
czasu oglądania telewizji (x - w godz.) dla 80 uczniów otrzymano: cxy=-1,32, ̅ = 18, = 14, = 2, = 1,7,
!(") = 1,6. Na podstawie podanych informacji należy:
a. Oszacować parametry strukturalne funkcji regresji,
b. Czy współczynnik regresji jest istotny ujemnie? (przyjąć poziom istotności 0,05).
c. Podać teoretyczny czas nauki osoby, której czas oglądania tv wynosi 20 godz. Wyznaczyć błąd tej
prognozy.
d. Oszacować przedziałowo parametry: współczynnik regresji liniowej oraz wyraz wolny.
MODEL REGRESJI ZE ZMIENNĄ CZASOWĄ (nieobowiązkowy materiał)
Zadanie 9. W badaniu spożycia pewnego produktu w latach 2011-2014 otrzymano – korzystając z MNK –
następujące równanie trendu liniowego (dla t=1,2,...n):
= 0,7% + 35
Należy w oparciu o podane informacje:
a. Zbadać czy w badanym okresie występował istotny dodatni trend liniowy.
b. Wiedząc, że odchylenie standardowe składnika losowego wynosiło 0,6 ocenić, czy zasadne jest
wykonywanie prognozy na 2015 r.
Zadanie 10. Dla danych rocznych opisujących skup mleka w mln litrów w Polsce w latach 2009-2013, dla
t=0,1,2, ..., n-1 oszacowano liniowy model trendu uzyskując wyniki:
Dependend variable: mleko
Independent variable: czas
Parameter
Estimate
Standard error
t-value
Prob. level
Intercept
7556.6
210.079
35.9702
.00005
Slope
-399.5
85.7645
-4.6581
.01867
Correlation coefficient = -0.937301
R-squared = 87.85 percent
Stand. Error of est. = 271.211
Slope – wsp. kierunkowy, Intercept – wyraz wolny.
a. Ocenić, czy trend skupu mleka w badanym okresie był ujemny, poziom istotności 0,05.
b. Ocenić punktowo przewidywaną wielkość skupu mleka w roku 2016. Wyznaczyć średni błąd prognozy.
2
Wydruki z programów statystycznych
Zadanie 1.
Zadania sprawdzające na podst. M. Wieczorek, Statystyka. Lubię to! Zbiór zadań, Oficyna Wydawnicza SGH,
Warszawa 2013.
Każdą odpowiedź jako: T – prawdziwą lub N – nieprawdziwą.
Zadanie 1.1 W klasycznym modelu regresji liniowej zakłada się, że składnik losowy & jest:
a. Zmienną losową o wartości oczekiwanej równej 0,
b. Zmienną losową o wariancji równej 1,
c. Zmienną losową o stałej wariancji.
Zadanie 1.2 Współczynnik determinacji w modelu regresji wynosi 0,81. Oznacza to, że:
a. Współczynnik korelacji w tej samej próbie wynosi 0,9,
b. Wzrost wartości zmiennej niezależnej powoduje wzrost przeciętnej wartości zmiennej zależnej,
c. Dopasowanie modelu do danych empirycznych jest zadawalające.
Zadanie 1.3 Jeżeli kowariancja zmiennych ' i ( jest ujemna to:
a. Współczynnik regresji względem musi być ujemny,
b. Współczynnik korelacji liniowej między ' i ( musi być ujemny,
c. Współczynnik determinacji w modelu regresji liniowej musi być ujemny.
Zadanie 1.4 Liniowa funkcja regresji oszacowania MNK posiada własności:
a. ∑ = ∑ * ,
b. ∑ " = 0,
c. ̅ + +, = Zadanie 1.5 Założenia KMRL:
a. sprawdza się po oszacowaniu funkcji regresji liniowej (ex post),
b. wymagają, aby zmienna niezależna była nielosowa,
c. dotyczą sprawdzenia skorelowania zmiennej zależnej i niezależnej.
3
Wzory – Klasyczny model regresji liniowej
1. Estymacja przedziałowa:
a. współczynnika regresji liniowej ./ − %0,1 !0 < ≤ + %0,1 !0 4 = 1 − Założenia modelu:
(5 = ' + + (liniowa zależność w populacji generalnej)
−współczynnik regresji liniowej (parametr)
−współczynnik regresji liniowej (estymator z próby)
!0 −błąd oceny parametru
+ −wyraz wolny
−poziom istotności
1 − −poziom ufności (współczynnik ufności)
Interpretacja: Przedział o końcach < 6; 8 > przy poziomie ufności : pokrywa nieznaną wartość
parametru .
b. wyrazu wolnego
./+, − %0,1 !;< < + ≤ +, + %0,1 !;< 4 = 1 − 2. !!! Estymacja przedziałowa dla prognozy
? ≤ ?> + %
. =?> − % ! @?> A < (
0,1
>
?>
0,1 !( )B
=1−
KLASYCZNY MODEL REGRESJI LINIOWEJ (KMRL)
Założenia:
1. C(D|F = G) = -G + H
Wartości oczekiwane warunkowych rozkładów zmiennej losowej Y są liniową funkcją ustalonych
wartości zmiennej losowej X (funkcja regresji Y względem X jest liniowa).
2. IJ (D|F = G) = KJ
Wariancja zmiennej losowej Y w jej warunkowych rozkładach jest stała (nie zależy od wartości x) .
Oznaczenia:
Y – zmienna zależna
X – zmienna niezależna
α – współczynnik regresji liniowej; interpretacja: jest to wielkość, o jaką zmienia się warunkowa
wartość oczekiwana zmiennej zależnej Y, wówczas, gdy X wzrasta o jednostkę.
4
Klasyczny model regresji liniowej:
Yi = E(Y / X = xi ) + ε i = αxi + β + ε i
i = 1,2,..., n
gdzie & są zmiennymi losowymi takimi, że:
E (ε i ) = 0
D 2 (ε i ) = E (ε i2 ) = δ 2
cov(ε i , ε j ) = E (ε iε j ) = 0
dla i ≠ j
Po dodaniu założenia: & ~M(0, N)
Otrzymamy klasyczny model normalnej regresji liniowej.
Liniowa f. regresji wyznaczona z próby losowej:
< , gdzie
=G + H
O
^
Y – wartości teoretyczne zmiennej Y
Parametry dla próby losowej:
n
^
α=
∑ (x
i =1
i
− x )(Yi − Y )
n
∑ (x
i =1
i
=
− x) 2
cox ( x, Y )
S ( y ) P ∑ ∑ Q∗Q−∑ Q∗∑ Q
=
=r
2
2
P ∑ Q2 −(∑ Q)
S ( x)
sx
^ 1 n
^
1 n
β = ∑ Yi − α ∑ xi = Y − α x
n i =1
n i =1
^
^
^
Odchylenia standardowe α i β
n
δ2
^
D(α ) =
^
D( β ) =
2
n
∑ ( x − x)
i =1
δ 2 ∑ xi2
i =1
n
2
n∑ ( x i −) x)
i
i =1
Wartości zmiennej losowej ei = reszty modelu
^
ei =Yi −Yi
^
^
Estymacja σ2, D(α ) i D( β )
5
n
Odchylenie standardowe reszt:
Se =
∑e
i =1
2
i
n−2
Nieobciążone estymatory odchyleń standardowych:
S^ =
α
se2
S ^ – ma interpretację stochastyczną
n
∑ ( x − x)
2
α
i
i =1
n
S^ =
β
se2 ∑ xi2
i =1
n
n ∑ ( xi − x ) 2
i =1
Błędy względne:
!() !(+, )
,
+,
Interpretacje parametrów:
−przeciętny przyrost y przypadający na jednostkę przyrostu x
+, − nie zawsze ma interpretację
!(")
Interpretacje błędów:
Odchylenie standardowe estymatora jest miarą wielkości błędów losowych popełnianych przy
estymacji parametru za pomocą tego estymatora.
Np. !() − przeciętne odchylenie estymatorów uzyskanych z n-elementowych prób od wartości
parametru.
Dokładność dopasowania prostej metodą MNK - S S =
∑( − )
∑( − )
=
1
−
∑( − )
∑( − )
S − współczynnik determinacji liniowej, oznacza w ilu % model jest dopasowany do danych.
6
Funkcja regresji liniowej (próba)
= + +,
Model regresji liniowej w analizie wariancji
= + +, + "
estymatory [!()], [!/+, 4], [!(")]
Analiza wariancji w modelu regresji liniowej
( − ) = ( − ) + ( − )
TOTAL =
MODEL
+
RESIDUAL
Odchylenie całkowite = odchylenie wyjaśnione regresją + odchylenie niewyjaśnione regresją (reszta)
Liczba stopni swobody: (n-1)
(1)
(n-2)
7