ĆWICZENIA nr 12

Transkrypt

ĆWICZENIA nr 12
ĆWICZENIA nr 12
Cel zajęć: Zapoznanie z modelem regresji liniowej z jedną zmienną niezależną, estymacja
parametrów tego modelu, jego interpretacja oraz ocena stopnia dopasowania do danych
rzeczywistych.
Wprowadzenie teoretyczne
W pewnym uproszczeniu modelowanie statystyczne może być rozumiane jako ciąg kolejno
następujących po sobie procedur, których wykonanie prowadzi do wyniku, jakim jest model
statystyczny. W praktyce modelowania zdarza się często, że wiele z tych procedur należy powtórzyć
wielokrotnie. Jeżeli bowiem skonstruowany model nie przejdzie pomyślnie weryfikacji statystycznej,
to może się okazać, że badane zjawisko lepiej opisuje inna funkcja lub inny układ zmiennych.
Wymusza to ponowną konstrukcję modelu i jego weryfikację.
Algorytm budowy modelu statystycznego jest następujący:
dobór zmiennych do modelu regresji,
wybór analitycznej postaci modelu (akcent jest tu położony głównie na modele
liniowe i modele transformowalne do liniowych),
estymacja parametrów modelu,
weryfikacja modelu.
Model regresji liniowej można zapisać w następujący sposób:
y = α 0 + α 1 x1 + ... + α k x k + ε ,
gdzie y jest zmienną objaśnianą (zależną),
x1 , x 2 ,..., x k
są zmiennymi objaśniającymi
(niezależnymi), α 1 , α 2 ,..., α k są parametrami modelu, ε jest składnikiem losowym modelu.
Parametry modelu podlegają szacowaniu (estymacji) klasyczną metodą najmniejszych kwadratów.
Zastosowanie tej metody wymaga przyjęcia następujących założeń:
• postać modelu jest liniowa lub sprowadzalna do liniowej,
• zmienne objaśniające są wielkościami nielosowymi,
• zmienne objaśniające są niezależne i wolne od współliniowości, czyli nie występuje między
zmiennymi dokładna zależność liniowa,
• liczba obserwacji jest co najmniej równa liczbie szacowanych parametrów,
•
składniki losowe dla wszystkich obserwacji mają wartości oczekiwane równe zeru ( E (ε ) = 0 )
•
•
składniki losowe mają skończoną wariancję równą σ 2 ,
kowariancje pomiędzy składnikami losowymi są równe zeru, tzn. nie występuje autokorelacja
składnika losowego,
składniki losowe nie są skorelowane ze zmiennymi objaśniającymi,
•
•
składnik losowy ma rozkład normalny N (0, σ ) .
Najprostszą formą regresji liniowej jest funkcja liniowa z jedną zmienną niezależną. Funkcja
regresji Y względem zmiennej X przyjmuje następującą postać:
= + + ,
gdzie = 1,2, … , ; , są parametrami modelu oraz jest składnikiem losowym modelu.
Estymatory parametrów modelu, z wykorzystaniem metody najmniejszych kwadratów, wyznacza się
następująco:
= =
∑ − − ∑ − = = − .
Następstwem budowy modelu statystycznego jest jego weryfikacja. Wyniki prognozy, otrzymanej za
jego pomocą, należy porównać z wartościami rzeczywistymi. Obliczmy w ten sposób tzw. reszty:
̂ = = − ,
gdzie oznacza wartość prognozy. Wariancje resztowe wyznaczanie są następująco:
1
1
=
− =
−2
−2
Im mniejszą wartość przyjmuje powyższy parametr, tym lepszą ocenę otrzymuje weryfikowany
model. W celu określenia dopasowania modelu liniowego do danych empirycznych, oblicza się
współczynnik zbieżności oraz współczynnik determinacji. Współczynnik zbieżności dany jest
wzorem:
∑ − = ∑ − Współczynnik determinacji otrzymuje się następująco: = 1 − . Wartości obydwu
współczynników zawierają się w przedziale [0,1]. Im wartość współczynnika zbieżności
bliższa 0 oraz im wartość współczynnika determinacji bliższa 1, tym lepsze jest dopasowanie
modelu liniowego do danych empirycznych.
Zadania do rozwiązania
1. W poniższej tabeli przedstawiono zużycie (w tonach) surowców A i B przez pewne
przedsiębiorstwo, w ciągu pięciu miesięcy. Oszacować parametry funkcji regresji opisującej
zależność zużycia surowca A od surowca B oraz zinterpretować otrzymany model.
miesiąc
A
B
1
21.1 6
2
22.9 4.8
25
4
3
26.4 3.1
4
29.6 2.1
5
2. W 1996 roku zebrano informacje o siedmiu wrocławskich uczelniach o liczbie studentów
oraz o powierzchni (w m2) sal dydaktycznych tych uczelni. Dane przedstawia poniższa tabela.
uczelnia
1
2
3
4
5
6
7
liczba studentów (Y)
4000 12000 6000 21000 9000 1000 3000
powierzchnia sal dydaktycznych (X) 4500 8800 4200 17000 6000 1800 2500
Należy:
(a) obliczyć oraz zinterpretować współczynnik korelacji cech X oraz Y,
(b) oszacować oraz zinterpretować równanie regresji zmiennej Y względem zmiennej X,
(c) oszacować oraz zinterpretować równanie regresji zmiennej X względem zmiennej Y,
(d) określić szacunkową wielkość powierzchni sal dydaktycznych w jednej uczelni, jeżeli
będzie ona kształcić 15000 osób,
(e) określić szacunkową liczbę studentów w jednej uczelni, jeżeli powierzchnia jej sal
dydaktycznych wynosi 8000 m2,
(f) porównać otrzymane modele za pomocą wariancji resztowej, współczynnika zbieżności
oraz współczynnika determinacji.
3. Za pomocą pakietu Excel sprawdzić poprawność obliczeń wykonanych w zadaniu 2.
Źródła:
Krysicki W., Bartos J., Dyczka W., Królikowska K., Wasilewski M. „Rachunek prawdopodobieństwa i
statystyka matematyczna w zadaniach – część II: Statystyka matematyczna”, PWN, Warszawa 2004
Kukuła K. „Elementy statystyki w zadaniach”, PWN, Warszawa 2003
Magiera R. „Modele i metody statystyki matematycznej”, Oficyna Wydawnicza GiS, Wrocław 2002
Żuk B. „Biometria stosowana”, PWN, Warszawa 1989

Podobne dokumenty