REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA - E-SGH

Transkrypt

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA - E-SGH
REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA
Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.
Zadanie 1
W celu ustalenia zależności między liczbą braków a wielkością produkcji części zamiennych w tys.
szt. zbadano 5 losowo wybranych zakładów produkcyjnych wytwarzającycch takie części. Wyniki
badania były następujące:
Wielkość produkcji (w tys. szt) 1 4 5 7 8
Liczba braków (w szt.)
10 30 50 50 60
Na podstawie danych oszacuj parametry liniowego równania regresji. Zinterpretuj wyniki.
Rozwiązanie
W pierwszej kolejności należy ustalić, która ze zmiennych jest zależna (objaśniana), a która
niezależna (objaśniająca). W podanym przykładzie to liczba braków będzie zależała od wielkości
produkcji. Mówiąc inaczej: zastanawiamy się czy fakt, że produkujemy dużo/mało ma wpływ na
ilość braków. Odwrotna zależność nie ma sensu. Byłoby to badanie czy liczba braków może
określać poziom produkcji (tzn. w zależności od liczby braków ustalamy nasz poziom produkcji).
Zatem:
Wielkość produkcji – zmienna niezależna (X)
Liczba braków – zmienna zależna (Y).
Wielkość produkcji (w Liczba braków (w
tys. szt) -X
szt.) - Y
1
10
4
30
5
50
7
50
8
60
25
200
X*Y
10
120
250
350
480
1210
X^2
1
16
25
49
64
155
n=
x sredni =
y sredni =
a=
b=
5
5
40
7
5
y = 7x+5
Interpretacja do współczynnika kierunkowego:
W analizowanym zakładzi produkcyjnym wzrost produkcji o tys. szt. powoduje zwiększenie
się liczby braków, średnio o 7 szt.
Interpretacja wzrayu wolnego:
Nie posiada logicznej interpretacji.
(gdyby za x=0, to oznaczało by, że gdy w ogóle nie produkujemy, to i tak mamy 5 braków – co jest
bez sensu; ewentualnie można by interpretować wyraz wolny w tym przykładzie jako liczba
braków, która będzie zawsze występowała – niezależnie od rozmiarów produkcji.)
Zadanie 2
Równanie regresji służące do przewidywania przeciętnych ocen na pierwszym roku studiów na
podstawie średnich ocen końcowych ze szkoły średniej można zapisać w postaci: y^=0,8x-4,6.
Oblicz przewidywane przeciętne oceny na studiach odpowiadające przeciętnym ocenom w szkole
średniej (w skali punktowej): (a) 70, (b) 85, (c) 65.
Rozwiązanie
Korzystamy z oszacowanego równania regresji (tzn. w miejsce zmiennej zależnej (x) podstawiamy
odpowiednie wartości (podane w podpunktach).
(a) Na podstawie teoretycznego równania regresji można stwierdzić, że osoba, która w szkole
średniej otrzymała 70 punktów, na pierwszym roku studiów może spodziewać się 51,4 punktów.
(b) Prawdopodobny wynik (w punktach) na pierwszym roku studiów, dla osoby, która otrzymała 85
punktów w szkole średniej, wynosi 63,4.
(c ) Bazując na równaniu regresji liniowej można przyjąć, że osoba, która w szkole średniej
uzyskała wynik 65 punktów, zdobędzie prawdopodobnie 47,4 punktów w pierwszym semestrze
studiów.
Zadanie 3
Staż w zawodzie i miesięczne zarobki (w tys. zł) 7 akwizytorów zatrudnionych w pewnej prywatnej
firmie usługowej były następujące:
Staż (w latach)
1 2 3 4 5 6 7
Wynagrodzenie (w tys. zł) 1,8 2,3 2,8 2,9 3,0 2,7 2,8
Sporządź wykres rozrzutu unktów empirycznych i oceń na jego podstawie, czy uzasadnione jest
przypuszczenie o liniowej zależności między analizowanymi zmiennymi. Oszacuj i zinterpretuj
parametry równania. Oceń (stosując odpowiedni miernik statystyczny) jakość modelu.
Rozwiązanie
W podanym zadaniu będziemy badać zależność wynagrodzenia od stażu, tzn.: zmienna objaśniana:
wynagrodzenie, zmienna objaśniająca: staż.
3
2,75
2,5
Wynagrodzenie
2,25
2
1,75
1,5
1,25
1
0,75
0,5
0,25
0
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
5
5,5
6
6,5
7
Staż
Na podstawie graficznej prezentacji danych można stwierdzić, że między badanymi cechami
występuje dodatnia korelacja. Oznacza to, że wraz ze zwiększeniem się stażu pracy, rośnie także
wynagrodzenie (inaczej mówiąc: im dłużej pracujemy, tym więcej zarabiamy).
Wykres nie wskazuje jednoznacznie na występowanie liniowej zależności korelacyjnej.
Staż (w
latach) X
1
2
3
4
5
6
7
Wynagrodzenie
(w tys. zł) Y
1,8
2,3
2,8
2,9
3
2,7
2,8
28
18,3
X*Y
1,8
4,6
8,4
11,6
15
16,2
19,6
77,2
X^2
1
4
9
16
25
36
49
140
n=
x sredni =
y sredni =
a=
b=
7
4
2,61
0,14
2,04
y = 0,14 x + 2,04
Z każdym kolejnym przepracowanym rokiem akwizytor zarabia miesięcynie średnio o 140 zł
więcej.
Prawdopodobne wynagrodzenie akwizytora, który dopiero zaczyna swoją pracę (staż zerowy)
wynosi ok. 2 tys. zł.
cov =
S(x) =
S(y) =
r_xy =
R^2 =
0,57
2
1,03
0,28
7,69%
Model teoretyczny nie jest najlepiej dopasowany do danych empirycznych. Za pomocą zmian w
wielkości stażu pracy można wyjaśnić zaledwie niecałe 8% wartości osiąganego przez akwizytora
wynagrodzenia.
Zadanie 4
W wyniku badania zależności między liczbą reklam pewnego wyrobu emiotowanych dziennie w
TVP a wielkością sprzedaży (w mln zł) uzyskano następujące informacje:
Liczba reklam
3
5
4
5
6
7
Wielkość sprzedaży 115 133 142 150 148 151
Jeśli przedsiębiorstwo planuje zwiększenie liczby reklam do ośmiu dziennie, to jakiej można się
spodziewać wielkości sprzedaży przy tej liczbie reklam?
Rozwiązanie
W zadaniu chodzi o wyznaczenie równania regresji i na tej podstawie dokonanie predykcji
(podstawienie w miejsce wartości zmiennej X odpowiedniej wielkości i w ten sposób wnioskować o
wartości zmiennej Y).
Będziemy badać zależność wielkości sprzedaży od liczby emiotwanych reklam (tzn.: w jaki sposób
liczba emitowanych reklam wpływa na poziom sprzedaży).
Liczba
reklam X
3
5
4
5
6
7
Wielkość
sprzedaży Y
115
133
142
150
148
151
30
839
X*Y
345
665
568
750
888
1057
4273
X^2
9
25
16
25
36
49
160
n=
x sredni =
y sredni =
a=
b=
6
5
139,83
7,8
100,83
y = 7,8 x + 100,83.
dla x = 8
y = 7,8 * 8 + 100,83 = 163,23
Prawdopodobny poziom sprzedaży analizowanego produktu przy ośmiu emisjach reklamy
dziennie będzie wynosił 163.
Zadanie 5
Badając zależność między powierzchnią użytkową mieszkań (w m2) a liczbą osób w gospodarstwie
domowym uzyskano – dla losowej próby 15 mieszkań – następujące rezultaty:
– średnia liczba ośób 3,6, odchylenie standardowe liczby osób 1,4,
– średnia powierzchnia 50,7 m2, odchylenie standardowe powierzchni 10,6 m2,
– kowariancja powierzchni i liczby osób wynosi 1,21.
Określić przeciętną powierzchnię, jaką powinno mieć mieszkanie, w którym zamieszkują 4 osoby.
Rozwiązanie
Zacznijmy od określenia, która zmienna jest zależna, a która niezależna. Gdyby za zmienną zależną
przyjąć liczbę osób w gospodarstwie domowym, to badalibyśmy jaki wpływ może mieć rozmiar
mieszkania na wielkość rodziny. Odwrotnie (tzn. gdy zmienną zależną byłaby wielkość mieszkania)
badalibyśmy czy pojawienie się nowych osób w gospodarstwie domowym skutkuje zwiększeniem się
powierzchni mieszkania. W zasadzie można by przeprowadzić analizę na obydwa sposoby. Jednak
polecenie sugeruje w sposób jednoznaczny, która ze zmiennych będzie pełniła rolę zmiennej
zależnej. Pytanie o określoną powierzchnię mieszkania (przy ustalonej liczbie osób) jest dokładnie
poleceniem o wyznaczenie równania regresji powierzchni mieszkania względem liczby osób, czyli:
zmienna zależna (Y) – powierzchnia mieszkania, zmienna niezależna (X) – liczba osób.
Wypiszmy dane z zadania (przyjmując odpowiednie oznaczenia zmiennych):
_
_
x = 3,6
S(x) = 1,4
y = 50,7
S(y) = 10,6
cov (x,y) = 1,21
Podstawiamy do wzorów na parametry równania regresji (a, b), uprzednio wyznaczając wartość
współczynnika Pearsona (będzie potrzebny do policzenia a).
r_xy = 0,08
Tak niska wielkość współczynnika Pearsona (prawie zero) świadczy w zasadzie o braku korelacji
między zmiennymi. W takim przypadku raczej rzadko się wyznacza liniowe równanie regresji, ale
cóż... zadanie trzeba dokończyć.
a = 0,61
b = 48,5
Zauważmy, że interpretacja współczynnika kierunkowego w tym przykładzie jest co najmniej
śmieszna: z każdym kolejnym członkiem rodziny mieszkanie zwiększa się średnio o 0,61 m2.
Ewentualnie: powiększenie rodziny o jedną osobę jest bodźcem do zamiany mieszkania na większe,
średnio o 0,61 m2. Taka fatalna interpretacja bierze się z tego, że między badanymi zmiennymi w
zasadzie nie występuje związek korelacyjny (współczynnik Pearsona prawie równy zero).
y = 0,61 x + 48,5
dla x = 4
y = 0,61 * 4 + 48,5 = 50,94
Średnia powierzchnia lokalu zamieszkanego przez czteroosobową rodzinę wynosi 50,94 m2.
Zadanie 6
Analiza spożycia artykułu A zależnie od dochodu w losowej próbie gospodarstw domowych
dostarczyła m.in. poniższych informacji:
– średnie spożycie artykułu A na 1 osobę wynosiło 2,5 kg,
– średni miesięczny dochód na 1 osobę był równy 540 zł,
– współczynnik zmienności dochodu wynosił 15%, a spożycia 20%,
– poziom kowariancji między badanymi zmiennymi był równy 27.
Oszacować parametry funkcji regresji spożycia względem wielkości dochodów.
Rozwiązanie
Podobnie jak w poprzednim zadaniu – zaczynamy od określenia zmiennych (zależna/niezależna)
oraz wypisania danych.
Ustalenie związku przyczynowo-skutkowego między cechami ułatwia polecenie: regresja spożycia
względem dochodów oznacza, że spożycie będzie zmienną zależną (Y), a dochody niezależną (X),
_
_
y = 2,5
x = 540
Vx = 15%
Vy = 20%
cov(x,y) = 27
Do określenia współczynnika a jest nam potrzebny współczynnik Pearsona. Patrzymy na wzór:
kowariancja przez iloczyn odchyleń standardowych. O ile kowariancja podana jest w zadaniu, to
jednak odchylenia standardowe należy wyznaczyć.
Przypominamy sobie wzór na Vx (odpowiednio dla zmiennej Y): jest to iloraz: odchylenie
standardowe przez x średni, całość wyrażona w %. Przekształcając ten wzór (bądź po prostu
podstawiając wartości liczbowe) – dostaniemy odchylenia standardowe zmiennej X oraz Y.
S(x) = 81
S(y) = 0,5
r_xy = 0,67
a = 0,004136
b = 0,27
y = 0,004 x +0,27.
Zadanie 7
Na podstawie następujących danych: S(x)=12, S(y)=16, a=0,95, obliczyć współczynnik
determinacji liniowej.
Rozwiązanie
Przekształcając pośredni wzór na współczynnik kierunkowy wyznaczamy współczynnik Pearsona i
na jego podstawie obliczamy współczynnik determinacji.
r_xy = 0,71
R^2 = 50,77%
Zadanie 8
Ustalić teoretyczną liczbę dzieci urodzonych przez kobiety o 5-letnim stażu małżeńskim, jeśli na
podstawie badań empirycznych stwierdzono, że:
– przyrost stażu małżeńskiego o 1 rok powodował średni wzrost liczby dzieci o 0,08,
– wariancja stażu małżeńskiego liczonego w latach wynosi 64,
– wariancja liczby urodzonych dzieci wynosi 1,
– wyraz wolny liniowego równania regresji liczby urodzonych dzieci względem czasu trwania
małżeństwa wynosi 0,7.
Ocenić również siłę badanej zależności.
Rozwiązanie
Rozumowanie analogiczne jak w zadaniu 5 i 6. W tym przykładzie staż małżeński będzie zmienną
objaśniającą liczbę urodzonych dzieci:
X – staż małżeński (w latach),
Y – liczba urodzonych dzieci
a = 0,08
S2(x) = 64
S2(y) = 1
b = 0,7
Na podstawie danych otrzymaliśmy teoretyczną linię regresji:
y = 0,08 x + 0,7.
Dla x = 5:
y = 0,08 * 5 + 0,7 = 1,1
Kobiety z pięcioletnim stażem małżeńskim posiadają przeciętnie po 1 dziecku (1,1 dziecka).
Ocena siły zależności – na podstawie współczynnika Pearsona (dwie cechy mierzalne).
Wielkość współczynnika liniowego Pearsona można wyznaczyć na podstawie wzoru na
współczynnik kierunkowy linii regresji, wcześniej należy wyznaczyć odchylenia standardowe (z
wariancji każdej zmiennej).
S(x) = 8
S(y) = 1
r_xy = 0,64
Na podstawie wielkości współczynnika korelacji liniowej Pearsona wnioskujemy o istnieniu
umiarkowanej dodatniej korelacji między badanymi cechami. Oznacza to, że wraz ze zwiększaniem
się stażu małżeńskiego rośnie (przeciętnie) liczba dzieci urodzonych przez kobietę.
Zadanie 9
Wiedząc, że: cox(x,y)=-202, S(x)=14, S(y)=16, wyznaczyć wartość współczynnika korelacji
liniowej rxy.
Rozwiązanie
r_xy = 0,90
Zadanie 10
Do badań wylosowano 6 sklepów branży konfekcyjnej w Łodzi, odnotowując ich przeciętny
dzienny obrót oraz powierzchnię (dane w tabeli).
Dzienny obrót sklepu (w tys. zł) 2 4 6 9 14 25
Powierzchnia sklepu (w m2)
30 45 50 60 75 100
1) Przedstawić dane na wykresie, na jego podstawie ocenić wstępnie związek korelacyjny
pomiędzy badanymi cechami.
2) Zweryfikować przypuszczenia dotyczące korelacji metodą analiztyczną, stosując
odpowiedni miernik.
3) Określić, która ze zmiennych jest zależna, a która niezależna oraz wyznaczyć funkcję
regresji liniowej.
4) Zbadać stopień dopasowania teoretycznej linii regresji do danych empirycznych.
Rozwiązanie
1)
25
22,5
Dzienny obrót sklepu
20
17,5
15
12,5
10
7,5
5
2,5
0
0
10
20
30
40
50
60
70
80
90
100
Powierzchnia sklepu
Na podstawie wykresu można stwierdzić istnienie dodatniej zależności między badanymi
zmiennymi, co oznacza, że wraz ze zwiększaniem się powierzchni sklepu, zwiększa się również
wielkość dziennego obrotu.
2)
Powierzchnia Dzienny obrót
sklepu (w m2) sklepu (w tys. zł)
X
Y
(x-x sredni)
30
2
24
45
4
39
50
6
44
60
9
54
75
14
69
100
25
94
360
60
n= 6
x sredni = 60
y sredni = 10
cov(x,y) = 171,7
324
(y – y
sredni)
-8
-6
-4
-1
4
15
(x-x sred)(y
– y sred)
-192
-234
-176
-54
276
1410
(x- x
sred)^2
576
1521
1936
2916
4761
8836
(y- y sred)^2
64
36
16
1
16
225
0
1030
20546
358
wariancja x = 508,33
wariancja y = 59,67
odch. stand. x = 22,55
odch. stand.y = 7,72
r_xy = 0,986
Między badanymi zmiennymi istnieje bardzo silna (prawie liniowa) zależność dodatnia. Oznacza
to, że powierzchnia sklepu w bardzo silnym stopniu determinuje wielkość dziennyh obrotów w ten
sposób, że wraz ze zwiększaniem się powierzchni sklepu, dzienny obrót także rośnie. (inaczej:
większe sklepy posiadają większe dzienne obroty)
Zadanie 11
Na podstawie danych dotyczących zależności między wiekiem pracowników a rozmiarami ich
absencji chorobowej uzyskano następujące miary charakteryzujące tę zależność:
– współczynnik korelacji równy jest 0,53,
– odchylenie standardowe wieku wynosi 15 lat,
– kowariancja badanych cech jest równa 53,65,
– wariancja absencji chorobowej wynosiła 12,25.
Czy takie wyniki są możliwe? Odpowiedź uzasadnij.
Rozwiązanie
W pierwszej kolejności ustalamy związek przyczynowo-skutkowy między zmiennymi. Jasne jest, że
będziemy traktować nieobecność pracowników jako zmienną objaśnianą za pomocą wieku
pracowników (zmienna objaśniająca):
X – wiek pracownika, w latach
Y – rozmiar absencji chorobowej, w dniach (? - w zadaniu nie podano jednostki zmiennej Y)
r_xy = 0,53
S(x) = 15
cov(x,y) = 53,65
S2(y) = 12,25
Żeby odpowiedzieć na pytanie postawione w zadaniu sprawdźmy (na podstawie podanych wartości)
wyznaczyć wartość współczynnika Pearsona.
S(y) = 3,5
r_xy = 1,0219
Wartości liczbowe podane w zadaniu nie są możliwe. Po pierwsze nie ma zgodności między podaną
wielkością współczynnika Pearsona (dane z zadania) a wyliczoną wartością (wg wzoru). Po drugie
– wyliczona wielkość współczynnika Pearsona nie może być wielkością większą od jedności.
Zadanie 12
Tabela przedstawia zależność ilości czasu przeznaczonego na naukę (w godz.) i ilości punktów
zdobytych na egzaminie. Na tej podstawie:
a) określić korelację na podstawie wykresu,
b) wyznaczyć i zinterpretować równanie regresji liniowej,
c) podać prawdopodobną ilość uzyskanych punktów przez osobę, która przygotowywała się do
egzaminu przez 8 godzin.
Ilość punktów 45 58 37 55 65
Czas nauki
3,5 6
2
4,5 7
Rozwiązanie
a)
65
60
55
Ilość punktów
50
45
40
35
30
25
20
15
10
5
0
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
5
5,5
6
6,5
7
Czas nauki
Wykres wskazuje na istnienie dodatniej korelacji pomiędzy czasem nauki a ilością punktów
zdobytych na egzaminie. Oznacza to, że im więcej czasu poświęcimy na naukę, tym większe szanse
na otrzymanie wyższej ilości punktów.
b)
Czas nauki Ilość punktów
X
Y
3,5
45
6
58
2
37
4,5
55
7
65
23
260
X*Y
157,5
348
74
247,5
455
1282
X^2
12,25
36
4
20,25
49
121,5
n=
x sredni =
y sredni =
a=
b=
5
4,6
52
5,48
26,8
y = 5,48 x + 26,8
Każda kolejna godzina poświęcona na naukę przed zbliżającym się egzaminem skutkuje
zwiększaniem otrzymanej liczby punktów średnio o 5,5 pkt.
Jest prawdopodobne, że osoba, która nie przygotowywała się do egzaminu uzyska 26,8 pkt.
c) dla x = 8
y = 5,48 * 8 + 26,8 = 70,64 ( = 71)
Student, który przygotowywał się do egzaminu przez 8 godzin ma duże szanse na uzyskanie 71 pkt
na egzaminie.

Podobne dokumenty