REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA - E-SGH
Transkrypt
REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA - E-SGH
REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym. Zadanie 1 W celu ustalenia zależności między liczbą braków a wielkością produkcji części zamiennych w tys. szt. zbadano 5 losowo wybranych zakładów produkcyjnych wytwarzającycch takie części. Wyniki badania były następujące: Wielkość produkcji (w tys. szt) 1 4 5 7 8 Liczba braków (w szt.) 10 30 50 50 60 Na podstawie danych oszacuj parametry liniowego równania regresji. Zinterpretuj wyniki. Rozwiązanie W pierwszej kolejności należy ustalić, która ze zmiennych jest zależna (objaśniana), a która niezależna (objaśniająca). W podanym przykładzie to liczba braków będzie zależała od wielkości produkcji. Mówiąc inaczej: zastanawiamy się czy fakt, że produkujemy dużo/mało ma wpływ na ilość braków. Odwrotna zależność nie ma sensu. Byłoby to badanie czy liczba braków może określać poziom produkcji (tzn. w zależności od liczby braków ustalamy nasz poziom produkcji). Zatem: Wielkość produkcji – zmienna niezależna (X) Liczba braków – zmienna zależna (Y). Wielkość produkcji (w Liczba braków (w tys. szt) -X szt.) - Y 1 10 4 30 5 50 7 50 8 60 25 200 X*Y 10 120 250 350 480 1210 X^2 1 16 25 49 64 155 n= x sredni = y sredni = a= b= 5 5 40 7 5 y = 7x+5 Interpretacja do współczynnika kierunkowego: W analizowanym zakładzi produkcyjnym wzrost produkcji o tys. szt. powoduje zwiększenie się liczby braków, średnio o 7 szt. Interpretacja wzrayu wolnego: Nie posiada logicznej interpretacji. (gdyby za x=0, to oznaczało by, że gdy w ogóle nie produkujemy, to i tak mamy 5 braków – co jest bez sensu; ewentualnie można by interpretować wyraz wolny w tym przykładzie jako liczba braków, która będzie zawsze występowała – niezależnie od rozmiarów produkcji.) Zadanie 2 Równanie regresji służące do przewidywania przeciętnych ocen na pierwszym roku studiów na podstawie średnich ocen końcowych ze szkoły średniej można zapisać w postaci: y^=0,8x-4,6. Oblicz przewidywane przeciętne oceny na studiach odpowiadające przeciętnym ocenom w szkole średniej (w skali punktowej): (a) 70, (b) 85, (c) 65. Rozwiązanie Korzystamy z oszacowanego równania regresji (tzn. w miejsce zmiennej zależnej (x) podstawiamy odpowiednie wartości (podane w podpunktach). (a) Na podstawie teoretycznego równania regresji można stwierdzić, że osoba, która w szkole średniej otrzymała 70 punktów, na pierwszym roku studiów może spodziewać się 51,4 punktów. (b) Prawdopodobny wynik (w punktach) na pierwszym roku studiów, dla osoby, która otrzymała 85 punktów w szkole średniej, wynosi 63,4. (c ) Bazując na równaniu regresji liniowej można przyjąć, że osoba, która w szkole średniej uzyskała wynik 65 punktów, zdobędzie prawdopodobnie 47,4 punktów w pierwszym semestrze studiów. Zadanie 3 Staż w zawodzie i miesięczne zarobki (w tys. zł) 7 akwizytorów zatrudnionych w pewnej prywatnej firmie usługowej były następujące: Staż (w latach) 1 2 3 4 5 6 7 Wynagrodzenie (w tys. zł) 1,8 2,3 2,8 2,9 3,0 2,7 2,8 Sporządź wykres rozrzutu unktów empirycznych i oceń na jego podstawie, czy uzasadnione jest przypuszczenie o liniowej zależności między analizowanymi zmiennymi. Oszacuj i zinterpretuj parametry równania. Oceń (stosując odpowiedni miernik statystyczny) jakość modelu. Rozwiązanie W podanym zadaniu będziemy badać zależność wynagrodzenia od stażu, tzn.: zmienna objaśniana: wynagrodzenie, zmienna objaśniająca: staż. 3 2,75 2,5 Wynagrodzenie 2,25 2 1,75 1,5 1,25 1 0,75 0,5 0,25 0 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 Staż Na podstawie graficznej prezentacji danych można stwierdzić, że między badanymi cechami występuje dodatnia korelacja. Oznacza to, że wraz ze zwiększeniem się stażu pracy, rośnie także wynagrodzenie (inaczej mówiąc: im dłużej pracujemy, tym więcej zarabiamy). Wykres nie wskazuje jednoznacznie na występowanie liniowej zależności korelacyjnej. Staż (w latach) X 1 2 3 4 5 6 7 Wynagrodzenie (w tys. zł) Y 1,8 2,3 2,8 2,9 3 2,7 2,8 28 18,3 X*Y 1,8 4,6 8,4 11,6 15 16,2 19,6 77,2 X^2 1 4 9 16 25 36 49 140 n= x sredni = y sredni = a= b= 7 4 2,61 0,14 2,04 y = 0,14 x + 2,04 Z każdym kolejnym przepracowanym rokiem akwizytor zarabia miesięcynie średnio o 140 zł więcej. Prawdopodobne wynagrodzenie akwizytora, który dopiero zaczyna swoją pracę (staż zerowy) wynosi ok. 2 tys. zł. cov = S(x) = S(y) = r_xy = R^2 = 0,57 2 1,03 0,28 7,69% Model teoretyczny nie jest najlepiej dopasowany do danych empirycznych. Za pomocą zmian w wielkości stażu pracy można wyjaśnić zaledwie niecałe 8% wartości osiąganego przez akwizytora wynagrodzenia. Zadanie 4 W wyniku badania zależności między liczbą reklam pewnego wyrobu emiotowanych dziennie w TVP a wielkością sprzedaży (w mln zł) uzyskano następujące informacje: Liczba reklam 3 5 4 5 6 7 Wielkość sprzedaży 115 133 142 150 148 151 Jeśli przedsiębiorstwo planuje zwiększenie liczby reklam do ośmiu dziennie, to jakiej można się spodziewać wielkości sprzedaży przy tej liczbie reklam? Rozwiązanie W zadaniu chodzi o wyznaczenie równania regresji i na tej podstawie dokonanie predykcji (podstawienie w miejsce wartości zmiennej X odpowiedniej wielkości i w ten sposób wnioskować o wartości zmiennej Y). Będziemy badać zależność wielkości sprzedaży od liczby emiotwanych reklam (tzn.: w jaki sposób liczba emitowanych reklam wpływa na poziom sprzedaży). Liczba reklam X 3 5 4 5 6 7 Wielkość sprzedaży Y 115 133 142 150 148 151 30 839 X*Y 345 665 568 750 888 1057 4273 X^2 9 25 16 25 36 49 160 n= x sredni = y sredni = a= b= 6 5 139,83 7,8 100,83 y = 7,8 x + 100,83. dla x = 8 y = 7,8 * 8 + 100,83 = 163,23 Prawdopodobny poziom sprzedaży analizowanego produktu przy ośmiu emisjach reklamy dziennie będzie wynosił 163. Zadanie 5 Badając zależność między powierzchnią użytkową mieszkań (w m2) a liczbą osób w gospodarstwie domowym uzyskano – dla losowej próby 15 mieszkań – następujące rezultaty: – średnia liczba ośób 3,6, odchylenie standardowe liczby osób 1,4, – średnia powierzchnia 50,7 m2, odchylenie standardowe powierzchni 10,6 m2, – kowariancja powierzchni i liczby osób wynosi 1,21. Określić przeciętną powierzchnię, jaką powinno mieć mieszkanie, w którym zamieszkują 4 osoby. Rozwiązanie Zacznijmy od określenia, która zmienna jest zależna, a która niezależna. Gdyby za zmienną zależną przyjąć liczbę osób w gospodarstwie domowym, to badalibyśmy jaki wpływ może mieć rozmiar mieszkania na wielkość rodziny. Odwrotnie (tzn. gdy zmienną zależną byłaby wielkość mieszkania) badalibyśmy czy pojawienie się nowych osób w gospodarstwie domowym skutkuje zwiększeniem się powierzchni mieszkania. W zasadzie można by przeprowadzić analizę na obydwa sposoby. Jednak polecenie sugeruje w sposób jednoznaczny, która ze zmiennych będzie pełniła rolę zmiennej zależnej. Pytanie o określoną powierzchnię mieszkania (przy ustalonej liczbie osób) jest dokładnie poleceniem o wyznaczenie równania regresji powierzchni mieszkania względem liczby osób, czyli: zmienna zależna (Y) – powierzchnia mieszkania, zmienna niezależna (X) – liczba osób. Wypiszmy dane z zadania (przyjmując odpowiednie oznaczenia zmiennych): _ _ x = 3,6 S(x) = 1,4 y = 50,7 S(y) = 10,6 cov (x,y) = 1,21 Podstawiamy do wzorów na parametry równania regresji (a, b), uprzednio wyznaczając wartość współczynnika Pearsona (będzie potrzebny do policzenia a). r_xy = 0,08 Tak niska wielkość współczynnika Pearsona (prawie zero) świadczy w zasadzie o braku korelacji między zmiennymi. W takim przypadku raczej rzadko się wyznacza liniowe równanie regresji, ale cóż... zadanie trzeba dokończyć. a = 0,61 b = 48,5 Zauważmy, że interpretacja współczynnika kierunkowego w tym przykładzie jest co najmniej śmieszna: z każdym kolejnym członkiem rodziny mieszkanie zwiększa się średnio o 0,61 m2. Ewentualnie: powiększenie rodziny o jedną osobę jest bodźcem do zamiany mieszkania na większe, średnio o 0,61 m2. Taka fatalna interpretacja bierze się z tego, że między badanymi zmiennymi w zasadzie nie występuje związek korelacyjny (współczynnik Pearsona prawie równy zero). y = 0,61 x + 48,5 dla x = 4 y = 0,61 * 4 + 48,5 = 50,94 Średnia powierzchnia lokalu zamieszkanego przez czteroosobową rodzinę wynosi 50,94 m2. Zadanie 6 Analiza spożycia artykułu A zależnie od dochodu w losowej próbie gospodarstw domowych dostarczyła m.in. poniższych informacji: – średnie spożycie artykułu A na 1 osobę wynosiło 2,5 kg, – średni miesięczny dochód na 1 osobę był równy 540 zł, – współczynnik zmienności dochodu wynosił 15%, a spożycia 20%, – poziom kowariancji między badanymi zmiennymi był równy 27. Oszacować parametry funkcji regresji spożycia względem wielkości dochodów. Rozwiązanie Podobnie jak w poprzednim zadaniu – zaczynamy od określenia zmiennych (zależna/niezależna) oraz wypisania danych. Ustalenie związku przyczynowo-skutkowego między cechami ułatwia polecenie: regresja spożycia względem dochodów oznacza, że spożycie będzie zmienną zależną (Y), a dochody niezależną (X), _ _ y = 2,5 x = 540 Vx = 15% Vy = 20% cov(x,y) = 27 Do określenia współczynnika a jest nam potrzebny współczynnik Pearsona. Patrzymy na wzór: kowariancja przez iloczyn odchyleń standardowych. O ile kowariancja podana jest w zadaniu, to jednak odchylenia standardowe należy wyznaczyć. Przypominamy sobie wzór na Vx (odpowiednio dla zmiennej Y): jest to iloraz: odchylenie standardowe przez x średni, całość wyrażona w %. Przekształcając ten wzór (bądź po prostu podstawiając wartości liczbowe) – dostaniemy odchylenia standardowe zmiennej X oraz Y. S(x) = 81 S(y) = 0,5 r_xy = 0,67 a = 0,004136 b = 0,27 y = 0,004 x +0,27. Zadanie 7 Na podstawie następujących danych: S(x)=12, S(y)=16, a=0,95, obliczyć współczynnik determinacji liniowej. Rozwiązanie Przekształcając pośredni wzór na współczynnik kierunkowy wyznaczamy współczynnik Pearsona i na jego podstawie obliczamy współczynnik determinacji. r_xy = 0,71 R^2 = 50,77% Zadanie 8 Ustalić teoretyczną liczbę dzieci urodzonych przez kobiety o 5-letnim stażu małżeńskim, jeśli na podstawie badań empirycznych stwierdzono, że: – przyrost stażu małżeńskiego o 1 rok powodował średni wzrost liczby dzieci o 0,08, – wariancja stażu małżeńskiego liczonego w latach wynosi 64, – wariancja liczby urodzonych dzieci wynosi 1, – wyraz wolny liniowego równania regresji liczby urodzonych dzieci względem czasu trwania małżeństwa wynosi 0,7. Ocenić również siłę badanej zależności. Rozwiązanie Rozumowanie analogiczne jak w zadaniu 5 i 6. W tym przykładzie staż małżeński będzie zmienną objaśniającą liczbę urodzonych dzieci: X – staż małżeński (w latach), Y – liczba urodzonych dzieci a = 0,08 S2(x) = 64 S2(y) = 1 b = 0,7 Na podstawie danych otrzymaliśmy teoretyczną linię regresji: y = 0,08 x + 0,7. Dla x = 5: y = 0,08 * 5 + 0,7 = 1,1 Kobiety z pięcioletnim stażem małżeńskim posiadają przeciętnie po 1 dziecku (1,1 dziecka). Ocena siły zależności – na podstawie współczynnika Pearsona (dwie cechy mierzalne). Wielkość współczynnika liniowego Pearsona można wyznaczyć na podstawie wzoru na współczynnik kierunkowy linii regresji, wcześniej należy wyznaczyć odchylenia standardowe (z wariancji każdej zmiennej). S(x) = 8 S(y) = 1 r_xy = 0,64 Na podstawie wielkości współczynnika korelacji liniowej Pearsona wnioskujemy o istnieniu umiarkowanej dodatniej korelacji między badanymi cechami. Oznacza to, że wraz ze zwiększaniem się stażu małżeńskiego rośnie (przeciętnie) liczba dzieci urodzonych przez kobietę. Zadanie 9 Wiedząc, że: cox(x,y)=-202, S(x)=14, S(y)=16, wyznaczyć wartość współczynnika korelacji liniowej rxy. Rozwiązanie r_xy = 0,90 Zadanie 10 Do badań wylosowano 6 sklepów branży konfekcyjnej w Łodzi, odnotowując ich przeciętny dzienny obrót oraz powierzchnię (dane w tabeli). Dzienny obrót sklepu (w tys. zł) 2 4 6 9 14 25 Powierzchnia sklepu (w m2) 30 45 50 60 75 100 1) Przedstawić dane na wykresie, na jego podstawie ocenić wstępnie związek korelacyjny pomiędzy badanymi cechami. 2) Zweryfikować przypuszczenia dotyczące korelacji metodą analiztyczną, stosując odpowiedni miernik. 3) Określić, która ze zmiennych jest zależna, a która niezależna oraz wyznaczyć funkcję regresji liniowej. 4) Zbadać stopień dopasowania teoretycznej linii regresji do danych empirycznych. Rozwiązanie 1) 25 22,5 Dzienny obrót sklepu 20 17,5 15 12,5 10 7,5 5 2,5 0 0 10 20 30 40 50 60 70 80 90 100 Powierzchnia sklepu Na podstawie wykresu można stwierdzić istnienie dodatniej zależności między badanymi zmiennymi, co oznacza, że wraz ze zwiększaniem się powierzchni sklepu, zwiększa się również wielkość dziennego obrotu. 2) Powierzchnia Dzienny obrót sklepu (w m2) sklepu (w tys. zł) X Y (x-x sredni) 30 2 24 45 4 39 50 6 44 60 9 54 75 14 69 100 25 94 360 60 n= 6 x sredni = 60 y sredni = 10 cov(x,y) = 171,7 324 (y – y sredni) -8 -6 -4 -1 4 15 (x-x sred)(y – y sred) -192 -234 -176 -54 276 1410 (x- x sred)^2 576 1521 1936 2916 4761 8836 (y- y sred)^2 64 36 16 1 16 225 0 1030 20546 358 wariancja x = 508,33 wariancja y = 59,67 odch. stand. x = 22,55 odch. stand.y = 7,72 r_xy = 0,986 Między badanymi zmiennymi istnieje bardzo silna (prawie liniowa) zależność dodatnia. Oznacza to, że powierzchnia sklepu w bardzo silnym stopniu determinuje wielkość dziennyh obrotów w ten sposób, że wraz ze zwiększaniem się powierzchni sklepu, dzienny obrót także rośnie. (inaczej: większe sklepy posiadają większe dzienne obroty) Zadanie 11 Na podstawie danych dotyczących zależności między wiekiem pracowników a rozmiarami ich absencji chorobowej uzyskano następujące miary charakteryzujące tę zależność: – współczynnik korelacji równy jest 0,53, – odchylenie standardowe wieku wynosi 15 lat, – kowariancja badanych cech jest równa 53,65, – wariancja absencji chorobowej wynosiła 12,25. Czy takie wyniki są możliwe? Odpowiedź uzasadnij. Rozwiązanie W pierwszej kolejności ustalamy związek przyczynowo-skutkowy między zmiennymi. Jasne jest, że będziemy traktować nieobecność pracowników jako zmienną objaśnianą za pomocą wieku pracowników (zmienna objaśniająca): X – wiek pracownika, w latach Y – rozmiar absencji chorobowej, w dniach (? - w zadaniu nie podano jednostki zmiennej Y) r_xy = 0,53 S(x) = 15 cov(x,y) = 53,65 S2(y) = 12,25 Żeby odpowiedzieć na pytanie postawione w zadaniu sprawdźmy (na podstawie podanych wartości) wyznaczyć wartość współczynnika Pearsona. S(y) = 3,5 r_xy = 1,0219 Wartości liczbowe podane w zadaniu nie są możliwe. Po pierwsze nie ma zgodności między podaną wielkością współczynnika Pearsona (dane z zadania) a wyliczoną wartością (wg wzoru). Po drugie – wyliczona wielkość współczynnika Pearsona nie może być wielkością większą od jedności. Zadanie 12 Tabela przedstawia zależność ilości czasu przeznaczonego na naukę (w godz.) i ilości punktów zdobytych na egzaminie. Na tej podstawie: a) określić korelację na podstawie wykresu, b) wyznaczyć i zinterpretować równanie regresji liniowej, c) podać prawdopodobną ilość uzyskanych punktów przez osobę, która przygotowywała się do egzaminu przez 8 godzin. Ilość punktów 45 58 37 55 65 Czas nauki 3,5 6 2 4,5 7 Rozwiązanie a) 65 60 55 Ilość punktów 50 45 40 35 30 25 20 15 10 5 0 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 Czas nauki Wykres wskazuje na istnienie dodatniej korelacji pomiędzy czasem nauki a ilością punktów zdobytych na egzaminie. Oznacza to, że im więcej czasu poświęcimy na naukę, tym większe szanse na otrzymanie wyższej ilości punktów. b) Czas nauki Ilość punktów X Y 3,5 45 6 58 2 37 4,5 55 7 65 23 260 X*Y 157,5 348 74 247,5 455 1282 X^2 12,25 36 4 20,25 49 121,5 n= x sredni = y sredni = a= b= 5 4,6 52 5,48 26,8 y = 5,48 x + 26,8 Każda kolejna godzina poświęcona na naukę przed zbliżającym się egzaminem skutkuje zwiększaniem otrzymanej liczby punktów średnio o 5,5 pkt. Jest prawdopodobne, że osoba, która nie przygotowywała się do egzaminu uzyska 26,8 pkt. c) dla x = 8 y = 5,48 * 8 + 26,8 = 70,64 ( = 71) Student, który przygotowywał się do egzaminu przez 8 godzin ma duże szanse na uzyskanie 71 pkt na egzaminie.