Analiza Danych Sprawozdanie – regresja Marek Lewandowski Inf
Transkrypt
Analiza Danych Sprawozdanie – regresja Marek Lewandowski Inf
Analiza Danych Sprawozdanie – regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 10 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 120 122 125 131 135 140 142 145 150 100 154 159 162 164 168 170 Wykres rozrzutu z dodaną linią trendu: wiek - wzrost y = 4,1475x + 87,723 R2 = 0,6188 180 160 140 120 100 80 60 40 20 0 0 2 4 6 8 10 12 14 16 18 20 1 PODSUMOWANIE - WYJŚCIE Statystyki regresji Wielokrotność R 0,7866589 R kwadrat 0,6188322 Dopasowany R kwadrat -1,1428571 Błąd standardowy 12,724501 Obserwacje 1 ANALIZA WARIANCJI df Regresja Resztkowy Razem 16 14 30 Współczynniki SS MS 3680,156 230,0098 2266,781 161,9129 5946,938 Błąd standardowy Istotność F F 22,729 #LICZBA! Wartośćp t Stat Dolne 95% Górne 95% Przecięcie wiek 7 8 9 10 11 11,5 12 13 14 14 15 16 17 18 18,5 0,8437506 0,843751 1 0,3343 -0,965916 2,6534 87,723488 4,1475314 12,01024 7,304059 0,869956 4,767518 4E-06 61,964065 0,0003 2,2816596 113,48 6,0134 Równanie regresji: y = 4,1475314x + 87,723488 Wyznaczone błędy standardowe można przyjąć jako dopuszczalne (nie są porównywalne z obliczonymi współczynnikami równania). Test istotności parametrów modelu Hipotezy: H0 – współczynniki jest równy zero (nieistotny) H1 – współczynnik różny od zera (istotny) Poziom istotności: α = 0,05 2 Dolne 95,0% -4E-306 -4E-249 1,3E-307 9,6E-222 0 4,2E-308 2266,781 3680,156 -0,96592 3,8E-148 0 -100,425 -4E-282 4,25E+92 -3,7E-60 61,96407 2,28166 Prawdopodobieństwo, że współczynnik przy wyrazie x jest równe 0 wynosi 0,0003, a prawdopodobieństwo, że wyraz wolny jest równy 0 wynosi 4 * 10 -6. Ponieważ 0,0003 < α i 4 * 10 -6 < α, zatem przy założeniu prawdziwości hipotezy H0 zaszło zdarzenie bardzo mało prawdopodobne. Należy zatem odrzucić hipotezę H0 i przyjąć hipotezę alternatywną. Uzyskane współczynniki są istotne. Globalny test istotności: H0 – model nieistotny statystycznie H1 – model istotny statystycznie Poziom istotności: α = 0,05 Wartość Istotność F 0, zatem < α. Przy założeniu prawdziwości hipotezy H0 zaszło zdarzenie mało prawdopodobne, więc należy odrzucić hipotezę H0 i przyjąć hipotezę alternatywną. Model jest istotny statystycznie. Przy tak założonym modelu wysokość człowieka w wieku 14,5 roku wynosiłaby 147,86269 cm. Współczynnik korelacji wynosi (zaledwie) 0,7866589, a wartość współczynnika determinacji R2 jedynie 0,6188322. Współczynniki te mogłyby zostać poprawione, gdyby z danych usunięto wartości odstające (outliers). W powyższych danych jest to wpis (14, 100). Wyniki po usunięciu „samotnika”: 180 y = 4,3049x + 88,689 2 R = 0,9937 160 140 120 100 80 60 40 20 0 0 2 4 6 8 10 12 14 16 18 20 3 Statystyki regresji Wielokrotność R 0,9968424 R kwadrat 0,99369478 Dopasowany R kwadrat -1,15384615 Błąd standardowy 1,38944643 Obserwacje 1 ANALIZA WARIANCJI df Regresja Resztkowy Razem 15 13 28 Współczynniki Przecięcie x Istotność SS MS F F 3955,3027 263,6868 2048,7837 ####### 25,0972981 1,930561 3980,4 Błąd standardowy 0,95040195 7 8 9 10 11 11,5 12 13 14 15 16 17 18 18,5 t Stat Wartość-p Dolne 95% 0,00024 0,9998119 -8544 0,09375007 0,09375007 1 0,3355613 -0,1088 88,6888958 4,3048571 1,31175882 67,61067 6,02E-18 0,09510661 45,26349 1,086E-15 85,855 4,09939 Górne 95% Dolne 95,0% 0 -8544,906 2,9E+250 0 -97,78581 25,097298 3955,3027 0,29628 -0,108785 2,9E+147 0 -102,9118 -1,3E-296 -5,69E+86 6,05E+302 91,5228 85,855014 4,51032 4,0993918 8545,86 Jak widać wartość współczynnika korelacji liniowej Pearsona uległa znacznej poprawie i wynosi 0,9968424. Prawdopodobieństwo popełnienia błędu pierwszego rodzaju podczas weryfikacji współczynników również zostało zredukowane i wynosi odpowiednio: 6,02*10-18 dla wyrazu wolnego i 1,086*10-15 dla współczynnika przy zmiennej x (wiek). Model naturalnie jest istotny statystycznie. Równanie regresji przyjmuje postać: y = 4,3048571x + 88,6888958 Warto zauważyć, iż przy stosowaniu równania regresji należy przyjąć sensowny zakres jego stosowalności. Powyższy wzór na pewno nie może być zastosowany do oszacowania wzrostu sześćdziesięciolatka (ok. 347 cm)… Proponuję więc zakres od 0 do 21 lat (czyli mniej więcej do zakończenia procesu wzrostu kośćca człowieka). 4 Zadanie 2: x y 0,2 0,3 0,5 1 3 5 6 7 9 10 14 18 22 30 38 45 49 54 58 62 -1,609 -1,204 -0,693 0 1,099 1,609 1,792 1,946 2,197 2,394 2,693 2,89 3,091 3,401 3,638 3,807 3,892 3,989 4,06 4,127 5 y = 1,0006Ln(x) + 0,006 R2 = 0,9998 4 3 2 1 0 0 10 20 30 40 50 60 70 -1 -2 Wykres jednoznacznie wskazuje, iż w danych występuje bardzo silna zależność. Nie jest ona jednak liniowa. W celu przeprowadzenia analizy korelacji liniowej postanowiłem logarytmować wartości zmiennych x w celu uzyskania zależności liniowej. 5 y -1,609 -1,204 -0,693 0 1,099 1,609 1,792 1,946 2,197 2,394 2,693 2,89 3,091 3,401 3,638 3,807 3,892 3,989 4,06 4,127 ln(x) -1,60943791 -1,2039728 -0,69314718 0 1,098612289 1,609437912 1,791759469 1,945910149 2,197224577 2,302585093 2,63905733 2,890371758 3,091042453 3,401197382 3,63758616 3,80666249 3,891820298 3,988984047 4,060443011 4,127134385 5 y = 0,9992x - 0,0056 R2 = 0,9998 4 3 2 1 0 -2 -1 0 1 2 3 4 5 -1 -2 Między zmiennymi y i ln(x) istnieje bardzo silna zależność liniowa. 6 Statystyki regresji Wielokrotność R 0,999917798 R kwadrat 0,999835602 Dopasowany R kwadrat 0,999826469 Błąd standardowy 0,023767796 Obserwacje 20 ANALIZA WARIANCJI df Regresja Resztkowy Razem 1 18 19 Współczynniki Przecięcie Zmienna X 1 SS MS F 61,8418932 61,84189 109472,48 0,01016835 0,000565 61,8520615 Błąd standardowy -0,005604754 0,999219972 t Stat Wartość-p Istotność F 1,63E-35 Dolne 95% Górne 95% 0,00840467 0,666862 0,5133186 0,023262 0,012053 0,00302001 330,8663 1,627E-35 0,992875 1,005565 Zarówno współczynnik korelacji Pearsona jak i wartość R2 są bardzo bliskie wartości 1. Równanie: y = 0,999219972 * ln(x) - 0,005604754 Test istotności parametrów modelu: Hipotezy: H0 – współczynnik jest zerowy (jest zatem nieistotny) H1 – współczynnik jest niezerowy (jest zatem istotny) poziom istotności: α = 0,05 Ponieważ 1,627 * 10-35 (prawdopodobieństwo zdarzenia, że współczynnik przy zmiennej x będzie równy 0) < α, zatem odrzucam hipotezę H0 i przyjmuję hipotezę alternatywną. W przypadku testowania istotności wyrazu wolnego, nie ma podstaw do odrzucenia hipotezy H0. Nie można więc uznać, że wyraz wolny jest istotny. Z uwagi na wielkości błędu standardowego, który jest porównywalny z wyrazem wolnym, oraz na prawdopodobieństwo osiągnięcia przez wyraz wolny wartości 0, można przyjąć, że równanie regresji liniowej przyjmie postać: y = ln(x). Globalny test istotności modelu: H0 – model jest nieistotny statystycznie H1 – model jest istotny statystycznie poziom istotności: α = 0,05 Ponieważ 1,63*10-35 < α zatem odrzucam hipotezę H0 – model jest istotny statystycznie. 7 Dolne 95,0% -0,02326 0,992875 Zadanie 3: lp 1 2 3 4 5 6 7 8 9 10 amino amoniak 430 31 470 33 520 36 570 39 630 42 690 47 740 51 770 54 800 55 780 57 60 y = 0,0698x - 0,185 R2 = 0,9826 50 40 30 20 10 0 0 100 200 300 400 500 600 700 800 900 8 Statystyki regresji Wielokrotność R R kwadrat Dopasowany R kwadrat Błąd standardowy Obserwacje 0,99127 0,98263 0,98045 1,34139 10 ANALIZA WARIANCJI df Regresja Resztkowy Razem 1 8 9 SS MS F 814,105 814,1054 452,4501 14,3946 1,799326 828,5 Przecięcie amino Współczynniki -0,18503 0,06982 Błąd Wartośćt Stat standardowy p 2,14316 -0,08634 0,933322 0,00328 21,27087 2,51E-08 Istotność F 2,5E-08 Dolne 95% -5,1272 0,06225 Górne 95% 4,75711 0,07739 Zarówno współczynnik korelacji Pearsona jak i współczynnik determinacji są bardzo bliskie 1, zatem istnieje niemalże liniowa zależność pomiędzy zmiennymi. Test istotności parametrów modelu: Hipotezy: H0 – współczynnik jest zerowy (nieistotny) H1 – współczynnik jest niezerowy (istotny) Poziom istotności α = 0,05. Dla zmiennej amino: Ponieważ 2,51*10-8 < α, zatem przy założeniu prawdziwości hipotezy H0 zaszło zdarzenie bardzo mało prawdopodobne. Należy odrzucić hipotezę H0 i przyjąć hipotezę alternatywną (współczynnik przy zmiennej amino jest zatem istotny) Dla zmiennej Przecięcie (wyraz wolny): 0,933 > α nie ma zatem podstaw do odrzucenia hipotezy H0 – współczynnik jest nieistotny. Globalny test istotności modelu: Hipotezy: H0 – model nieistotny statystycznie H1 – model istotny statystycznie Poziom ufności α = 0,05. Ponieważ F = 2,5*10-8 < α, zatem przy założeniu prawdziwości hipotezy H0 zaszło zdarzenie bardzo mało prawdopodobne. Należy odrzucić hipotezę H0 i przyjąć hipotezę alternatywną (model jest istotny statystycznie) Amoniak = 0,06982 * amino 9 Dolne 95,0% -5,12717 0,06225 Zadanie 4: BUDŻET CENA SPRZEDAŻ 3500 88 16523 10073 110 6305 11825 85 1769 33550 28 30570 37200 101 7698 55400 71 9554 55565 7 54154 66501 82 54450 71000 62 47800 82107 24 74598 83100 91 25257 90496 40 80608 100000 45 40800 102100 21 63200 132222 40 69675 136297 8 98715 139114 63 75886 165575 5 83360 BUDZET-CENA 120 100 80 60 BUDZET-CENA 40 20 0 0 20000 40000 60000 80000 100000 120000 140000 160000 180000 CENA-SPRZEDAZ 120000 100000 80000 60000 Serie1 40000 20000 0 0 20 40 60 80 100 120 BUDZET - SPRZEDAZ 120000 100000 80000 60000 Serie1 40000 20000 0 0 20000 40000 60000 80000 100000 120000 140000 160000 180000 10 Z wykresów jednoznacznie wynika, iż w danych nie ma prostej zależności między pojedynczymi zmiennymi. Należy zatem szukać zależności między kombinacjami dwie zmienne – jedna zmienna. Statystyki regresji Wielokrotność R 0,89807621 ! R kwadrat 0,80654087 ! Dopasowany R kwadrat 0,78074632 Błąd standardowy 14348,6222 Obserwacje 18 ANALIZA WARIANCJI df Regresja Resztkowy Razem 2 15 17 Przecięcie BUDŻET Współczynniki 36779,4926 0,3828415 CENA -358,1413 SS MS F Istotność F 12875046967 6,44E+09 31,26788 4,4609E-06 3088244387 2,06E+08 15963291354 Błąd Wartośćstandardowy t Stat p 13165,54282 2,793618 0,013634 0,093439712 4,097203 0,000952 129,6571733 2,762217 0,014525 Górne Dolne 95% 95% 8717,78505 64841,2 0,18367934 0,582004 -634,49919 -81,7834 Uzyskane wartości współczynnika korelacji Pearsona oraz współczynnika determinacji należy w tym przypadku (regresja wielowymiarowa) uznać za znaczące. Można zatem wnioskować o istnieniu związku pomiędzy zmiennymi. Test istotności parametrów modelu: Hipotezy: H0 – współczynnik jest równy 0 (nieistotny) H1 – współczynnik nie jest równy 0 (jest zatem istotny) Poziom istotności: α = 0,05 Ponieważ dla każdego parametru (BUDŻET, CENA, WYRAZ WOLNY) prawdopodobieństwo zajścia zdarzenia jest mniejsze niż α, dlatego za każdym razem należy odrzucić hipotezę H0 (jako bardzo mało prawdopodobną) i przyjąć hipotezę alternatywną H1. Wszystkie współczynniki są istotne. Uzyskane błędy standardowe są znaczące, ale mogą zostać zaakceptowane (+/- ok. 30%). Globalny test istotności: Hipotezy: H0 – model jest nieistotny statystycznie H1 – model jest istotny statystycznie Poziom istotności: α = 0,05 11 Dolne 95,0% 8717,8 0,1837 -634,5 Ponieważ 4,4609*10-6 < α, zatem przy założeniu prawdziwości hipotezy H0 zaszło zdarzenie bardzo mało prawdopodobne. Należy odrzucić hipotezę H0 i przyjąć hipotezę alternatywną (model jest istotny statystycznie). SPRZEDAŻ = -358,1413 * CENA + 0,3828415 * BUDŻET + 36779,4926 Zadanie 5: Osoba WIEK 1 2 3 4 5 6 7 8 9 10 11 12 8 10 6 11 8 7 10 9 10 6 12 9 WZROST WAGA 57 64 59 71 49 53 62 67 51 55 50 58 55 77 48 57 42 56 42 51 61 76 57 68 Wykresy rozrzutu: y = 2,2059x + 33,265 R2 = 0,3768 w iek - w zrost 70 60 50 40 30 20 10 0 0 2 4 6 8 10 12 14 12 w ie k - w aga y = 3,6429x + 30,571 R2 = 0,5926 90 80 70 60 50 40 30 20 10 0 0 2 4 y = 1,0722x + 6,1898 R2 = 0,663 6 8 10 12 14 w zrost - w aga 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 Przyglądając się wykresom, można od razu zauważyć, iż wartości współczynników determinacji są względnie niskie. Wynika to najprawdopodobniej z wystąpienia znacznego „szumu” w danych. 13 Analiza regresji wielowymiarowej: Statystyki regresji Wielokrotność R R kwadrat Dopasowany R kwadrat Błąd standardowy Obserwacje 0,88317 0,77999 0,73109 4,65984 12 0,05 ANALIZA WARIANCJI Istotność SS MS F F 692,82261 346,411 15,95325 0,001099 195,42739 21,7142 888,25 df Regresja Resztkowy Razem 2 9 11 Współczynniki Przecięcie 6,55305 WIEK WZROST 2,05013 0,72204 Błąd standardowy t Stat Wartośćp Dolne 95% Górne 95% Dolne 95,0% 10,944827 0,59873 0,564113 18,20589 31,311986 -18,20589 0,9372256 2,18744 0,056485 0,070027 4,1702796 0,0700269 0,2608051 2,7685 0,021807 0,132055 1,3120204 0,1320555 Test istotności parametrów modelu: Hipotezy: H0 – współczynnik jest równy 0 (nieistotny) H1 – współczynnik nie jest równy 0 (jest zatem istotny) Poziom istotności: α = 0,05 Dla atrybutu WZROST prawdopodobieństwo zajścia zdarzenia przy założeniu prawdziwości hipotezy H0 jest mniejsze niż poziom istotności. Odrzucam zatem hipotezę H0 i przyjmuję hipotezę alternatywną H1. Dla atrybutu WIEK oraz dla wyrazu wolnego nie ma podstaw do odrzucenia hipotezy H0 (0,056 > 0,05 oraz 0,598 > 0,05). Nie można zatem metodami statystycznymi uzasadnić wpływu zmiennej WIEK na zmienną WZROST. Globalny test istotności: Hipotezy: H0 – model jest nieistotny statystycznie H1 – model jest istotny statystycznie Poziom istotności: α = 0,05 Ponieważ 0,001 < 0,05, zatem przy założeniu prawdziwości hipotezy H0 zaszło zdarzenie bardzo mało prawdopodobne. Odrzucam zatem hipotezę H0 i jako prawdziwą przyjmuję hipotezę alternatywną H1. Wyznaczony model jest zatem istotny statystycznie. Zarówno współczynnik korelacji jak i współczynnik determinacji są dość wysokie. 14 Statystyki regresji Wielokrotność R 0,77014 R kwadrat 0,59312 Dopasowany R kwadrat 0,5027 Błąd standardowy 1,33914 Obserwacje 12 ANALIZA WARIANCJI Istotność SS MS F F 23,52704 11,7635 6,559735 0,017483 16,139627 1,79329 39,666667 df Regresja Resztkowy Razem 2 9 11 Współczynniki Przecięcie WAGA WZROST Błąd standardowy -1,22518 0,16931 -0,01073 t Stat Wartośćp Dolne 95% Górne 95% Dolne 95,0% 3,1812289 0,38513 0,709087 8,421623 5,9712678 8,4216228 0,077402 2,18744 0,056485 0,005783 0,344408 0,0057833 0,1019246 0,10524 0,918491 0,241296 0,2198427 0,2412964 Test istotności parametrów modelu: Hipotezy: H0 – współczynnik jest równy 0 (nieistotny) H1 – współczynnik nie jest równy 0 (jest zatem istotny) Poziom istotności: α = 0,05 Przy założonym poziomie istotności nie ma podstaw do odrzucenia hipotezy zerowej dla żadnej ze zmiennych. Nie można więc metodami statystycznymi uzasadnić wpływu zmiennych WAGA i WZROST na zmienną wiek (co jest zgodne z intuicją). Globalny test istotności: Hipotezy: H0 – model jest nieistotny statystycznie H1 – model jest istotny statystycznie Poziom istotności: α = 0,05 Ponieważ 0,017 < 0,05, zatem przy założeniu prawdziwości hipotezy H0 zaszło zdarzenie bardzo mało prawdopodobne. Odrzucam zatem hipotezę H0 i jako prawdziwą przyjmuję hipotezę alternatywną H1. Wyznaczony model jest zatem istotny statystycznie. Wartości współczynnika korelacji jak i współczynnika determinacji wskazują iż nie istnieje silna zależność liniowa w danych. 15 Statystyki regresji Wielokrotność R R kwadrat Dopasowany R kwadrat Błąd standardowy Obserwacje 0,81451 0,66343 0,58863 4,37682 12 ANALIZA WARIANCJI df Regresja Resztkowy Razem SS MS 339,84129 169,921 172,40871 19,1565 512,25 2 9 11 Współczynniki Przecięcie WIEK WAGA Błąd standardowy 13,791 -0,11459 0,63699 t Stat Istotność F F 8,87012 0,007445 Wartośćp Dolne 95% Górne 95% Dolne 95,0% 9,4210823 1,46384 0,17727 7,521026 35,10294 1,088791 0,10524 0,918491 2,577606 2,348431 0,2300858 2,7685 0,021807 0,116501 1,157482 Test istotności parametrów modelu: Hipotezy: H0 – współczynnik jest równy 0 (nieistotny) H1 – współczynnik nie jest równy 0 (jest zatem istotny) Poziom istotności: α = 0,05 Ponieważ 0,02 < 0,05 zatem dla zmiennej WAGA odrzucam hipotezę H0 jako mało prawdopodobną i przyjmuję hipotezę alternatywną H1. Dla zmiennej WIEK oraz dla wyrazu wolnego nie ma podstaw do odrzucenia hipotezy H0. Globalny test istotności: Hipotezy: H0 – model jest nieistotny statystycznie H1 – model jest istotny statystycznie Poziom istotności: α = 0,05 Ponieważ 0,007 < 0,05, zatem przy założeniu prawdziwości hipotezy H0 zaszło zdarzenie bardzo mało prawdopodobne. Odrzucam zatem hipotezę H0 i jako prawdziwą przyjmuję hipotezę alternatywną H1. Wyznaczony model jest zatem istotny statystycznie. Jako znaczące należy uznać uzyskane wartości błędów standardowych. Uzyskany model sprawia wrażenie „nieczystego”. 16 -7,521026 -2,577606 0,116501 G 9 Trudności w analizie uzyskanych modeli wynikają ze specyfiki badanych danych. Mimo iż widoczne (zarówno na wykresach jak i we współczynnikach: korelacji liniowej Pearsona i determinacji) są zależności w danych, to szum w nich występujący (duża odległość niektórych pomiarów od linii trendu) zaburzają czystości budowanych modeli regresji liniowej. Wynika to z faktu, iż metoda najmniejszych kwadratów (wykorzystywana do budowania modelu regresji przez środowisko Microsoft Excel) jest wrażliwa na wartości odstające i „przesuwa” prostą regresji (interpretowaną jako linia trendu na wykresie rozrzutu) w kierunku samotników (outliers). Na zbiorze danych należałoby przeprowadzić procedurę usuwania osobliwości (outlier treatment) i powtórnie zbudować modele. Uzyskane rezultaty byłyby na pewno znacznie bardziej jednoznaczne. 17