Analiza Danych Sprawozdanie – regresja Marek Lewandowski Inf

Transkrypt

Analiza Danych Sprawozdanie – regresja Marek Lewandowski Inf
Analiza Danych
Sprawozdanie – regresja
Marek Lewandowski
Inf 59817
Zadanie 1:
wiek
7
8
9 10 11 11,5 12 13 14 14 15 16 17 18 18,5 19
wzrost 120 122 125 131 135 140 142 145 150 100 154 159 162 164 168 170
Wykres rozrzutu z dodaną linią trendu:
wiek - wzrost
y = 4,1475x + 87,723
R2 = 0,6188
180
160
140
120
100
80
60
40
20
0
0
2
4
6
8
10
12
14
16
18
20
1
PODSUMOWANIE - WYJŚCIE
Statystyki regresji
Wielokrotność R
0,7866589
R kwadrat
0,6188322
Dopasowany R
kwadrat
-1,1428571
Błąd standardowy
12,724501
Obserwacje
1
ANALIZA
WARIANCJI
df
Regresja
Resztkowy
Razem
16
14
30
Współczynniki
SS
MS
3680,156 230,0098
2266,781 161,9129
5946,938
Błąd
standardowy
Istotność
F
F
22,729 #LICZBA!
Wartośćp
t Stat
Dolne
95%
Górne
95%
Przecięcie
wiek
7
8
9
10
11
11,5
12
13
14
14
15
16
17
18
18,5
0,8437506
0,843751
1
0,3343 -0,965916
2,6534
87,723488
4,1475314
12,01024 7,304059
0,869956 4,767518
4E-06 61,964065
0,0003 2,2816596
113,48
6,0134
Równanie regresji:
y = 4,1475314x + 87,723488
Wyznaczone błędy standardowe można przyjąć jako dopuszczalne (nie są porównywalne z
obliczonymi współczynnikami równania).
Test istotności parametrów modelu
Hipotezy:
H0 – współczynniki jest równy zero (nieistotny)
H1 – współczynnik różny od zera (istotny)
Poziom istotności: α = 0,05
2
Dolne
95,0%
-4E-306
-4E-249
1,3E-307
9,6E-222
0
4,2E-308
2266,781
3680,156
-0,96592
3,8E-148
0
-100,425
-4E-282
4,25E+92
-3,7E-60
61,96407
2,28166
Prawdopodobieństwo, że współczynnik przy wyrazie x jest równe 0 wynosi 0,0003, a
prawdopodobieństwo, że wyraz wolny jest równy 0 wynosi 4 * 10 -6.
Ponieważ 0,0003 < α i 4 * 10 -6 < α, zatem przy założeniu prawdziwości hipotezy H0 zaszło
zdarzenie bardzo mało prawdopodobne. Należy zatem odrzucić hipotezę H0 i przyjąć hipotezę
alternatywną. Uzyskane współczynniki są istotne.
Globalny test istotności:
H0 – model nieistotny statystycznie
H1 – model istotny statystycznie
Poziom istotności: α = 0,05
Wartość Istotność F 0, zatem < α. Przy założeniu prawdziwości hipotezy H0 zaszło
zdarzenie mało prawdopodobne, więc należy odrzucić hipotezę H0 i przyjąć hipotezę
alternatywną. Model jest istotny statystycznie.
Przy tak założonym modelu wysokość człowieka w wieku 14,5 roku wynosiłaby
147,86269 cm.
Współczynnik korelacji wynosi (zaledwie) 0,7866589, a wartość współczynnika determinacji
R2 jedynie 0,6188322.
Współczynniki te mogłyby zostać poprawione, gdyby z danych usunięto wartości odstające
(outliers). W powyższych danych jest to wpis (14, 100).
Wyniki po usunięciu „samotnika”:
180
y = 4,3049x + 88,689
2
R = 0,9937
160
140
120
100
80
60
40
20
0
0
2
4
6
8
10
12
14
16
18
20
3
Statystyki regresji
Wielokrotność R
0,9968424
R kwadrat
0,99369478
Dopasowany R
kwadrat
-1,15384615
Błąd standardowy
1,38944643
Obserwacje
1
ANALIZA WARIANCJI
df
Regresja
Resztkowy
Razem
15
13
28
Współczynniki
Przecięcie
x
Istotność
SS
MS
F
F
3955,3027 263,6868 2048,7837 #######
25,0972981 1,930561
3980,4
Błąd
standardowy
0,95040195
7
8
9
10
11
11,5
12
13
14
15
16
17
18
18,5
t Stat
Wartość-p
Dolne
95%
0,00024 0,9998119
-8544
0,09375007
0,09375007
1 0,3355613
-0,1088
88,6888958
4,3048571
1,31175882 67,61067 6,02E-18
0,09510661 45,26349 1,086E-15
85,855
4,09939
Górne
95%
Dolne
95,0%
0
-8544,906
2,9E+250
0
-97,78581
25,097298
3955,3027
0,29628 -0,108785
2,9E+147
0
-102,9118
-1,3E-296
-5,69E+86
6,05E+302
91,5228 85,855014
4,51032 4,0993918
8545,86
Jak widać wartość współczynnika korelacji liniowej Pearsona uległa znacznej poprawie i
wynosi 0,9968424. Prawdopodobieństwo popełnienia błędu pierwszego rodzaju podczas
weryfikacji współczynników również zostało zredukowane i wynosi odpowiednio: 6,02*10-18
dla wyrazu wolnego i 1,086*10-15 dla współczynnika przy zmiennej x (wiek).
Model naturalnie jest istotny statystycznie.
Równanie regresji przyjmuje postać:
y = 4,3048571x + 88,6888958
Warto zauważyć, iż przy stosowaniu równania regresji należy przyjąć sensowny zakres jego
stosowalności. Powyższy wzór na pewno nie może być zastosowany do oszacowania wzrostu
sześćdziesięciolatka (ok. 347 cm)…
Proponuję więc zakres od 0 do 21 lat (czyli mniej więcej do zakończenia procesu wzrostu
kośćca człowieka).
4
Zadanie 2:
x
y
0,2
0,3
0,5
1
3
5
6
7
9
10
14
18
22
30
38
45
49
54
58
62
-1,609
-1,204
-0,693
0
1,099
1,609
1,792
1,946
2,197
2,394
2,693
2,89
3,091
3,401
3,638
3,807
3,892
3,989
4,06
4,127
5
y = 1,0006Ln(x) + 0,006
R2 = 0,9998
4
3
2
1
0
0
10
20
30
40
50
60
70
-1
-2
Wykres jednoznacznie wskazuje, iż w danych występuje bardzo silna zależność. Nie jest ona
jednak liniowa. W celu przeprowadzenia analizy korelacji liniowej postanowiłem
logarytmować wartości zmiennych x w celu uzyskania zależności liniowej.
5
y
-1,609
-1,204
-0,693
0
1,099
1,609
1,792
1,946
2,197
2,394
2,693
2,89
3,091
3,401
3,638
3,807
3,892
3,989
4,06
4,127
ln(x)
-1,60943791
-1,2039728
-0,69314718
0
1,098612289
1,609437912
1,791759469
1,945910149
2,197224577
2,302585093
2,63905733
2,890371758
3,091042453
3,401197382
3,63758616
3,80666249
3,891820298
3,988984047
4,060443011
4,127134385
5
y = 0,9992x - 0,0056
R2 = 0,9998
4
3
2
1
0
-2
-1
0
1
2
3
4
5
-1
-2
Między zmiennymi y i ln(x) istnieje bardzo silna zależność liniowa.
6
Statystyki regresji
Wielokrotność R
0,999917798
R kwadrat
0,999835602
Dopasowany R
kwadrat
0,999826469
Błąd standardowy
0,023767796
Obserwacje
20
ANALIZA WARIANCJI
df
Regresja
Resztkowy
Razem
1
18
19
Współczynniki
Przecięcie
Zmienna X 1
SS
MS
F
61,8418932 61,84189 109472,48
0,01016835 0,000565
61,8520615
Błąd
standardowy
-0,005604754
0,999219972
t Stat
Wartość-p
Istotność
F
1,63E-35
Dolne
95%
Górne
95%
0,00840467 0,666862 0,5133186 0,023262 0,012053
0,00302001 330,8663 1,627E-35 0,992875 1,005565
Zarówno współczynnik korelacji Pearsona jak i wartość R2 są bardzo bliskie wartości 1.
Równanie:
y = 0,999219972 * ln(x) - 0,005604754
Test istotności parametrów modelu:
Hipotezy:
H0 – współczynnik jest zerowy (jest zatem nieistotny)
H1 – współczynnik jest niezerowy (jest zatem istotny)
poziom istotności: α = 0,05
Ponieważ 1,627 * 10-35 (prawdopodobieństwo zdarzenia, że współczynnik przy zmiennej x
będzie równy 0) < α, zatem odrzucam hipotezę H0 i przyjmuję hipotezę alternatywną.
W przypadku testowania istotności wyrazu wolnego, nie ma podstaw do odrzucenia hipotezy
H0. Nie można więc uznać, że wyraz wolny jest istotny.
Z uwagi na wielkości błędu standardowego, który jest porównywalny z wyrazem wolnym,
oraz na prawdopodobieństwo osiągnięcia przez wyraz wolny wartości 0, można przyjąć, że
równanie regresji liniowej przyjmie postać: y = ln(x).
Globalny test istotności modelu:
H0 – model jest nieistotny statystycznie
H1 – model jest istotny statystycznie
poziom istotności: α = 0,05
Ponieważ 1,63*10-35 < α zatem odrzucam hipotezę H0 – model jest istotny statystycznie.
7
Dolne
95,0%
-0,02326
0,992875
Zadanie 3:
lp
1
2
3
4
5
6
7
8
9
10
amino
amoniak
430
31
470
33
520
36
570
39
630
42
690
47
740
51
770
54
800
55
780
57
60
y = 0,0698x - 0,185
R2 = 0,9826
50
40
30
20
10
0
0
100
200
300
400
500
600
700
800
900
8
Statystyki regresji
Wielokrotność R
R kwadrat
Dopasowany R
kwadrat
Błąd standardowy
Obserwacje
0,99127
0,98263
0,98045
1,34139
10
ANALIZA WARIANCJI
df
Regresja
Resztkowy
Razem
1
8
9
SS
MS
F
814,105 814,1054 452,4501
14,3946 1,799326
828,5
Przecięcie
amino
Współczynniki
-0,18503
0,06982
Błąd
Wartośćt Stat
standardowy
p
2,14316 -0,08634 0,933322
0,00328 21,27087 2,51E-08
Istotność
F
2,5E-08
Dolne
95%
-5,1272
0,06225
Górne
95%
4,75711
0,07739
Zarówno współczynnik korelacji Pearsona jak i współczynnik determinacji są bardzo bliskie
1, zatem istnieje niemalże liniowa zależność pomiędzy zmiennymi.
Test istotności parametrów modelu:
Hipotezy:
H0 – współczynnik jest zerowy (nieistotny)
H1 – współczynnik jest niezerowy (istotny)
Poziom istotności α = 0,05.
Dla zmiennej amino:
Ponieważ 2,51*10-8 < α, zatem przy założeniu prawdziwości hipotezy H0 zaszło zdarzenie
bardzo mało prawdopodobne. Należy odrzucić hipotezę H0 i przyjąć hipotezę alternatywną
(współczynnik przy zmiennej amino jest zatem istotny)
Dla zmiennej Przecięcie (wyraz wolny):
0,933 > α nie ma zatem podstaw do odrzucenia hipotezy H0 – współczynnik jest nieistotny.
Globalny test istotności modelu:
Hipotezy:
H0 – model nieistotny statystycznie
H1 – model istotny statystycznie
Poziom ufności α = 0,05.
Ponieważ F = 2,5*10-8 < α, zatem przy założeniu prawdziwości hipotezy H0 zaszło zdarzenie
bardzo mało prawdopodobne. Należy odrzucić hipotezę H0 i przyjąć hipotezę alternatywną
(model jest istotny statystycznie)
Amoniak = 0,06982 * amino
9
Dolne
95,0%
-5,12717
0,06225
Zadanie 4:
BUDŻET CENA
SPRZEDAŻ
3500
88
16523
10073
110
6305
11825
85
1769
33550
28
30570
37200
101
7698
55400
71
9554
55565
7
54154
66501
82
54450
71000
62
47800
82107
24
74598
83100
91
25257
90496
40
80608
100000
45
40800
102100
21
63200
132222
40
69675
136297
8
98715
139114
63
75886
165575
5
83360
BUDZET-CENA
120
100
80
60
BUDZET-CENA
40
20
0
0
20000
40000
60000
80000
100000
120000
140000
160000
180000
CENA-SPRZEDAZ
120000
100000
80000
60000
Serie1
40000
20000
0
0
20
40
60
80
100
120
BUDZET - SPRZEDAZ
120000
100000
80000
60000
Serie1
40000
20000
0
0
20000
40000
60000
80000
100000
120000
140000
160000
180000
10
Z wykresów jednoznacznie wynika, iż w danych nie ma prostej zależności między
pojedynczymi zmiennymi. Należy zatem szukać zależności między kombinacjami dwie
zmienne – jedna zmienna.
Statystyki regresji
Wielokrotność R
0,89807621 !
R kwadrat
0,80654087 !
Dopasowany R
kwadrat
0,78074632
Błąd standardowy
14348,6222
Obserwacje
18
ANALIZA
WARIANCJI
df
Regresja
Resztkowy
Razem
2
15
17
Przecięcie
BUDŻET
Współczynniki
36779,4926
0,3828415
CENA
-358,1413
SS
MS
F
Istotność F
12875046967 6,44E+09 31,26788 4,4609E-06
3088244387 2,06E+08
15963291354
Błąd
Wartośćstandardowy
t Stat
p
13165,54282 2,793618 0,013634
0,093439712 4,097203 0,000952
129,6571733 2,762217 0,014525
Górne
Dolne 95%
95%
8717,78505 64841,2
0,18367934 0,582004
-634,49919
-81,7834
Uzyskane wartości współczynnika korelacji Pearsona oraz współczynnika determinacji należy
w tym przypadku (regresja wielowymiarowa) uznać za znaczące. Można zatem wnioskować o
istnieniu związku pomiędzy zmiennymi.
Test istotności parametrów modelu:
Hipotezy:
H0 – współczynnik jest równy 0 (nieistotny)
H1 – współczynnik nie jest równy 0 (jest zatem istotny)
Poziom istotności: α = 0,05
Ponieważ dla każdego parametru (BUDŻET, CENA, WYRAZ WOLNY) prawdopodobieństwo
zajścia zdarzenia jest mniejsze niż α, dlatego za każdym razem należy odrzucić hipotezę H0
(jako bardzo mało prawdopodobną) i przyjąć hipotezę alternatywną H1. Wszystkie
współczynniki są istotne. Uzyskane błędy standardowe są znaczące, ale mogą zostać
zaakceptowane (+/- ok. 30%).
Globalny test istotności:
Hipotezy:
H0 – model jest nieistotny statystycznie
H1 – model jest istotny statystycznie
Poziom istotności: α = 0,05
11
Dolne
95,0%
8717,8
0,1837
-634,5
Ponieważ 4,4609*10-6 < α, zatem przy założeniu prawdziwości hipotezy H0 zaszło zdarzenie
bardzo mało prawdopodobne. Należy odrzucić hipotezę H0 i przyjąć hipotezę alternatywną
(model jest istotny statystycznie).
SPRZEDAŻ = -358,1413 * CENA + 0,3828415 * BUDŻET + 36779,4926
Zadanie 5:
Osoba
WIEK
1
2
3
4
5
6
7
8
9
10
11
12
8
10
6
11
8
7
10
9
10
6
12
9
WZROST WAGA
57
64
59
71
49
53
62
67
51
55
50
58
55
77
48
57
42
56
42
51
61
76
57
68
Wykresy rozrzutu:
y = 2,2059x + 33,265
R2 = 0,3768
w iek - w zrost
70
60
50
40
30
20
10
0
0
2
4
6
8
10
12
14
12
w ie k - w aga
y = 3,6429x + 30,571
R2 = 0,5926
90
80
70
60
50
40
30
20
10
0
0
2
4
y = 1,0722x + 6,1898
R2 = 0,663
6
8
10
12
14
w zrost - w aga
90
80
70
60
50
40
30
20
10
0
0
10
20
30
40
50
60
70
Przyglądając się wykresom, można od razu zauważyć, iż wartości współczynników
determinacji są względnie niskie. Wynika to najprawdopodobniej z wystąpienia znacznego
„szumu” w danych.
13
Analiza regresji wielowymiarowej:
Statystyki regresji
Wielokrotność R
R kwadrat
Dopasowany R
kwadrat
Błąd standardowy
Obserwacje
0,88317
0,77999
0,73109
4,65984
12
0,05
ANALIZA WARIANCJI
Istotność
SS
MS
F
F
692,82261 346,411 15,95325 0,001099
195,42739 21,7142
888,25
df
Regresja
Resztkowy
Razem
2
9
11
Współczynniki
Przecięcie
6,55305
WIEK
WZROST
2,05013
0,72204
Błąd
standardowy
t Stat
Wartośćp
Dolne
95%
Górne
95%
Dolne
95,0%
10,944827 0,59873 0,564113 18,20589 31,311986 -18,20589
0,9372256 2,18744 0,056485 0,070027 4,1702796 0,0700269
0,2608051 2,7685 0,021807 0,132055 1,3120204 0,1320555
Test istotności parametrów modelu:
Hipotezy:
H0 – współczynnik jest równy 0 (nieistotny)
H1 – współczynnik nie jest równy 0 (jest zatem istotny)
Poziom istotności: α = 0,05
Dla atrybutu WZROST prawdopodobieństwo zajścia zdarzenia przy założeniu prawdziwości
hipotezy H0 jest mniejsze niż poziom istotności. Odrzucam zatem hipotezę H0 i przyjmuję
hipotezę alternatywną H1.
Dla atrybutu WIEK oraz dla wyrazu wolnego nie ma podstaw do odrzucenia hipotezy H0
(0,056 > 0,05 oraz 0,598 > 0,05). Nie można zatem metodami statystycznymi uzasadnić
wpływu zmiennej WIEK na zmienną WZROST.
Globalny test istotności:
Hipotezy:
H0 – model jest nieistotny statystycznie
H1 – model jest istotny statystycznie
Poziom istotności: α = 0,05
Ponieważ 0,001 < 0,05, zatem przy założeniu prawdziwości hipotezy H0 zaszło zdarzenie
bardzo mało prawdopodobne. Odrzucam zatem hipotezę H0 i jako prawdziwą przyjmuję
hipotezę alternatywną H1. Wyznaczony model jest zatem istotny statystycznie.
Zarówno współczynnik korelacji jak i współczynnik determinacji są dość wysokie.
14
Statystyki regresji
Wielokrotność R
0,77014
R kwadrat
0,59312
Dopasowany R
kwadrat
0,5027
Błąd standardowy
1,33914
Obserwacje
12
ANALIZA WARIANCJI
Istotność
SS
MS
F
F
23,52704 11,7635 6,559735 0,017483
16,139627 1,79329
39,666667
df
Regresja
Resztkowy
Razem
2
9
11
Współczynniki
Przecięcie
WAGA
WZROST
Błąd
standardowy
-1,22518
0,16931
-0,01073
t Stat
Wartośćp
Dolne
95%
Górne
95%
Dolne
95,0%
3,1812289 0,38513 0,709087 8,421623 5,9712678 8,4216228
0,077402 2,18744 0,056485 0,005783 0,344408 0,0057833
0,1019246 0,10524 0,918491 0,241296 0,2198427 0,2412964
Test istotności parametrów modelu:
Hipotezy:
H0 – współczynnik jest równy 0 (nieistotny)
H1 – współczynnik nie jest równy 0 (jest zatem istotny)
Poziom istotności: α = 0,05
Przy założonym poziomie istotności nie ma podstaw do odrzucenia hipotezy zerowej dla
żadnej ze zmiennych. Nie można więc metodami statystycznymi uzasadnić wpływu
zmiennych WAGA i WZROST na zmienną wiek (co jest zgodne z intuicją).
Globalny test istotności:
Hipotezy:
H0 – model jest nieistotny statystycznie
H1 – model jest istotny statystycznie
Poziom istotności: α = 0,05
Ponieważ 0,017 < 0,05, zatem przy założeniu prawdziwości hipotezy H0 zaszło zdarzenie
bardzo mało prawdopodobne. Odrzucam zatem hipotezę H0 i jako prawdziwą przyjmuję
hipotezę alternatywną H1. Wyznaczony model jest zatem istotny statystycznie.
Wartości współczynnika korelacji jak i współczynnika determinacji wskazują iż nie istnieje
silna zależność liniowa w danych.
15
Statystyki regresji
Wielokrotność R
R kwadrat
Dopasowany R
kwadrat
Błąd standardowy
Obserwacje
0,81451
0,66343
0,58863
4,37682
12
ANALIZA WARIANCJI
df
Regresja
Resztkowy
Razem
SS
MS
339,84129 169,921
172,40871 19,1565
512,25
2
9
11
Współczynniki
Przecięcie
WIEK
WAGA
Błąd
standardowy
13,791
-0,11459
0,63699
t Stat
Istotność
F
F
8,87012 0,007445
Wartośćp
Dolne
95%
Górne
95%
Dolne
95,0%
9,4210823 1,46384 0,17727 7,521026 35,10294
1,088791 0,10524 0,918491 2,577606 2,348431
0,2300858 2,7685 0,021807 0,116501 1,157482
Test istotności parametrów modelu:
Hipotezy:
H0 – współczynnik jest równy 0 (nieistotny)
H1 – współczynnik nie jest równy 0 (jest zatem istotny)
Poziom istotności: α = 0,05
Ponieważ 0,02 < 0,05 zatem dla zmiennej WAGA odrzucam hipotezę H0 jako mało
prawdopodobną i przyjmuję hipotezę alternatywną H1.
Dla zmiennej WIEK oraz dla wyrazu wolnego nie ma podstaw do odrzucenia hipotezy H0.
Globalny test istotności:
Hipotezy:
H0 – model jest nieistotny statystycznie
H1 – model jest istotny statystycznie
Poziom istotności: α = 0,05
Ponieważ 0,007 < 0,05, zatem przy założeniu prawdziwości hipotezy H0 zaszło zdarzenie
bardzo mało prawdopodobne. Odrzucam zatem hipotezę H0 i jako prawdziwą przyjmuję
hipotezę alternatywną H1. Wyznaczony model jest zatem istotny statystycznie.
Jako znaczące należy uznać uzyskane wartości błędów standardowych. Uzyskany model
sprawia wrażenie „nieczystego”.
16
-7,521026
-2,577606
0,116501
G
9
Trudności w analizie uzyskanych modeli wynikają ze specyfiki badanych danych. Mimo iż
widoczne (zarówno na wykresach jak i we współczynnikach: korelacji liniowej Pearsona i
determinacji) są zależności w danych, to szum w nich występujący (duża odległość
niektórych pomiarów od linii trendu) zaburzają czystości budowanych modeli regresji
liniowej. Wynika to z faktu, iż metoda najmniejszych kwadratów (wykorzystywana do
budowania modelu regresji przez środowisko Microsoft Excel) jest wrażliwa na wartości
odstające i „przesuwa” prostą regresji (interpretowaną jako linia trendu na wykresie rozrzutu)
w kierunku samotników (outliers).
Na zbiorze danych należałoby przeprowadzić procedurę usuwania osobliwości (outlier
treatment) i powtórnie zbudować modele. Uzyskane rezultaty byłyby na pewno znacznie
bardziej jednoznaczne.
17