STATYSTYKA MATEMATYCZNA

Transkrypt

STATYSTYKA MATEMATYCZNA
STATYSTYKA
MATEMATYCZNA
Wnioskowanie statystyczne
- regresja i korelacja
treść
• Wprowadzenie
• Regresja i korelacja liniowa dwóch
zmiennych
• Regresja i korelacja nieliniowa transformacja zmiennych
• Regresja i korelacja wielokrotna
Wprowadzenie
Jednostki zbiorowości statystycznej mogą być
charakteryzowane za pomocą wielu cech. Cechy te mogą być
powiązane ze sobą jak np.: pierśnica i wysokość drzew w
drzewostanie. Badaniem takich związków zajmuje się dział
statystyki matematycznej zwany teorią regresji i korelacji.
W badaniach współzaleŜności między cechami mierzalnymi
(zmiennymi) mogą wystąpić:
- związki funkcyjne - to takie, kiedy zmiana wartości jednej
zmiennej powoduje ściśle określoną zmianę wartości pozostałych
zmiennych
- związki korelacyjne - to takie, kiedy zmiana wartości jednej
zmiennej powoduje zmianę rozkładu prawdopodobieństwa
pozostałych zmiennych.
Badanie związków korelacyjnych sprowadza się do dwóch
problemów:
1. Poszukiwanie funkcji regresji (funkcji, która najlepiej
wyrówna badaną zaleŜność korelacyjną)
2. Określenie miar siły korelacji (stopnia zbliŜenia związku
korelacyjnego do związku funkcyjnego)
y
y
x
x
Regresja i korelacja liniowa dwóch zmiennych:
W badaniach związków korelacyjnych miedzy zmiennymi X i
Y moŜemy zarówno jedną traktować jako zmienną zaleŜną a drugą
jako zmienną niezaleŜną lub odwrotnie. Zmienne te wzajemnie na
siebie wpływają. Aby równanie regresji mogło znaleźć zastosowanie
praktyczne, to jako zmienną zaleŜną powinniśmy przyjąć cechę
trudniejszą do określania w danej populacji. Przykładowo: dla
związku między wysokością a pierśnicą, zmienną zaleŜną powinna
być wysokość.
Dla zrozumienia na czym polega określanie siły związku
korelacyjnego zajmiemy się obydwoma postaciami równań regresji:
Y = α 1 + β1 X
X = α 2 + β 2Y
W zastosowaniu praktycznym równania regresji budujemy na
podstawie wyników próby:
yˆ = a1 + b1 x
gdzie:
xˆ = a2 + b2 y
a1 , a2 , b1 , b2 są estymatorami α 1 , α 2 , β 1 , β 2
yˆ = a1 + b1 x
y xˆ = a2 + b2 y
x̂
y
x̂
ŷ
y
x
ŷ
y
x
x
yˆ = y ; a1 = y ; b1 = 0
xˆ = x ; a2 = x ; b2 = 0
y
x̂
x
ŷ
y
yˆ = a1 + b1 x
b1 x = −a1 + y
x
x
xˆ = −
a1 1
a1
1
+ y ; a2 = −
; b2 =
b1 b1
b1
b1
Własności prostych regresji:
* przecinają się w punkcie o współrzędnych x, y,
* b1 i b2 mają ten sam znak (+) lub (-), który oznacza, Ŝe w
miarę wzrostu jednej zmiennej druga teŜ rośnie (+) lub maleje (-),
* wartość liczbowa współczynników kierunkowych b1 i b2
mówi o ile zmienia się zmienna zaleŜna jeŜeli zmienna niezaleŜna
zmienia się o jednostkę,
* przy braku związku między zmiennymi współczynniki
kierunkowe b1 i b2 są równe zero, kąt między prostymi - 90o,
* przy zaleŜności funkcyjnej proste pokrywają się, ich
równania wzajemnie się przekształcają, kąt - 0o,
* przy zaleŜności korelacyjnej proste przecinają się pod
pewnym kątem. Im kąt ten jest bliŜszy 0 - związek silniejszy, im
bliŜszy 90o - związek słabszy.
Metoda najmniejszych kwadratów - układ równań normalnych:
a1n + b1 ∑ xi = ∑ yi
a2 n + b2 ∑ yi = ∑ xi
a1 ∑ xi + b1 ∑ xi2 = ∑ xi yi
a2 ∑ yi + b2 ∑ yi2 = ∑ xi yi
b1 =
a1
n∑ xi yi − ∑ xi ∑ yi
n∑ x − (∑ xi )
y
∑
=
2
i
i
− b1 ∑ xi
n
2
b2 =
a2
n∑ xi yi − ∑ xi ∑ yi
n∑ y − (∑ yi )
2
2
i
x −b ∑ y
∑
=
2
i
n
i
Przykład:
Na podstawie próby o liczebności n = 30 zbadać związek
między pierśnicą i wysokością w 30-letnim drzewostanie sosnowym
nr
xi
yi
1
5,2
9,64
2
11,6
11,2
3
4,3
9,03
4
8,1
10,9
5
10,4
11,7
6
7,3
10,38
7
9,8
11,4
8
12,5
11,19
9
4,7
8,45
10
8,1
10,48
nr
xi
yi
11
7,5
10,5
12
6,7
9,32
13
7
9,1
14
8,2
10,92
15
6,3
9,73
16
17
18
9,1
8
13,2
10,74 10,62 11,64
19
6,5
9,44
20
10,2
11,69
nr
xi
yi
21
12,8
11,9
22
8,9
10,43
23
7,7
9,8
24
6,7
9,35
25
11,6
11,02
26
8,4
10,2
29
9,8
10,5
30
8,6
10,5
27
6,1
9,65
28
11,9
11,16
lp
xi
yi
xi2
yi2
xiyi
1
2
3
.
.
.
30
5,2
11,6
4,3
.
.
.
8,6
9,64
11,20
9,03
.
.
.
10,50
27,04
134,56
18,49
.
.
.
73,96
92,9296
125,4400
81,5409
.
.
.
110,2500
50,128
129,920
38,829
.
.
.
90,300
Σ
257,2
312,40
2372,72 3276,5000 2733,040
∑x
∑x
i
2
i
∑y
∑y
= 257 , 2
= 2372 , 72
∑xy
i
i
i
2
i
= 312 , 4
= 3276 ,5
= 2733 , 04
x = 8 ,57
y = 10 , 413
s x2 = 5 , 7813
s y2 = 0 ,80613
s x = 2 , 40
s y = 0 ,898
w x = 28 , 05 %
w y = 8 , 62 %
30 * 2733,04 − 257,2 * 312,4
30 * 2372,72 − 257,2 2
b1 = 0,3264
30 * 2733,04 − 257,2 * 312,4
30 * 3276,5 − 312,4 2
b2 = 2,341
312,4 − 0,3264 * 257,2
a1 =
= 7,615
30
257,2 − 2,341* 312,4
a2 =
= 15,81
30
b1 =
b2 =
Zwiazek miedzy piersnica (x) i wysokoscia (y) PA-1
13
x̂
12
ŷ
Zwiazek miedzy piersnica (x) i wysokoscia (y) PA-1
11
y
13
12
10
9
y
11
10
9
8
4
6
8
4
8
6
yˆ = 7,6146 + 0,32645 x
10
8
xx
10
12
12
14
14
xˆ = −15,8061 + 2,34117 y
Współczynnik korelacji liniowej dwóch zmiennych:
Współczynnik korelacji liniowej jest kowariancją zmiennych
X i Y podzieloną przez iloczyn odchyleń standardowych tych
zmiennych.
ρ =
C xy =
b1 =
σ xσ
r =
y
∑ (x i − x )( y i − y )
n −1
C xy
σ
C xy
2
x
z przykładu:
r 2 = 0 , 764
b2 =
C xy
σ
2
y
∑
C xy
sxsy
xi yi
=
r2 =
x ∑
∑
−
i
n
n −1
C xy2
2
x
σ σ
2
y
= b1 b 2
r = ± b1 b 2
r = 0 ,874
yi
zaleznosc wysokosci (y) od piersnicy (x) - PA-1
13
12
y
11
10
9
8
4
6
8
x
yˆ = a + bx
r
2
(y
∑
=
12
∑ (y
2
− y)
2
i
14
yˆ = 7,6146 + 0,32645 x
− y ) − ∑ ( yi − yˆ )
2
i
10
( y − yˆ )
∑
= 1−
∑ (y − y)
2
i
2
i
( y − yˆ )
∑
=
∑ (y − y)
2
1− r
i
2
( y − yˆ )
∑
1−
∑ (y − y)
2
r=±
2
i
i
2
i
(
y)
∑
∑ (y − y) = ∑ y − n
∑ ( y − yˆ ) = ∑ y − a∑ y − b∑ x y
2
2
2
i
2
2
i
i
i
i
i
i
i
z przykładu:
∑ (y
2
i
− y)
312,4 2
= 3276,5 −
= 23,3747
30
2
∑ ( yi − yˆ ) = 3276,5 − 7,6146 * 312,4 − 0,32645 * 2733,04 = 5,4981
5,4981
r = 1−
= 0,7648
23,3747
2
r = 0,76478 = 0,8745
Własności współczynnika korelacji liniowej:
* gdy ρ = 0 między zmiennymi nie ma liniowego związku
korelacyjnego,
* gdy ρ = 1 lub -1 między zmiennymi zachodzi funkcyjny
związek liniowy,
* gdy 0 < ρ < 1 lub 0< ρ < -1 między zmiennymi zachodzi
liniowy związek korelacyjny,
* jeŜeli ρ bliŜszy 1 lub -1 to związek jest silniejszy,
* znak współczynnika korelacji jest taki sam jak znak
współczynników kierunkowych regresji.
Zmienność wokół linii regresji - zmienność y przy wyłączonym
wpływie x.
(
s y2. x = s y2 1 − rxy2
)
s y. x = s y 1 − rxy2
wy. x = wy 1 − rxy2
z przykładu:
2
s y. x = 0,898 1 − 0,874 = 0,436m
2
wy. x = 8,62 1 − 0,874 = 4,19%
Uogólnienie miar mocy korelacji, regresja i korelacja
nieliniowa, transformacja zmiennych:
ˆˆ )
(
−
y
y
∑
1−
2
R=
i
∑ (y
− y)
2
i
Przykład:
zaleznosc wysokosci (y) od piersnicy (x) - PA-1
13
12
y
11
10
9
8
4
6
8
10
12
14
x
yˆˆ = a + b * ln (x )
R = 0,888
yˆˆ = 4,6227 + 2,7455 * ln (x )
2
R = 0,789
Regresja i korelacja wielokrotna:
x1 − zmienna zalezna ( y )
x2 , x3 , x4 ,..., xm − zmienne niezalezne ( x, z ,...)
xˆˆ = a
+b
x +b
x + ... + b
1
0.23...m
12.34...m 2
x
1m.234...( m −1) m
13.24...m 3
- dla trzech zmiennych:
xˆˆ1 = a0.23 + b12.3 x2 + b13.2 x3
- układ równań normalnych:
na0.23 + b12.3 ∑ x2i + b13.2 ∑ x3i = ∑ x1i
a0.23 ∑ x2i + b12.3 ∑ x22i + b13.2 ∑ x2i x3i = ∑ x1i x2i
a0.23 ∑ x3i + b12.3 ∑ x2i x3i + b13.2 ∑ x = ∑ x1i x3i
2
3i
- współczynnik korelacji wielokrotnej:
2
1.23
R
(
x
∑
= 1−
ˆˆ
−
x
1i
1
)
2
R1.23 = R12.23
2
(
)
x
−
x
∑ 1i 1
∑ (x
)
2
ˆˆ = x 2 − a
−
x
∑ 1i 0.23 ∑ x1i − b12.3 ∑ x1i x2i − b13.2 ∑ x1i x3i
1i
1
- korelacja cząstkowa:
(
)(
R1.23 = 1 − 1 − r122 1 − r132 .2
r13 .2 =
r13 − r12 r23
(1 − r )(1 − r )
2
12
2
23
)