W12_MPiS

Transkrypt

W12_MPiS
Metody probabilistyczne i statystyka
Wykład 12
Korelacja i regresja
Dr Joanna Banaś
Zakład Badań Systemowych
Instytut Sztucznej Inteligencji i Metod Matematycznych
Wydział Informatyki Politechniki Szczecińskiej
Metody probabilistyczne i statystyka
Wykład 12
28. Badanie statystyczne ze względu na dwie
cechy
X, Y – cechy mierzalne
n-elementowa próbka – n par (xi, yi), i=1,…,n
diagram korelacyjny – przedstawienie graficzne próbki w układzie
współrzędnych
wstępne wnioski o ewentualnej zależności cech
y
a)
y
b)
c)
y
słaba zależność
hiperboliczna
brak
zależności
silna zależność
liniowa
0
x
0
x
0
x
Rys.28.1. Przykłady diagramów korelacyjnych
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Pomiar zależności
Pojęcia wykorzystywane przy badaniu zależności
Korelacja
mierzy siłę (natężenie) zależności między cechami
miernikiem zależności liniowej jest współczynnik korelacji ρ∈〈-1,1〉
|ρ| = 1 – zależność między cechami jest liniowa
ρ = 0 – cechy są nieskorelowane
Regresja
określa rodzaj zależności między cechami (liniowa, krzywoliniowa)
podaje zależność funkcyjną zależności, tzn. wyznaczana jest funkcja g
taka, że cechę Y można aproksymować przez g(X )
funkcję regresji g wyznacza się metodą najmniejszych kwadratów, tzn.
tak, aby
E [ Y − g(X ) ]2 → min
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Pomiar zależności
(28.1) Uwagi
a) Jeżeli | ρ(X,Y ) | = 1, to P ( Y = aX + b ) = 1 ,
ale korelacja nie precyzuje wartości parametrów
a i b (poza znakiem współczynnika a)
b) Jeżeli niezależne cechy X i Y mają rozkłady normalne,
to wektor (X, Y ) ma dwuwymiarowy rozkład normalny
c) Jeżeli wektor (X, Y ) ma dwuwymiarowy rozkład
normalny, to
a) cechy X i Y mają rozkłady normalne
b) funkcja regresji jest liniowa
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Estymacja współczynnika korelacji
X, Y – dowolne zmienne losowe
Współczynnik korelacji wyznaczamy ze wzoru
ρ( X , Y ) =
cov( X , Y )
D 2 X ⋅ D 2Y
E ( ( X − EX ) ⋅ (Y − EY ) )
D 2 X ⋅ D 2Y
Estymatorem zgodnym współczynnika korelacji ρ cech X i Y jest
estymator R z próby
R=
1
n
∑
n
i =1
( X i − X ) ⋅ (Yi − Y )
S X ⋅ SY
gdzie S X2 = 1n ∑ i =1 ( X i − X ) 2 i SY2 = 1n ∑ i =1 (Yi − Y ) 2
są wariancjami z próby
(28.2) Uwagi
n
=
a)
n
Estymator R jest obciążony, gdyż E ( R) ≠ ρ
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Estymacja współczynnika korelacji
(28.2) Uwagi cd.
b) Realizację r estymatora R, zwaną współczynnikiem
korelacji z próbki wyznaczamy ze wzorów
cov( x, y ) xy − x ⋅ y
r=
=
, gdzie xy =
sx ⋅ s y
sx ⋅ s y
lub
r=
∑
n
i =1
1
n
∑
n
i =1
xi ⋅ y i
( xi − x ) ⋅ ( y i − y )
2
2
(
x
−
x
)
⋅
(
y
−
y
)
i
i
∑ i=1
∑ i=1
n
n
dla danych niezgrupowanych
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Estymacja współczynnika korelacji
(28.2) Uwagi cd.
c)
Dla próbek o liczności od około 30 wzwyż, buduje się tzw. tablicę
korelacyjną (dwudzielną, dwudzielczą), która jest dwuwymiarowym
odpowiednikiem szeregu rozdzielczego przedziałowego
y1d − y1g
y2d − y2g
…
ykd − ykg
x1d − x1g
n11
n12
…
n1k
x2d − x2g
n21
n22
…
n2k
…
…
…
…
…
xwd − xwg
nw1
nw2
…
nwk
X
Y
Wówczas oszacowania parametrów występujących we wzorach
oblicza się z próbki za pomocą sum ważonych, np.
xy =
1
n
∑ i=1 ∑ j =1 xi y j nij , gdzie xi , y j to środki odpowiednich klas
w
k
0
0
0
0
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Estymacja współczynnika korelacji
(28.3) Przedział ufności dla współczynnika korelacji
Model 1 (dwuwymiarowy rozkład normalny, parametr nieznany, n ≥ 10)
(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym,
nieznany współczynnik korelacji ρ
Jeśli n ≥ 10 , to statystyka Fishera
Z = 12 ln
1+ R
, | R |< 1
1− R
ma w przybliżeniu rozkład normalny N(m,σ), gdzie
m = EZ ≈ 12 ln
1+ ρ
ρ
1
+
, σ≈
1 − ρ 2(n − 1)
n−3
W praktyce stosujemy zmienną

1+ ρ 
U =  Z − 12 ln
 n−3
1
−
ρ


Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Estymacja współczynnika korelacji
Wtedy dla α∈(0,1) otrzymujemy
1 − α = P ( −u (1 − α2 ) < U < u (1 − α2 ) )



1+ ρ 
α
α
1
= P  −u (1 − 2 ) <  Z − 2 ln
n − 3 < u (1 − 2 ) 

1− ρ 



u (1 − α2 ) 1 1 + ρ
u (1 − α2 ) 

=Z −
< 2 ln
<Z+

1
−
ρ
n
−
3
n
−
3


Dla próbki (xi, yi), i=1,…,n otrzymujemy realizację przedziału ufności
dla wartości oczekiwanej zmiennej Z na poziomie ufności 1−α:
u (1 − α2 )
u (1 − α2 ) 

1+ r
1
z
,
z
,
gdzie
z
ln
−
+
=
2


1− r
n−3
n−3 

Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Estymacja współczynnika korelacji
Oznaczając przez z1 i z2 dolny i górny koniec przedziału, wyznaczamy
granice przedziału (ρ1, ρ2) dla współczynnika korelacji ρ rozwiązując
równania
1 + ρ1
1 + ρ2
1
1
ln
=
z
i
ln
= z2
1
2
2
1 − ρ1
1 − ρ2
Przykład
W pewnym doświadczeniu farmakologicznym bada się wpływ leku na przyrost
ciśnienia tętniczego krwi
Podano 10 różnych dawek xi leku i otrzymano następujące przyrosty ciśnienia krwi
xi
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
yi
15
5
15
35
25
30
55
65
65
55
Na poziomie ufności 0,9 wyznaczyć przedział ufności dla współczynnika
korelacji ρ
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Estymacja współczynnika korelacji
Model 2 (dwuwymiarowy rozkład normalny, parametr nieznany, duża
próba n ≥ 100)
(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym,
nieznany współczynnik korelacji ρ
Jeśli n ≥ 100 , to statystyka
R −ρ
U=
n , | R |< 1
2
1− R
ma w przybliżeniu rozkład normalny N(0,1)
Na poziomie ufności 1−α otrzymujemy realizację przedziału ufności
dla ρ
2
2

α 1− r
α 1− r 
, r + u (1 − 2 )
 r − u (1 − 2 )

n
n 

Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Testy istotności dla współczynnika korelacji
(28.4) Weryfikacja hipotezy o (braku) korelacji między
dwiema cechami
Model 1 (2-wymiarowy rozkład normalny, parametr nieznany, n ≥ 3)
(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym,
nieznany współczynnik korelacji ρ
Jeśli n ≥ 3 , to statystyka
R
t=
n − 2 , | R |< 1
2
1− R
ma rozkład Studenta z n−2 stopniami swobody przy założeniu, że
prawdziwa jest hipoteza zerowa H0: ρ = 0
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Weryfikacja hipotezy dla współczynnika
korelacji – model 1
Tablica 28.1. Tablica testu dla współczynnika korelacji – model 1
Hipoteza
zerowa
alternatywna
Statystyka testowa t
( −∞; −t (1 − α2 , n − 2)〉
H1: ρ ≠ 0
∪〈t (1 − α2 , n − 2); ∞)
R
H0: ρ = 0
H1: ρ < 0
H1: ρ > 0
Obszar krytyczny K
2
n−2 ,
1− R
| R |< 1
( −∞; −t (1 − α, n − 2)〉
〈t (1 − α, n − 2); ∞)
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Weryfikacja hipotezy dla współczynnika
korelacji – model 1
Przykład
Wiedząc, że w poprzednim przykładzie (przyrost
ciśnienia krwi) współczynnik korelacji z próbki
10-elementowej wyniósł r = 0.9 , zweryfikować
hipotezę, że cechy (dawka leku i przyrost
ciśnienia krwi) są istotnie skorelowane (poziom
istotności 0.01)
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Testy istotności dla współczynnika korelacji
Model 2 (2-wymiarowy rozkład normalny, parametr nieznany, n ≥ 100)
(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym,
nieznany współczynnik korelacji ρ
Jeśli n ≥ 100 , to statystyka
R
n , | R |< 1
1− R
ma w przybliżeniu rozkład normalny N(0,1) przy założeniu, że
prawdziwa jest hipoteza zerowa H0: ρ = 0
Ze względu na podobieństwo funkcji gęstości, obszary krytyczne dla
hipotez alternatywnych H1: ρ ≠ 0, H1: ρ < 0, H1: ρ > 0 wyznaczamy
analogicznie do modelu 1 (nie uwzględniamy oczywiści stopni
swobody)
U=
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Testy istotności dla współczynnika korelacji
Model 3 (2-wymiarowy rozkład normalny, parametr nieznany, n ≥ 10)
(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym,
nieznany współczynnik korelacji ρ
Jeśli n ≥ 10 , to statystyka

1 + R 1 1 + ρ0 
U =  12 ln
− 2 ln
n − 3 , | R |< 1

1− R
1 − ρ0 

ma w przybliżeniu rozkład normalny N(0,1) przy założeniu, że
prawdziwa jest hipoteza zerowa H0: ρ = ρ0
Obszary krytyczne dla hipotez alternatywnych H1: ρ ≠ ρ0, H1: ρ < ρ0,
H1: ρ > ρ0 wyznaczamy jak w modelu 2
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Estymacja i testy istotności dla
współczynników regresji
Diagram korelacyjny pozwala intuicyjnie oszacować
klasę funkcji regresji (liniowa, potęgowa,
wykładnicza itp.) na podstawie koncentracji
punktów w bliskim otoczeniu hipotetycznych linii
Funkcja regresji rzadko jest liniowa, ale jest to
zależność najwygodniejsza do oszacowania i jest
dobrym punktem wyjścia do dalszych badań (mimo
świadomości popełnienia pewnych błędów)
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Estymacja i testy istotności dla
współczynników regresji
Z rachunku prawdopodobieństwa wiadomo, że współczynniki liniowej
funkcji regresji (II-go rodzaju) y = αx + β wyznaczamy ze wzorów
cov( X , Y )
D 2Y
α=
= ρ( X , Y )
D2 X
D2 X
, β = EY − αEX
Zgodnymi i nieobciążonymi estymatorami parametrów α i β z próby są
odpowiednio
S
A = R Y , B = Y − αX
SX
Realizacje a i b estymatorów A i B odpowiednio wyznaczamy na
podstawie próbki ze wzorów
s
a=r y =
sx
∑
n
i =1
( xi − x )( y i − y )
∑
n
i =1
( xi − x )
2
, b = y − ax
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Estymacja i testy istotności dla
współczynników regresji
(28.5) Test istotności dla współczynnika regresji liniowej α
Model (dwuwymiarowy rozkład normalny, parametr nieznany, n ≥ 3)
(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym,
nieznane parametry
Jeśli n ≥ 3 , to statystyka
A − α0
n−2
SX
SY
1− R2
ma rozkład Studenta z n−2 stopniami swobody przy założeniu, że
prawdziwa jest hipoteza zerowa H0: α = α0
Obszary krytyczne dla hipotez alternatywnych H1: α ≠ α0 , H1: α <
α0 , H1: α > α0 wyznaczamy tak jak w tablicy 28.1 (model 1 dla
współczynnika korelacji)
t=
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Estymacja i testy istotności dla
współczynników regresji
Przykład
a)
b)
c)
Badamy zależność między dawką nawozu X (w kg) a wielkością przyrostu plonu Y
Dla 7 obserwacji otrzymano wyniki
xi
1
2
3
4
5
6
7
yi
8
13
14
17
18
20
22
Oszacować liniową funkcję regresji pomiędzy dawką nawozu X, a wielkością
przyrostu plonu Y
Podać interpretację współczynnika regresji liniowej
Sprawdzić testem serii liniową zależność między zmiennymi (poziom
istotności 0.01)
Na poziomie istotności 0.01 zweryfikować hipotezę, że współczynnik regresji
w populacji jest dodatni
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 12
Dziękuję za uwagę
Opracowała Joanna Banaś