1. Badanie współzaleŜności dwóch cech ilościowych X i Y – analiza
Transkrypt
1. Badanie współzaleŜności dwóch cech ilościowych X i Y – analiza
Temat 1. Badanie współzaleŜności dwóch cech ilościowych X i Y – analiza korelacji prostej 2. Badanie zaleŜności cech ilościowych – cechy Y od cechy X – analiza regresji prostej liniowej Anna Rajfura 1 Idea opisu współzaleŜności cech Przykład. Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli: plon xi (kg) 20 21 22 23 22 25 30 27 24 26 zawartość skrobi yi (%) 17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4 wyniki z pierwszego poletka wyniki z drugiego poletka Czy te wyniki wskazują na występowanie współzaleŜności między cechami X, Y? Tworzenie wykresu. Anna Rajfura 2 Diagram korelacyjny zawartość skrobi wyniki z pierwszego poletka 17,2 17,1 17 16,9 16,8 16,7 16,6 16,5 16,4 16,3 16,2 18 20 22 24 26 28 30 32 plon Interpretacja bieŜącego diagramu korelacyjnego. Anna Rajfura 3 Korelacja cech ilościowych X, Y – cechy ilościowe obserwowane w doświadczeniu, n – liczba jednostek doświadczalnych, Wyniki doświadczenia: wartości cechy X: x 1 x2 x3 ... xn wartości cechy Y: y 1 y2 y3 ... yn wyniki dla pierwszej jednostki doświadczalnej Anna Rajfura wyniki dla n-tej jednostki doświadczalnej 4 Kierunek korelacji Diagram korelacyjny 1 wartości cechy Y y1 x1 wartości cechy X Cechy X, Y są ujemnie skorelowane Anna Rajfura 5 Kierunek korelacji cd. Diagram korelacyjny 2 wartości cechy Y wartości cechy X Cechy X, Y są dodatnio skorelowane Anna Rajfura 6 Siła korelacji Diagram korelacyjny 3 Y Diagram korelacyjny 4 Y X X Cechy X, Y są silnie skorelowane Cechy X, Y są słabo skorelowane Wyjaśnienie na tablicy. Anna Rajfura 7 Brak korelacji Diagram korelacyjny 5 wartości cechy Y wartości cechy X Cechy X, Y są nieskorelowane Anna Rajfura 8 Prezentacja braku korelacji cd. Diagram korelacyjny 6 wartości cechy Y wartości cechy X Cechy X, Y są nieskorelowane Anna Rajfura 9 Problem Jak wykryć (opisać) współzaleŜność pomiędzy cechami za pomocą parametru liczbowego? Anna Rajfura 10 Przykłady teoretyczne Doświadczenie losowe D - dwukrotny rzut monetą. Czy zmienne losowe w poszczególnych przykładach są niezaleŜne czy zaleŜne? Opis na tablicy. Przykład 1. zmienna zmienna Przykład 2. zmienna zmienna Przykład 3. zmienna zmienna Przykład 4. zmienna X 1: X2: X 3: X4: X 1: X5: liczba orłów w obu rzutach (liczba orłów w obu rzutach )·2 losowa X 1 : zmienna losowa X 6 : liczba orłów w obu rzutach (liczba orłów w obu rzutach) 2 losowa losowa losowa losowa losowa losowa liczba orłów w pierwszym rzucie liczba orłów w drugim rzucie liczba orłów w obu rzutach (liczba orłów w obu rzutach )·(-1) Jak wykryć (opisać) współzaleŜność pomiędzy zmiennymi losowymi, kiedy znane są tylko ich rozkłady? Anna Rajfura 11 Kowariancja WspółzaleŜność między zmiennymi losowymi X i Y opisuje parametr kowariancja ozn.: COV ( X, Y ) Definicja COV ( X, Y ) = E [ ( X – EX ) · ( Y – EY ) ] = = E ( X·Y) – ( EX ) · ( EY ) Obliczanie kowariancji w przykładach 1 – 4. Anna Rajfura 12 Kowariancja - przykłady Doświadczenie losowe D -dwukrotny rzut monetą. Czy zmienne losowe w poszczególnych przykładach są niezaleŜne czy zaleŜne - odp. na podstawie wartości kowariancji: Odp. intuicyjna P 1. zm. zm. P 2. zm. zm. P 3. zm. zm. P 4. zm. zm. Anna Rajfura los. los. los. los. los. los. los. los. X1: X2: X3: X4: X1: X5: X 1: X6: Kowariancja l. orłów zaleŜne COV(X1, X2)=1 (l. orłów)·2 l. orłów w pierwszym rzucie niezaleŜne COV(X3, X4)=0 l. orłów w drugim rzucie l. orłów zaleŜne COV(X1, X5)=-0,5 (l. orłów)·(-1) l. orłów zaleŜne COV(X1, X6)=1 (l. orłów) 2 13 Współczynnik korelacji Kowariancja jest wielkością mianowaną, dlatego jako miarę współzaleŜności liniowej dwóch zmiennych losowych X i Y przyjmuje się bezwymiarowy wskaźnik nazywany współczynnikiem korelacji liniowej Pearsona i oznaczany grecką literą ρ (czyt.: rho): COV ( X , Y ) ρ= DX ⋅ DY Dla dowolnych dwóch zmiennych losowych X oraz Y zachodzi: ρ ∈ − 1, 1 Anna Rajfura 14 Współczynnik korelacji – przykłady Obliczanie współczynnika korelacji w przykładach 1 – 4. Doświadczenie losowe D - dwukrotny rzut monetą Czy zmienne losowe w poszczególnych przykładach są niezaleŜne czy zaleŜne – odp. na podstawie współczynnika korelacji: P 1. X 1 : l. orłów X 2 : (l. orłów)·2 P 2. X 3 : l. orłów w pierwszym rz. X 4 : l. orłów w drugim rz. P 3. X 1 : l. orłów X 5 : (l. orłów)·(-1) P 4. X 1 : l. orłów X 6 : (l. orłów) Anna Rajfura 2 Odp. intuicyjna Kowariancja Współcz. korelacji ρ zaleŜne COV(X1, X2)=1 ρ1 = 1 niezaleŜne COV(X3, X4)=0 ρ2 = 0 zaleŜne COV(X1, X5)=-0,5 ρ3 = -1 zaleŜne COV(X1, X6)=1 ρ4 ≈ 0,94 15 Uwagi i terminologia 1. Jeśli zmienne losowe są zaleŜne liniowo, to nazywamy je skorelowanymi. 2. Do wykrywania korelacji (zaleŜności liniowej) słuŜy współczynnik korelacji ρ: • jeśli ρ = 0, to zmienne są nieskorelowane (ale mogą być zaleŜne nieliniowo!), • jeśli | ρ | = 1, to zmienne losowe są całkowicie skorelowane (zaleŜne liniowo), o jeśli ρ = 1, to są skorelowane dodatnio, o jeśli ρ = - 1, to są skorelowane ujemnie. 3. Współczynnik korelacji ρ słuŜy do opisywania siły korelacji: • jeśli ρ ≈ 0, to zmienne są słabo skorelowane, • jeśli | ρ | ≈ 1, to zmienne są silnie skorelowane. Diagram na tablicy. Anna Rajfura 16 Idea Jak wykryć (opisać) współzaleŜność pomiędzy cechami? Anna Rajfura 17 Opis współzaleŜności • Rozpatrujemy cechy X oraz Y; przyjmujemy, Ŝe dla zmiennych losowych X, Y zachodzi ρ = COV ( X , Y ) , wartość DX ⋅ DY parametru ρ jest nieznana; • Losujemy próbę dwucechową: ( x1, y1), ( x2, y2 ) , ... , ( xn, yn); • Oceniamy nieznany współczynnik korelacji ρ na podstawie próby: ρ̂ = r (współczynnik r jest oceną parametru teoretycznego ρ) Anna Rajfura 18 Opis współzaleŜności cd. Obliczamy współczynnik korelacji r dla próby według wzoru: n n r= ∑ (x − x ) ⋅ ( y − y ) i i =1 n i ∑ (x − x ) i =1 2 i ⋅ n ∑ (y − y) = 2 i i =1 ∑x ⋅y i =1 n i ∑ (x − x ) i =1 2 i i − n⋅ x ⋅ y ⋅ n ∑ (y − y) i =1 2 i RównowaŜny zapis licznika: n ∑ (x − x ) ⋅ ( y i =1 Anna Rajfura i i n − y ) = ∑ xi ⋅ yi − n ⋅ x ⋅ y i =1 19 Opis współzaleŜności cd. Oznaczenia upraszczające zapis wzoru: n SS x = ∑ (xi − x ) n 2 i =1 , SS y = ∑ ( yi − y ) i =1 2 , n S xy = ∑ (xi − x ) ⋅ ( yi − y ) i =1 Określenia: SSx – suma kwadratów odchyleń dla cechy X, SSy – suma kwadratów odchyleń dla cechy Y, Sxy – suma iloczynów odchyleń dla cech X, Y. Anna Rajfura 20 Opis współzaleŜności cd. Uproszczony zapis wzoru na współczynnik korelacji liniowej Pearsona dla próby: n r= ∑x ⋅ y i =1 n ∑ (x i =1 Anna Rajfura i i i −n⋅x ⋅ y − x) ⋅ 2 n ∑(y i =1 − y) 2 i = S xy SS x ⋅ SS y 21 Testowanie współzaleŜności Czy korelacja między cechami X, Y jest znacząca (istotna)? Jeśli cechy X oraz Y mają rozkład normalny, moŜna weryfikować hipotezę dotyczącą korelacji: Hipoteza o braku korelacji H0 : ρ = 0 Anna Rajfura Hipoteza alternatywna: H1 : ρ ≠ 0 22 Testowanie współzaleŜności cd. • wybieramy poziom istotności α, • losujemy próbę dwucechową: ( x1, y1), ( x2, y2 ) , ..., ( xn, yn), • obliczamy współczynnik korelacji r dla próby według wzoru: r= Anna Rajfura S xy SS x ⋅ SS y 23 Test r • stosujemy test r: wartość empiryczna funkcji testowej remp = r, • odczytujemy wartość krytyczną r α , v = n -2 , • jeŜeli | remp | > r α , v = n – 2, to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna odrzucić. Anna Rajfura 24 Test t MoŜna zastosować teŜ test t-Studenta: • wartość empiryczna funkcji testowej wyraŜona jest wzorem temp = r 1− r2 ⋅ n−2 , • odczytujemy wartość krytyczną t α , v = n -2 , • jeŜeli | temp | > t α , v = n – 2, to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna odrzucić. Anna Rajfura 25 Przykład Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli: plon xi 20 21 22 23 22 25 30 27 24 26 zawartość skrobi yi 17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4 Diagram korelacyjny zawartość skrobi (%) 17,2 17,1 17 16,9 16,8 16,7 16,6 16,5 16,4 16,3 16,2 18 20 22 24 26 28 30 32 plon Anna Rajfura 26 Przykład cd. Przyjmujemy, Ŝe: 1. cecha X - plon z poletka, cecha Y – zawartość skrobi mają rozkłady normalne, oraz 2. ρ jest współczynnikiem korelacji między zmiennymi losowymi X, Y; jego wartość jest nieznana. • Obliczamy współczynnik korelacji r między cechami X, Y na podstawie próby ze wzoru: r= Anna Rajfura S xy SS x ⋅ SS y , 27 Przykład cd. x = 24 kg , y = 16,7% , SS x = 84 , SS y = 0,68 , S xy = −6,8 r = - 0,90, Czy korelacja między cechami X, Y jest znacząca (istotna)? Anna Rajfura 28 Przykład cd. • stawiamy hipotezę o braku korelacji: H0 : ρ = 0 , H1 : ρ ≠ 0 , • wybieramy poziom istotności α = 0,05, • stosujemy test r; wzór funkcji testowej: remp = r gdzie: r - współczynnik korelacji między cechami X, Y obliczony na podstawie próby; w przykładzie r = - 0,9, zatem remp = - 0,9, • odczytujemy wartość krytyczną r α , v = n -2 = r 0,05 , 8 = 0,632, • poniewaŜ | remp | = | - 0,90 | > r 0,05, 8 = 0,632, więc hipotezę H0 odrzucamy. Stwierdzamy statystycznie istotną korelację między plonem bulw ziemniaczanych a zawartością skrobi. Anna Rajfura 29 Przykład cd. Zastosowanie testu t-Studenta: • temp = r 1− r 2 ⋅ n−2 = − 0,9 1 − (− 0,9) 2 ⋅ 10 − 2 = −5,84 , • odczytujemy wartość krytyczną t α , v = n -2 = t 0,05 , 8 =2,31, • poniewaŜ | temp | = 5,84 > 2,31 = t 0,05 , 8, to H0 odrzucamy. Anna Rajfura 30 Badanie zaleŜności cechy Y od X Przykład. Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli: plon xi 20 21 22 23 22 25 30 27 24 26 zawartość skrobi yi 17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4 Diagram korelacyjny Analiza korelacji przeprowadzona przy poziomie istotności 0,05 wykazała istotną korelację między plonem bulw a zawartością skrobi. Wyznaczono współczynnik korelacji Pearsona r = -0,90. Plon bulw i zawartość skrobi są ujemnie skorelowane. zawartość skrobi (%) 17,2 17,1 17 16,9 16,8 16,7 16,6 16,5 16,4 16,3 16,2 18 20 22 24 26 28 30 32 plon O tej zaleŜności moŜna powiedzieć więcej (wzór zaleŜności, idea opisu)... Anna Rajfura 31 Oznaczenia i terminologia Opis zaleŜności cechy Y od cechy X (regresji cechy Y względem cechy X) cecha X : objaśniająca, opisująca, niezaleŜna cecha Y : objaśniana, opisywana, zaleŜna Postać funkcji regresji II rodzaju: g (x) = β1 · x + β0 lub g (x) = β · x + α β1 – współczynnik regresji, β0 – stała regresji Statgraphics: Linear model: Y = a + b · X b – współczynnik regresji (ang. slope), a – stała regresji (ang. intercept) Anna Rajfura 32 Opis zaleŜności cechy Y od X X, Y – cechy obserwowane w doświadczeniu, Y~N n – liczba jednostek doświadczalnych, Próba: wartości cechy X: wartości cechy Y: x1 y1 x2 y2 x3 y3 ... ... xn yn Diagram korelacyjny: cecha Y βˆ1 = b1 , βˆ 0 = b0 prosta regresji równanie prostej regresji: y = b1x + b 0, b1 - współczynnik regresji, cecha X Anna Rajfura b0 - stała regresji. 33 Prosta regresji Estymacja parametrów β1 i β0 metodą najmniejszych kwadratów (MNK): Komentarz... równanie prostej regresji: cecha Y y = b1x + b 0, b1 =? y(xi) y( xi ) = b1xi + b0, ei yi ei = y( xi ) – yi n xi Anna Rajfura b 0 =? cecha X ∑ e i → min 2 i =1 34 Prosta regresji cd. Estymatory uzyskane metodą najmniejszych kwadratów: n b1 = ∑ (x i =1 i n − x ) ⋅ ( yi − y ) 2 ( ) x − x ∑ i b0 = y − b1 ⋅ x i =1 Anna Rajfura 35 Prosta regresji cd. Oznaczenia upraszczające zapis wzoru: n n 2 ( ) SS x = ∑ xi − x i =1 , SS y = ∑ ( yi − y ) i =1 2 , n S xy = ∑ (xi − x ) ⋅ ( yi − y ) i =1 Określenia: SSx – suma kwadratów odchyleń dla cechy X, SSy – suma kwadratów odchyleń dla cechy Y, Sxy – suma iloczynów odchyleń dla cech X, Y. Estymatory uzyskane metodą najmniejszych kwadratów: b1 = S xy SS x , b0 = y − b1 ⋅ x Interpretacja współczynnika regresji b1... Anna Rajfura 36 Test t Czy badana zaleŜność jest znacząca (istotna)? • Stawiamy hipotezę: H0: β = 0 , (hipoteza o braku regresji) • poziom istotności α, • test t Studenta: t emp b1 = sb , gdzie sb = H1: β ≠ 0 SS y − b1 ⋅ S xy (n − 2) ⋅ SS x t kryt = t α , v=n −2 WNIOSKOWANIE Jeśli | temp | > t odrzucić. Anna Rajfura kryt to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna 37 Test F test F: Femp = b1 ⋅ S xy ⋅ (n − 2) SS y − b1S xy Fkryt = Fα , v1 =1,v 2 =n −2 WNIOSKOWANIE Jeśli Femp > F kryt to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna odrzucić. Anna Rajfura 38 Przykład W przykładzie: n=10, x = 24 kg , y = 16,7% , SSx = 84, SSy = 0,68, Sxy = -6,8. Wyznaczamy równanie prostej regresji: − 6 ,8 b1 = = = −0 ,081 , SS x 84 S xy b0 = y − b1 ⋅ x = 16 ,7 − ( −0 ,081) ⋅ 24 = 18,64 prosta regresji: y = 18,64 – 0,081x Anna Rajfura 39 Przykład cd. Badamy istotność regresji (zaleŜności) H0: β = 0 (hipoteza o braku regresji), H1: β ≠ 0, poziom istotności α = 0,05 test t: sb = t emp = SS y − b1 ⋅ S xy 0,68 − (−0,081) ⋅ (−6,8) 0,1292 = = = 0,014 , (n − 2) ⋅ SS x (10 − 2) ⋅ 84 672 b1 − 0 ,081 = = −5,79 , sb 0 ,014 t kryt = t 0, 05, 8 = 2,31 WNIOSKOWANIE |temp| = 5,79 > 2,31 = t kryt , zatem H0 odrzucamy. Stwierdzamy statystycznie istotną zaleŜność zawartości skrobi od plonu bulw ziemniaka. Anna Rajfura 40 Przykład cd. test F: Femp = b1 ⋅ S xy ⋅ (n − 2) SS y − b1S xy (−0,081) ⋅ (−6,8) ⋅ (10 - 2) 4,4064 = = = 34,11 0,68 − (−0,081) ⋅ (−6,8) 0 ,1292 Femp = 34,11 Fkryt = F0, 05, 1, 8 = 5,32 WNIOSKOWANIE Jeśli Femp = 34,11 > 5,32 = F kryt , zatem H0 odrzucamy. Anna Rajfura 41 Analiza zaleŜności cechy Y od X cd. Independent variable: plon ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------Intercept 18,6429 0,335618 55,5478 0,0000 Slope -0,0809524 0,0138832 -5,83095 0,0004 ----------------------------------------------------------------------------- Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 0,550476 1 0,550476 34,00 0,0004 Residual 0,129524 8 0,0161905 ----------------------------------------------------------------------------Total (Corr.) 0,68 9 Correlation Coefficient = -0,899735 R-squared = 80,9524 percent Standard Error of Est. = 0,127242 The StatAdvisor --------------The output shows the results of fitting a linear model to describe the relationship between skrobia and plon. The equation of the fitted model is skrobia = 18,6429 - 0,0809524*plon Anna Rajfura 42 Analiza zaleŜności cechy Y od X cd. Plot of Fitted Model 17,1 skrobia 16,9 16,7 16,5 16,3 20 22 24 26 28 30 plon Anna Rajfura 43 Interpretacja Interpretacja współczynnika regresji b1 prosta regresji y = b 0 + b1x Jeśli wartość cechy X wzrośnie o jednostkę (w jednostkach cechy X), to wartość cechy Y zmieni się o | b1 | jednostek (w jednostkach cechy Y), a dokładniej.: • wzrośnie, gdy b1 > 0; • zmaleje, gdy b1 < 0. Interpretacja współczynnika regresji b1 w przykładzie: prosta regresji y = 18,64 – 0,081x, b1 = -0, 08. Jeśli plon z bulw ziemniaka wzrośnie o 1 kg, to zawartość skrobi zmniejszy się o 0,08%. Anna Rajfura 44 Interpretacja cd. Współczynnik determinacji d 2 d = r · 100%, r – współczynnik korelacji Interpretacja współczynnika determinacji współczynnik d przedstawia część zmienności cechy Y objaśnionej (wytłumaczonej) zmiennością cechy X. Obliczanie i interpretacja współczynnika determinacji d w przykładzie: r = - 0,9, to d = 0,81· 100% = 81% W 81% zmienność zawartości skrobi jest wytłumaczona zmiennością plonu, natomiast 19% zmienności zawartości skrobi nie jest wytłumaczona zmiennością plonu. Anna Rajfura 45 Analiza zaleŜności cechy Y od X cd. Współczynnik determinacji d: Independent variable: plon ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------Intercept 18,6429 0,335618 55,5478 0,0000 Slope -0,0809524 0,0138832 -5,83095 0,0004 ----------------------------------------------------------------------------- Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 0,550476 1 0,550476 34,00 0,0004 Residual 0,129524 8 0,0161905 ----------------------------------------------------------------------------Total (Corr.) 0,68 9 Correlation Coefficient = -0,899735 R-squared = 80,9524 percent Standard Error of Est. = 0,127242 The StatAdvisor --------------The output shows the results of fitting a linear model to describe the relationship between skrobia and plon. The equation of the fitted model is skrobia = 18,6429 - 0,0809524*plon Praktyczne warunki ustalania cechy zaleŜnej i niezaleŜnej. Wykorzystanie prostej regresji. Anna Rajfura 46