wykład 12 korelacje
Transkrypt
wykład 12 korelacje
Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB WYKŁAD 12 BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH - ANALIZA KORELACJI PROSTEJ Matematyka i statystyka matematyczna dla rolników w SGGW Przykład. Z dziesięciu Anna Rajfura, KDiB poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli: plon xi (kg) 20 21 22 23 22 25 30 27 24 26 zawartość skrobi yi (%) 17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4 wyniki z pierwszego poletka wyniki z drugiego poletka Czy te wyniki wskazują na występowanie zaleŜności między cechami X, Y? Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Diagram korelacyjny zawartość skrobi wyniki z pierwszego poletka 17,2 17,1 17 16,9 16,8 16,7 16,6 16,5 16,4 16,3 16,2 18 20 22 24 26 28 30 32 plon Interpretacja diagramu korelacyjnego... Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Idea opisu współzaleŜności (korelacji) cech X, Y – cechy obserwowane w doświadczeniu, n – liczba jednostek doświadczalnych, Wyniki doświadczenia: wartości cechy X: x1 x2 x3 ... xn wartości cechy Y: y1 y2 y3 ... yn wyniki dla pierwszej jednostki doświadczalnej wyniki dla drugiej jednostki doświadczalnej Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Rozpoznawanie kierunku korelacji Diagram korelacyjny 1 wartości cechy Y y1 x1 wartości cechy X Cechy X, Y są ujemnie skorelowane Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Rozpoznawanie kierunku korelacji Diagram korelacyjny 2 wartości cechy Y wartości cechy X Cechy X, Y są dodatnio skorelowane Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Rozpoznawanie siły korelacji Diagram korelacyjny 3 Diagram korelacyjny 4 Y Y X Cechy X, Y są silnie skorelowane Wyjaśnienie na tablicy... X Cechy X, Y są słabo skorelowane Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Rozpoznawanie braku korelacji Diagram korelacyjny 5 wartości cechy Y wartości cechy X Cechy X, Y są nieskorelowane Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Rozpoznawanie braku korelacji Diagram korelacyjny 6 wartości cechy Y wartości cechy X Cechy X, Y są nieskorelowane Jak wykryć (opisać) współzaleŜność pomiędzy cechami za pomocą parametru liczbowego? Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Przykłady teoretyczne D - doświadczenie losowe: dwukrotny rzut monetą Czy zmienne losowe w poszczególnych przykładach są niezaleŜne czy zaleŜne? Przykład 1. zmienna losowa X 1 : liczba orłów zmienna losowa X 2 : (liczba orłów)·2 Przykład 2. zmienna losowa X 3 : liczba orłów w pierwszym rzucie zmienna losowa X 4 : liczba orłów w drugim rzucie Przykład 3. zmienna losowa X 1 : liczba orłów zmienna losowa X 5 : (liczba orłów)·(-1) Przykład 4. zmienna losowa X 1 : liczba orłów zmienna losowa X 6 : (liczba orłów) 2 Jak wykryć (opisać) współzaleŜność pomiędzy zmiennymi losowymi? Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB WspółzaleŜność między zmiennymi losowymi X i Y opisuje parametr kowariancja, ozn.: COV ( X, Y ). Definicja. COV ( X, Y ) = E [ ( X – EX ) · ( Y – EY ) ] = E ( X·Y) – ( EX ) · ( EY ) Obliczanie kowariancji w przykładach 1 – 4 ... Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Przykłady teoretyczne cd. D - doświadczenie losowe: dwukrotny rzut monetą Czy zmienne losowe w poszczególnych przykładach są niezaleŜne czy zaleŜne? Odp. intuicyjna P 1. zm. zm. P 2. zm. zm. P 3. zm. zm. P 4. zm. zm. los. los. los. los. los. los. los. los. X1: X2: X3: X4: X1: X5: X 1: X6: Kowariancja l. orłów zaleŜne COV(X1, X2)=1 (l. orłów)·2 l. orłów w pierwszym rzucie niezaleŜne COV(X3, X4)=0 l. orłów w drugim rzucie l. orłów zaleŜne COV(X1, X5)=-0,5 (l. orłów)·(-1) l. orłów zaleŜne COV(X1, X6)=1 (l. orłów) 2 Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Kowariancja jest wielkością mianowaną, dlatego jako miarę współzaleŜności liniowej dwóch zmiennych losowych X i Y przyjmuje się bezwymiarowy wskaźnik nazywany współczynnikiem korelacji liniowej Pearsona i oznaczany grecką literą ρ (czyt.: rho): ρ= COV ( X , Y ) DX ⋅ DY Twierdzenie. Dla dowolnych dwóch zmiennych losowych X oraz Y zachodzi: ρ ∈ − 1, 1 Obliczanie współczynnika korelacji w przykładach 1 – 4 ... Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Przykłady teoretyczne cd. D - doświadczenie losowe: dwukrotny rzut monetą Czy zmienne losowe w poszczególnych przykładach są niezaleŜne czy zaleŜne? Odp. Współcz. Kowariancja intuicyjna korelacji ρ P 1. X 1 : l. orłów zaleŜne COV(X1, X2)=1 ρ1 = 1 X 2 : (l. orłów)·2 P 2. X 3 : l. orłów w pierwszym rz. X 4 : l. orłów w drugim rz. P 3. X 1 : l. orłów X 5 : (l. orłów)·(-1) P 4. X 1 : l. orłów X 6 : (l. orłów) 2 niezaleŜne COV(X3, X4)=0 ρ2 = 0 zaleŜne COV(X1, X5)=-0,5 ρ3 = -1 zaleŜne COV(X1, X6)=1 ρ4 ≈ 0,94 Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Uwagi i terminologia: 1. Jeśli zmienne losowe są zaleŜne liniowo, to nazywamy je skorelowanymi. 2. Do wykrywania korelacji (zaleŜności liniowej) słuŜy współczynnik korelacji ρ: • jeśli ρ = 0, to zmienne są nieskorelowane (ale mogą być zaleŜne nieliniowo!), • jeśli | ρ | = 1, to zmienne losowe są całkowicie skorelowane (zaleŜne liniowo), o jeśli ρ = 1, to są skorelowane dodatnio, o jeśli ρ = - 1, to są skorelowane ujemnie. 3. Współczynnik korelacji ρ słuŜy do opisywania siły korelacji: ≈ 0, to zmienne są słabo skorelowane, • jeśli | ρ | ≈ 1, to zmienne są silnie skorelowane. • jeśli ρ Tu diagram... Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Jak wykryć (opisać) współzaleŜność pomiędzy cechami? • Rozpatrujemy cechy X oraz Y; przyjmujemy, Ŝe dla zmiennych losowych X, Y COV ( X , Y ) zachodzi ρ = DX ⋅ DY , wartość parametru ρ jest nieznana. • Losujemy próbę dwucechową: ( x1, y1), ( x2, y2 ) , ... , ( xn, yn), • Oceniamy nieznany współczynnik korelacji ρ na podstawie próby: ρ̂ = r (współczynnik r jest oceną parametru teoretycznego ρ) Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB • Obliczamy współczynnik korelacji r dla próby według wzoru: n r= n ∑ (x − x ) ⋅ ( y − y ) i =1 i i n ∑ (x − x ) i =1 2 i n = ∑ (y − y) ⋅ 2 i i =1 ∑x ⋅y i =1 n ∑ (x − x ) i =1 2 i RównowaŜny zapis licznika: n ∑ (x − x ) ⋅ ( y i =1 i n i − y ) = ∑ xi ⋅ yi − n ⋅ x ⋅ y i =1 i i − n⋅ x ⋅ y ⋅ n ∑ (y − y) i =1 2 i Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Oznaczenia upraszczające zapis wzoru: n SS x = ∑ (xi − x ) n 2 i =1 , SS y = ∑ ( yi − y ) i =1 2 , n S xy = ∑ (xi − x ) ⋅ ( yi − y ) i =1 Określenia: SSx – suma kwadratów odchyleń dla cechy X, SSy – suma kwadratów odchyleń dla cechy Y, Sxy – suma iloczynów odchyleń dla cech X, Y. Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Uproszczony zapis wzoru na współczynnik korelacji liniowej Pearsona dla próby: n r= ∑x ⋅ y i =1 n ∑ (x i =1 i i i −n⋅x ⋅ y − x) ⋅ 2 n ∑(y i =1 − y) 2 i = S xy SS x ⋅ SS y Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Czy korelacja między cechami X, Y jest znacząca (istotna)? Jeśli ponadto cechy X oraz Y mają rozkład normalny, moŜna weryfikować hipotezę dotyczącą korelacji: Hipoteza o braku korelacji Hipoteza alternatywna: H0 : ρ = 0 H1 : ρ ≠ 0 • wybieramy poziom istotności α, • losujemy próbę dwucechową: ( x1, y1), ( x2, y2 ) , ..., ( xn, yn), • obliczamy współczynnik korelacji r dla próby według wzoru: r= S xy SS x ⋅ SS y Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB • stosujemy test r: wartość empiryczna funkcji testowej remp = r, • odczytujemy wartość krytyczną r α , v = n -2 , • jeŜeli | remp | > r α , v = n – 2, to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna odrzucić. MoŜna zastosować teŜ test t-Studenta: • wartość empiryczna funkcji testowej wyraŜona jest wzorem temp = r 1− r2 ⋅ n−2 , • odczytujemy wartość krytyczną t α , v = n -2 , • jeŜeli | temp | > t α , v = n – 2, to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna odrzucić. Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Przykład. Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli: plon xi 20 21 22 23 22 25 30 27 24 26 zawartość skrobi yi 17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4 Diagram korelacyjny zawartość skrobi (%) 17,2 17,1 17 16,9 16,8 16,7 16,6 16,5 16,4 16,3 16,2 18 20 22 24 26 28 30 32 plon Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Przyjmujemy, Ŝe: 1. cecha X - plon z poletka, cecha Y – zawartość skrobi mają rozkłady normalne, oraz 2. ρ jest współczynnikiem korelacji między zmiennymi losowymi X, Y; jego wartość jest nieznana. • Obliczamy współczynnik korelacji r między cechami X, Y na podstawie próby ze wzoru: r= S xy SS x ⋅ SS y , Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB x = 24 kg , y = 16,7% , SS x = 84 , SS y = 0,68 , S xy = −6,8 r = - 0,90, Czy korelacja między cechami X, Y jest znacząca (istotna)? • stawiamy hipotezę o braku korelacji: H0 : ρ = 0 , H1 : ρ ≠ 0 , • wybieramy poziom istotności α = 0,05, • stosujemy test r; wzór funkcji testowej: remp = r Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB gdzie: r - współczynnik korelacji między cechami X, Y obliczony na podstawie próby; w przykładzie r = - 0,9, zatem remp = - 0,9, • odczytujemy wartość krytyczną r α , v = n -2 = r 0,05 , 8 = 0,632, • poniewaŜ | remp | = | - 0,90 | > r 0,05, 8 = 0,632, więc hipotezę H0 odrzucamy. Stwierdzamy statystycznie istotną korelację między plonem bulw ziemniaczanych a zawartością skrobi. Zastosowanie testu t-Studenta: • temp = r 1− r 2 ⋅ n−2 = − 0,9 1 − (− 0,9) 2 ⋅ 10 − 2 = −5,84 , Matematyka i statystyka matematyczna dla rolników w SGGW • odczytujemy wartość krytyczną t α , v = n -2 = t 0,05 , 8 =2,31, • poniewaŜ | temp | = 5,84 > 2,31 = t 0,05 , 8, to H0 odrzucamy. Anna Rajfura, KDiB