( X, Y ).
Transkrypt
( X, Y ).
Statystyka matematyczna dla kierunku Rolnictwo w SGGW Anna Rajfura KDiB BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ. 1 Statystyka matematyczna dla kierunku Rolnictwo w SGGW Anna Rajfura KDiB IDEA OPISU WSPÓŁZALEśNOŚCI CECH X, Y – cechy obserwowane w doświadczeniu, n – liczba jednostek doświadczalnych, Wyniki doświadczenia: wartości cechy X: x1 x2 x3 ... wartości cechy Y: y1 y2 y3 ... obserwacje dla pierwszej jednostki doświadczalnej obserwacje dla drugiej jednostki doświadczalnej Diagram korelacyjny wartości cechy Y y1 x1 wartości cechy X Kierunek korelacji: cechy X, Y są ujemnie skorelowane 2 Statystyka matematyczna dla kierunku Rolnictwo w SGGW Anna Rajfura KDiB wartości cechy Y wartości cechy X Kierunek korelacji: cechy X, Y są dodatnio skorelowane wartości cechy Y wartości cechy X Cechy X, Y są nieskorelowane 3 Statystyka matematyczna dla kierunku Rolnictwo w SGGW Anna Rajfura KDiB wartości cechy Y wartości cechy X Cechy X, Y są nieskorelowane Y Y X X Siła korelacji: X, Y - silnie skorelowane X, Y - słabo skorelowane 4 Statystyka matematyczna dla kierunku Rolnictwo w SGGW Anna Rajfura KDiB PRZYKŁADY TEORETYCZNE D - doświadczenie losowe: dwukrotny rzut monetą, Zmienne losowe w poszczególnych przykładach są niezaleŜne czy zaleŜne? Przykład 1. X 1 – zmienna losowa: liczba otrzymanych orłów, X 2 – zmienna losowa: (liczba otrzymanych orłów)·2. Przykład 2. X 3 – zmienna losowa: liczba orłów w pierwszym rzucie, X 4 – zmienna losowa: liczba orłów w drugim rzucie. Przykład 3. X 5 – zmienna losowa: liczba otrzymanych orłów, X 6 – zmienna losowa: (liczba otrzymanych orłów) 2 . Jak wykrywać współzaleŜność pomiędzy zmiennymi? 5 Statystyka matematyczna dla kierunku Rolnictwo w SGGW Anna Rajfura KDiB WspółzaleŜność między zmiennymi losowymi X i Y opisuje kowariancja, ozn.: COV ( X, Y ). Definicja: COV ( X, Y ) = E ( X·Y) – ( EX ) · ( EY ) Obliczanie kowariancji w przykładach 1-3. Kowariancja jest wielkością mianowaną, dlatego jako miary współzaleŜności liniowej dwóch zmiennych losowych X i Y uŜywa się bezwymiarowego wskaźnika nazywanego współczynnikiem korelacji liniowej Pearsona i oznaczonego grecką literą ρ (czyt.: rho): ρ= COV ( X , Y ) (DX ) ⋅ (DY ) Twierdzenie Dla dowolnych dwóch zmiennych losowych X oraz Y zachodzi: ρ ∈ − 1, 1 6 Statystyka matematyczna dla kierunku Rolnictwo w SGGW Anna Rajfura KDiB Uwaga terminologiczna Jeśli zmienne losowe są zaleŜne liniowo, to nazywamy je skorelowanymi. Współczynnik korelacji ρ słuŜy do wykrywania korelacji, czyli zaleŜności liniowej: • jeśli ρ = 0, to zmienne są nieskorelowane (ale mogą być zaleŜne nieliniowo!), • jeśli | ρ | = 1, to zmienne losowe są całkowicie skorelowane (zaleŜne liniowo), o jeśli ρ = 1, to są skorelowane dodatnio, o jeśli ρ = - 1, to są skorelowane ujemnie. UŜywamy określeń: ≈ 0, • zmienne są silnie skorelowane - gdy | ρ | ≈ 1. • zmienne są słabo skorelowane – gdy ρ 7 Statystyka matematyczna dla kierunku Rolnictwo w SGGW Anna Rajfura KDiB Czy korelacja jest znacząca (istotna)? Jeśli cechy X oraz Y mają rozkład normalny, to moŜna weryfikować hipotezę dotyczącą korelacji: Hipoteza o braku korelacji Hipoteza alternatywna: H1 : ρ ≠ 0 H0 : ρ = 0 • wybieramy poziom istotności α, • losujemy próbę dwucechową: ( x1, y1), ( x2, y2 ) , ... ( xn, yn), • obliczamy współczynnik korelacji r dla próby według wzoru: n r= ∑ (x i =1 n i − x ) ⋅ ( yi − y ) ∑ ( xi − x ) 2 ⋅ i =1 n 2 ( ) y − y ∑ i i =1 Współczynnik r jest oceną parametru teoretycznego ρ: ρ̂ = r • odczytujemy wartość krytyczną r α , v = n-2 8 Statystyka matematyczna dla kierunku Rolnictwo w SGGW • jeŜeli | Anna Rajfura KDiB r | > r α , v = n-2, to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna odrzucić. Przykład Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli: plon xi zawartość skrobi yi 20 21 22 23 22 25 30 27 24 26 17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4 Diagram korelacyjny zawartość skrobi (% ) 17,2 17,1 17 16,9 16,8 16,7 16,6 16,5 16,4 16,3 16,2 18 20 22 24 26 28 30 32 plon 9 Statystyka matematyczna dla kierunku Rolnictwo w SGGW H0 : ρ = 0 , Anna Rajfura KDiB H1 : ρ ≠ 0 α = 0,05 x = 24 kg , y = 16,7% , r = - 0,90, wartość krytyczna r 0,05 , 8 = 0,632, PoniewaŜ | r | = | - 0,90 | > r 0,05 , 8 = 0,632, więc hipotezę H0 odrzucamy. Stwierdzamy statystycznie istotną korelację między plonem bulw ziemniaczanych a zawartością skrobi. 10