Analiza ZALEśNOŚCI pomiędzy CECHAMI
Transkrypt
Analiza ZALEśNOŚCI pomiędzy CECHAMI
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10 [1] Analiza ZALEśNOŚCI pomiędzy CECHAMI (Analiza KORELACJI i REGRESJI) • korelacyjny wykres rozrzutu (korelogram) • rodzaje zaleŜności (brak, nieliniowa, liniowa) • pomiar siły zaleŜności liniowej (współczynnik korelacji Pearsona, współczynnik korelacji rang Spearmana) • liniowa funkcja regresji Badamy jednostki statystyczne pod kątem dwóch róŜnych cech - cechy X oraz cechy Y. Pytanie jakie sobie stawiamy to: czy istnieje zaleŜność pomiędzy cechą X i cechą Y ? JeŜeli taka zaleŜność istnieje, to poszukujemy odpowiedzi na kolejne pytania: • jaki jest charakter tej zaleŜności oraz • jaka jest jej siła ? ZaleŜność korelacyjna pomiędzy cechami X i Y charakteryzuje się tym, Ŝe wartościom jednej cechy są przyporządkowane ściśle określone wartości średnie drugiej cechy. Informacja statystyczna niezbędna do zbadania zaleŜności pomiędzy cechami X i Y przyjmuje najczęściej 2 formy: • szereg(i) szczegółowy par informacji o cechach X oraz Y; ma on postać ciągu par { (xi , yi) } , • szereg rozdzielczy w postaci tzw. tablicy korelacyjnej. D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10 [2] Korelacyjny wykres rozrzutu KORELOGRAM JeŜeli obie cechy X i Y są mierzalne, to analizę zaleŜności rozpoczynamy od sporządzenia korelogrmamu. Korelogram jest to wykres punktowy par { (xi , yi) }. (Excel nazywa taki wykres: „wykresem XY”). W kartezjańskim układzie współrzędnych x0y pary te odpowiadają punktom o współrzędnych (x1, y1 ), (x2 , y2 ),L, (xn , yn ) PRZYKŁADY korelogramów (kaŜdy punkt oznaczono x) (a) (b) (c) (d) D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10 [3] JeŜeli otrzymamy bezładny zbiór punktów, który nie przypomina kształtem wykresu znanego związku funkcyjnego, to powiemy Ŝe pomiędzy cechami X i Y nie ma zaleŜności. Ilustruje to rysunek (a). Na rysunku (b) widać, Ŝe smuga punktów układa się w kształt paraboli. Powiemy zatem, Ŝe istnieje zaleŜność pomiędzy cechami X i Y i jest to związek nieliniowy; zaleŜność nieliniowa. Na rysunkach (c) i (d) smuga punktów układa się wzdłuŜ linii prostej. Powiemy zatem, Ŝe istnieje zaleŜność pomiędzy cechami X i Y i jest to związek liniowy; zaleŜność liniowa. Rysunki (e) i (f) ilustrują przypadki błędów we wnioskowaniu o zaleŜności cech X i Y na podstawie korelogramu. Rysunek (e) – za mało danych. Zebrano dane (punkty obwiedzione kwadratem) i z korelogramu wynika brak zaleŜności. W rzeczywistości jest zaleŜność liniowa. Rysunek (f) – nietypowe dane. Trzy ostatnie punkty (odseparowane) to dane nietypowe. Sugerują zaleŜność nieliniową (parabola). Po odrzuceniu tych nietypowych informacji widać, Ŝe jest wyraźna zaleŜność liniowa. (e) (f) D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10 Pomiar KIERUNKU i SIŁY zaleŜności liniowej Szeregi szczegółowe WSPÓŁCZYNNIK KORELACJI (Pearsona) Współczynnik korelacji (Pearsona) rxy obliczamy dla cech ilościowych wg następującego wzoru: C ( X ,Y ) rxy = sx s y gdzie: C(X,Y) – kowariancja pomiędzy cechami X i Y sx (sy) – odchylenie standardowe cechy X (cechy Y) Kowariancja jest kluczowym parametrem rozkładu dwóch cech w badaniu zaleŜności cech ilościowych X i Y. Wylicza się ją wg następującego wzoru (dla szeregu(ów) szczegółowego): 1 n C ( X , Y ) = ∑ ( xi − x )( yi − y ) n i=1 Współczynnik korelacji (Pearsona) rxy spełnia zawsze warunek: − 1 ≤ rxy ≤ 1 Współczynnik korelacji (Pearsona) jest miarą symetryczną, tzn. rxy = ryx [4] D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10 [5] INTERPRETACJA współczynnika korelacji rxy Znak współczynnika rxy mówi nam o kierunku zaleŜności. I tak: • znak plus – zaleŜność liniowa dodatnia, tzn. wraz ze wzrostem wartości jednej cechy rosną średnie wartości drugiej z cech, • znak minus – zaleŜność liniowa ujemna, tzn. wraz ze wzrostem wartości jednej cechy maleją średnie wartości drugiej z cech. Wartość bezwzględna współczynnika korelacji, czyli |rxy|, mówi nam o sile zaleŜności. JeŜeli wartość bezwzględna |rxy|: • jest mniejsza od 0,2, to praktycznie brak związku liniowego pomiędzy badanymi cechami, • 0,2 – 0,4 - zaleŜność liniowa wyraźna, lecz niska, • 0,4 – 0,7 - zaleŜność liniowa umiarkowana, • 0,7 – 0,9 - zaleŜność liniowa znacząca, • powyŜej 0,9 - zaleŜność liniowa bardzo silna. PRZYKŁAD 1 W grupie 7 studentów badano zaleŜność pomiędzy oceną z egzaminu ze statystyki (Y), a liczbą dni poświęconych na naukę (X). nr studenta ocena z egzaminu (Y) liczba dni nauki (X) i 1 2 3 4 5 6 7 yi 2,0 2,5 2,5 4,0 5,0 3,0 2,0 xi 5 13 16 28 42 16 6 D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10 Sporządzamy korelogram. 6,0 ocena (Y ) 5,0 4,0 3,0 2,0 1,0 0,0 0 5 10 15 20 25 30 35 40 45 dni nauki (X ) Widać tutaj wyraźną zaleŜność liniową (dodatnią). Obliczamy współczynnik korelacji (Pearsona). UWAGA ! Liczebność populacji jest mała (n=7). UŜyjemy tak małego przykładu tylko dlatego, aby sprawnie zilustrować procedurę liczenia. Obliczanie średnich, wariancji oraz kowariancji. (1) (2) (3) i yi xi 1 2 3 4 5 6 7 2,0 2,5 2,5 4,0 5,0 3,0 2,0 5 13 16 28 42 16 6 -1,0 -0,5 -0,5 1,0 2,0 0,0 -1,0 razem 21,0 126 x n=7 (4) (5) (6) (7) (8) (4)*(4) (5)*(5) (4)*(5) -13 -5 -2 10 24 -2 -12 1,00 0,25 0,25 1,00 4,00 0,00 1,00 169 25 4 100 576 4 144 13,0 2,5 1,0 10,0 48,0 0,0 12,0 x 7,50 1022 86,5 ( yi − y ) (xi − x ) 126 x= = 18 7 21 y = =3 7 [6] D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10 1022 = 146 7 sx = 146 = 12,08 sx2 = [7] 7,5 s = = 1,07 7 s y = 1,07 = 1,03 2 y 86,5 C( X ,Y ) = = 12,36 7 Współczynnik korelacji (Pearsona) wynosi dla danych z przykładu 1: C(X ,Y ) 12,36 rxy = = = + 0,993 sx s y 12,08 × 1,03 INTERPRETACJA W badanej grupie studentów wystąpiła bardzo silna dodatnia (znak plus) zaleŜność liniowa pomiędzy czasem nauki (cecha X), a uzyskaną oceną z egzaminu (cecha Y). Oznacza to, Ŝe wraz ze wzrostem czasu poświęconego na naukę rosła w tej grupie uzyskiwana ocena. D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10 [8] WSPÓŁCZYNNIK KORELACJI RANG (Spearmana) Współczynnik korelacji rang (Spearmana) rS uŜywamy w przypadku gdy: 1. choć jedna z badanych cech jest cechą jakościową (niemierzalną), ale istnieje moŜliwość uporządkowania (ponumerowania) wariantów kaŜdej z cech; 2. cechy mają charakter ilościowy (mierzalny), ale liczebność zbiorowości jest mała (n<30). Numery jakie nadajemy wariantom cech noszą nazwę rang. UWAGA ! W procesie nadawania rang stymulanty porządkujemy malejąco, a destymulanty rosnąco. UWAGA ! W procesie nadawania rang moŜe zdarzyć się więcej niŜ 1 jednostka o takiej samej wartości cechy (np. k jednostek). Wówczas naleŜy na chwilę nadać tym jednostkom kolejne rangi. Następnie naleŜy zsumować takie rangi i podzielić przez k (otrzymamy w ten sposób średnią rangę dla tej grupy k jednostek). W ostateczności kaŜda jednostka z tych k jednostek otrzyma identyczną rangę (średnią dla danej grupy k jednostek). Współczynnik korelacji rang (Spearmana) wg następującego wzoru: rS wyznaczamy n 6× ∑d rS = 1 − di ( i =1 2 2 i ) n n −1 – róŜnica pomiędzy rangami dla cechy X i cechy Y D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10 Współczynnik korelacji rang (Spearmana) warunek: rS spełnia zawsze − 1 ≤ rS ≤ 1 INTERPRETACJA Analogiczna jak dla współczynnika korelacji (Pearsona). PRZYKŁAD 2 Dla danych z przykładu 1 obliczenia współczynnika korelacji rang (Spearmana) są następujące: (1) (2) (3) (4) (5) (6) (7) i yi xi rangi cechy Y rangi cechy X di di2 1 2 3 4 5 6 7 2,0 2,5 2,5 4,0 5,0 3,0 2,0 5 13 16 28 42 16 6 6,5 4,5 4,5 2 1 3 6,5 7 5 3,5 2 1 3,5 6 0,5 0,5 -1,0 0,0 0,0 0,5 -0,5 0,25 0,25 1,00 0,00 0,00 0,25 0,25 x x razem x x x 2,00 n 6× ∑d 2 i 6× 2 rS = 1 − = 1− = + 0,964 2 n n −1 7 7 −1 ( i =1 2 ) ( ) Wartość współczynnika korelacji rang (Spearmana) potwierdza bardzo silną, dodatnią (znak plus) zaleŜność pomiędzy czasem nauki (X), a uzyskaną oceną (Y). [9] D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[10] Pomiar KIERUNKU i SIŁY zaleŜności liniowej Szeregi rozdzielcze TABLICA KORELACYJNA Schemat tablicy korelacyjnej Warianty cechy Y (yj) y1 … Warianty cechy X (xi) y1 x1 x2 ∂ xr n11 n21 … nr1 n12 n22 … nr2 n• 1 n• 2 (razem) n•j (razem) ys ni•• … … … … n1s n2s … nrs n1•• n2•• … nr • … n• s n Oznaczenia: nij - liczba jednostek, która charakteryzuje się wartością xi cechy X oraz wartością yj cechy Y ni•• - liczba jednostek, która charakteryzuje się wartością xi cechy X s ni• = ∑ nij j =1 n•j - liczba jednostek, która charakteryzuje się wartością yj cechy Y r n• j = ∑ nij i =1 n - liczebność populacji r s r s n = ∑∑ nij = ∑ ni• = ∑ n• j i =1 j =1 i =1 j =1 D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[11] PRZYKŁAD 3 Podobnie jak w przykładzie 1 zbadamy zaleŜność pomiędzy czasem nauki (X), a uzyskaną oceną (Y). W tablicy korelacyjnej zestawiono informację o 400 studentach (n=400). Czas nauki (X) w dniach Ocena ni•• (Y) 0 - 7 7 - 14 14 - 21 21 - 28 2 80 80 3 10 80 90 3,5 60 10 70 4 20 30 50 4,5 50 10 60 5 50 50 n•j 90 160 90 60 400 Obliczamy osobno dla kaŜdej z cech: średnie, wariancje i odchylenia standardowe. Ocena (Y) (x& 7 - 14 14 - 21 21 - 28 yi − y (b)*(b) (c)*(a) 10 50 2,25 0,25 0 0,25 1 2,25 180 22,5 0 12,5 60 112,5 90 60 400 1395 x x 387,5 10,5 17,5 24,5 x x x x x 315 1680 1575 1470 5040 x x x x -9,1 -2,1 4,9 11,9 x x x x x 82,81 4,41 x x x x x x x x x x& j 3,5 x& j n• j x& j − x 2 (d) -1,5 -0,5 0 0,5 1 1,5 160 − x) yi ni• (c) 160 270 245 200 270 250 90 j ni•• (b) 80 90 70 50 60 50 80 10 80 60 20 10 30 50 24,01 141,61 − x ) n• j 7452,9 705,6 2160,9 8496,6 18816 2 j 0-7 2 3 3,5 4 4,5 5 n•j (x& (a) Czas nauki (X) D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[12] n = 400 5040 x= = 12,6 400 1395 y= = 3,5 400 18816 s = = 47,04 400 sx = 47,04 = 6,86 387,5 s = = 0,97 400 s y = 0,97 = 0,98 2 x 2 y Przechodzimy do obliczania kowariancji C(X,Y). Na początek policzymy wszystkie iloczyny yi − y -1,5 -0,5 0 0,5 1 1,5 (x& j − x )( yi − y ) x& j − x -9,1 13,65 4,55 0 -4,55 -9,1 -13,65 -2,1 3,15 1,05 0 -1,05 -2,1 -3,15 4,9 -7,35 -2,45 0 2,45 4,9 7,35 Wykorzystamy tabelę początkową: Czas nauki (X) w dniach Ocena (Y) 0-7 7 - 14 14 - 21 2 80 0 0 3 10 80 0 3,5 0 60 10 4 0 20 30 4,5 0 0 50 5 0 0 0 11,9 -17,85 -5,95 0 5,95 11,9 17,85 21 - 28 0 0 0 0 10 50 : D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[13] i policzymy wszystkie iloczyny yi − y -1,5 -0,5 0 0,5 1 1,5 razem (x& j − x )( yi − y )nij x& j − x razem -9,1 1092 45,5 0 0 0 0 -2,1 0 84 0 -21 0 0 4,9 0 0 0 73,5 245 0 11,9 0 0 0 0 119 892,5 1092 129,5 0 52,5 364 892,5 1137,5 63 318,5 1011,5 2530,5 Zatem kowariancja wynosi: 2530,5 C( X ,Y ) = = 6,33 400 Współczynnik korelacji (Pearsona) wynosi dla danych z przykładu 3: 6,33 C( X ,Y ) rxy = = = + 0,942 sx s y 6,86 × 0,98 INTERPRETACJA W badanej grupie 400 studentów wystąpiła bardzo silna dodatnia (znak plus) zaleŜność liniowa pomiędzy czasem nauki (cecha X), a uzyskaną oceną z egzaminu (cecha Y). D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[14] Inne miary zaleŜności wyliczalne na podstawie tablicy korelacyjnej Obok współczynnika korelacji Persona stosowane są inne miary zaleŜności pomiędzy cechą Y i cechą X. Są to: • Stosunek korelacji (eyx) 2 • Miary oparte na chi-kwadrat (χ ) Stosunek korelacji • Miara ta jest oparta na spostrzeŜeniu, Ŝe przy braku zaleŜności średnie poziomy cechy Y wewnątrz grup (klas) pokrywają się ze średnią ogólną cechy Y. • Miara ta spełnia warunki 0 < eyx < 1 ryx ≤ eyx • Warunkiem policzenia stosunku korelacji jest mierzalność cechy Y. • Jest to miara zalecana w przypadku badania zaleŜności dla związków nieliniowych. Miary oparte na chi-kwadrat • Miary te oparte są na badaniu róŜnic pomiędzy liczebnościami empirycznymi a liczebnościami teoretycznymi, które wyliczane są przy załoŜeniu niezaleŜności cechy Y i cechy X. • Do tej grupy naleŜą współczynniki (por. wykład 10): C – Persona Q – Yule’a T – Czuprowa • V - Cramera D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[15] REGRESJA PROSTA WaŜnym uzupełnieniem zagadnienia badania kierunku i siły zaleŜności pomiędzy cechami X i Y jest analiza regresji. Przez analizę regresji rozumiemy metodę badania wpływu zmiennych uznanych za niezaleŜne (przyczyny) na zmienną uznana za zaleŜną (skutek). JeŜeli w analizie uwzględnimy tylko 1 zmienną niezaleŜną, to mówimy o REGRESJI PROSTEJ. Cecha X (zmienna niezaleŜna) - przyczyna. Cecha Y (zmienna zaleŜna) - skutek. Przypadek większej liczby zmiennych niezaleŜnych będzie rozwinięty w przedmiocie „Ekonometria” (dla słuchaczy kierunku Zarządzanie). Podstawowym narzędziem badania jest tutaj funkcja regresji. RozwaŜymy tylko przypadek zaleŜności liniowej dla regresji prostej. Narzędziem będzie zatem funkcja regresji postaci: yˆ i = axi + b ŷi - teoretyczna wartość zmiennej zaleŜnej (Y) xi - empiryczna wartość zmiennej niezaleŜnej (X) a – współczynnik regresji (współczynnik kierunkowy) INTERPRETACJA: jeŜeli wartość zmiennej niezaleŜnej X wzrośnie o jednostkę, to wartość zmiennej zaleŜnej Y : • wzrośnie (jeŜeli a>0) o |a| jednostek lub • spadnie (jeŜeli a<0) o |a| jednostek. b – wyraz wolny INTERPRETACJA: stały poziom wartości zmiennej zaleŜnej Y niezaleŜny od zmian wartości zmiennej niezaleŜnej X. Uwaga ! Interpretacja wyrazu wolnego nie zawsze ma sens ekonomiczny. D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[16] ZauwaŜmy, Ŝe liniowa funkcja trendu (omówiona w wykładzie 6) yˆt = at + b moŜe być równieŜ traktowana jako liniowa funkcja regresji prostej. Zmienna zaleŜna Y opisuje tam poziom badanego zjawiska Y. Zmienną niezaleŜną X jest tam czas (zmienna czasowa t). W efekcie podstawiając x zamiast t oraz zmieniając wskaźnik t na wskaźnik i otrzymamy funkcję regresji yˆi = axi + b W nowym układzie funkcja trendu moŜe być traktowana jako funkcja regresji Y względem czasu t. Szacowanie parametrów aib funkcji regresji C(X ,Y ) a= sx2 b = y − ax PRZYKŁAD 4 Dla danych z przykładu 1 szacowanie parametrów funkcji regresji przebiega następująco: 2 x = 18 x s = 146 y =3 C ( X , Y ) 12,36 a= = = 0,085 2 sx 146 C ( X , Y ) = 12,36 b = y − ax = 3 − 0,085 × 18 = 1,47 Funkcja regresji w przykładzie 1 ma więc postać: yˆi = 0,085⋅ xi + 1,47 D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[17] INTERPRETACJA: współczynnik regresji (a=0,085 > 0) - jeŜeli liczba dni nauki wzrośnie o jednostkę (o 1 dzień), to ocena z egzaminu wzrośnie o 0,085 (inaczej: kaŜdy dzień nauki podnosi średnio ocenę o 0,085) wyraz wolny (b=1,47) - stały, niezaleŜny od liczby dni nauki (x=0) poziom uzyskanej oceny z egzaminu to 1,47 (poniŜej niedostatecznej) Otrzymaną funkcję regresji, wykreśloną na korelogramie pokazano na rysunku: 6,0 ocena (Y ) 5,0 4,0 y = 0,085x + 1,47 2 3,0 R = 0,976 2,0 1,0 0,0 0 5 10 15 20 25 30 35 40 45 dni nauki (X ) Wykorzystanie funkcji regresji do prognozowania Słuchacz o numerze 8 (przypomnijmy, Ŝe badanie przeprowadzono dla n=7 studentów) poświęcił na naukę 20 dni (x8=20). Jakiej oceny moŜe spodziewać się (średnio) przy takim nakładzie czasu na naukę ? yˆ8 = 0,085⋅ x8 +1,47 = 0,085× 20+1,47 = 3,17 Poświęcając 20 dni na naukę słuchacz moŜe spodziewać się (średnio !!!) oceny 3,17 czyli „dst+”. D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[18] Ocena dopasowania funkcji regresji do danych empirycznych Problem oceny dopasowania był juŜ częściowo omawiany (wykład 6) przy okazji analitycznego wygładzania szeregu czasowego za pomocą liniowej funkcji trendu. Podstawowymi miarami „dobroci” dopasowania linii regresji do danych empirycznych są: 2 • współczynnik zbieŜności (ϕ ) 2 • współczynnik determinacji (R ) • średni błąd szacunku (pierwiastek z tzw. wariancji resztowej) 2 Współczynnik zbieŜności (ϕ ): n ϕ2 = 2 ˆ ( ) y − y ∑ i i i =1 n ∑(y − y) 2 i 0 ≤ ϕ2 ≤ 1 gdzie i =1 2 Im ϕ jest bliŜszy 0, tym dopasowanie jest lepsze. 2 Współczynnik determinacji (R ): R 2 = 1 − ϕ2 gdzie 0 ≤ R2 ≤ 1 Przy zaleŜności liniowej moŜna go wyznaczyć równieŜ jako: R 2 = rxy2 2 lub R 2 = ryx2 Im R jest bliŜszy 1, tym dopasowanie jest lepsze. D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[19] Średni błąd szacunku (Se): n S e = S e2 = 2 ˆ ∑ ( yi − y i ) i =1 n−k gdzie: k – liczba szacowanych parametrów funkcji regresji (tutaj k=2; szacujemy dwa parametry: a i b ) 2 Jest to pierwiastek z wariancji resztowej (Se ). Nazwa bierze się od reszty (ei), którą definiuje się jako: róŜnicę pomiędzy wartością empiryczną, a wartością teoretyczną cechy zaleŜnej Y: ei = yi − yˆi PRZYKŁAD 5 Ocena dopasowania funkcji regresji dla danych z przykładu 1. y =3 yˆi = 0,085⋅ xi + 1,47 (1) (2) (3) (4) i yi xi ŷi 1 2 3 4 5 6 7 2,0 2,5 2,5 4,0 5,0 3,0 2,0 5 13 16 28 42 16 6 1,90 2,58 2,83 3,85 5,04 2,83 1,98 -1,0 -0,5 -0,5 1,0 2,0 0,0 -1,0 0,10 -0,08 -0,33 0,15 -0,04 0,17 0,02 1,00 0,25 0,25 1,00 4,00 0,00 1,00 0,0100 0,0064 0,1089 0,0225 0,0016 0,0289 0,0004 x x x x x 7,50 0,1787 razem (5) (6) (7) (8) ( yi − y ) ( yi − yˆi ) ( yi − y )2 ( yi − yˆi )2 D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[20] Współczynnik zbieŜności n 2 ˆ ( ) − y y ∑ i i 2 ϕ = i =1 n 2 ( ) − y y ∑ i 0,1787 = = 0,024 7,5 i =1 Współczynnik determinacji R 2 = 1 − ϕ 2 = 1 − 0,024 = 0,976 lub wg innego wzoru R 2 = rxy2 = (0,993) = 0,986 2 Uwaga! RóŜnice w wartości współczynnika determinacji wynikają z błędów zaokrągleń na etapie liczenia współczynników: zbieŜności i korelacji Średni błąd szacunku n 2 ˆ ∑ ( yi − yi ) Se = i =1 n−k 0,1787 = = 0,189 7−2 W celu wyrobienia sobie poglądu nt. wielkości tego błędu odniesiemy go średniego poziomu cechy Y: Se ×100% = 0,189 ×100% = 6,3% y 3 Uwaga! Nie moŜna uŜyć znanego współczynnika zmienności (Vx) poniewaŜ średnia wartość reszt jest teoretycznie równa 0. Wystąpiłoby zatem dzielenie przez zero. PODSUMOWANIE (przykład 5) Wszystkie policzone miary dopasowania potwierdzają bardzo dobre dopasowanie funkcji regresji do danych empirycznych. D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[21] PRZYKŁAD 6 Na zakończenie wyznaczymy funkcję regresji dla danych z przykładu 3. Badaniu poddano tam 400 studentów. Wcześniej otrzymaliśmy tam: n = 400 x = 12,6 y = 3,5 C ( X , Y ) = 6,33 sx2 = 47,04 rxy = 0,942 Parametry funkcji regresji wynoszą: C ( X , Y ) 6,33 a= = = 0,135 2 sx 47,04 b = y − ax = 3,5 − 0,135 × 12,6 = 1,799 Funkcja regresji w przykładzie 3 ma postać: yˆi = 0,135⋅ xi + 1,799 Dobroć dopasowania do danych empirycznych mierzona współczynnikiem determinacji wynosi: 2 2 2 xy R = r = (0,942) = 0,887 PowyŜsza funkcja regresji w 88,7% objaśnia kształtowanie się oceny z egzaminu (Y) w zaleŜności od czasu nauki (X). WYKORZYSTANIE funkcji regresji do PROGNOZY oceny. Słuchacz o numerze 401 poświęcił na naukę 20 dni (x401=20). Jakiej oceny moŜe się spodziewać (średnio) ? yˆ401 = 0,135⋅ x401 +1,7999= 0,135× 20+1,799= 4,499 Poświęcając 20 dni na naukę słuchacz moŜe spodziewać się (średnio !!!) oceny 4,499 czyli „db+”.