rownanie regresji
Transkrypt
rownanie regresji
Równanie regresji liniowej Krótki kurs obsługi komputera Równanie regresji liniowej ma postać” y = ax + b By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami1: b= ∑ xy ∑x a = Y − bX lub też a = 2 (∑ Y − b∑ X ) N Gdzie: ∑ X ∑Y XY − ∑ xy = ∑ (∑ X ) − 2 ∑x N 2 =∑X 2 N X i Y to dane empiryczne, a N – ilość obserwacji Czyli ostatecznie wzór na współczynnik b przyjmuje postać b= ∑ XY − ∑X 2 ∑ X ∑Y N (∑ x )2 − N Po obliczeniu b można już obliczyć a Współczynnik Pearsona (współczynnik korelacji, współczynnik r,) określający siłę związku jest liczony ze wzoru: ∑ xy ∑x ∑y r= 2 2 Gdzie: (∑ X ) − 2 ∑x 2 =∑X 2 N (∑ Y ) ∑ y = ∑Y − N 2 2 2 Czyli ostatecznie wzór na współczynnik r przyjmuje postać r= 1 ∑ XY − (∑ X ) X2 − ∑ ∑ X ∑Y 2 N N 2 Y 2 − (∑ Y ) ∑ N Dużymi litrami oznaczono dane empiryczne 1 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego Równanie regresji liniowej Krótki kurs obsługi komputera By wyjaśnić jak tego dokonać w praktyce posłużymy się przykładem, do którego dane zebrano w tabeli 1 Tabela 1. Liczba gatunków drzew w oddziale leśnym (X) oraz liczba gatunków ptaków w tymże oddziale (Y) X 2 5 5 8 9 10 39 sumy N = 6, Y XY 3 2 8 6 9 8 36 X 2 6 10 40 48 81 80 265 ∑ X = 39, ∑ Y = 36, ∑ XY = 265, ∑ X 2 = 299, 2 Y 4 25 25 64 81 100 299 ∑Y 2 9 4 64 36 81 64 258 = 258 Suma kwadratów odchyleń: (∑ X ) − (∑ Y ) ∑ y = ∑Y − N 2 ∑x 2 =∑X 2 N 2 = 299 − 39 / 6 = 45,5 2 2 2 = 258 − 36 2 / 6 = 42,0 Suma iloczynów: ∑ xy = ∑ XY − ∑ X ∑Y N = 265 − 39 × 36 / 6 = 31,0 Współczynnik regresji liniowej b oraz a : b= ∑ xy = 31,0 / 45,5 = 0,6813 ∑x a= 2 ∑ Y − b∑ X N = 1,5714 Natomiast współczynnik r: r= ∑ xy ∑x ∑y 2 2 = 31,0 / 45,5 × 42,0 = 0,7091 Tak więc równanie regresji przyjmuje postać: Y = 1,5714 + 0,6813 X Można też oba współczynniki policzyć posługując się następującymi wzorami: a= N ∑ XY − ∑ X ∑ Y N ∑ X − (∑ X ) 2 2 b= 1 N (∑ Y − a∑ X ) 2 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego Równanie regresji liniowej Krótki kurs obsługi komputera TEST ISTOTNOŚCI WSPÓŁCZYNNIKÓW REGRESJI I KORELACJI Zadaniem tego testu jest sprawdzenie hipotezy zerowej, że współczynniki regresji i korelacji SA równe zero. Zakłada się, że zbiór N par pomiarów jest niezależną próbą losową z populacji generalnej, a zmienna Y ma rozkład normalny. W tym celu należy obliczyć wyjaśnioną sumę kwadratów: ∑ ∑ lub 0,7091 42 21,119 Aby sumy kwadratów móc analizować metodami znanymi z analizy wariancji należy im przypisać liczby stopni swobody. Liczba stopni swobody dla całkowitej sumy kwadratów ∑ wynosi 1, ponieważ średnia, na podstawie której liczono odchylenia dla Y, oparta jest na N parach pomiarów. Liczba stopni swobody dla wyjaśnionej sumy kwadratów ∑ wynosi 1, a dla niewyjaśnionej ∑ 2 Z kolei niewyjaśniona suma kwadratów ∑ 1 ∑ 1 0,7091 42 20,881 Po podzieleniu sumy kwadratów przez odpowiadające im stopnie swobody otrzymujemy oszacowanie wariancji, które zestawiono poniżej. Suma kwadratów2 Stopnie swobody Oszacowanie F wariancji Wyjaśniona 21,119 1 21,119 Niewyjaśniona 20,881 4 5,5,220 4,045 ∑ Stosunek f otrzymano dzieląc wariancje wyjaśniona przez niewyjaśnioną ∑ . Można go tez obliczyć bezpośrednio ze wzoru 2/1 2 Istnieją pewne rozbieżności pomiędzy wartościami obliczonymi przy użyciu kalkulatora oraz Excel'a 3 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego Równanie regresji liniowej Krótki kurs obsługi komputera Wartość krytyczna Fkryt3 dla poziomu istotności 0,05 i liczby stopni swobody df=1 i 4 wynosi F0,05;1;4=7,71, czyli jest większa od obliczonego F (Fkryt>F). Czyli należy przyjąć hipotezę zerową (ponieważ błąd pierwszego rodzaju P>0,05). Dane empiryczne nie upoważniają do stwierdzenia, że między liczbą gatunków ptaków a liczba gatunków drzew istnieje związek. 3 Wartośc krytyczna F odczytujemy z tabeli g na końcu książki, lub tez korzystamy z funkcji Excel’a Rozkład.F.ODW. Dane wpisujemy w tej samej kolejności co w tym konspekcie (czyli poziom istotności, a następnie df dla wyjaśnionej, po czym dla niewyjaśnionej). 4 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego Równanie regresji liniowej Krótki kurs obsługi komputera Wszystkie te dane można obliczyć korzystając z np. z programu Excel. Jednym ze sposobów jest stworzenie wykresu punktowego, a następnie po zaznaczeniu serii danych wybraniu opcji wstaw linię trendu (czyli po kolei lewy, a następnie prawy przycisk myszy). Należy wybrać interesujący nas rodzaj linii trendu, oraz zaznaczyć opcje pokaż na wykresie równanie regresji oraz wyświetl R-kwadrat na wykresie. Powyższe dane można uzyskać tez bez tworzenia wykresu. Uzyskuje się to poprzez wybór tzw. funkcji4. I tak: a – nachylenie (pod-menu funkcji regresja) b – odcięta R2 – R.kwadrat Graficzna prezentacja danych z tabelki znajdującej się na stronie pierwszej przedstawia się następująco: 10 9 8 y = 0,6813x + 1,5714 R² = 0,5029 7 6 5 4 3 2 1 0 0 2 4 6 8 4 10 Należy się jednak zapoznać z treścią pomocy dla wybranych funkcji, by uniknąć ewentualnych przykrych niespodzianek 5 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego 12 Równanie regresji liniowej Krótki kurs obsługi komputera Współczynniki równania regresji liniowej można też otrzymać wykonując następujące operacje5,6: 1. Należy wprowadzi dane do komórek arkusza. 2. Należy zaznaczyć dziesięć leżących obok siebie w dwóch kolumnach komórki arkusza – np. zakres D1:E5. 3. Należy wybrać polecenie WstawFunkcja... 4. Z kategorii Wszystkie lub Statystyczne należy wybrać funkcję REGLINP7. 5. W oknie wprowadzania parametrów należy podać parametry funkcji: w wierszu znane_y – zakres komórek zawierających wartości rzędnych (Y), w wierszu znane_x – zakres komórek zawierających wartości odciętych (X), w wierszu Stała – nic lub wartość logiczną PRAWDA (czyli 1), w wierszu Statyczny – wartość logiczną PRAWDA (jw.), jeżeli chcemy poznać wartości błędów parametrów a i b. 6. Po zamknięciu okna wprowadzania parametrów przez kliknięcie na przycisk OK należy kliknąć wskaźnikiem myszy na tzw. pasek formuł znajdujących się nad arkuszem, tak aby pojawił się tam i zaczął migać kursor tekstowy. 7. Trzymając wciśnięte jednocześnie klawisze Ctrl i Shift należ y nacisnąć klawisz Enter, w czterech komórkach zaznaczonych w punkcie 2 pojawią się wartości wyliczone metodą najmniejszych kwadratów. Wykonując powyższe operacje na danych ze strony pierwszej otrzymujemy: 2 5 5 8 9 10 3 2 8 6 9 8 0,681319 0,338704 0,502878 4,046316 21,12088 1,571429 2,391004 2,284684 4 20,87912 I ten sposób otrzymaliśmy: a sa0 R2 F 8 0,681319 0,338704 0,502878 4,046316 21,12088 5 b 1,571429 sa1 2,391004 s 2,284684 df 4 http://www.chem.univ.gda.pl/kchfiz/assets/Uploads/ztchf/files/II-CH-MiK_lab/regresja-liniowa.pdf http://www.staff.amu.edu.pl/~zcht/pliki/Regresja%20liniowa.pdf 7 Obszerne informacje nt tej funkcji można znaleźć w tzw. pomocy 8 Proszę porównać z danymi na stronie 6 6 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego 20,87912 Równanie regresji liniowej Krótki kurs obsługi komputera R2 – funkcja R.kwadrat, gdzie ∑ ! " "! #∑ ! ∑" "! Funkcja ta zwraca kwadrat współczynnika korelacji iloczynu momentów Pearsona dla punktów danych w argumentach znane_y i znane_x. Aby uzyskać więcej informacji, zobacz opis funkcji PEARSON. Wartość r-kwadrat można zinterpretować jako proporcję wariancji y przypisywaną do wariancji x9. s (lub ∆) - funkcja REGBŁSTD, gdzie $ %' & (∑) )! *∑ !" "!+ , ∑ ! Zwraca ona błąd standardowy prognozowanej wartości y dla każdego x w regresji. Błąd standardowy jest miarą wielkości błędu przy prognozowaniu wartości y dla oddzielnej wartości x. sa0 i sa1 (lub ∆a i ∆b) to błędy standardowe wyznaczonych parametrów funkcji: ∑ $-. $%' ∑ ∑ ' , $-& $%' ∑ ∑ F - Statystyka F lub wartość obserwowana F. Statystykę F stosuje się do określania, czy obserwowana zależność pomiędzy zmienną zależną a zmienną niezależną występuje przypadkowo10. df – stopnie swobody (degree of freedom) dla niewyjaśnionej sumy kwadratów 2 ∑ - wyjaśniona suma kwadratów ∑ - niewyjaśniona suma kwadratów 9 temat pomocy dla danej funkcji w Excelu Sposoby liczenia F oraz sum kwadratów przedstawiono na stronie 3 10 7 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego