rownanie regresji

Transkrypt

rownanie regresji
Równanie regresji liniowej
Krótki kurs obsługi komputera
Równanie regresji liniowej ma postać”
y = ax + b
By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami1:
b=
∑ xy
∑x
a = Y − bX lub też a =
2
(∑ Y − b∑ X )
N
Gdzie:
∑ X ∑Y
XY −
∑ xy = ∑
(∑ X )
−
2
∑x
N
2
=∑X
2
N
X i Y to dane empiryczne, a N – ilość obserwacji
Czyli ostatecznie wzór na współczynnik b przyjmuje postać
b=
∑ XY −
∑X
2
∑ X ∑Y
N
(∑ x )2
−
N
Po obliczeniu b można już obliczyć a
Współczynnik Pearsona (współczynnik korelacji, współczynnik r,) określający siłę związku jest
liczony ze wzoru:
∑ xy
∑x ∑y
r=
2
2
Gdzie:
(∑ X )
−
2
∑x
2
=∑X
2
N
(∑ Y )
∑ y = ∑Y − N
2
2
2
Czyli ostatecznie wzór na współczynnik r przyjmuje postać
r=
1
∑ XY −
(∑ X )

 X2 −
∑

∑ X ∑Y
2
N
N
2

 Y 2 − (∑ Y )
 ∑
N





Dużymi litrami oznaczono dane empiryczne
1
Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego
Równanie regresji liniowej
Krótki kurs obsługi komputera
By wyjaśnić jak tego dokonać w praktyce posłużymy się przykładem, do którego dane zebrano
w tabeli 1
Tabela 1. Liczba gatunków drzew w oddziale leśnym (X) oraz liczba gatunków ptaków w tymże oddziale (Y)
X
2
5
5
8
9
10
39
sumy
N = 6,
Y
XY
3
2
8
6
9
8
36
X
2
6
10
40
48
81
80
265
∑ X = 39, ∑ Y = 36, ∑ XY = 265, ∑ X
2
= 299,
2
Y
4
25
25
64
81
100
299
∑Y
2
9
4
64
36
81
64
258
= 258
Suma kwadratów odchyleń:
(∑ X )
−
(∑ Y )
∑ y = ∑Y − N
2
∑x
2
=∑X
2
N
2
= 299 − 39 / 6 = 45,5
2
2
2
= 258 − 36 2 / 6 = 42,0
Suma iloczynów:
∑ xy = ∑ XY −
∑ X ∑Y
N
= 265 − 39 × 36 / 6 = 31,0
Współczynnik regresji liniowej b oraz a :
b=
∑ xy = 31,0 / 45,5 = 0,6813
∑x
a=
2
∑ Y − b∑ X
N
= 1,5714
Natomiast współczynnik r:
r=
∑ xy
∑x ∑y
2
2
= 31,0 / 45,5 × 42,0 = 0,7091
Tak więc równanie regresji przyjmuje postać:
Y = 1,5714 + 0,6813 X
Można też oba współczynniki policzyć posługując się następującymi wzorami:
a=
N ∑ XY − ∑ X ∑ Y
N ∑ X − (∑ X )
2
2
b=
1
N
(∑ Y − a∑ X )
2
Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego
Równanie regresji liniowej
Krótki kurs obsługi komputera
TEST ISTOTNOŚCI WSPÓŁCZYNNIKÓW REGRESJI I KORELACJI
Zadaniem tego testu jest sprawdzenie hipotezy zerowej, że współczynniki regresji i korelacji SA
równe zero. Zakłada się, że zbiór N par pomiarów jest niezależną próbą losową z populacji
generalnej, a zmienna Y ma rozkład normalny.
W tym celu należy obliczyć wyjaśnioną sumę kwadratów:
∑ ∑ lub
0,7091 42 21,119
Aby sumy kwadratów móc analizować metodami znanymi z analizy wariancji należy im
przypisać liczby stopni swobody. Liczba stopni swobody dla całkowitej sumy kwadratów
∑ wynosi 1, ponieważ średnia, na podstawie której liczono odchylenia dla Y,
oparta jest na N parach pomiarów. Liczba stopni swobody dla wyjaśnionej sumy kwadratów
∑ wynosi 1, a dla niewyjaśnionej ∑ 2
Z kolei niewyjaśniona suma kwadratów ∑ 1 ∑ 1 0,7091 42 20,881
Po podzieleniu sumy kwadratów przez odpowiadające im stopnie swobody otrzymujemy
oszacowanie wariancji, które zestawiono poniżej.
Suma
kwadratów2
Stopnie swobody
Oszacowanie
F
wariancji
Wyjaśniona
21,119
1
21,119
Niewyjaśniona
20,881
4
5,5,220
4,045
∑ Stosunek f otrzymano dzieląc wariancje wyjaśniona przez niewyjaśnioną ∑ . Można go
tez obliczyć bezpośrednio ze wzoru 2/1 2
Istnieją pewne rozbieżności pomiędzy wartościami obliczonymi przy użyciu kalkulatora oraz
Excel'a
3
Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego
Równanie regresji liniowej
Krótki kurs obsługi komputera
Wartość krytyczna Fkryt3 dla poziomu istotności 0,05 i liczby stopni swobody df=1 i 4 wynosi
F0,05;1;4=7,71, czyli jest większa od obliczonego F (Fkryt>F). Czyli należy przyjąć hipotezę
zerową (ponieważ błąd pierwszego rodzaju P>0,05). Dane empiryczne nie upoważniają do
stwierdzenia, że między liczbą gatunków ptaków a liczba gatunków drzew istnieje związek.
3
Wartośc krytyczna F odczytujemy z tabeli g na końcu książki, lub tez korzystamy z funkcji Excel’a
Rozkład.F.ODW. Dane wpisujemy w tej samej kolejności co w tym konspekcie (czyli poziom istotności, a
następnie df dla wyjaśnionej, po czym dla niewyjaśnionej).
4
Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego
Równanie regresji liniowej
Krótki kurs obsługi komputera
Wszystkie te dane można obliczyć korzystając z np. z programu Excel. Jednym ze sposobów
jest stworzenie wykresu punktowego, a następnie po zaznaczeniu serii danych wybraniu opcji
wstaw linię trendu (czyli po kolei lewy, a następnie prawy przycisk myszy). Należy wybrać
interesujący nas rodzaj linii trendu, oraz zaznaczyć opcje pokaż na wykresie równanie regresji
oraz wyświetl R-kwadrat na wykresie.
Powyższe dane można uzyskać tez bez tworzenia wykresu. Uzyskuje się to poprzez wybór tzw.
funkcji4. I tak:
a – nachylenie (pod-menu funkcji regresja)
b – odcięta
R2 – R.kwadrat
Graficzna prezentacja danych z tabelki znajdującej się na stronie pierwszej przedstawia się
następująco:
10
9
8
y = 0,6813x + 1,5714
R² = 0,5029
7
6
5
4
3
2
1
0
0
2
4
6
8
4
10
Należy się jednak zapoznać z treścią pomocy dla wybranych funkcji, by uniknąć ewentualnych przykrych
niespodzianek
5
Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego
12
Równanie regresji liniowej
Krótki kurs obsługi komputera
Współczynniki równania regresji liniowej można też otrzymać wykonując następujące
operacje5,6:
1. Należy wprowadzi dane do komórek arkusza.
2. Należy zaznaczyć dziesięć leżących obok siebie w dwóch kolumnach komórki arkusza
– np. zakres D1:E5.
3. Należy wybrać polecenie WstawFunkcja...
4. Z kategorii Wszystkie lub Statystyczne należy wybrać funkcję REGLINP7.
5. W oknie wprowadzania parametrów należy podać parametry funkcji:
w wierszu znane_y – zakres komórek zawierających wartości rzędnych (Y),
w wierszu znane_x – zakres komórek zawierających wartości odciętych (X),
w wierszu Stała – nic lub wartość logiczną PRAWDA (czyli 1),
w wierszu Statyczny – wartość
logiczną
PRAWDA (jw.), jeżeli chcemy poznać
wartości błędów parametrów a i b.
6. Po zamknięciu okna wprowadzania parametrów przez kliknięcie na przycisk OK należy
kliknąć wskaźnikiem myszy na tzw. pasek formuł znajdujących się nad arkuszem, tak
aby pojawił się tam i zaczął migać kursor tekstowy.
7. Trzymając wciśnięte jednocześnie klawisze Ctrl i Shift należ y nacisnąć klawisz Enter,
w czterech komórkach zaznaczonych w punkcie 2 pojawią się wartości wyliczone
metodą najmniejszych kwadratów.
Wykonując powyższe operacje na danych ze strony pierwszej otrzymujemy:
2
5
5
8
9
10
3
2
8
6
9
8
0,681319
0,338704
0,502878
4,046316
21,12088
1,571429
2,391004
2,284684
4
20,87912
I ten sposób otrzymaliśmy:
a
sa0
R2
F
8
0,681319
0,338704
0,502878
4,046316
21,12088
5
b 1,571429
sa1 2,391004
s 2,284684
df
4
http://www.chem.univ.gda.pl/kchfiz/assets/Uploads/ztchf/files/II-CH-MiK_lab/regresja-liniowa.pdf
http://www.staff.amu.edu.pl/~zcht/pliki/Regresja%20liniowa.pdf
7
Obszerne informacje nt tej funkcji można znaleźć w tzw. pomocy
8
Proszę porównać z danymi na stronie
6
6
Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego
20,87912
Równanie regresji liniowej
Krótki kurs obsługi komputera
R2 – funkcja R.kwadrat, gdzie ∑ ! " "!
#∑ ! ∑" "!
Funkcja ta zwraca kwadrat współczynnika korelacji iloczynu momentów Pearsona dla punktów
danych w argumentach znane_y i znane_x. Aby uzyskać więcej informacji, zobacz opis funkcji
PEARSON. Wartość r-kwadrat można zinterpretować jako proporcję wariancji y przypisywaną
do wariancji x9.
s (lub ∆) - funkcja REGBŁSTD, gdzie $ %'
&
(∑) )! *∑ !" "!+
,
∑ !
Zwraca ona błąd standardowy prognozowanej wartości y dla każdego x w regresji. Błąd
standardowy jest miarą wielkości błędu przy prognozowaniu wartości y dla oddzielnej wartości
x.
sa0 i sa1 (lub ∆a i ∆b) to błędy standardowe wyznaczonych parametrów funkcji:
∑ $-. $%' ∑ ∑ '
, $-& $%' ∑ ∑ F - Statystyka F lub wartość obserwowana F. Statystykę F stosuje się do określania, czy
obserwowana zależność pomiędzy zmienną zależną a zmienną niezależną występuje
przypadkowo10.
df – stopnie swobody (degree of freedom) dla niewyjaśnionej sumy kwadratów 2
∑ - wyjaśniona suma kwadratów
∑ - niewyjaśniona suma kwadratów
9
temat pomocy dla danej funkcji w Excelu
Sposoby liczenia F oraz sum kwadratów przedstawiono na stronie 3
10
7
Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego