K - Politechnika Poznańska

Transkrypt

Metody Planowania Eksperymentów
Rozdział 2
Metoda Analizy Regresji
Strona 1 z 24
2. METODA ANALIZY REGRESJI
Analiza regresji jest uniwersalnym aparatem matematycznym stosowanym do badania zależności statystycznych. Umożliwia ona wyznaczanie opisu matematycznego (modelu)
obiektów o nieznanych charakterystykach na podstawie obserwacji wejść i wyjść. Prawdziwy
związek pomiędzy odpowiedziami obiektu y a czynnikami x jest zwykle nieznany. Dlatego
uzyskany model będzie funkcją aproksymującą odpowiedzi układu w badanym obszarze.
Model ten wyznaczamy na podstawie obserwacji wyjść obiektu.
x1
x2
y
OBIEKT
xM
e
Rys. 2.1. Schematyczna reprezentacja eksperymentu. x1, x2 ,..., xM – czynniki lub zmienne
objaśniające, y – wyjście lub odpowiedź obiektu, e – błąd losowy zakłócający odpowiedź
obiektu.
Przyjmijmy, że badany obiekt ma M wejść x1, x2 ,..., xM oraz 1 wyjście y (Rysunek 2.1).
Poddany jest on niemierzalnemu zakłóceniu e, które jest przypadkowe i podlega ciągłym nieprzewidywalnym zmianom. Z tego względu przy ustalonych wartościach wejść x1, x2 ,..., xM
możliwe są różne wartości wyjścia y. Obiekt ten opisuje nieznana, ogólnie nieliniowa, funkcja
y = f ( x1 , x 2 ,K x M , e )
`
(1)
Z uwagi na obecność stałych niemierzalnych zakłóceń odziaływujących na wyjścia
obiektu zależność (1) nie jest zwykłą zależnością funkcyjną, w takim sensie jak w analizie
Mariusz B. Bogacki
Zakład Inżynierii Procesowej
Politechnika Poznańska
1
Rozdział 2
Strona 2 z 24
matematycznej, ale zależnością stochastyczną czyli jest ona niejednoznaczna. Różnicę po-
między tymi zależnościami ilustruje rysunek 2.2.
12
10
f(x)
8
6
4
2
0
0
2
4
6
8
10
x
Rysunek 2.2. Przykład zależności funkcyjnej (linia ciągła) i stochastycznej (punkty).
Przyjmijmy, że w ramach przeprowadzanego eksperymentu wykonaliśmy N doświadczeń, w których za każdym razem zmienialiśmy wartości wejść x, uzyskując odpowiadające
im wartości wyjść y. Uzyskane dane grupujemy w tablicy obserwacji wejść
⎛ x1,1
⎜
⎜ x2 ,1
X=⎜
M
⎜
⎜x
⎝ N ,1
x1,2
x 2 ,2
M
x N ,2
x1,M ⎞
⎟
L x 2 ,M ⎟
O
M ⎟
⎟
L x N ,M ⎟⎠
L
(2)
oraz wektorze wyjść
⎛ y1 ⎞
⎜ ⎟
⎜y ⎟
Y=⎜ 2⎟
M
⎜⎜ ⎟⎟
⎝ yN ⎠
(3)
gdzie xi,j, i = 1, 2, ..., N, j = 1, 2, ..., M to wartości przyjmowane przez czynnik (zmienną) j w
i – tym doświadczeniu, a yi to odpowiadające tym doświadczeniom wartości wyjścia obiektu.
Tak więc każda kolumna w macierzy wejść odpowiada jednemu z czynników wpływających
Mariusz B. Bogacki
2
Rozdział 2
Strona 3 z 24
na badany obiekt, natomiast każdy wiersz odpowiada jednemu z doświadczeń wykonywanych
w ramach eksperymentu. Zakładamy, że wszystkie xi,j są znane dokładnie, to znaczy nie są
obarczone żadnym błędem pomiarowym. Sytuacja taka występuje wtedy, gdy wszystkie wartości xi,,j są wynikiem świadomego oddziaływania na obiekt.
Naszym celem jest wyznaczenie pewnej wybranej arbitralnie funkcji
ŷ = f ( x1 , x2 ,K , x M ; b0 ,b1 ,K ,bK )
(4)
zawierającej K+1 nieznanych współczynników bk (k = 0, 1, 2, ..., K; K ≤ N – 1). Funkcja ta
dla zadanych wartości wejść xi (i = 1, 2, ..., N) przyjmie wartość
ŷi = f (xi ,1 , xi ,2 ,K , xi ,M ; b0 ,b1 ,K ,bK )
(5)
Funkcja (4) aproksymuje w kolejnych punktach xi rzeczywistą, opisującą obiekt funkcję
(1). Należy w tym miejscu podkreślić, że rzeczywista funkcja (1) jest niewyznaczalna z powodu zarówno niemierzalności zakłóceń e jak też z powodu nieznajomości jej, najczęściej
nieliniowej, postaci funkcyjnej. Funkcja (4) zwana jest modelem matematycznym obiektu
przedstawionego na rysunku 1.
Przeprowadzony eksperyment ma na celu wyznaczenie współczynników naszego modelu
matematycznego (4). W tym celu przyjąć należy wskaźnik dobroci tego modelu będący odległością pomiędzy wartościami wyjścia {y1, y2, ..., yN} badanego obiektu i wyjścia
{ŷ1 , ŷ2 ,K , ŷ N } modelu. Najczęściej jako wskaźnik dobroci przyjmuje się odległość Euklidesa
w N – wymiarowej przestrzeni
N
N
S R = ∑ ( yi − ŷi ) = ∑ ( yi − f (xi ,1 , xi ,2 ,K , xi ,M ; b0 ,b1 ,K ,bK ))
2
i =1
2
(6)
i =1
Optymalne wartości współczynników b0, b1, ..., bK wyznacza się minimalizując powyższe
wyrażenie względem poszukiwanych współczynników. Uzyskana w ten sposób funkcja nosi
nazwę funkcji regresji.
Metoda powyższa określana jest mianem metody najmniejszej sumy kwadratów odchyleń. Wprowadzona ona została przez francuskiego matematyka Legendre’a w 1806 r. oraz,
niezależnie, przez matematyka niemieckiego Gaussa w 1809 r. Stanowi ona podstawę analizy
regresji.
Mariusz B. Bogacki
3
Rozdział 2
Strona 4 z 24
W ogólnym przypadku funkcje regresji mogą być dowolnymi funkcjami. Jednakże z reguły przyjmuje się, że funkcje regresji są liniowe względem parametrów
ŷ = ŷ (x , b0 , b1 ,K ,bK ) = b0 + b1 f1 (x ) + b2 f 2 (x ) + K + bK f K (x )
(7)
gdzie
x = {x1 , x2 ,K , x M }
(8)
jest wektorem czynników wpływających na badany obiekt.
Zakładamy, że funkcje fi(x), i = 1, 2, ..., K są znane, liniowo niezależne i w ogólnym
przypadku mogą być nieliniowe. Liniowa niezależność oznacza, że żadna z funkcji fi(x) nie
może być przedstawiona jako liniowa kombinacja pozostałych funkcji tworzących model
matematyczny. Założenie to jest istotne z tego względu, że istnienie liniowej zależności pomiędzy tymi funkcja prowadzić może do osobliwości macierzy układu równań normalnych, z
którym mamy do czynienia obliczając wartości parametrów bi.
W zależności od postaci funkcji fi(x) uzyskać można różne modele
Przykład 1. Model wielomianowy
f i (x ) = x i ,
i = 1,2 ,K , K
(9)
wtedy funkcja regresji będzie miała postać
ŷ = ŷ (x , b0 , b1 ,K ,bK ) = b0 + b1 x + b2 x 2 + K + bK x K
(10)
Przykład 2. Model liniowy
f i (x ) = xi ,
i = 1,2 ,K , K
(11)
wtedy funkcja regresji będzie miała postać
ŷ = ŷ (x , b0 , b1 ,K ,bK ) = b0 + b1 x1 + b2 x 2 + K + bK x K
(12)
Przykład 3. Model trygonometryczny
f 2i (x ) = sin (2ix ) ,
Mariusz B. Bogacki
i = 1,2 ,K ,
K
2
(13)
4
Rozdział 2
f 2i −1 (x ) = cos ((2i − 1)x ) ,
Strona 5 z 24
i = 1,2 ,K ,
K
2
(14)
wtedy funkcja regresji będzie miała postać (w przypadku gdy K jest parzyste)
ŷ = ŷ (x , b0 , b1 ,K , bK ) = b0 + b1 sin(2 x ) + b2 cos (3x ) + K + bK sin (Kx ) (15)
2.1 Zasada najmniejszej sumy kwadratów odchyleń
Istota zasady najmniejszej sumy kwadratów odchyleń omówiona zostanie na przykładzie
Problem 1
D. I. Mendelejewa w 1906 r. w pracy „Podstawy Chemii” przedstawił wyniki badań rozpuszczalności azotanu sodu w zależności od temperatury. W eksperymencie tym wykonano 9
doświadczeń. Uzyskane wyniki przedstawiono w tabeli 2.1.
Tabela 2.1. Wyniki badań zależności rozpuszczalności azotanu sodu od temperatury.
Nr. doświadczenia
1
Temperatura,
x
0
Rozpuszczalność NaNO3,
y
66.7
2
4
71.0
3
10
76.3
4
15
80.6
5
21
85.7
6
29
92.9
7
36
99.4
8
51
113.6
9
68
125.1
Rozważania teoretyczne pozwalają na zaproponowanie liniowej zależności rozpuszczalności azotanu sodu, y, od temperatury, x
Mariusz B. Bogacki
5
Rozdział 2
Strona 6 z 24
y = b0 + b1 x + e = ŷ + e
(16)
gdzie e oznacza błędy, natomiast
ŷ = b0 + b1 x
(17)
jest aproksymacją nieznanej zależności y.
Podstawiając do zależności (16) nasze obserwacje xi, yi, i = 1, 2, ..., 9 otrzymujemy układ
9 równań o 11 niewiadomych b0, b1, e1, e2,...,e9.
yi = b0 + b1 xi + ei ,
i = 1, 2, ..., 9
(18)
Wziąwszy pod uwagę, że wszystkie wyniki doświadczeń obarczone są pewnymi błędami
oczywistym jest, że nie można wyznaczyć rzeczywistych wartości parametrów b0 i b1. Jedyne
co można zrobić, to wyznaczyć pewne oceny ich rzeczywistych wartości, które będą tym lepsze, im większa będzie liczba obserwacji N.
Najdogodniejszym sposobem wyznaczenia wartości parametrów jest wymóg, aby wartości bezwzględne błędów ei były dostatecznie małe. Wymóg ten spełnia zasada najmniejszej
sumy kwadratów błędów
N
N
S R = ∑ ( yi − ŷi ) = ∑ ei2 = min
2
i =1
(19)
i =1
Podstawiając zależność (18) do wzoru (19) uzyskamy
N
N
S R = ∑ ( yi − ŷi ) = ∑ ( yi − b0 − b1 xi )
2
i =1
2
(20)
i =1
Celem zminimalizowania sumy kwadratów odchyleń SR względem b0 i b1, wyznaczamy
odpowiednie pochodne cząstkowe
N
∂
S R = −2∑ ( yi − b0 − b1 xi )
∂b0
i =1
(21)
N
∂
S R = −2∑ ( yi − b0 − b1 xi )xi
∂b1
i =1
(22)
Mariusz B. Bogacki
6
Rozdział 2
Strona 7 z 24
Przyrównując powyższe wyrażenia do zera otrzymujemy tak zwany układ równań normalnych
N
− 2∑ ( yi − b0 − b1 xi ) = 0
(23)
i =1
N
− 2∑ ( yi − b0 − b1 xi )xi = 0
(24)
i =1
z którego po rozwiązaniu otrzymujemy wyrażenia na poszukiwane współczynniki
b0 =
N
N
N
N
i =1
i =1
i =1
i =1
2
∑ yi ∑ xi2 − ∑ xi yi ∑ xi
⎛ N ⎞
N ∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
N
N
N
=
N
1⎛ N
⎞
⎜ ∑ yi − b1 ⋅ ∑ xi ⎟
N ⎝ i =1
i =1
⎠
N
N ∑ xi y i − ∑ xi ∑ y i
b1 =
i =1
i =1
i =1
⎞
⎛
N ∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
N
(25)
N
2
(26)
Wykorzystując podane w tabeli 1 wyniki doświadczeń obliczyć można współczynniki regresji b0 = 67.5078 oraz b1 = 0.8706, uzyskując zależność
ŷ = 67.5078 + 0.8706 x
(27)
Uzyskany model porównać można z danymi doświadczalnymi (tabela 2.2.). Interpretację
graficzną przedstawiono natomiast na rysunku 1. Jak można zauważyć uzyskano dobrą zgodność wyników dla i = 2, 3, ..., 7, natomiast na krańcach przedziału temperatury x obserwujemy większe odchylenia. Przedstawione w tabeli 2 porównanie ilustruje bardzo istotną właściwość metody najmniejszej sumy kwadratów, którą zapisać można w postaci związku
N
∑e
i =1
i
N
= ∑ ( y i − b0 − b1 xi ) = 0
(28)
i =1
Wynik ten uzyskuje się bezpośrednio z warunku przyrównania pierwszej pochodnej do
zera (równanie 21).
Mariusz B. Bogacki
7
Rozdział 2
Strona 8 z 24
Zależność (28) oznacza, że wartość średnia zakłóceń wynosi 0. Jeśliby natomiast w rzeczywistości wartość średnia była różna od zera, to powiększałaby wartość parametru b0. Wynika stąd, że posługując się metodą najmniejszych kwadratów nie można wykryć średniej
wartości zakłóceń różnej od zera.
Tabela 2.2. Zależności rozpuszczalności azotanu sodu od temperatury. Porównanie wyników
badań oraz modelu ŷ = 67.5078 + 0.8706 x .
Nr doświadczenia, i
Temperatura
xi
Rozpuszczalność
Doświadczalna Obliczona z moyi
delu, ŷi
66.7
67.5
Błąd
ei
0
2
4
71.0
71.0
0.0
3
10
76.3
76.2
0.1
4
15
80.6
80.6
0.0
5
21
85.7
85.8
-0.1
6
29
92.9
92.7
0.1
7
36
99.4
98.8
0.5
8
51
113.6
111.9
1.7
8
68
125.1
126.7
-1.6
Rozpuszczalność NaNO3
1
-0.8
140
130
120
110
100
90
80
70
60
0
20
40
60
80
Temperatura
Mariusz B. Bogacki
8
Rozdział 2
Strona 9 z 24
Rysunek 2.2. Wykres zależności rozpuszczalności NaNO3 od temperatury. ♦ - punkty eksperymentalne. Linia ciągła – wyniki uzyskane z modelu ŷ = 67.5078 + 0.8706 x .
2.2. Obliczanie współczynników funkcji regresji
Przyjmijmy, że badany obiekt ma postać przedstawioną na rysunku 2.1. W ramach ekspe-
rymentu wykonano N doświadczeń zmieniając, w każdym z tych doświadczeń, wartości M
wejść x1, x2 ,..., xM. Uzyskano w ten sposób N odpowiadających im wartość wyjść y. Wyniki
przedstawić można w tabeli wejść X i wektorze wyjść Y (równanie 2 i 3).
Szukamy wielowymiarowej liniowej funkcji regresji o postaci
ŷ = ŷ (x , b0 , b1 ,K ,bK ) = b0 + b1 x1 + b2 x 2 + K + bK x K
(29)
która aproksymuje wartości nieznanej funkcji (1) w zadanych punktach doświadczalnych,
czyli
ŷi = b0 + b1 xi ,1 + b2 xi ,2 + K + bK xi ,K ,
i = 1,2 ,K , N
(30)
Nieznane parametry funkcji regresji (29) wyznaczamy przyjmując, że suma kwadratów
odchyleń wartości przewidywanych przez model od wartości zaobserwowanych w doświadczeniach danych przyjmuje, ze względu na parametry b0, b1, ..., bK, wartość minimalną
N
N
S R = ∑ ( y i − ŷi ) = ∑ ( yi − (b0 + b1 xi ,1 + b2 xi ,2 + K + bK xi ,K )) = min
2
i =1
2
(31)
i =1
Obliczamy pochodne cząstkowe funkcji SR względem tych parametrów
N
∂
S R = −2∑ ( yi − (b0 + b1 xi ,1 + b2 xi ,2 + K + bK xi ,K ))
∂a 0
i =1
N
∂
S R = −2∑ ( yi − (b0 + b1 xi ,1 + b2 xi ,2 + K + bK xi ,K ))xi ,1
∂a1
i =1
(32)
M
N
∂
S R = −2∑ ( y i − (b0 + b1 xi ,1 + b2 xi ,2 + K + bK xi ,K ))xi ,K
∂a K
i =1
Mariusz B. Bogacki
9
Rozdział 2
Strona 10 z 24
Po przyrównaniu powyższych pochodnych do zera, otrzymujemy układ równań normalnych, którego rozwiązanie daje nam oszacowanie współczynników b0, b1, ..., bK funkcji regresji (29).
Problem wyznaczania współczynników funkcji regresji szczególnie prosto przedstawić
można w zapisie macierzowym. Zapiszmy macierz wejść X w postaci
⎛ x1,0
⎜
⎜ x2 ,0
X=⎜ M
⎜
⎜ x N −1,0
⎜ x
⎝ N ,0
x1,1
x1,2
L
x 2 ,1
x2 ,2
L
M
M
O
x N −1,1
x N −1,2 L
x N ,1
x N ,2
L
x1,K ⎞
⎟
x2 ,K ⎟
M ⎟
⎟
x N −1,K ⎟
x N ,K ⎟⎠
(33)
w której, w sposób formalny, wprowadzono jako pierwszą kolumnę elementy
x1,0 = x2 ,0 = K = x N ,0 ≡ 1
(34)
Kolumna ta odpowiada wyrazowi wolnemu b0 w wyznaczanej funkcji regresji (29) i została wprowadzona celem ujednolicenia zapisu macierzowego wzorów.
Wyniki obserwacji wyjść obiektu
y = ( y1 , y 2 ,K , y N )
T
(35)
oraz wyjść modelu
yˆ = ( ŷ1 , ŷ 2 ,K , ŷ N )
T
(36)
zapisujemy w postaci odpowiednich wektorów, a nieznane parametry przedstawiamy jako
wektor
B = (b0 , b1 ,K , bK )
T
(37)
Przy tych oznaczeniach, w zapisie macierzowym, wartości funkcji regresji (30) przyjmą
postać
ˆy = X ⋅ B
(38)
natomiast zadanie minimalizacji sumy kwadratów odchyleń (31) przyjmie postać
Mariusz B. Bogacki
10
Rozdział 2
N
Strona 11 z 24
S R = ∑ ( yi − ŷi ) = (y − ˆy ) (y − ˆy ) = (y − XA ) (y − XA ) = min
2
T
T
(39)
i =1
Warunek optymalności otrzymamy różniczkując SR względem parametrów B
∂
S R = −2X T y + 2X T XA
∂B
(40)
i przyrównując do zera. W rezultacie otrzymujemy układ równań normalnych
2X T y = 2X T XA
(41)
skąd po lewostronnym pomnożeni obu stron równania (40) przez macierz odwrotną (XTX)-1,
otrzymujemy rozwiązanie w postaci
B = (X T X ) ⋅ X T Y
−1
(42)
Aby uzyskać rozwiązanie macierz współczynników XTX zwana również macierzą informacji nie może być osobliwa, to znaczy jej wyznacznik powinien być różny od zera
det (X T X ) ≠ 0
(43)
Oznacza to, że (i) kolumny macierzy wejść X muszą być liniowo niezależne oraz I liczba
wierszy w tej macierzy (liczba doświadczeń) powinna być nie mniejsza od liczby K + 1 nieznanych współczynników bi, i = 0, 2, ..., K.
Rozpatrzmy teraz przypadek ogólny wyznaczania współczynników wielomianowej nieliniowej funkcji regresji
ŷ = ŷ (x , b0 , b1 ,K ,bK ) = b0 f 0 (x ) + b1 f1 (x ) + b2 f 2 (x ) + K + bK f K (x )
(44)
gdzie fi(x) dla i = 1, 2, ..., K są z góry zadanymi, liniowo niezależnymi, funkcjami o argumentach
x = [x1 , x 2 ,K , x M ]
(45)
oraz funkcja
f 0 (x ) ≡ 1
(46)
jest w sposób formalny wprowadzoną funkcją mającą na celu ujednolicenie zapisu.
Mariusz B. Bogacki
11
Rozdział 2
Strona 12 z 24
Na podstawie tablicy wejść (3), uzyskanych z N doświadczeń, oblicza się elementy macierzy uogólnionych wejść
⎛
⎜
⎜
X=⎜
⎜
⎜
⎜
⎝
f 0 (x1 )
f1 (x1 )
f 0 (x 2 )
f1 (x 2 )
M
f 0 (x N −1 )
M
f1 (x N −1 )
f 0 (x N )
f1 (x N )
f 2 (x1 )
f 2 (x 2 )
L
L
M
O
f 2 (x N −1 ) L
f 2 (x N )
L
f K (x1 ) ⎞
⎟
f K (x 2 ) ⎟
⎟
M
⎟
f K (x N −1 )⎟
f K (x N ) ⎟⎠
(47)
gdzie
x i = (xi ,1 , xi ,2 ,K , xi ,M ),
i = 1,2 ,K N
(48)
są przyjętymi wartościami czynników w kolejnych doświadczeniach
Wyniki obserwacji wyjść obiektu i modelu zapisujemy w postaci odpowiednio wektorów
(35) i (36), natomiast wektor parametrów modelu w postaci (37). Stosując metodę najmniejszych kwadratów, analogicznie jak dla przypadku wielowymiarowego liniowego, otrzymujemy oszacowanie parametrów funkcji regresji
B = (X T X ) ⋅ X T Y
−1
(49)
2.3. Współczynnik korelacji wielowymiarowej
Znajomość funkcji regresji pozwala na przewidywanie przeciętnego zachowania się
obiektu. Oznacza to, że dla dowolnego zestawu wartości wejść
x 0 = (x10 , x 20 ,K , x M0 )
(50)
wyznaczyć można prognozowaną wartość wyjścia modelu
ŷ 0 = ŷ (x 0 , b0 , b1 ,K ,bK ) = b0 f 0 (x 0 ) + b1 f1 (x 0 ) + b2 f 2 (x 0 ) + K + bK f K (x 0 )
(51)
Znajomość funkcji regresji nie pozwala jednakże oszacować rozbieżności pomiędzy naszą prognozą ŷ 0 a rzeczywistym wyjściem obiektu y0 dla wartości wejścia x0. Problem ten
ilustruje rysunek 2.3, na którym przedstawiono identyczne funkcje regresji
ŷi = a0 + b1 xi
Mariusz B. Bogacki
(52)
12
Rozdział 2
Strona 13 z 24
przy czym na rysunku 2.3a obserwacje leżą blisko linii regresji, natomiast na rysunku
12
12
10
10
8
8
f(x)
f(x)
2.3b są one bardziej oddalone.
6
6
4
4
2
2
0
0
0
2
4
6
8
10
0
2
4
x
6
8
10
x
a)
b)
Rysunek 2.3. Korelacja danych eksperymentalnych z wartościami obliczonymi z modelu
ŷ = 0.0067 + 0.99 x . a) – przy małym rozproszeniu danych eksperymentalnych;
b) przy dużym rozproszeniu danych eksperymentalnych
Do określa natężenie związku pomiędzy dwiema wielkościami wyjściem obiektu y i wyjściem modelu ŷ stosuje się współczynnik korelacji wielowymiarowej R
N
N
_
⎞⎛ ^ _ ⎞
⎛
⎜ y i − y ⎟⎜ y i − y ⎟
∑
⎠
⎠⎝
i =1 ⎝
R=
N
2
_
⎞ N ⎛^ _⎞
⎛
⎜ yi − y ⎟ ⋅∑ ⎜ y i − y ⎟
∑
⎠
⎠ i =1 ⎝
i =1 ⎝
2
=
2
⎛^ _⎞
⎜ yi − y ⎟
∑
⎠
i =1 ⎝
N
_ 2
⎞
⎛
⎜ yi − y ⎟ ⋅
∑
⎠
i =1 ⎝
(53)
gdzie funkcja regresji
y i = y (xi ,1 , xi ,2 ,K , xi ,K ),
^
^
i = 1,2 ,K , N
(54)
_
jest funkcją K zmiennych, natomiast y oznacza wartość średnią wyjścia obiektu oraz modelu
Mariusz B. Bogacki
13
Rozdział 2
_
y=
N
1
N
∑ yi =
i =1
1
N
N
^
∑y
i =1
Strona 14 z 24
(55)
i
Powyższa równość wynika z pierwszego równania układu równań normalnych (równanie 23).
Współczynnik korelacji wielowymiarowej jest wielkością unormowaną, przyjmującą
wartości w przedziale
−1 ≤ R ≤ 1
(56)
Wartość współczynnika bliska 1 świadczy o silnym związku, natomiast mała wartość
współczynnika korelacji świadczy o słabym związku pomiędzy wyjściem obiektu, a wyjściem
modelu.
W praktyce chcemy zbadać istotność otrzymanego współczynnika korelacji wielowymiarowej R. Badanie to pozwala również na określenie istotności funkcji regresji. Służy do
tego test F Snedecora oparty na analizie wariancji w równaniu regresji
yi = ŷi + ei
(57)
^
Test F bada stosunek oszacowania s 2ŷ wariancji funkcji regresji y do oszacowania s 2y − ŷ
wariancji resztowej
F=
s 2ŷ
(58)
s 2y − ŷ
gdzie
N
s 2ŷ =
∑ ( ŷ
i =1
− y)
2
i
(59)
K
jest oszacowaniem wariancji funkcji regresji i pokazuje zmienność funkcji regresji wynikającą ze zmienności wejść x, a
N
s 2y − ŷ =
∑ (y
i =1
− ŷ i )
2
i
N − K −1
Mariusz B. Bogacki
(60)
14
Rozdział 2
Strona 15 z 24
jest oszacowaniem wariancji resztowej będącej miarą zmienności spowodowaną zakłóceniami e.
Podstawiając wzory (59) i (60) do wzoru (57) otrzymujemy
N
F=
( ŷ
N − K −1 ∑
K
i
− y)
i
− ŷi )
2
i =1
N
∑(y
i =1
2
=
N − K − 1 R2
K
1 − R2
(61)
Jeżeli zakłócenia e
e = (e1 , e2 ,K , e N )
T
(62)
występujące w równaniu regresji (57) są niezależne i mają jednakowe rozkłady normalne, to
funkcja testowa F jest zmienną losową o rozkładzie F Snedecora o K oraz N - K – 1 stopniach swobody.
Jeżeli otrzymana funkcja regresji jest istotna, to zmienność spowodowana zmiennością
wejść x powinna być większa od zmienności spowodowanej zakłóceniami e. Im funkcja regresji jest bardziej istotna, tym wartość funkcji testowej F powinna być większa.
Można więc postawić hipotezę zerową o nieistotności funkcji regresji w postaci
H 0 : σ ŷ2 ≤ σ y2− ŷ
(63)
wobec hipotezy alternatywnej
H 1 : σ ŷ2 > σ y2− ŷ
(64)
Jeżeli obliczona ze wzoru (61) wartość statystyki F jest większa od wartości krytycznej
Fr1,r2,α odczytanej z tablic F – Snedecora dla r1 = K oraz r2 = N – K – 1 stopni swobody oraz
poziomu istotności α, czyli gdy F > Fr1,r2,α to należy odrzucić hipotezę zerową H0 o nieistotności funkcji regresji i wnioskować o jej istotności.
W przeciwnym przypadku, to znaczy gdy F ≤ Fr1,r2,α, nie ma podstaw do odrzucenia hipotezy zerowej. W tym przypadku nie można niczego twierdzić o funkcji regresji. Aby coś o
niej stwierdzić, należy dysponować doświadczeniami o odpowiednio większej zmienności
wielkości wejściowych x obiektu, lub odpowiednio większą liczbą obserwacji N.
Mariusz B. Bogacki
15
Rozdział 2
Strona 16 z 24
2.4. Ocena parametrów modelu
Przyjmijmy, że badany obiekt opisywany jest w zapisie macierzowym równaniem
y = Xβ + e
(65)
gdzie zakłócenia e są wektorami zmiennych losowych stochastycznie niezależnych o rozkładzie normalnym o wartości oczekiwanej
E (e ) = 0
(66)
oraz macierzy kowariancji
⎛σ 2 0
⎜
2
⎜ 0 σ
cov (e ) = E (e T e ) = ⎜
M
M
⎜
⎜ 0
0
⎝
0 ⎞
⎟
K 0 ⎟
= Iσ 2
⎟
O M
⎟
K σ 2 ⎟⎠
K
(67)
gdzie σ2 są nieznanymi wariancjami błędów, a I jest macierzą jednostkową.
Oszacowania nieznanych parametrów β otrzymane na podstawie zasady najmniejszej
sumy kwadratów otrzymane z zależności
b = (X T X ) X T y
−1
(68)
zależą liniowo od y. Tak więc b jest również wektorem zmiennych losowych o rozkładzie
normalnym o wartości oczekiwanej
E (b ) = β
(69)
i macierzy kowariancji
cov (b ) = (X T X ) σ 2
−1
(70)
Zależność ta w zapisie rozwiniętym przyjmie postać
Mariusz B. Bogacki
16
Rozdział 2
⎛ var (b0 )
⎜
⎜ cov (b1b0 )
cov (b ) = ⎜
M
⎜⎜
⎝ cov (bK b0 )
⎛ c0 ,0 c0 ,1
⎜
⎜ c1,0 c1,1
=⎜
M
M
⎜
⎜c
⎝ K ,0 c K ,1
cov (b0 b1 ) L cov (b0 bK )⎞
⎟
var (b1 ) L cov (b1bK ) ⎟ 2
⎟σ =
M
O
M
⎟
cov (bK b2 ) L var (bK ) ⎟⎠
L c0 ,K ⎞
⎟
L c1,K ⎟ 2
σ
O
M ⎟
⎟
L c K ,K ⎟⎠
Strona 17 z 24
(71)
gdzie σ2 są wariancjami błędów, natomiast ci,j elementami macierzy odwrotnej (XTX)-1, zwane mnożnikami Gaussa. W praktyce nie znamy wariancji σ2 i posługujemy się jej estymatorem s 2y − ŷ (Równanie 60).
Ze wzoru (71) wynika, że wariancje współczynników regresji bi, i = 0, 1, 2, ..., K dane są
zależnością
var (bi ) = σ b2i = ciiσ 2 ,
i = 0,1,2 ,K , K
(72)
natomiast kowariancje współczynników bi, i bj
cov (bi b j ) = cijσ 2 ,
i , j = 0,1,2 ,K , K
(72)
Tak więc elementy diagonalne macierzy (XTX)-1 charakteryzują wariancje współczynników regresji bi, pozostałe zaś elementy charakteryzują kowariancje odpowiednich par bi oraz
bj, i, j = 0, 1, ..., K. Dlatego też macierz (XTX)-1 nazywamy macierzą kowariancyjną. Dodatkowo należy stwierdzić, że w przypadku ogólnym, gdy cov(bibj) ≠ 0, współczynniki regresji
nie są wyznaczane niezależnie od siebie.
Jedna z metod planowanie doświadczeń polega na takim doborze macierzy wejść X, aby
macierz kowariancyjna (XTX)-1, a tym samym macierz informacji XTX była macierzą diagonalną. Otrzymuje się wtedy niezależne oceny poszczególnych współczynników regresji.
Przedziały ufności dla poszczególnych współczynników regresji βi na poziomie ufności
1-α podaje zależność
bi − tkr s 2y − ŷ cii < β i < bi + tkr s 2y − ŷ cii
Mariusz B. Bogacki
(73)
17
Rozdział 2
Strona 18 z 24
gdzie tkr są wartościami krytycznymi odczytanymi z tablic t – Studenta dla N – K – 1
stopni swobody i przyjętym poziomie ufności 1 – α.
Duże znaczenie ma weryfikacja hipotez zerowych o nie istotności poszczególnych
współczynników regresji
H 0 : β k = 0,
k = 0,1,K , K
(74)
wobec hipotezy alternatywnej
H 1 : β k ≠ 0,
k = 0,1,K , K
(75)
Hipoteza ta oznacza, że pomiędzy wyjściem obiektu y, a niektórymi, danymi uogólnionymi wejściami fk(x) nie obserwuje się zależności liniowej. Celem zweryfikowania tej hipotezy obliczamy wartość funkcji testowej (statystyki)
t=
bk
σa
=
k
bk
s
2
y − ŷ
ckk
,
k = 0,1,K , K
(76)
Jeżeli obliczona wartość statystyki t jest większa od wartości krytycznej tr,α odczytanej z
tablic t – Studenta dla r = N – K stopni swobody oraz poziomu istotności α, to znaczy gdy t >
tr,α, to odrzucamy hipotezę zerową o nieistotności danego współczynnika regresji. W przeciwnym przypadku, gdy t ≤ tr,α nie ma podstaw do odrzucenia hipotezy zerowej.
Czasami interesuje nas sprawdzenie hipotezy zerowej postaci
H 0 : β k = β k0 ,
k = 0,1,K , K
(77)
w której βk0 jest przyjętą, daną z góry, rzekomo prawdziwą wartością współczynnika regresji
βk, wobec hipotezy alternatywnej
H 1 : β k ≠ β k0 ,
k = 0,1,K , K
(78)
Hipoteza ta oznacza, że niektóre parametry funkcji regresji przyjmują z góry dane wartości. Celem zweryfikowania tej hipotezy obliczamy wartość funkcji testowej (statystyki)
t=
bk − bk0
σa
k
=
bk − bk0
s 2y − ŷ ckk
Mariusz B. Bogacki
,
k = 0 ,1,K , K
(79)
18
Rozdział 2
Strona 19 z 24
Jeżeli obliczona z wzoru (79) wartość statystyki t jest większa od wartości krytycznej tr,α
odczytanej z tablic t – Studenta dla r = N – K - 1 stopni swobody oraz poziomu istotności α,
to znaczy gdy t > tr,α, to odrzucamy hipotezę zerową o nieistotności danego współczynnika
regresji. W przeciwnym przypadku, gdy t ≤ tr,α nie ma podstaw do odrzucenia hipotezy zerowej.
Korzystając z testu F – Snedecora wyznaczyć można dla współczynników regresji β pewien obszar ufności wyrażony zależnością
(b − β)T X T X (b − β) ≤ (K + 1)s 2y − ŷ Fkr
(80)
gdzie Fkr są wartościami krytycznymi odczytanymi z tablic F – Snedecora dla K + 1 i N
– K – 1 stopni swobody, przy przyjętym poziomie istotności α. Obszar ten w ogólnym przy-
padku jest (K + 1) wymiarową elipsoidą. W przypadku szczególnym, gdy K = 1, a funkcja
regresji jest funkcją liniową postaci
ŷ = b0 + b1 x
(81)
obszar ufności staje się elipsą (rysunek 2.4). Przedstawiony na rysunku obszar charakteryzuje
związki istniejące pomiędzy estymatorami parametrów b0 i b1.
β1
β0
Rysunek 2.4. Obszar ufności współczynników regresji β0 i β1 na poziomie ufności 1 - α
Jeżeli macierz kowariancyjna (XTX)-1 jest macierzą diagonalną, to można ustalić niezależne przedziały ufności dla każdego współczynnika regresji. W przypadku jednowymiaro-
Mariusz B. Bogacki
19
Rozdział 2
Strona 20 z 24
wym, gdy K = 1 obszar ten dla przypadku ogólnym, gdy wariancje współczynników są różne
ma postać przedstawioną na rysunku 2.5a, i na rysunku 2.5b w przypadku równych wariancji.
β1
β1
β0
a)
β0
b)
Rysunek 2.5. Obszary ufności współczynników regresji βo i β1 na poziomie ufności 1 - α w
przypadku diagonalnej macierzy kowariancji. K = 1. a) różne wariancje; b) równe wariancje.
2.6. Obliczanie przedziałów ufności dla funkcji regresji
Dysponując funkcją regresji interesuje nas dokładność prognozowanych przez nią warto-
ści wyjść
ŷ 0 = b0 + b1 f 1 (x 0 ) + K + bK f K (x 0 )
(82)
odpowiadających wejściom
x 0 = (x10 , x 20 ,K , x K0 )
(82)
Celem ujednolicenia zapisu wprowadźmy oznaczenia
X 0 = (1
f 1 (x 0 )
f 2 (x 0 ) L
f k (x 0 )) T
(84)
oraz
b = (b0 ,b1 ,K ,bK )
(85)
wtedy równanie (82) przedstawić można w postaci
Mariusz B. Bogacki
20
Rozdział 2
Strona 21 z 24
ŷ0 = X 0 ⋅ b
(86)
Ponieważ b jest zmienną losową wielowymiarową o rozkładzie normalnym, przy założeniu rozkładu normalnego zakłóceń e, więc ŷ 0 jest również zmienną losową o rozkładzie
normalnym o wartości oczekiwanej
(
)
E ( ŷ 0 ) = E (X 0 ) b = (X 0 ) β
T
T
(87)
oraz wariancji
var ( ŷ 0 ) = σ ŷ20 = σ 2 ⋅ (X 0 ) ⋅ (X T X ) X 0
−1
T
(88)
W obliczeniach nieznaną wariancję σ2 zastąpimy jej oszacowaniem, otrzymując
s 2ŷ 0 = s 2y − ŷ ⋅ (X 0 ) ⋅ (X T X ) X 0
T
−1
(89)
Jak wynika ze wzoru (88), wariancja wartości wyjścia ŷ 0 zależy nie tylko od macierzy
kowariancji wektora współczynników b, lecz również od wartości wektora wejść x0.
Wariancja (88) wartości prognozowanej ŷ 0 przez funkcję regresji nie jest stała. Przedział
ufności na poziomie 1 – α dla prognozowanej wartości wyjścia ŷ 0 wynosi
ŷ 0 ± tkr ⋅ s ŷ 0 = ŷ 0 ± tkr s y − ŷ
(X ) ⋅ (X X )
0 T
T
−1
X0
(90)
gdzie tkr jest wartością wyznaczoną z tablic t – Studenta na poziomie ufności 1 – α i liczbie
stopni swobody N – K – 1, i zależy od wartości wejść X0. Na rysunku 2.6 przedstawiono
przykładowo przedziały ufności dla funkcji jednowymiarowej typu
ŷ 0 = a + b ⋅ x 0
(91)
Przedziały ufności dla jednowymiarowej funkcji regresji noszą nazwę krzywych ufności
funkcji regresji.
Mariusz B. Bogacki
21
Rozdział 2
Strona 22 z 24
140
2
Ubytek, mg/dm /dzień
130
120
110
100
90
80
70
0
0.5
1
1.5
2
Fe
Rysunek 2.6. Zależność ubytku próbki stopu Cu – Ni w badaniach korozyjnych w zależności
od zawartości żelaza.
Czasami interesuje nas nie przedział ufności dla wartości prognozowanej ŷ 0 , lecz przedział ufności dla wartości wyjścia y0. Inaczej mówiąc chcemy oszacować odchylenie pojedynczej obserwacji od funkcji regresji. Należy tu zwrócić uwagę, że pojedyncza obserwacja
charakteryzuje się większym odchyleniem (dyspersją) aniżeli funkcja regresji.
Dla danego X0 obliczamy ŷ 0 . Ponieważ zmienne losowe y0 i ŷ 0 są niezależne, to odchylenie będące zmienną losową y 0 − ŷ 0 ma wariancję równą sumie wariancji
(
var ( y 0 − ŷ 0 ) = var ( y 0 ) + var ( ŷ 0 ) = σ 2 1 + (X 0 ) ⋅ (X T X ) X 0
T
−1
)
(92)
Zastępując w powyższym wzorze wariancję σ2 jej estymatorem, otrzymamy przedział ufności na poziomie ufności 1 – α dla wartości wyjścia obiektu y0, odpowiadającej wartościom
wejść X0 i wynoszący
ŷ 0 ± t kr s y − ŷ 1 + (X 0 ) ⋅ (X T X ) X 0
T
−1
(93)
gdzie tkr są wyznaczone z tablic t – Studenta dla założonego poziomu ufności 1 – α i
liczbie stopni swobody N – K – 1.
Mariusz B. Bogacki
22
Rozdział 2
Strona 23 z 24
2.7. Przypadek szczególny – jednowymiarowy
Bardzo często spotykamy się z jednowymiarową funkcją regresji postaci
y = a + bx + e
(94)
W takim przypadku wygodniej jest zamiast stosować wzory ogólne używać ich postaci
uproszczonych.
W przypadku ocena dokładności wartości przewidywanej przez model ŷ 0 dla danego x0
ŷ 0 = a + b ⋅ x 0
(95)
wariancja dla wartości obliczonej wynosi
σ ŷ2
0
⎧
⎪⎪ 1
= σ y2− ŷ ⋅ ⎨ +
⎪N
⎪⎩
⎫
(x − x ) ⎪⎪
⎬
N
2
( xi − x ) ⎪
∑
⎪⎭
i =1
0
2
(96)
Wariancja wyrazu wolnego obliczamy z zależności
N
σ a2 =
∑x
i =1
N
2
i
N ⋅ ∑ ( xi − x )
2
⋅ σ y2− ŷ
(97)
i =1
a współczynnika kierunkowego z zależności
σ b2 =
σ y2− ŷ
N
∑ (x
i =1
− x)
(98)
2
i
Odpowiednie przedziały ufności dla wyrazu wolnego
a ± t r2 ,α σ a2 .
)( 9)
i współczynnika kierunkowego
b ± t r2 ,α σ b2
Mariusz B. Bogacki
(100)
23
Rozdział 2
Strona 24 z 24
Gdzie tr2,α jest wartością krytyczną odczytaną z tablic t – Studenta dla r2 = N – K – 1
stopni swobody i poziomu istotności α.
2.8 Kilka mądrych myśli
• W praktyce metoda analizy regresji często nie daje dobrych wyników. Nie jest to wa-
dą metody, lecz zwykle wadą samego eksperymentu.
•
Wielkości wejściowe z reguły zmieniają się w bardzo wąskich przedziałach. Stajemy
więc przed zadaniem identyfikacji złożonej charakterystyki statycznego obiektu na
podstawie informacji dotyczących właściwie jednego punktu pracy.
•
Często wpływ zakłóceń na wielkość wyjściową jest dużo większy w porównaniu z
wpływem zmienności wielkości wejściowych.
•
W ogólnym przypadku funkcja regresji jest wzorem interpolacyjnym, którego współczynnikom nie należy przypisywać żadnego sensu fizycznego.
•
Istotność otrzymanej funkcji regresji nie świadczy o tym, że wielkość wyjściowa zależy od wielkości wejściowych. Istotność świadczy jedynie o korelacji pomiędzy
wielkościami, lecz nie świadczy o istnieniu związku przyczynowego pomiędzy nimi
(ale go nie wyklucza).
Mariusz B. Bogacki
24

K - Politechnika Poznańska

Transkrypt

Podobne dokumenty

Zadanie 1. Regresja liniowa: a)Badając zależność pomiędzy

Cecha niezależna

Podstawy statystyki

Kalkulator matematyczny FB-82MS-L Quer

(Testowanie poprawnoœci wyboru postaci analitycznej)

Untitled - E-SGH

500 x 230 )yy( 250 )xx( 20)y,xcov( 180 x 120 y 100 e - E-SGH

REGRESJA (postać liniowa funkcji) Zadanie 1 W celu - E-SGH

Lista13