REGRESJA LINIOWA ∑ 2 ∑ ∑
Transkrypt
REGRESJA LINIOWA ∑ 2 ∑ ∑
REGRESJA LINIOWA Jeżeli zmierzono obarczone tylko błędami przypadkowymi wartości ( xi, yi ), i = 1, 2, ..., n dwóch różnych wielkości fizycznych X i Y, o których wiadomo, że są związane ze sobą zależnością liniową y = f(x), to najlepszym przybliżeniem współczynników A i B w równaniu y = Ax + B jest ⎡ ⎛ n ⎞ ⎛ n ⎞⎛ n ⎞⎤ 1 A = ⎢n⎜ ∑ xi yi ⎟ − ⎜ ∑ xi ⎟ ⎜ ∑ yi ⎟ ⎥ ⋅ , ⎠ ⎝ i =1 ⎠ ⎝ i =1 ⎠ ⎦ Γ ⎣ ⎝ i =1 ⎡⎛ n ⎞⎛ n ⎞ ⎛ n ⎞⎛ n ⎞⎤ 1 B = ⎢⎜ ∑ xi2 ⎟ ⎜ ∑ yi ⎟ − ⎜ ∑ xi ⎟ ⎜ ∑ xi yi ⎟ ⎥ ⋅ , ⎠⎦ Γ ⎣⎝ i =1 ⎠ ⎝ i =1 ⎠ ⎝ i =1 ⎠ ⎝ i =1 gdzie ⎞ ⎛ n ⎞ ⎛ n Γ = n⎜ ∑ xi2 ⎟ − ⎜ ∑ xi ⎟ ⎝ i =1 ⎠ ⎝ i =1 ⎠ 2 Wielkości charakteryzujące zależność liniową zostały obliczone w oparciu o punkty doświadczalne, a te obarczone są niepewnościami związanymi z wykonywanymi pomiarami. Dlatego współczynniki A i B też są wyznaczane z pewną dokładnością. Niepewności wielkości A i B obliczamy następująco: n δA = σ y n , Γ δB = σ y ∑x 2 i i =1 Γ , gdzie n σy = ∑(y i =1 i − Axi − B ) n−2 2 = ∑ε 2 i i n−2 UWAGA: 1. Aby narysować „prostą regresji liniowej” na papierze milimetrowym wybieramy dowolne ( względnie odległe od siebie) współrzędne xp i xk ( nie współrzędne punktów pomiarowych ! ), obliczymy odpowiadające im współrzędne yp i yk według równania y = Ax + B ( A i B już są znane ), nanosimy punkty o współrzędnych (xp, yp) oraz ( xk, yk ) i przez te punkty przeprowadzamy prostą. Punkty odpowiadające wynikom naszych pomiarów wraz z ich niepewnościami powinny rozkładać się równomiernie w pobliżu tej prostej i może się okazać, że żaden z naszych punktów pomiarowych nie leży na niej ! Znaczne odstępstwa ( ponad 30 % ) punktów pomiarowych od linii teoretycznej pozwalają przypuszczać, że mierzone wielkości nie są liniowo zależne. Wtedy też współczynnik korelacji znacznie różni się od jedności. Jeśli te odstępstwa dotyczą małej ilości punktów pomiarowych usytuowanych w różnych częściach wykresu to przyjmujemy, że punkty te obarczone są tzw. błędem grubym. Takie punkty odrzucamy, a dla pozostałych ponownie obliczmy wszystkie parametry prostej najlepszego dopasowania tzn. A, δA, B, δB oraz współczynnik korelacji R. 1 2. Wszystkie kalkulatory typu „ SCIENTIFIC”, które wykonują obliczenia statystyczne jednej zmiennej, automatycznie obliczają sumy typu ∑ xi , ∑ xi2 , gdzie i = 1,2,3,...n . Kalkulatory pozwalające i i wykonywać obliczenia statystyczne na dwóch zmiennych, obliczają także sumy typu ∑ yi , ∑ yi2 , ∑ xi yi . Możliwe więc jest wyznaczenie wszystkich parametrów prostej najlepszego i i i dopasowania metodą regresji liniowej zwanej również metodą najmniejszych kwadratów. Przed obliczeniami sprawdzić w instrukcji dołączonej do kalkulatora, czy regresja jest liczona dla równania y = Ax + B czy dla y = A + Bx. Aby wyznaczyć niepewności współczynników A i B przy pomocy kalkulatora wygodniej jest zastosować następujące przybliżenie ∑ε 2 i i zamiast ∑ε ≅ ∑ yi2 − A∑ xi yi − B ∑ yi i 2 i i i i = ∑ ( yi − Axi − B) 2 i Procedura ta może wpłynąć na zmianę wartości σy, która zależna jest od ∑ε 2 i . W konsekwencji może i to spowodować zmianę wartości δA i δB choć wyrażenia pozostają takie same δA = ∑ε i 2 i n Γ n−2 δB = ∑ε 2 i i n−2 ∑x 2 i i Γ W rozważanym przykładzie y1= f(x) z wzorów „wygodnych” mamy ∑ε 2 i ≅ 469,8796 – 344,0643 – 124,6749 = 1,140437 i ∑ε i 2 i n−2 = 1140437 , = 0,6165595 3 δA = 0,1992366 δB = 0,6618653 Na podstawie wzorów „dokładnych” otrzymano ∑(y i − Axi − B) 2 i n−2 , 11404299 = 0,6165576 3 = δA = 0,1992360 δB = 0,6618633 Widać, że zgodność otrzymanych wielkości liczbowych jest bardzo dobra. Celowo zaniechano zaokrągleń. Równanie prostej najlepszego dopasowania będzie y1 = ( 2,1541 ± 0,1993)x + ( 2,707 ± 0,662 ) Ten sposób obliczania niepewności δA i δB jest o wiele prostszy i szybszy lecz mniej dokładny. Może na przykład zawyżać wartości poszukiwanych wielkości δA i δB niezależnie od zaokrągleń różnych wielkości na poszczególnych etapach obliczeń. Poza tym, schematyczne stosowanie przybliżonej zależności 2 ∑ε i 2 i ≅ ∑ yi2 − A∑ xi yi − B ∑ yi może prowadzić do bezsensownych wartości liczbowych wielkości i i i ∑ε 2 i i ( np. wartości ujemne !!! ) nawet przy dużej dokładności pomiarów i obliczeń. W przypadku, gdy przy obliczaniu wyrażenia przybliżonego ∑ εi2 występuje różnica dwóch dużych, prawie jednakowych liczb, i ∑ε należy koniecznie posłużyć się zależnością definicyjną 2 i i = ∑ ( yi − Axi − B) 2 . i WSPÓŁCZYNNIK KORELACJI Współczynnik korelacji R jest miarą liczbową korelacji (związku, współzależności) zmiennych xi i yi (i = 1, 2, 3,...n) tworzących serie pomiarów wielkości X i Y. Z jednej strony służy do upewnienia się, czy mamy wystarczającą ilość n pomiarów wielkości xi i yi by twierdzić, że zachodzi między nimi korelacja czyli zależność np. liniowa, wykładnicza, logarytmiczna. Z drugiej strony R jest miarą prawdopodobieństwa istnienia przyjętej (postulowanej) współzależności zmiennych xi i yi. Jeżeli związek między zmiennymi xi i yi jest liniowy, y = f(x), to R nazywamy współczynnikiem korelacji liniowej, a współzależność między dwiema seriami pomiarów - korelacją liniową. Korelacja jest tym silniejsza, im większą wartość z przedziału [-1, +1 ] osiąga ⎢R ⎢. Duża wartość współczynnika ⏐R⏐ świadczy o dużym prawdopodobieństwie postulowanego związku zmiennych xi i yi . W szczególności R = ±0,95 oznacza prawdopodobieństwo równe 95% dla badanej współzależności. Tak więc, może zachodzić korelacja liniowa pomiędzy punktami doświadczalnymi (xi , yi), lecz obarczona jest niepewnością względną wynoszącą 5%. Jeżeli R = ± 1 mówimy o korelacji zupełnej, jeżeli R = 0 to mówimy o braku korelacji. Mała wartość współczynnika korelacji R może wskazywać na zbyt krótką serię pomiarów lub na inną, niż przyjęto, współzależność między wielkościami xi i yi. W pierwszym przypadku przeprowadzamy pomiary uzupełniające, a w drugim, o ile nie przeczy to prawom rządzącym badanym związkiem między seriami pomiarów, sprawdzamy inną korelację, np. krzywoliniową zamiast liniowej. Informacje dotyczące regresji nieliniowej zawarte są w § 4.2. skryptu „Ćwiczenia laboratoryjne z fizyki, cz.I. Podstawy opracowania wyników pomiarów” OWPWr., Wrocław 1999 - POPRAWSKI R., SALEJDA W. Jeżeli natomiast wiadomo, że związek między wielkościami xi i yi ma charakter wykładniczy, to warto najpierw dokonać tzw. linearyzacji badanej zależności a następnie skorzystać z metody regresji liniowej. Więcej na ten temat można znaleźć w §3.3. wspomnianego skryptu. Graniczne wartości ⎢R ⎢w zależności od liczby pomiarów n, od których wzwyż można wnioskować o istnieniu współzależności, przedstawia poniższa tabela. n ⎢R ⎢ 5 0,99 10 0,84 20 0,64 30 0,53 40 0,47 50 0,42 75 0,35 100 0,30 500 0,14 1000 0,10 10000 0,03 Rozumiemy ją następująco: jeżeli np. dla n = 10 otrzymano wartość współczynnika korelacji | R | nie mniej niż 0,84, to przyjęty związek między wielkościami xi i yi jest poprawny, ale tylko w 84%. W związku z tym, nie można spodziewać się ułożenia wszystkich punktów pomiarowych na linii najlepszego dopasowania. 3 Wartości średnie x i y zmiennych xi i yi , standardowe odchylenia pojedynczego pomiaru Sx i Sy , współczynnik korelacji R i parametry prostej y = Ax + B spełniają następujące relacje: A=R Sx = Sy B = y − Ax Sx ∑ (Δx ) i 2 i Sy = n −1 ∑ (Δy ) 2 i i n −1 gdzie: Sx i Sy – odchylenia standardowe pojedynczej wartości z serii pomiarów xi i yi , Δx = xi - x , Δy i = yi - y , x i y – wartości średnie serii xi i yi , n – ilość pomiarów w seriach xi i yi . W programie użytkowym Excel przy wykonywaniu wykresów można określić współczynnik korelacji, jednak niepewności współczynników A i B liczymy korzystając ze wzorów regresji liniowej, lub korzystając z programów „regresja”. Należy pamiętać, że w przypadku mianowanych wielkości zmiennych xi i yi również współczynniki A, δA, B i δB są wielkościami mianowanymi – należy podawać wartości tych współczynników wraz z jednostkami !!!. Wskazane jest także podanie faktycznej zależności, dla której zastosowana będzie metoda regresji liniowej. Przykładowo rozważmy odkształcenia jednoosiowe (np. rozciąganie drutu), które w wąskim zakresie naprężeń podlegają prawu Hooke’a: E ΔL L0 = F , S gdzie: LO i S - wielkości stałe dla danego drutu ( długość początkowa i pole przekroju poprzecznego) F – siła powodująca naprężenie ( F = mg ), ΔL – wydłużenie drutu pod wpływem siły F, E – moduł Younga, poszukiwany parametr drutu. ΔL F , A ≡ E oraz δA ≡ ΔE. L0 S ES S ΔL ≡ m to x ≡ ΔL, y ≡ m oraz A ≡ . Jeśli natomiast funkcją liniową przybliży się wyrażenie E L0 g L0 g W tym przypadku moduł Younga, E, należy obliczyć na podstawie wartości liczbowych A, S, L0 i g, a jego niepewność ΔE - na podstawie niepewności δA, ΔS, ΔL0 i Δg. Obie metody są poprawne, jednak pierwsza pozwala bezpośrednio wyznaczyć szukany parametr E i niepewność ΔE. Wymiary współczynników prostej regresji ( A, B ) w każdym z prezentowanych przykładów będą oczywiście różne. Jeśli ta zależność zostanie przybliżona funkcją liniową y = Ax + B to x ≡ 4 , y ≡ Przykład: Dokonano pomiarów o różnej precyzji. Wyniki pomiarów wielkości xi i yi zebrano w tabeli. a) tabela i wykres wykonane za pomocą programu Excel Lp. x y=f(x) 1 1,12 5,25 2 2,02 6,80 3 2,95 8,99 4 3,98 5 5,03 11,03 x 1,12 2,02 2,95 3,98 y1 = f ( x ) 5,25 6,40 9,49 11,83 13,09 5,03 13,09 Jak widać, dla funkcji y1 = f (x) czyli y = 2,154 x + 2,707 współczynnik korelacji R = 0,987 jest za mały (dla n = 5, współczynnik R ≥ 0,99) czyli nie można powiedzieć ,że występuje liniowa zależność y (x ). Należy więc wykonać dodatkowe pomiary w innych , lub w tych samych punktach (zagęścić pomiary, powtórzyć wątpliwe lub/i rozszerzyć zakres pomiarowy). b) obliczenia wykonane na podstawie pomiarów y = f(x) ujętych w tabeli powyżej za pomocą programu regresja.zip znajdującego się w sieci internetowej pod adresem: http://www.if.pwr.wroc.pl/~dydaktyka/LPF/programy/index.htmi A = 2,036 E + 0 B = 2,884 E + 0 Współczynniki: Niepewność współczynników: δA = 4,534 E – 2 δB = 1,506 E – 1 c) obliczenia wykonane na podstawie pomiarów ujętych w tabeli w punkcie a) za pomocą programu regresja.exe znajdującego się w komputerze w LPF pod adresem: C:\UŻYTKI\regresja.exe Równanie prostej: Niepewność współczynników: y = 2,036 x + 2,884 δA ≡ δa = 0,045 δB ≡ δb = 0,151 Takie równanie należy przepisać, stosując prawidła zaokrąglenia, w następujący sposób: y = ( 2,036 ± 0,045 ) x + ( 2,88 ± 0,16 ) 5