Chemometria w praktyce - ćwiczenia laboratoryjne (część III)

Transkrypt

Chemometria w praktyce - ćwiczenia laboratoryjne (część III)
Ćwiczenie nr 7:
REGRESJA LINIOWA
Wstęp ogólny:
Dotychczas wydarzyło się, co następuje:
Na początku stworzony został Wszechświat. Jego pojawienie się w obecnej formie po
dziś dzień wywołuje głosy niezadowolenia i rozczarowania; w powszechnej świadomości
zostało jednak uznane za znakomity pomysł.
Następnie, ludzkość wynalazła (albo raczej: odkryła) matematykę. Z tego powodu przez
świat nieustannie przetaczają się fale krytyki i oburzenia, ponieważ w pewnych kręgach panuje
przekonanie, iż świat pozbawiony matematyki byłby miejscem odrobinę bardziej
romantycznym; a nade wszystko – nie zawierałby formularzy zeznań podatkowych 20.
Potem ci, którzy ostatecznie zrozumieli matematykę, postanowili używać jej do
modelowania zależności, występujących w otaczającej nas rzeczywistości. To niesamowite i
brzemienne w skutki przedsięwzięcie już za chwilę dotknie Studenta w sposób bezpośredni,
ponieważ jest tematem trzech kolejnych ćwiczeń laboratoryjnych.
Wstęp do ćwiczenia:
Na wskazanej stronie internetowej, względnie na pendrive Prowadzącego, znajdują się
dwa programy: PROCES1.EXE oraz MEOD.EXE.
Program PROCES1.EXE pozwala na symulowanie wyznaczania szybkości reakcji
enzymatycznej w zależności od temperatury procesu i pH roztworu. Mówiąc językiem
chemometrycznym: program generuje wartość zmiennej zależnej (szybkość reakcji) na
podstawie wartości dwóch zmiennych objaśniających (temperatura, pH).
Celem ćwiczenia jest zaproponowanie takiego modelu zależności zmiennej zależnej
od zmiennych objaśniających, który pozwoli na możliwie wierne odtworzenie wartości
zmiennej zależnej, które generuje program PROCES1.EXE.
Można tego dokonać dzięki przebiegłemu zaplanowaniu punktów pomiarowych,
przygotowaniu zestawu danych wejściowych i wykonaniu regresji liniowej w programie
MEOD.EXE, który poda - w dużej części samodzielnie - gotowy model zależności.
I. PLANOWANIE DOŚWIADCZEŃ.
Aby zbudować model zależności, najpierw należy obliczyć kilka wartości zmiennej
zależnej, wprowadzając do programu PROCES1.EXE wartości zmiennych objaśniających.
Inaczej rzecz ujmując: konieczne jest przygotowanie zbioru uczącego. Aby liczba "pomiarów"
była optymalna, a przy tym umożliwiająca (nie: gwarantująca!) zbudowanie dobrego modelu,
należy odpowiednio zaplanować "doświadczenie".
Przebiegłe zaplanowanie punktów pomiarowych w tym przypadku sprowadza się do
wykorzystania centrowanego planu doświadczeń typu 2n, gdzie n - liczba zmiennych
objaśniających (w tym przypadku n = 2).
20
"Rzeczą, którą najtrudniej w świecie zrozumieć, jest podatek dochodowy" – Albert Einstein.
59
Plan taki wygląda następująco:
zmienna
objaśniająca #1:
1
-1
1
-1
0
0
0
0
zmienna
objaśniająca #2:
1
1
-1
-1
0
0
0
0
człon
interakcyjny
1
-1
-1
1
0
0
0
0
i zawiera położenie punktów pomiarowych w tzw. współrzędnych planu.
W sekcji II opiszemy, jak należy dokonać przekształcenia zmiennych planu na zmienne
objaśniające oraz jak wykonać "pomiary".
II. WYKONANIE "POMIARÓW"21.
Program PROCES1.EXE dopuszcza następujące zakresy wartości
objaśniających:
 temperatura: 20-30°C;
 pH roztworu: 6.0-9.0.
zmiennych
Należy najpierw wybrać wartości środkowe zmiennych objaśniających (t0, pH0 odpowiadają one wartościom 0 w planie doświadczeń), a następnie wartości skrajne tych
zmiennych (odpowiadają one wartościom -1 i 1 w planie doświadczeń), przy czym
wartości skrajne dla danej zmiennej muszą być oddalone od wartości środkowej o tę samą
wartość i mieścić się w dopuszczalnych zakresach wartości podanych powyżej. Innymi
słowy; dla zmiennej t, wartości skrajne to: t0-Δt i t0+Δt; zaś dla zmiennej pH: pH0-ΔpH i
pH0+ΔpH.
Wartości t0, Δt, pH0 i ΔpH Student dobiera samodzielnie - Prowadzący, z przyczyn,
których współczesna laryngologia nie potrafi wytłumaczyć, posiada uszy niewrażliwe na
pytania dotyczące poprawności dobranych wartości.
Summa summarum, tabela "pomiarów", które należy wykonać, wyglądają następująco:
L.p.
t
pH
1
t0+Δt
pH0+ΔpH
2
t0-Δt
pH0+ΔpH
3
t0+Δt
pH0-ΔpH
21
Programy PROCES1.EXE, MODEL.EXE, MEOD.EXE oraz PCA.EXE mogą nie uruchomić się w
niektórych wersjach systemów Windows Vista i Windows 7, ze szczególnym wskazaniem na edycje
64-bitowe. Aby pokonać tę trudność i uruchomić te programy w ww. środowiskach, zapraszamy do
lektury Dodatku C na końcu niniejszej instrukcji.
60
4
t0-Δt
pH0-ΔpH
5
t0
pH0
6
t0
pH0
7
t0
pH0
8
t0
pH0
Pewne wątpliwości może budzić konieczność czterokrotnego powtarzania tego samego
"pomiaru" (punkty 5-8) - program PROCES1.EXE posiada jednak wbudowany generator
liczb losowych, dzięki czemu, nawet dla tych samych wartości zmiennych objaśniających,
zawsze otrzymuje się nieco inną wartość zmiennej zależnej.
Program PROCES1.EXE nie toleruje przecinków – jedynie kropki.
UWAGA! Należy na bieżąco notować kolejne, obliczone wartości zmiennej zależnej,
które program wyświetla, do pliku tekstowego o nazwie szyb.txt; w następujący sposób:
każda kolejna wartość w nowym wierszu, z kropkami zamiast przecinków.
III. PRZYGOTOWANIE DANYCH WEJŚCIOWYCH.
Oprócz gotowego już pliku szyb.txt, który zawiera "zmierzone" wartości zmiennej
zależnej, należy jeszcze utworzyć pliki tekstowe z wartościami zmiennych planu. Plik t.txt
powinien zawierać lewą kolumnę tabeli przedstawionej w sekcji I (zera i jedynki, bez
nagłówka); zaś plik pH.txt - kolumnę środkową tej tabeli. Warto również utworzyć plik
pHt.txt, który zawiera kolumnę prawą (człony interakcyjne).
IV. TWORZENIE MODELU.
Aby przystąpić do tworzenia modelu, należy umieścić wszystkie dane wejściowe (pliki
szyb.txt, t.txt, pH.txt i pHt.txt) w katalogu, w którym znajduje się MEOD.EXE,
uruchomić program, a następnie postępować według wyświetlanych instrukcji. Poniżej
przedstawiliśmy pełny zapis dialogu komputera z użytkownikiem programu, wraz z
didaskaliami.
MEOD:
STUDENT:
MEOD:
STUDENT:
MEOD:
STUDENT:
MEOD:
STUDENT:
22
METODA ODRZUCANIA!
O matko.
Program służy do wyznaczania współczynników równania
regresji metodą najmniejszych kwadratów...
<naciska Enter>
Liczba zmiennych:22
2
nazwa 1. zmiennej...
t
MEOD.EXE pyta o zmienne objaśniające.
61
MEOD:
STUDENT:
MEOD:
STUDENT:
MEOD:
STUDENT:
MEOD:
STUDENT:
MEOD:
STUDENT:
MEOD:
STUDENT:
MEOD:
STUDENT:
MEOD:
STUDENT:
MEOD:
STUDENT:
MEOD:
STUDENT:
nazwa 2. zmiennej...
pH
nazwa zmiennej zaleznej...
szyb
Liczba punktow:
8
Dane z dysku?
t
Czy zapisac wynik na plik?
t
Nazwa pliku wynikowego:
<tworzy unikalną w skali świata nazwę, złożoną z
maksymalnie 8 znaków>
<wyświetla rzeczy niesamowite>
<nie wie, co o tym myśleć>
Czy wypisac zm. zalezna?
t
Korytarz bledu?
n <po czym odpowiada na znajome już pytania, do
czasu, aż MEOD obwieści...>
NACISNIJ DOWOLNY KLAWISZ!!
<naciska dowolny klawisz, po czym dumnie rozgląda się
po sali>
Gotowe równanie regresji znajduje się w pliku wynikowym, z rozszerzeniem *.OUT.
Należy go otworzyć np. za pomocą Notatnika.
Może się zdarzyć, że jeden lub obydwa współczynniki pierwszego równania modelu
okażą się nieistotne statystycznie (w kolumnie istotnosc pojawią się wartości ujemne).
Program MEOD.EXE zastosuje wówczas metodę odrzucania, polegającą na iteracyjnym
usuwaniu z modelu najbardziej nieistotnych członów. Takie zachowanie programu w trakcie
wykonywania niniejszego ćwiczenia będzie oznaczało, że Student niepoprawnie przygotował
dane wejściowe. W takich sytuacjach, Prowadzący będzie służył pomocą oraz pocieszeniem
duchowym.
Przykład:
Wybraliśmy przykładowe parametry zmiennych objaśniających: t0 =
25°C; Δt = 3°C; pH0 = 7,5; ΔpH = 1. Po wykonaniu ośmiu pomiarów
otrzymaliśmy następującą macierz danych wejściowych:
Nr
1
2
3
4
5
6
7
szyb
5.6410
2.5730
9.2880
6.6320
5.9060
5.7340
5.7960
t
pH
1.0000 1.0000
-1.0000 1.0000
1.0000 -1.0000
-1.0000 -1.0000
0.0000 0.0000
0.0000 0.0000
0.0000 0.0000
62
8
6.0350
0.0000
0.0000
Zastosowanie programu MEOD.EXE doprowadziło w pierwszym kroku do
uzyskania poniższego równania regresji:
ROZWIAZANIE ROWNANIA REGRESJI
wspol[0]
wspol[
wspol[
wspolczynniki
=
5.9506
t] =
1.4310
pH] =
-1.9265
odchylenie
0.1574
0.2225
0.2225
istotnosc
94.6493
13.9607
19.6850
W pliku wynikowym, w kolumnie zatytułowanej "odchylenie" znajdują
się wartości odchyleń standardowych współczynników regresji, zaś w
kolumnie
"istotnosc"
wyniki
testu
istotności
odpowiednich
współczynników. Współczynnik uznajemy za istotny, jeżeli wartość testu
jest dodatnia.
Jak widzimy, wszystkie człony modelu są istotne; możemy zatem
zapisać gotowe równanie modelu liniowej zależności szybkości reakcji
enzymatycznej od temperatury i pH roztworu:
szyb = (1,43±0,22)t + (-1,93±0,22)pH + (5,95±0,16)
Uzyskane równanie regresji należy teraz poddać surowej ocenie. Ocena dotyczyć
będzie: i) wielkości różnic między wynikami "pomiarów" a wynikami modelu; ii) istotności
statystycznej modelu; oraz iii) ustalenia, na ile otrzymany model wyjaśnia obserwowaną
zmienność wyników "pomiarów".
Oceny modelu dokonuje się liczbowo oraz graficznie. Wszystkich niezbędnych do
oceny danych dostarcza plik wynikowy programu MEOD.EXE.
V. OCENA JAKOŚCI MODELU.
V.1. Ocena liczbowa.
Poza wartościami i odchyleniami standardowymi współczynników regresji, program
MEOD.EXE oblicza wartości czterech wskaźników jakości modelu. Liczbowej oceny modelu
dokonuje się na podstawie trzech z nich.
1) Odchylenie standardowe zmiennej zależnej jest wskaźnikiem przeciętnej różnicy
pomiędzy wynikami "pomiarów" a wartościami obliczonymi na podstawie równania
regresji.
2) Wartość testu F Snedecora pozwala na ocenę istotności statystycznej modelu.
Model uznaje się za istotny, jeżeli wariancja resztowa modelu jest statystycznie
istotnie mniejsza, niż wariancja zmiennej zależnej. Tablicowa wartość krytyczna
wynosi zwykle ok. 5.
63
3) Współczynnik
determinacji pomiędzy wartościami zmiennej zależnej
pochodzącymi z "pomiarów" a wartościami zmiennej zależnej obliczonymi na
podstawie modelu zaproponowanego przez program pozwala na ocenę, jak duży
procent zmienności zmiennej zależnej nie da się wyjaśnić wpływem zmiennych
objaśniających.
Przykład, c.d.:
Program MEOD.EXE obliczył następujące wartości czterech wskaźników
jakości:
Odchyl. stand. zm. zaleznej =
wartosc testu F = 384.3160
wsp. determinacji = 0.9935
wsp. korelacji = 0.9968
0.1731
Odchylenie standardowe zmiennej zależnej. Przeciętna różnica
pomiędzy wynikami "pomiarów" a wartościami obliczonymi na podstawie
równania regresji wynosi w tym przypadku s = 0,17. Jest to wartość
akceptowalna przy zakresie zmienności zmiennej zależnej (w tym
przypadku: szybkości reakcji) od 2,57 do 9,29.
Wartość testu F Snedecora. Ponieważ tablicowa wartość krytyczna
testu F Snedecora wynosi ok. 5, obliczona wartość dla uzyskanego
modelu, wynosząca ponad 300, wyraźnie wskazuje, że model jest istotny.
Współczynniki
determinacji.
Obliczona
wartość
współczynnika
determinacji (D) pomiędzy wartościami zmiennej zależnej pochodzącymi z
"pomiarów" a wartościami zmiennej zależnej obliczonymi na podstawie
modelu zaproponowanego przez program wynosi 0,9935, co jest bardzo
dobrym wynikiem. Pozwala on ocenić, że zaledwie 0,65% 23 zmienności
zmiennej zależnej nie da się wyjaśnić wpływem temperatury i pH.
UWAGA! Jeżeli program nie stworzy pełnego modelu liniowego, tj. jedna (bądź obie)
zmienne objaśniające nie będą istotne, wówczas należy powtórzyć próbę tworzenia modelu,
dodając nową "zmienną objaśniającą" w postaci członów interakcyjnych. Sprowadza się to do
powtórzenia instrukcji zawartych w sekcji IV; przy czym, w trakcie "dialogu" z programem
MEOD.EXE:
1. na pytanie Liczba zmiennych: należy odpowiedzieć 3;
2. na pytanie nazwa 3. zmiennej... należy odpowiedzieć pHt.
V.2. Wykres różnic.
Wizualna ocena jakości uzyskanego modelu jest możliwa dzięki wykonaniu tzw.
wykresu różnic. Na końcu pliku wynikowego programu MEOD.EXE znajduje się komunikat
analogiczny do poniższego:
23
Wartość tę oblicza się ze wzoru: (1-D)∙100%.
64
ZMIENNA
ZALEZNA
znaleziona
5.6410
2.5730
9.2880
6.6320
5.9060
5.7340
5.7960
6.0350
obliczona
5.4551
2.5931
9.3081
6.4461
5.9506
5.9506
5.9506
5.9506
roznica
1.9E-0001
-2.0E-0002
-2.0E-0002
1.9E-0001
-4.5E-0002
-2.2E-0001
-1.5E-0001
8.4E-0002
Należy zatem skopiować kolumny pierwszą oraz trzecią do arkusza Excela i wykonać
wykres punktowy (X,Y)24. Wartości w kolumnie roznica należy odkładać na osi
pionowej. Ponadto, jednostki główne na obydwu osiach wykresu powinny być sobie równe
oraz mieć optycznie jednakową długość.
Jakość utworzonego modelu będzie tym wyższa, im punkty na wykresie różnic będą
znajdowały się bliżej osi poziomej.
Przykład, c.d.:
Oto wykres różnic, stworzony dla uzyskanego modelu:
Zarówno liczbowe wskaźniki jakości (patrz: sekcja V.1.), jak i
wykres różnic jednoznacznie dowodzą, iż udało nam się stworzyć model
wysokiej jakości.
VI. SPRAWOZDANIE powinno zawierać: równanie regresji wraz z odchyleniami
standardowymi wartości współczynników (o ile zostało uzyskane), zestaw wskaźników jakości
modelu (wraz z krótkim komentarzem) oraz poprawnie wykonany wykres różnic.
24
Koniecznie trzeba przy tym pamiętać o zamianie kropek na przecinki w komórkach zawierających
skopiowane wartości.
65
Dodatek C:
Uruchamianie programów PROCES1.EXE, MODEL.EXE, MEOD.EXE oraz PCA.EXE w
nieprzyjaznych im środowiskach systemów operacyjnych Windows Vista i Windows 7.
Niektóre wersje systemów operacyjnych Windows Vista i Windows 7, ze szczególnym
wskazaniem na edycje 64-bitowe, kategorycznie odmawiają współpracy z programami
używanymi w trakcie zajęć laboratoryjnych z chemometrii. Nie jest to jednak problem, który
stanowiłby jakąkolwiek przeszkodę w wykonaniu wymaganych obliczeń.
Aby obejść tę drobną niedogodność, należy emulować w używanym Windows Vista/7
środowisko starożytnego systemu operacyjnego DOS. Istnieje wiele aplikacji, które pozwalają
na tego typu trik. Zaprezentujemy – dla przykładu – zastosowanie darmowego i możliwie
prostego w obsłudze program DOSBox.
Aby uruchomić dowolny z programów: PROCES1.EXE, MODEL.EXE, MEOD.EXE lub
PCA.EXE w systemie operacyjnym, który odmawia współpracy z nimi w normalnym trybie,
należy wykonać, co następuje:
1)
Na początek, należy odwiedzić stronę http://www.dosbox.com, pobrać
instalator programu DOSBox dla systemu Windows25 i zainstalować pobrany
program w dowolnej lokalizacji.
2)
Następnym krokiem jest utworzenie na dysku twardym folderu, w którym będą
znajdowały się uruchamiane programy oraz wszystkie towarzyszące im pliki
wejściowe z danymi. Warto, aby – z przyczyn praktycznych – był to folder łatwo
dostępny, np.: C:\DOS.
3)
Uruchomienie program DOSBox powinno zaowocować pojawieniem się gotowej
do pracy konsoli:
Z:\>
4)
Kolejną, a zarazem kluczową operacją jest stworzenie wirtualnego dysku twardego
o dowolnej etykiecie (np. F:), który będzie stanowił zawartość utworzonego
wcześniej folderu. Dokonuje się tego za pomocą polecenia:
Z:\>MOUNT F: C:\DOS
Program DOSBox potwierdzi powodzenie operacji następującym komunikatem:
Drive F is mounted as local directory C:\DOS\
5)
25
Następnie, należy przejść na utworzony dysk twardy poleceniem:
Jeżeli Student używa (biegle) Linuxa, z pewnością poradzi sobie samodzielnie.
66
Z:\>F:
Konsola potwierdzi powodzenie operacji, zmieniając literę Z na etykietę
utworzonego dysku:
F:\>
6)
Pozostaje teraz jedynie skopiować (z poziomu Windows) wybrany program wraz z
danymi wejściowymi (np. MEOD.EXE) do folderu C:\DOS i uruchomić program
(z poziomu DOSBox) poleceniem:
F:\>MEOD.EXE
Program uruchomi się, a następnie będzie pracował bez zająknięcia.
7)
Wszystkie pliki wynikowe (*.OUT), generowane przez używane programy,
również będą znajdowały się w utworzonym na początku folderze, czyli – w tym
przypadku – C:\DOS.
67
Ćwiczenie nr 8:
MODELOWANIE ZALEŻNOŚCI
Niniejsze ćwiczenie stanowi rozwinięcie zadania wykonywanego w trakcie
ćwiczenia nr 7. Tym razem - zamiast prowadzić Studenta za rękę, jak to miało miejsce
dotychczas - ograniczymy się do podania kilku wskazówek praktycznych.
Celem jest, podobnie jak w ćwiczeniu poprzednim, uzyskanie istotnego modelu
zależności zmiennej zależnej od zmiennych objaśniających. Podobnie, jak w przypadku
poprzedniego ćwiczenia, należy wybrać odpowiedni plan doświadczeń, a następnie dokonać
"pomiarów". Zasadnicza różnica sprowadza się do faktu, iż tym razem będziemy mieli do
czynienia nie z dwiema, lecz z trzema zmiennymi objaśniającymi.
I. WYKONANIE "POMIARÓW".
Tym razem, do wykonania "pomiarów" zostanie wykorzystany program MODEL.EXE.
Program ten, zaraz po uruchomieniu, pyta użytkownika o numer komputera, a w rzeczywistości
– o numer zestawu parametrów wejściowych. Numer ten zostanie przyznany każdemu
Studentowi indywidualnie przez Prowadzącego.
MODEL.EXE symuluje reakcję chemiczną substratów A i B w zadanej temperaturze
procesu, obliczając ilość otrzymanego produktu i zysk ze sprzedaży produktu reakcji. Musimy
zatem sprecyzować pojęcia zmiennych objaśniających oraz zmiennej zależnej.
Zmiennymi objaśniającymi są:
1) stężenie substratu A [mol/dm3];
2) stężenie substratu B [mol/dm3];
3) temperatura procesu [°C].
Wartości graniczne zmiennych objaśniających (odpowiadające punktom -1 i 1 planu
doświadczeń; patrz: ćwiczenie nr 7) można dobierać w dowolnym zakresie. Wyjątek stanowi
temperatura procesu, który jest przeprowadzany w środowisku wodnym - stąd też wartości
rzędu 120°C lub -5°C nie są rekomendowane.
Zmienną zależną, którą należy odnotowywać w trakcie wykonywania "pomiarów",
stanowi zysk z procesu. (Ilość otrzymanego produktu nie przedstawia niestety żadnej wartości,
ponieważ dodatkowo należy uwzględnić koszty poniesione na jego oczyszczenie, utylizację
ścieków i produktów ubocznych.)
Poświęćmy teraz nieco uwagi odpowiedniemu zaplanowaniu "doświadczeń", które
stanowi esencję niniejszego ćwiczenia.
68
II. PLANOWANIE DOŚWIADCZEŃ.
Dla trzech zmiennych objaśniających, wyjściowy plan doświadczeń ma postać
centrowanego planu 23; zakłada zatem dokonanie ośmiu pomiarów (wg reguł budowania
planów doświadczeń 2n) oraz czterech pomiarów centrujących. Kompletny, wyjściowy plan
prezentuje się (w postaci zmiennych planu) następująco:
stężenie
substratu A:
1
-1
1
-1
1
-1
1
-1
0
0
0
0
stężenie
substratu B:
1
1
-1
-1
1
1
-1
-1
0
0
0
0
temperatura
procesu:
1
1
1
1
-1
-1
-1
-1
0
0
0
0
Nietrudno się domyślić, iż pierwsze osiem wierszy powyższej tabeli to w
rzeczywistości współrzędne wierzchołków sześcianu o środku w punkcie 0,0,0 i boku o
długości 2.
Rzecz w tym, że "pomiary", wykonane w oparciu o tak prosty plan doświadczeń,
nieczęsto pozwalają na uzyskanie zbioru uczącego wystarczającego do zbudowania
statystycznie istotnego modelu zależności. W związku z powyższym, wyjściowy, liniowy plan
doświadczeń prawdopodobnie trzeba będzie poddać kolejnym rozszerzeniom.
Kolejne postaci planu będą wyglądały następująco:
1)
Plan liniowy z członami interakcyjnymi – jego zastosowanie wiąże się z
utworzeniem trzech dodatkowych plików wejściowych do programu MEOD.EXE,
zawierających trzy możliwe interakcje (iloczyny) zmiennych objaśniających.
Na przykład: czwarty wers pliku zawierającego interakcje pierwszej i trzeciej
zmiennej objaśniającej będzie miał postać -1, albowiem -1 pomnożone przez 1
daje -1.
Zastosowanie tego planu nie wiąże się z wykonywaniem żadnych dodatkowych
"pomiarów" w stosunku do planu wyjściowego! Trzeba również pamiętać, że
przy wprowadzaniu danych do programu MEOD.EXE dla tego planu należy
zadeklarować sześć (nie trzy!) zmiennych i dwanaście punktów pomiarowych.
Jeżeli model liniowy z interakcjami nie doprowadzi do uzyskania istotnego statystycznie
równania regresji, Student będzie zobowiązany do zastosowania (ze szkodą dla owłosienia na
69
głowie) któregoś z modeli kwadratowych. Wymaga to jednak przejścia od planu
czynnikowego 23 do planu kompozycyjnego.
2)
Plan kompozycyjny – jego zastosowanie wiąże się z:
i. dodaniem do planu wyjściowego sześciu nowych punktów pomiarowych o
współrzędnych odpowiadających środkom ścian opisanego wyżej
sześcianu (np. 0,1,0);
ii. wykonaniem sześciu dodatkowych "pomiarów" w dodanych punktach planu
(poprzednich dwunastu pomiarów, które zostały wykonane dla planu
wyjściowego, nie trzeba powtarzać!);
iii. utworzeniem trzech nowych plików wejściowych do programu MEOD.EXE, z
których każdy będzie zawierał, w kolejnych wersach, kwadraty wartości
odpowiednich współrzędnych planu.
Na przykład: plik a2.txt, zawierający kwadraty pierwszej zmiennej planu,
będzie składał się z: ośmiu jedynek (ponieważ(-1)2=1), czterech zer, a
następnie, przykładowo, dwóch jedynek oraz czterech zer.
Przy wprowadzaniu danych do programu MEOD.EXE dla tego planu należy
zadeklarować sześć zmiennych i osiemnaście punktów pomiarowych.
Jeżeli model kwadratowy nie doprowadzi do uzyskania istotnego statystycznie równania
regresji, Studentowi pozostanie ostatnia deska ratunku: model kwadratowy z interakcjami.
Wymaga on zastosowania planu kompozycyjnego z członami interakcyjnymi.
3)
Plan kompozycyjny z członami interakcyjnymi – jego przygotowanie i
zastosowanie sprowadza się do uzupełnienia każdego z trzech plików wejściowych
zawierających człony interakcyjne, przygotowanych dla planu liniowego z
członami interakcyjnymi, sześcioma kolejnymi zerami (dlaczego?).
Przy wprowadzaniu danych do programu MEOD.EXE dla tego planu należy
zadeklarować dziewięć zmiennych i osiemnaście punktów pomiarowych.
III. TWORZENIE MODELU I OCENA JAKOŚCI.
Instrukcja korzystania z programu MEOD.EXE; zasady podawania końcowego równania
modelu zależności oraz kryteria oceny jakości modelu zostały przez nas szczegółowo
przedstawione w instrukcji do ćwiczenia nr 7.
W tym miejscu ograniczymy się jedynie do stwierdzenia, iż w tym ćwiczeniu
wymagamy od Studenta podjęcia szeregu prób stworzenia istotnego modelu zależności,
począwszy od modelu liniowego, a skończywszy na modelu, który pozwoli na uzyskanie
zadowalających wyników. To, czy modelem prowadzącym do sukcesu okaże się model
70
liniowy, czy też – w najgorszym wypadku – model kwadratowy z interakcjami, będzie w dużej
mierze zależało od mądrego wyboru wartości granicznych zmiennych objaśniających,
którego dokona Student, oraz – w mniejszym stopniu – od zestawu parametrów wejściowych,
podawanych przy starcie programu MODEL.EXE.
W niniejszym ćwiczeniu należy liczyć się z możliwością, że niektóre człony modeli
okażą się nieistotne statystycznie. Będzie to dotyczyło zwłaszcza bardziej rozbudowanych
modeli (z interakcjami lub kwadratowych). Trzeba przejść nad tym do porządku dziennego i
oceniać tylko ostateczne wersje poszczególnych modeli, zawierające wyłącznie istotne
człony.
IV. SPRAWOZDANIE powinno zawierać: kolejne plany doświadczeń i uzyskane,
ostateczne wersje równań regresji. Dla modelu końcowego (istotnego) konieczne jest
wykonanie wykres różnic oraz podanie uzasadnienia, dlaczego model ten został uznany za
istotny.
71
Ćwiczenie nr 9:
LINEARYZACJA ZALEŻNOŚCI
Chemometria, w modelowaniu zależności pomiędzy zmiennymi, nadzwyczaj chętnie
stosuje modele liniowe. Aby stworzenie takiego modelu było możliwe, pomiędzy zmienną
zależną a zmiennymi objaśniającymi powinny występować mniej lub bardziej wyraźne
zależności liniowe.
Doświadczenie uczy (patrz: ćwiczenie nr 4), iż w większości przypadków nie
występuje wyraźna korelacja liniowa pomiędzy zmiennymi. Bywa jednak tak, że niekiedy
pomiędzy zmienną zależną i zmienną objaśniającą występuje mniej lub bardziej wyraźna
zależność nieliniowa. W takim przypadku należy oczekiwać, że istnieje funkcja lub funkcje
transformujące, które umożliwiają linearyzację zależności pomiędzy tymi dwiema
zmiennymi. Zapoznanie się z nimi, a także zastosowanie ich w praktyce, jest celem niniejszego
ćwiczenia.
I. LINEARYZACJA ZALEŻNOŚCI.
Na wskazanej stronie internetowej, względnie na pendrive Prowadzącego, znajdują się
arkusze Excela, zawierające gotowe zestawy danych. Każdy zestaw oznaczony jest imieniem i
nazwiskiem Studenta - zostały one przydzielone w sposób losowy, wykluczający wszelką
korupcję.
Każdy zestaw danych składa się z dwóch zmiennych - x oraz y; a także z gotowego
wykresu korelacyjnego z wykreśloną prostą trendu oraz wyświetlonym współczynnikiem
determinacji (R2). Zadanie, które należy wykonać, polega na dokonaniu takiej
transformacji zmiennej/zmiennych przy pomocy odpowiednich funkcji transformujących
(z samodzielnie dobranymi stałymi a i/lub b), aby współczynnik determinacji był jak
najbliższy jedności.
Poniższa tabela prezentuje przykłady funkcji transformujących, wraz z opisem
zależności, którą linearyzują.
72
Charakter zależności y
zależność ma asymptotę
dla x0 = 0
zależność ma asymptotę
po lewej dla x0 = a
zależność ma asymptotę
po prawej dla x0 = a
= f(x)
pionową
pionową
pionową
zależność ma przebieg sigmoidalny;
asymptota dolna: a < ymin;
asymptota górna: b > ymax
zależność
asymptota
zależność
asymptota
wzrastająca do nasycenia;
górna: b > ymax
malejąca do nasycenia;
dolna: a < ymin
Funkcja transformująca
x* = log(x) lub x* = 1/x
x* = log(x-a) lub x* = 1/(x-a)
x* = log(a-x) lub x* = 1/(a-x)
y* =
 ya

log
b y
y* = log(b-y)
y* = log(y-a)
Przykład:
Dysponując zestawem danych i gotowym wykresem korelacyjnym:
x
1,200
1,500
2,000
2,400
2,700
3,000
3,200
3,500
3,900
4,400
5,500
y
1,779
1,622
1,469
1,380
1,320
1,285
1,277
1,247
1,244
1,224
1,216
możemy podejrzewać, że powyższy przypadek przedstawia zależność
malejącą do nasycenia, zastosujemy zatem funkcję transformującą
y* = log(y-a), przy czym a < ymin. Po kilku próbach dochodzimy do
wniosku, że idealna wartość parametru a dla powyższego przypadku wynosi
1,21:
73
x
1,200
1,500
2,000
2,400
2,700
3,000
3,200
3,500
3,900
4,400
5,500
y*
-0,245
-0,385
-0,586
-0,768
-0,959
-1,125
-1,171
-1,434
-1,474
-1,844
-2,212
Współczynnik determinacji dla nowej pary zmiennych x i y*
(widoczny na wykresie w postaci R2) wynosi 0,992. Jego wartość jest
absolutnie zadowalająca.
II. SPRAWOZDANIA brak. Wystarczy, że Student poda - w trakcie zajęć - funkcję
transformującą (bądź funkcje, jeżeli dokona transformacji obydwu zmiennych) dla swojego
zestawu danych. Ocenie podlega dopasowanie funkcji linearyzującej do charakteru
zależności nieliniowej oraz wartości stałych a i/lub b.
74
Dodatek D:
Metoda odrzucania i program MEOD.EXE w zastosowaniu do własnych danych.
W trakcie pierwszych zajęć laboratoryjnych, Student został poproszony o sformułowanie
problemu dotyczącego przygotowanych przez siebie danych. Jeżeli problem ten stanowiło
pytanie o możliwość modelowania wartości jednej ze zmiennych (zmiennej zależnej) w
oparciu o pozostałe zmienne (zmienne objaśniające), oto nadszedł czas jego rozwiązania.
W celu rozwiązania postawionego problemu ponownie należy wykorzystać program
MEOD.EXE, którego użytkowanie zostało już solidnie przećwiczone. Tym razem jednak
niemożliwe będzie bazowanie na planach doświadczeń – przygotowany przez Studenta zestaw
danych wejściowych to tzw. dane niekontrolowane.
Poniżej znajdują się wskazówki niezbędne przy próbie samodzielnego zbudowania
istotnego modelu zależności dla zmiennych niekontrolowanych.
1)
W celu przygotowania danych do programu MEOD.EXE, należy skopiować
przygotowaną na potrzeby ćwiczenia nr 6 tabelę danych autoskalowanych do
osobnego arkusza.
2)
Koniecznie należy zamienić przecinki na kropki we wszystkich komórkach, które
zawierają wartości liczbowe. Ponieważ nie wolno na tym etapie dokonać
przeoczenia – o które nietrudno – dla pewności warto zaznaczyć odpowiednie
komórki; wcisnąć Ctrl+H; w polu Znajdź: wpisać ,; w polu Zamień na:
wpisać . i kliknąć Zamień wszystko.
3)
Zawartość każdej kolumny zawierającej dane liczbowe (czyli wartości danej
zmiennej) trzeba teraz skopiować do osobnego pliku tekstowego, nadając mu
nazwę odpowiedniej zmiennej, np. CR*.txt. UWAGA! Pliki te muszą zawierać
wyłącznie wartości liczbowe! Nie wolno umieszczać w nich nazw zmiennych
ani nazw obiektów!
4)
Jeżeli wszystko zostało przygotowane poprawnie, należy uruchomić program
MEOD.EXE, wpisać odpowiednią liczbę zmiennych, podać nazwy zmiennych
objaśniających i zmiennej zależnej (są to nazwy przygotowanych plików, bez
rozszerzenia *.txt), podać liczbę obiektów i… czekać na reakcję programu.
W przypadku danych niekontrolowanych program MEOD.EXE może zacząć
zachowywać się dziwnie! Przede wszystkim, po odrzuceniu najbardziej nieistotnego
członu, może dramatycznie zmienić się istotność pozostałych członów. Wynika to z
występowania korelacji (niekiedy bardzo silnych) pomiędzy zmiennymi.
5)
Jeżeli został utworzony istotny statystycznie model – gratulacje! Należy teraz
zanotować równanie regresji, uzasadnić jego istotność i wykonać wykres
75
różnic, będą one bowiem stanowiły ważną część sprawozdania końcowego z zajęć
laboratoryjnych.
6)
Bardziej prawdopodobne jest, że przy pierwszym podejściu nie zostanie
utworzony istotny statystycznie (lub nawet żaden) model zależności.
Warto wtedy wrócić do etapu kontroli danych i sprawdzić, czy: i) prawidłowo
usunięto z zestawu danych punkty odbiegające; ii) pomiędzy zmienną zależną i
zmiennymi objaśniającymi nie występują zależności nieliniowe. W przypadku ich
wystąpienia, należy podjąć wysiłek linearyzacji zależności (patrz: ćwiczenie nr
9).
Po wykonaniu odpowiednich transformacji, transformowane zmienne należy raz
jeszcze poddać autoskalowaniu i ponownie przygotować dane wejściowe do
programu MEOD.EXE.
7)
Jeżeli w dalszym ciągu program MEOD.EXE nie tworzy istotnego statystycznie
modelu, fakt ten stanowi odpowiedź na postawiony przez Studenta problem.
Odpowiedź ta jest negatywna, ale jak najbardziej prawidłowa: niemożliwe jest, na
podstawie przygotowanych danych, uzyskanie liniowego modelu zależności.
76

Podobne dokumenty