ocena stanu jednolitych części wód powierzchniowych

Transkrypt

ocena stanu jednolitych części wód powierzchniowych
Model szacowania stanu elementów środowiska ocena stanu jednolitych części wód powierzchniowych (JCWP) w sytuacji
brakujących obserwacji
Prof. dr hab. Leszek Kuchar
Katedra Matematyki
Uniwersytet Przyrodniczy we Wrocławiu
Opracowanie dla Krajowego Zarządu Gospodarki Wodnej
Warszawa - Wrocław, grudzień 2013
Model szacowania stanu elementów środowiska ocena stanu jednolitych części wód powierzchniowych (JCWP) w sytuacji
brakujących obserwacji(1).
Opracowanie wykonano na zlecenie Dyrektora Generalnego Krajowego Zarządu Gospodarki
Wodnej p. Jacka Mazura (umowa nr KZGW-DPZWpgw/ZP/…/2013 z dnia 25 listopada
2013).
Streszczenie. Celem niniejszego opracowania jest (a) - wskazanie możliwości oszacowania
brakujących wartości elementów biologicznych wymaganych do oceny stanu jednolitych
części wód powierzchniowych (JCWP) w oparciu o elementy fizykochemiczne,
hydromorfologiczne lub inne pomiary biologiczne, (b) - wskazanie metody matematycznej
umożliwiającej przeprowadzenie odpowiednich obliczeń, (c) – zaproponowanie procedury
realizującej wymieniony cel.
Dla realizacji zadania zaproponowano dwie metody matematyczne/statystyczne: analizę tablic
wielodzielczych umożliwiającą określenie kategorii (stanu) elementów biologicznych na
bazie elementów fizykochemicznych oraz drugą - analizę regresji wielokrotnej z wyborem
zmiennych umożliwiającą oszacowanie wartości wskaźników/indeksów (MIR, IO, EFI, PSI,
MBI) na podstawie których wykonana zostanie klasyfikacja stanów elementów
biologicznych. Jako priorytetową przyjęto pierwszą z metod – bardzo prostą, o charakterze
operacyjnym, drugą natomiast (wymagającą znacznie większych nakładów pracy)
zamieszczono jako alternatywną dla sytuacji wymagających precyzyjniejszych wyników.
W opracowaniu zamieszczono schemat postępowania mający na celu weryfikacje metod
matematycznych a następnie rutynowe wyznaczanie ocen stanów elementów biologicznych i
jednolitych części wód powierzchniowych dla lat 2004-2009.
1. Wstęp.
Zgodnie z Ramową Dyrektywą Wodną (RDW) stan wód powierzchniowych, tak
zwany stan jednolitych części wód powierzchniowych (JCWP) ocenia się na
podstawie danych uzyskanych z pomiarów, badań terenowych i analizy laboratoryjnej
w zakresie czterech elementów: biologicznych, fizykochemicznych,
hydromorfologicznych oraz substancji szczególnie szkodliwych dla środowiska
wodnego (Rysunek 1). Stan wód każdego z elementów określony jest na podstawie
___________________________________________________________________________________________________________________________________________
(1)
Niniejsze opracowanie jest przedstawione w formie, która dla specjalistów zajmujących się JCWP i posiadających wiedzę ze
statystyki/matematyki na poziomie średnio zaawansowanym pozwala wyznaczyć wartości elementów biologicznych dla określenia
stanu/potencjału wód powierzchniowych zgodnie z Ramową Dyrektywą Wodną.
2
dodatkowo wyspecyfikowanych wskaźników. W przypadku elementów biologicznych
jest to ichtiofauna, bezkręgowce bentosowe, fitobentos, makrolity i fitoplankton. W
przypadku elementów fizykochemicznych – stan fizyczny, warunki tlenowe,
substancje biogenne, zasolenie oraz specyficzne zanieczyszczenie syntetyczne i
niesyntetyczne. W przypadku elementów hydromorfologicznych – reżim
hydrologiczny, ciągłość cieku oraz warunki morfologiczne. Natomiast dla substancji
szczególnie szkodliwych dla środowiska wodnego – substancje tak zwane
priorytetowe oraz inne zanieczyszczające.
Stan wód powierzchniowych (ściślej: JCWP) określają rozporządzenia
(Rozporządzenia Ministra Środowiska /MŚ/ w sprawie sposobu klasyfikacji stanu
jednolitych części wód powierzchniowych, Dzienniki Ustaw). Zgodnie z aktualnymi
klasyfikacjami stan JCWP oceniany jest jako dobry lub zły (wymaga wdrożenia
programów naprawczych). Ocena ta powstaje na bazie stanu/potencjału ekologicznego
(określonego w skali pięciostopniowej – bardzo dobry, dobry, umiarkowany, słaby i
zły) oraz stanu chemicznego (skala dwustopniowa – dobry, poniżej dobrego). Z kolei
stan/potencjał ekologiczny determinowany jest przez ocenę wcześniej opisanych
elementów biologicznych (w skali pięciostopniowej klas jakości wód
powierzchniowych, podobnie jak stan/potencjał ekologiczny).
Ocena elementów biologicznych wspomagana jest przez ocenę parametrów
fizykochemicznych (klasyfikacja trzy stopniowa, oceny – bardzo dobry, dobry i
poniżej dobrego) oraz hydromorfologicznych (klasyfikacja i ocena dwustopniowa).
Ocena stanu chemicznego wód wynika z analizy wartości średniorocznych i
dopuszczalnych stężeń maksymalnych substancji priorytetowych i innych substancji
zanieczyszczających. Ocena ta podawana jest w skali dwustopniowej – stan dobry lub
stan poniżej dobrego.
3
Klasy wód powierzchniowych
Klasyfikacja
elementów
biologicznych
Klasyfikacja
elementów
fizykochemicznych
Klasyfikacja
elementów
hydromorfologicznych
Klasa I – stan bardzo dobry/maksymalny potencjał biologicznego
wskaźnika jakości wód
Klasa II – stan/potencjał dobry biologicznego wskaźnika jakości wód
Klasa III – stan/potencjał umiarkowany biologicznego wskaźnika
jakości wód
Klasa IV – stan/potencjał słaby biologicznego wskaźnika jakości wód
Klasa V – stan/ potencjał zły biologicznego wskaźnika jakości wód
Klasa I – stan bardzo dobry/maksymalny potencjał wskaźnika jakości
wód
Klasa II – stan/potencjał dobry wskaźnika jakości wód
Klasa III – stan/potencjał poniżej dobrego wskaźnika jakości wód
Klasa I – maksymalny potencjał ekologiczny
Klasa II – dobry potencjał ekologiczny
Klasy stanu/potencjału ekologicznego
Klasyfikacja stanu
ekologicznego
Klasyfikacja
potencjału
ekologicznego
Klasa I – bardzo dobry stan ekologiczny
Klasa II – dobry stan ekologiczny
Klasa III – umiarkowany stan ekologiczny
Klasa IV – słaby stan ekologiczny
Klasa V – zły stan ekologiczny
Klasa I – maksymalny potencjał ekologiczny
Klasa II – dobry potencjał ekologiczny
Klasa III – umiarkowany potencjał ekologiczny
Klasa IV – słaby potencjał ekologiczny
Klasa V – zły potencjał ekologiczny
Tabela 1. Klasy wód powierzchniowych oraz klasy stanu/potencjału ekologicznego w
Polsce zgodnie z Ramową Dyrektywą Wodną (RDW) .
Ocena stanu chemicznego wód wynika z analizy wartości średniorocznych i
dopuszczalnych stężeń maksymalnych substancji priorytetowych i innych substancji
zanieczyszczających. Ocena ta podawana jest w skali dwustopniowej – stan dobry lub
stan poniżej dobrego.
Ocena stanu jednolitych części wód powierzchniowych jest dobra tylko w sytuacji gdy
stan ekologiczny/potencjał ekologiczny jest na poziomie bardzo dobrym lub dobrym
4
przy jednoczesnym dobrym stanie chemicznym. Stan wód jest zły zawsze, jeżeli stan
chemiczny jest poniżej dobrego (Tabela2).
Rysunek 1. Schemat wyznaczania oceny stanu wód powierzchniowych (wg. Ocena
stanu jednolitych części wód powierzchniowych na terenie województwa
Dolnośląskiego za rok 2012, WIOŚ, Wrocław 2012).
5
Tabela 2. Ocena stanu jednolitych części wód powierzchniowych (JCWP) w oparciu o
stan ekologiczny/potencjał ekologiczny i stan chemiczny powierzchniowych (wg.
Ocena stanu jednolitych części wód powierzchniowych na terenie województwa
Dolnośląskiego za rok 2012, WIOŚ, Wrocław 2012).
W latach 2010-2012 zgodnie właściwymi regulacjami MŚ inspektoraty ochrony
środowiska wykonały oceny stanu jednolitych części wód powierzchniowych – JCWP
(oceny wykonano w oparciu o sieci monitoringu /od diagnostycznego do badawczego
– łącznie w 10 sieciach/ w zakresie elementów biologicznych, fizykochemicznych i
chemicznych oraz zgodnie z Ramową Dyrektywą Wodną, uwzględniającą elementy
biologiczne, fizykochemiczne, hydromorfologiczne i substancje szczególnie szkodliwe
dla środowiska wodnego).
Przykładowo dla województwa Dolnośląskiego oceniono 161 JCWP (64 naturalne i 97
silnie mienionych i sztucznych) w ramach monitoringu operacyjnego i obszarów o
podwyższonym ryzyku niespełniania celów RDW. Ocena JCWP (z uwzględnieniem
wymagań dla obszarów chronionych) wskazała, że 21.2% części wód została oceniona
jako dobre a 72.0% jako złe (6.8% nie wykonano oceny – brak badań). Ocena
stanu/potencjału ekologicznego JCWP (bez uwzględnienia dodatkowych wymagań dla
obszarów chronionych) wykazała natomiast, że potencjalnie dobrą ocenę stanu wód
powierzchniowych (bez oceny stanu chemicznego) mogły mieć 33.1% (64,4% zły
przy 6.9% pozostających bez oceny).
Literatura fachowa wskazuje na istnienie zależności pomiędzy elementami
biologicznymi i fizykochemicznymi oraz hydromorflogicznymi (np. wpływ substancji
biogennych /azotu, fosforu/ na rozwój makrolitów, fitobentosu czy fitoplanktonu;
przepływów w ciekach na rozwój makrolitów; rozwoju bezkręgowców bentosowych
pod wpływem substancji organicznych; i innych). Zależności te opisywane są
6
najczęściej w postaci funkcyjnej ilustrującej charakter ilościowy (np. regresji
wielokrotnej), ale również można spotkać analizę dla danych jakościowych.
W cytowanych sprawozdaniach Wojewódzkiego Inspektoratu Ochrony Środowiska
(WIOŚ) w wielu przypadkach o ocenie decydował element biologiczny (ichtiofauna
której stan zależny był od zmian morfologicznych cieku). Równocześnie słabemu
stanowi elementów biologicznych towarzyszyły przekroczenia wskaźników
fizykochemicznych, głównie biogenów. Informacja ta pozwala wnioskować o
korelacji pomiędzy elementami fizykochemicznymi i hydromorfologicznymi z jednej
strony a biologicznymi z drugiej. Stwarza też możliwość wnioskowania o elementach
biologicznych w oparciu o elementy fizykochemiczne i hydromorfologiczne w
sytuacji, gdy brak jest obserwacji tych pierwszych (nie były wcześniej pozyskiwane w
tak szerokim zakresie lata 2004-2009).
2. Ocena JCWP w sytuacji braku oceny elementów biologicznych.
Pełna ocena JCWP może być wykonana w sytuacji dysponowania danymi dla
elementów biologicznych. W sytuacji, gdy jest brak odpowiednich obserwacji można
ich wartości lub klasyfikację oszacować w oparciu o inne obserwacje lub klasyfikację.
Na taka możliwość wskazuje analiza literatury fachowej oraz opracowania
inspektoratów ochrony środowiska.
Najprostszą metodą jest ocena elementów biologicznych przy użyciu tablic
kontyngencji (wielodzielczych).
2.1 Predykcja przy użyciu tablic kontyngencji.
W wyniku prowadzonych pomiarów elementów biologicznych, fizykochemicznych i
hydromorfologicznych wartości pomiarów (najczęściej są to zmienne ilościowe) są
klasyfikowane do jednej z uporządkowanych klas wyrażających stan środowiska.
7
W przypadku elementów biologicznych jest to pięć klas wyrażających jakość wód
powierzchniowych, natomiast w przypadku elementów fizykochemicznych każdemu
badanemu wskaźnikowi przypisana jest jedna z trzech klas jakości wód. Niezależnie,
klasyfikacja elementów hydromorfologicznych oparta jest głównie na wydzieleniu
dwóch klas oceny (rozporządzenie MŚ z roku 2011).
Należy sądzić, że w niniejszych rozważaniach oszacowanie brakujących ocen
elementów biologicznych oparte będzie głównie na predykcji z zastosowaniem
zmiennych wyrażających stan fizykochemiczny wód. Być może jedynie w niektórych
przypadkach będą zastosowane do predykcji zmienne hydromorfologiczne (np.
przepływy w ciekach).
Ponieważ ocena JCWP wykonywana jest o skategoryzowane wielkości będące
ocenami a więc już przeanalizowane i uproszczone, naturalnym i najprostszym jest
zbadanie zależności pomiędzy cechami /zmiennymi/ biologicznymi i
fizykochemicznymi przy pomocy tablic kontyngencji (inaczej - wielodzielczych) o
uporządkowanych kategoriach. Jeżeli taka zależność pomiędzy cechami istnieje, daje
to bardzo prostą możliwość wnioskowania o ocenach jednej cechy na bazie drugiej.
Dla przykładu tablica dwudzielcza 5x3 ma pięć kategorii cechy Y i trzy kategorie
cechy X, gdzie nij oznacza liczebności kategorii i-tej cechy Y oraz j-tej kategorii cechy
X (nij - obserwacja kategorii yj oraz xi).
Biogeny (cecha X)
bardzo dobry
dobry
poniżej dobrego
1
2
3
Makrofity
bardzo dobry
1
n11
n12
n13
(cecha Y)
dobry
2
n21
n22
n23
umiarkowany
3
n31
n32
n33
słaby
4
n41
n42
n43
zły
5
n51
n52
n53
Tabela 3. Tablica kontyngencji makrofitów i biogenów (5x3).
8
Ogólnie, w tablicy dwuwymiarowej kxm postaci:
Cecha X
Cecha Y
1
2
…
m
1
n11
n12
…
n1m
2
n21
n22
…
n2m
…
…
…
…
…
k
nk1
nk2
…
nkm
Tabela 4. Ogólna postać tablicy kontyngencji o k wierszach i m kolumnach (kxm).
zależność pomiędzy cechami X i Y jest badana następująco – hipoteza testowa
przyjmuje postać:
Ho: Cechy X i Y są niezależne
H1: Cechy X i Y są zależne.
vs.
Do weryfikacji hipotezy stosowany jest test postaci:
2
 emp

m n  nˆ
ij
ij
 
nˆij
i 1 j 1
k
2
(1)
gdzie wartości oczekiwane (liczebności teoretyczne) obliczane są ze wzoru
n̂ij =( nˆi. . nˆ. j )/n, oraz nˆi. 
k
k m
ˆ
n

n
,
,
n

n
 ij . j  ij
  nij (i=1,… k; j=1,… m);
i 1
i 1 j 1
j 1
m
2
przy założeniu prawdziwości hipotezy zerowej statystyka  emp
ma rozkład chi-
kwadrat  2 o (k-1)(m-1) stopniach swobody. Odczytana na poziomie istotności  i (k1)(m-1) stopniach swobody statystyka 2 pozwala zweryfikować hipotezę o
9
2
niezależności cech X i Y, przy czym jeżeli  emp
 2 to hipotezę Ho odrzucamy, a
2
jeżeli  emp
< 2 to brak jest podstaw do odrzucenia Ho o niezależności cech.
W powyższym teście należy spełnić warunek uzyskania liczebność n>5ˑkˑm.
Ocena siły związku (siły monotonicznej zależności) wykonana zostanie ponadto przy
pomocy miary gamma γ wraz z jego oceną przedziałową (przedział ufności dla
współczynnika γ).
Podobnie można testować hipotezy o niezależności l-cech w tablicach o wyższych
wymiarach. Należy jednak sądzić, że dla potrzeby niniejszego zadania tablice
dwuwymiarowe pozwolą ocenić stopień zależności cech.
Ze względu na fakt, że w ocenie JCWP klasyfikacja elementów biologicznych poniżej
dobrego (umiarkowany, słaby, zły) automatycznie determinuje ocenę ‘zły’ stan wód
powierzchniowych bez rozróżniania, czy jest to klasa jakości umiarkowana, słaba czy
zła.
Ocena jakości wód przy pomocy elementu biologicznego wykonana zatem może być
przez wskazanie klasy /kategorii/ na podstawie odpowiedniej klasy elementu
fizykochemicznego lub hydromorfologicznego. Dla przykładu ocena makrofitów może
być wykonana przez wskazanie odpowiednie klasy na podstawie określonej klasy
jakości biogenów.
Postępowanie takie jest słuszne jedynie gdy zachodzi zależność między badanymi
cechami a komórki zaznaczone kolorem ciemnym posiadają relatywnie niewielkie
liczebności.
Biogeny (cecha X)
bardzo dobry
dobry
poniżej dobrego
1
2
3
Makrofity
bardzo dobry
1
n11
n12
n13
(cecha Y)
dobry
2
n21
n22
n23
3
n31
n32
n33
umiarkowany,
słaby, zły
Tabela 5. Hipotetyczna tablica kontyngencji (3x3) wskazująca na dużą zależność
makrofitów i biogenów (opis w tekście).
10
Nie mniej jednak w predykcji istnieje możliwość błędnej klasyfikacji. Ma to miejsce
gdy błędnie wnioskujemy o cesze Y na podstawie cechy X (np. jeśli ocena biogenów
jest na poziomie ‘bardzo dobry’ lub ‘dobry’ a ocena makrofitów jest ‘umiarkowana’,
‘słaba’ lub ‘zła’). W takim przypadku należy również pamiętać, że za stan makrolitów
odpowiedzialny był inny czynnik a niekoniecznie biogeny i w konsekwencji należy
dodatkowo wykonać analizę (np. badanie: fitobentos vs. biogeny, przepływy vs.
makrolity itp.). Błąd oszacowania jest frakcją błędnych klasyfikacji w stosunku do
ogólnej liczby ocen.
W przypadku tablicy z tabeli 5 oszacowania ocen cechy Y dla kategorii yi (i=1,2,3)
są następujące:
Pred(y1 ) = x1
Pred(y2 ) = x2
Pred(y3 ) = x3
Przy czym błędy klasyfikacji są następujące (odpowiednio):
- (n21 + n31)/( n11 + n21 + n31) dla kategorii y1 cechy Y;
- (n12 + n32)/( n12 + n22 + n32) dla kategorii y2 cechy Y;
- (n13 + n23)/( n13 + n23 + n33) dla kategorii y3 cechy Y;
Natomiast ze względu na fakt, że predykcja dla stanu ‘bardzo dobry’ cechy X jako
‘dobry’ cechy Y oraz stanu ‘dobry’ dla cechy X jako ‘bardzo dobry’ cechy Y nie ma
implikacji jakościowych przy ocenie stanu ekologicznego - błędy można zdefiniować
bardziej liberalnie w postaci:
- n31/( n11 + n21 + n31);
- n32/( n12 + n22 + n32);
- (n23 + n33)/( n13 + n23 + n33);
(wielkości ww błędów w naturalny sposób można wyrazić w procentach).
Należy również sądzić, że sytuacji, gdy po mimo ‘dobrej’ oceny cechy niezależnej
ocena zmiennej odpowiedzi jest niewiększa niż ‘umiarkowana’, należy dodatkowo
ocenić ten stan i wskazać przyczynę takiej klasyfikacji.
11
W tej części badań tablice wielodzielcze należy zbudować w oparciu o dane uzyskane
w latach 2010-2012, natomiast predykcję stanu elementów w oparciu o pomiary i
kategoryzację stanów dla lat 2004-2009.
Prostota metody (jej charakter operacyjny) wskazuje, że do niniejszych obliczeń
powinna zostać zastosowana jako pierwsza. Przeprowadzenie wstępnych testów
pozwoli ocenić czy redukcja tablic dwudzielczych do tablic jedynie z dwoma
kategoriami może być już wystarczająca (Tabela 6).
Biogeny (cecha X)
bardzo dobry
poniżej dobrego
lub dobry
Makrofity
bardzo dobry
(cecha Y)
lub dobry
umiarkowany,
1
2
1
n11
n12
2
n21
n22
słaby lub zły
Tabela 6. Przykładowa tablica kontyngencji dla potrzeb oceny stanu wód zredukowana
do wymiarów (2x2) - opis w tekście.
Przy czym dla tego typu tablicy kontyngencji można znacznie rozszerzyć zakres
badań, a błędy klasyfikacji są następujące (odpowiednio):
- n21 /( n11 + n21 ) dla kategorii y1 cechy Y;
- n12 /( n12 + n22 ) dla kategorii y2 cechy Y.
2.2 Predykcja z użyciem aproksymacji funkcji.
Metodyka wyznaczania ocen stanu ekologicznego w przypadku zmiennych
biologicznych i fizykochemicznych zawiera etap pozyskiwania danych ilościowych
(pomiary, badania terenowe, analizy laboratoryjne), które w dalszej części są
kategoryzowane i determinują stan/potencjał ekologiczny. Niezależnie w latach 200412
2012 wykonywano pomiary (np. pH, azot amonowy, fosfor ogólny, chlorofil ‘a’, inne)
umożliwiających oszacowanie elementów biologicznych (fitoplankton, makrofity,
fitobentos, bezkręgowce bentosowe, ichtiofauna), zgodnie z wzorem:
y = f(x1, x2, …, xk)
(2)
gdzie
y - zmienna zależna w oparciu o którą wykonana jest ocena elementu biologicznego;
x1, x2, …, xk - zbiór zmiennych niezależnych;
Funkcja f(x1, x2, …, xk) może być rozmaicie zadawana, najczęściej jednak funkcja f
jest funkcją liniową postaci:
y = a0 + a1x1+ a2x2 + … + akxk
(3)
co w praktyce ułatwia znajdowanie jej nieznanych współczynników ai (np. metodą
najmniejszych kwadratów).
W analizie danych powszechna jest sytuacja, gdy dla wektora obserwacji
(x1i, x2i, … xki, yi)
i=1,2, … n;
mamy
yi = a0 + a1x1i + a2x2i + … + akxki + ei
(4)
zakładamy, że błędy ei (i=1,2, … n) są niezależne o takim samym rozkładzie
prawdopodobieństwa, wartości oczekiwanej 0 i wariancji σ2 .
Mamy wówczas zagadnienie regresji wielokrotnej w najprostszej postaci, dającą
możliwość testowania hipotez statystycznych.
a0 , a1, … , ak są nieznanymi parametrami które wyznaczamy metodą najmniejszych
kwadratów zgodnie z wzorem:
13
j  0, ..., k;
min F (a 0 ,...ak )
aj
(5)
gdzie
n
2
F (a 0 ,...ak )   [ yi - f(a0 ,...ak , x1i , …, x ki )]
i 1
(6)
Przy założeniu liniowej postaci funkcji f(ˑ) znalezienie współczynników aj sprowadza
się do rozwiązania liniowego układu równań stopnia k+1:
F (a 0 ,...a k )
a j
0
j  0,..., k;
ze względu na nieznane współczynniki a j , gdzie symbolem
(7)
F (a 0,...a k ) / a j
oznaczono pochodne cząstkowe funkcji F(ˑ ) po parametrach a j.
Jeżeli zmienne xj są niezależne wówczas praktycznie nie ma problemów w
rozwiązaniu układu równań (7) i określeniu aj.
W doborze modelu regresyjnego należałoby zaproponowań najprostszy model w
związku z tym proponuje się jego redukcję poprzez ograniczenie liczby zmiennych
niezależnych do tych które mają istotny wpływ na zmienną zależną. Ze względu na
dostęp do procedur obliczeniowych (w pakietach statystycznych) należy
zaproponować procedurę krokową wyboru zmiennych zależnych. Procedury tego typu
są popularne i rozmaicie organizowane w procedurach obliczeniowych; jako
najprostszą należy zasugerować wersję wstępującą polegającą na dołączaniu kolejnych
zmiennych do zbioru regresorów aż do momentu spełnienia zadanego kryterium (np.
wzrost miary dopasowania zmienia się w sposób nie istotny).
W przypadku gdyby model liniowy regresji wielokrotnej z wyborem zmiennych
okazał się niewystarczający – nie opisywałby w zadawalający sposób zależności
pomiędzy zmiennymi przewidziano następujące działania:
14
(i) modyfikację zbioru zmiennych zależnych poprzez wprowadzenie nowych
zmiennych będących kwadratami zmiennych oryginalnych oraz iloczynów
mieszanych (iloczynów między zmiennymi) a następnie powtórzenie procedury
wyboru modelu z selekcja zmiennych.
(ii) zaproponowanie modelu nieliniowego.
W przypadku modelu nieliniowego wyznaczenie parametrów aj związane jest z
rozwiązaniem nieliniowego układu równań (7), które może być trudne.
Przegląd literatury oraz projektów badawczych dotyczących zagadnień ekologicznych
(ekologii wód) jednoznacznie pozwala stwierdzić, że analiza regresji jest najlepszym
narzędziem statystycznym umożliwiającym predykcję elementów biologicznych na
bazie fizykochemicznych i hydromorfologicznych.
Ocena poszczególnych elementów biologicznych powinna zostać wykonana przez
predykcję odpowiadających danemu elementowi indeksów, zgodnie z tabelą 7.
Następnie zaś na podstawie wskaźników/indeksów zaklasyfikowane (zgodnie z
rozporządzeniem Ministra Środowiska) do jednej z klasy określającej stan ekologiczny
wód.
Wyniki zrealizowanego w latach 2008-2011 projektu badawczego „Rozwój i
walidacja metod zintegrowanej oceny stanu ekologicznego rzek i jezior na potrzeby
planów gospodarowania wodami w dorzeczu” w ramach Polsko-Norweskiego
Funduszu badań Naukowych i klasyfikacji wód, otrzymane dla rzeki Wel zawierają
informacje o istniejących liniowych korelacjach /prostych/ pomiędzy zmiennymi
(Szoszka H. (red.), 2011).
Estymacja parametrów a0, a1, … , ak funkcji f(x1, x2, …, xk) wykonana będzie dla
danych z lat 2010-2012 a predykcja z użyciem otrzymanych parametrów dla lat 20042009. Jak wcześniej wspomniano - model zostanie zredukowany do minimalnej liczby
zmiennych niezależnych mających istotny wpływ na wartość zmiennej zależnej a do
obliczeń wykorzystana zostanie krokowa procedura wyboru zmiennych zależnych.
15
Element
biologiczny
makrofity
Proponowany
indeks/
wskaźnik
MIR
Zakres wartości
indeksu/
wskaźnika
0-100
( Macrophyte Index
for Rivers)
fitobentos
IO
0-1
(Diatom Index)
ichtiofauna
EFI
PSI
0.5 -5.5
(Phyto-Seen-Index)
bezkręgowce
MBI
(Macroinvertebratebentosowe
przykładowo dla dużych rzek nizinnych (*)
37.9 – 100
35.0 – 37.8
32.1 – 34.9
29.2 – 32.0
0.00 – 29.1
0.71(0.65) – 1.00(**)
0.50 – 0.70(0.64)(**)
0.30 – 0.49
0.15 – 0.29
0.00 – 0.14
bardzo dobry
dobry
umiarkowany
słaby
zły
bardzo dobry
dobry
umiarkowany
słaby
zły
przykładowo dla połowu z łodzi (***)
0-1
(European Fish
Index)
fitoplankton
Klasyfikacja i ocena stanu
ekologicznego
0.918 – 1.000
0.563 – 0.917
0.376 – 0.562
0.188 – 0.375
0.000 – 0.187
0.50 – 1.5
1.51 – 2.5
2.51 – 3.5
3.51 – 4.5
4.51 – 5.5
bardzo dobry
dobry
umiarkowany
słaby
zły
bardzo dobry
dobry
umiarkowany
słaby
zły
przykładowo dla jezior stratyfikowanych (****)
0-1
0.93 – 1.00
0.70 – 0.92
0.46 – 0.69
0.22 – 0.45
0.00 – 0.21
Based Index)
bardzo dobry
dobry
umiarkowany
słaby
zły
w zależności od typu rzek;
w zależności od typu naturalnych wód płynących;
(***)
w zależności od metody połowu;
(****)
w zależności od typu jezior;
(*)
(**)
Tabela 7. Proponowane indeksy lub wskaźniki w oparciu o które wykonywana
zostanie klasyfikacja stanu wybranych elementów biologicznych.
2.3 Oceny metod predykcji stanów elementów biologicznych.
W przypadku predykcji przy pomocy tablic kontyngencji efektywność metody polega
na wskazaniu dobrze sklasyfikowanych wartości, mających wpływ na wyznaczenie
stanu wód powierzchniowych. Błąd metody jest definiowany jako liczba lub procent
błędnych klasyfikacji. Sytuacja taka ma miejsce, gdy predyktor (cecha X) przyjmuje
16
wartości /w skali porządkowej/ bardzo dobry, dobry a wartość szacowana jest jako
umiarkowana, słaba lub zła bądź gdy cecha o ocenie ‘poniżej dobrego’ implikuje
oceny bardzo dobry lub dobry.
Oznacza to, że dla przykładu w tabeli 5 dla zależności biogeny vs. makrolity
efektywność metody jest określona następująco:
EF=(n11 + n12 + n21 + n22 + n33)/N,
(8)
N = n11 + … + n33 - suma wszystkich obserwacji.
Natomiast błąd metody określa liczbę błędnie zakwalifikowanych obserwacji:
ER=(n'11 + … + n'33)/N
(9)
gdzie n'ij – liczba ocen błędnie zakwalifikowanych do klasy i-tej cechy Y oraz j-tej
cechy X (i=1,2,3; j=1,2,3);
W przypadku konieczności zastosowania predykcji z użyciem aproksymacji funkcji
jako kryterium dopasowania funkcji wykorzystany zostanie powszechnie stosowany
wzór na współczynnik korelacji wielokrotnej określający stopień wyczerpywania
zmienności całkowitej przez funkcję (2) (y = f(x1, x2, …, xk) ):
n
  yi  yˆ i  2
R2  1 i  1
n
  yi  y  2
i 1
(10)
Skorygowany współczynnik korelacji wielokrotnej:
2
Radj
1

n 1
 1  R2
n  k 1

(11)
17
a także błąd EE, określający błąd relatywny przybliżenia:
n y  yˆ
i 100%
EE   i
yi
i 1
(12)
gdzie w obu wzorach zgodnie z notacją we wzorze (4), dodatkowo ŷi oznacza
oszacowanie wartości yi przy pomocy funkcji f(x1, x2, …, xk), natomiast y oznacza
średnią arytmetyczną obserwacji yi .
W pewnych sytuacjach, gdy liczba obserwacji nie jest duża w stosunku do liczby
parametrów modelu, mając na względzie nieprzeparametryzowanie i właściwy dobór
modelu zastosowanie zostanie test ‘Cross Validation’ .
Metoda ‘Cross Validation’ polega na wielokrotnym podziale danych na dwa
podzbiory. Jeden ze zbiorów służy do estymacji parametrów równania natomiast drugi
do jego weryfikacji. Jedną z wariantów metody jest procedura ‘Leave-One-Out’
(LOO). Podział zbioru danych w tym przypadku polega na tym, że do estymacji
parametrów modelu służy n-1 obserwacji tego zbioru natomiast do weryfikacji
pozostała obserwacja. Zgodnie z tą zasadą do weryfikacji służy po kolei każda
obserwacja. Przy tak zaproponowanym postępowaniu weryfikacja metody jest
niezależna od estymacji parametrów równania, gdyż w zbiorze obserwacji
zastosowanych do estymacji nie ma obserwacji użytych do weryfikacji. Schemat
postępowania tą metodą przedstawiono na rysunku .
Rysunek 2. Podział danych do estymacji i weryfikacji modelu.
18
W takim przypadku ocena modelu na podstawie niezależnych danych jest
wykonywana za pomocą zmodyfikowanego współczynnika korelacji wielokrotnej
R2pred uwzględniającego kolejne eliminacje i-tej obserwacji do estymacji i
wykorzystania jej do weryfikacji:
n
  yi  yˆi 1 2
R 2 pred  1  i 1
(13)
n
  yi  yi 1 2
i 1
gdzie zgodnie z wcześniejszymi oznaczeniami dodatkowo:
yˆ i 1 – wielkości szacowane za pomocą równania na podstawie techniki LOO, czyli bez
i-tej obserwacji,
yi 1 – wartość średnia z próby bez i-tej obserwacji
n – liczba obserwacji.
W przypadku aproksymacji funkcją, decydująca weryfikacja trafności oszacowania
stanu/ potencjału elementów biologicznych wykonana zostanie również przez ocenę
zakwalifikowania do właściwej klasy wód zgodnie z wzorem (9).
Przedstawione w rozdziale 2 metody realizacji zadania, jak również ocen ich
efektywności są częścią metodyki, która może być zastosowana do rozwiązania
zagadnienia szacowania wartości JCWP. Jednak ze względów efektywności obliczeń i
podejścia operacyjnego do zagadnienia należy sądzić, że jest optymalna.
2.4 Wybór danych do konstrukcji i testowania modeli.
Zaproponowana metoda predykcji we wstępnej części projektu musi być
zweryfikowana na bazie danych zgromadzonych w bazach danych Wojewódzkich
Inspektoratach Ochrony Środowiska (WIOŚ) lub Głównym Inspektoracie Ochrony
Środowiska (GIOŚ) lub innych danych zawierających pomiary umożliwiające
19
obliczenia. Dla weryfikacji metody tablic kontyngencji proponuje się wykorzystanie
danych użytych przez WIOŚ dla sporządzania rutynowych raportów ocen JCWP do
roku 2012. Wybór powyższy podyktowany jest różnorodnością obszaru, JCWP oraz
lepszą znajomością opracowań i raportów w porównaniu do innych regionów kraju.
Ze względu na wymagane liczebności w tablicach kontyngencji (n>5ˑkˑl, gdzie nliczebność próby; k, l – liczba kategorii badanych cech X, Y odpowiednio) oraz
wiarygodność ocen zaleca się aby n>>5ˑkˑl.
W przypadku gdy szacowanie ocen elementów biologicznych będzie niezadowalające
alternatywnie zastosowana zostanie regresja wielokrotna z wyborem zmiennych. W
tym przypadku dane do budowy i oceny modelu powinny zawierać precyzyjniejsze
obserwacje, pomiary i wyniki badań laboratoryjnych. Niezależnie od wcześniejszych
materiałów planowane jest wykorzystanie materiałów z realizowanego w latach 20082011 projektu badawczego „Rozwój i walidacja metod zintegrowanej oceny stanu
ekologicznego rzek i jezior na potrzeby planów gospodarowania wodami w dorzeczu”
w ramach Polsko-Norweskiego Funduszu badań Naukowych i klasyfikacji wód,
otrzymane dla rzeki Wel (Szoszka H. (red.), 2011).
3. Procedura wyznaczania ocen stanu elementów biologicznych oraz oceny
JCWP.
Procedura wyznaczania ocen stanu elementów biologicznych oraz oceny JCWP
powinna zawierać wszystkie elementy od selekcji materiałów (danych) do testowania
metody przez procedurę metodę obliczeniową do wyznaczenia wszystkich
brakujących ocen stanu elementów biologicznych aż do wyznaczenia ocen JCWP.
Procedura jest typowym postępowaniem w tego typu zagadnieniach i można ją
przedstawić według następującego schematu.
I. Etap ogólnej oceny materiału badawczego.
1. Przegląd i ocena JCWP pod względem potrzeb szacowania oceny elementów
biologicznych (EB) dla lat 2004-2009.
2. Przegląd ocen JCWP za okres 2010-2012 w zakresie oceny EB w kontekście
oceny JCWP.
20
II. Etap wyboru materiałów do testowania metody.
1. Wybór materiałów do testowania metody opartej na predykcji z
wykorzystaniem tablic kontyngencji. Wybór liczby JCWP podyktowany jest
warunkiem: liczba obserwacji N>5x(5x3).
2. Utworzenie bazy danych na potrzeby testowania metody predykcji z
wykorzystaniem tablic kontyngencji (materiał z lat 2010-2012).
III. Ocena niezależności cech w tablicach dwudzielczych.
1. Utworzenie wszystkich możliwych tablic dwudzielczych dla których jedna
cecha jest typu biologicznego a druga fizykochemicznego lub
hydromorfologicznego (możliwe jest też postępowanie sekwencyjne: utworzenie
tablicy – test, … utworzenie tablicy – test, aż do momentu uzyskania pożądanych
związków cech lub przebadania wszystkich tablic). Wybór materiałów do
testowania metody opartej na predykcji z wykorzystaniem tablic kontyngencji.
Wybór liczby JCWP podyktowany jest warunkiem: liczba obserwacji N>5x(5x3).
2. Test niezależności; ocena zależności przy pomocy wskaźnika γ.
3. Ocena klasyfikacji przy pomocy błędów EF, ER.
IV. Predykcja elementów biologicznych.
1. W sytuacji możliwości predykcji elementów biologicznych (Krok III.3)
szacowanie tych wielkości dla obszarów JCWP (Krok I.1).
2. Ocena stanu wód powierzchniowych (JCWP) dla obszarów nie posiadających
tych ocen w latach 2004-2009.
V. Postępowanie w sytuacji braku możliwości predykcji elementów
biologicznych przy pomocy tablic dwudzielczych - predykcja z użyciem
aproksymacji funkcji /analiza na bazie cech ilościowych/.
1. Wybór JCWP pod kątem możliwości testowania metody predykcji z użyciem
aproksymacji funkcji. Ocena możliwości konkurencyjnego testowania metody na
danych dla wód zlewni rzeki Wel.
2. Utworzenie pełnej bazy danych (wybrane JCWP lub dla wód zlewni rzeki
Wel). W przypadku obszarów JCWP materiał z lat 2010-2012.
21
VI. Ocena efektywności aproksymacji funkcji.
1. Wybór metody regresji wielokrotnej z wyborem zmiennych jako
podstawowego narzędzia przy określaniu zależności zmiennych.
2. Wyodrębnienie dwóch typów zmiennych niezależnych dla predykcji
wskaźników/indeksów (MIR, IO, EFI, PSI, MBI) elementów biologicznych (EB):
(i) innych zmiennych biologicznych mierzonych rutynowo /np. chlorofil ‘a’/;
(ii) zmiennych typu fizykochemicznego, hydromorfologicznego (ciągłe).
3. Ocena dopasowania równań regresji (miary R2, EE oraz pod względem
predykcji).
4. Skategoryzowanie wartości oszacowań wskaźników/indeksów (MIR, IO, EFI,
PSI, MBI) elementów biologicznych do skali pięciostopniowej
(b. dobry/maksymalny, dobry, umiarkowany, słaby, zły). Ocena klasyfikacji
stanu/potencjału (miara ER).
VII. Postępowanie alternatywne przy aproksymacji funkcji dla cech
jakościowych.
1. W sytuacji braku zależności liniowej w analizie regresji zbiór zmiennych
ulegnie modyfikacji przez wprowadzenie kwadratów i iloczynów zmiennych
niezależnych.
2. W sytuacji braku zależności dla postaci addytywnej (p.1) w analizie regresji
rozważona zostanie postać nieliniowa dla aproksymowanej funkcji.
3. Ocena aproksymacji (VI.3), kategoryzacja oszacowań (VI.4) i ocena
klasyfikacji (VI.4).
VIII. Przybliżanie wartości (EB), wyznaczanie JCWP dla danych 20042009.
1. Wybór efektywnych równań funkcyjnych do określania wartości elementów
biologicznych.
2. Utworzenie bazy danych dla lat 2004-2009 na potrzeby szacowania
brakujących ocen elementów biologicznych i stanów wód powierzchniowych.
3. Aproksymacja indeksów/wskaźników MIR, IO, EFI, PSI, MBI (VI.3),
kategoryzacja oszacowań (VI.4) i wyliczenie stanu wód JCWP (VI.4).
Przedstawiona procedura wyznaczania ocen stanu elementów biologicznych a
następnie oceny JCWP pozwala na przeprowadzenie wymaganych zgodnie z Ramową
Dyrektywą Wodną obliczeń przez specjalistów zajmujących się ekologią i
posiadających wiedzę ze statystyki/matematyki na poziomie średnio zaawansowanym.
Dobór metod został wykonany w ten sposób, że umożliwia przeprowadzenie obliczeń
przy pomocy typowych i dostępnych pakietów obliczeniowych (Statistica, SPSS,
22
Statgrafics, SAS i innych). Organizacja baz danych może być realizowana w sposób
swobodny ze względu na duże możliwości importu/exportu oraz formatu danych.
4. Literatura podstawowa i uzupełniająca do zagadnienia.
Agresti, A., 1990: Categorical Data Analysis, New York, Wiley.
Baattrup-Pedersen A., Szoszkiewicz K., Nijboer R., O’Hare M., Ferreira T., 2005:
Macrophyte communities in unimpacted European streams: variability in assemblage
patterns, abundance and diversity, Hydrobiologia, 566: 179-196.
Draper N.R., Smith H., 1998: Applied Regression Analysis, Wiley.
EU, 2000: Directive 2000/60/EC of the European Parliament and the Council of 23
Oct. 2000 establishing a framework for community action in the field of water policy,
OJEC L 327/1 of 22.12.2000.
Hauryaury J., Peltre M.C., Tremolieres M., Babre J., Thiebaut G., Bierne I., Daniel H.,
Chaatenet P., Muller S., Dutarte A., Laplace-Treyture C., Cazaubon A., LambertServien E., 2002: A method involving macrophytes to assess water trophy and organic
pollution: the Macrophyte Biological Index for Rivers (IBMR) - application to
different types of rivers and pollutions, Proc. 11th EWRS International Symposium on
Aquatic Weeds, Moliets Et Maa, France, Eds. A. Dutartre & M.-H.
Kajaka Z., 2001: Hydrobiologia – Limnologia. Ekosystemy wód śródlądowych, PWN,
Warszawa.
Kawecka B., Eloranta P.V., 1994: Zarys ekologii glonów wód słodkich i środowisk
lądowych, PWN, Warszawa.
Koronacki J., Mielniczuk J., 2001: Statystyka dla studentów kierunków technicznych i
przyrodniczych, Wyd. Naukowo-Techniczne, Warszawa.
Kruk-Dowgiełło L., Michałek-Pogorzelska M., Dubiński M., 2010: Fitoplankton, [w:]
Przewodniki metodyczne do badań terenowych i analiz laboratoryjnych elementów
biologicznych wód przejściowych i przybrzeżnych, s. Biblioteka Monitoringu
Środowiska, 5–32.
Kuchar L., 2001: Ocena modeli matematycznych na podstawie testu typu Cross
Validation, Prz. Nauk. Wydz. Inż. Kszt. Środ. SGGW, 21: 165-170.
Lampert W., Sommer U., 2001: Ekologia wód śródlądowych, PWN, Warszawa.
23
Naura M., Robinson M., 1998: Principles of using River Habitat Survey to predict the
distribution of aquatic species: an example applied to the native white-clawed crayfish
Austropotamobius pallipes, Aquatic Conservation: Mar. Freshw. Ecosyst., 8: 515–527.
Picińska-Fałtynowicz J., Błachuta J., Kotowicz J., Mazurek M., Rawa W., 2006:
Wybór typów jednolitych części wód rzecznych i jeziornych do oceny stanu
ekologicznego na podstawie fitobentosu wraz z rekomendacją metodyki poboru i
analizy prób, Główny Inspektorat Ochrony Środowiska.
Pieterse A., Rytkönen A.-M., Hellesten S. (Eds.), 2009: Aquatic Weeds 2009,
Proceedings of the 12th European Weed Research Society Symposium, Jyväskylä
(Finland) 24-28.08.2009, Reports of Finnish Environment Institute 15/2009.
Pietruczuk K., Szoszkiewicz K., 2009: Ocena stanu ekologicznego rzek i jezior w
Wielkopolsce w oparciu o makrofity zgodnie z wymogami Ramowej Dyrektywy
Wodnej, Nauka Przyroda Technologie, 3, 3, 96.
Rozporządzenie Ministra Środowiska z dnia 20 sierpnia 2008 r. w sprawie sposobu
klasyfikacji stanu jednolitych części wód powierzchniowych, Dz. U. z 2008 r. Nr 162,
poz. 1008.
Rozporządzenie Ministra Środowiska z dnia 9 listopada 2011 r. w sprawie sposobu
klasyfikacji stanu jednolitych części wód powierzchniowych, Dz. U. z 2011 r. Nr 257,
poz. 1545.
Rozporządzenie Ministra Środowiska z dnia 22 lipca 2009 r. w sprawie klasyfikacji
stanu ekologicznego, potencjału ekologicznego i stanu chemicznego jednolitych części
wód powierzchniowych, Dz. U. z 2009 r. Nr 122, poz. 1018.
Staniszewski R., Jusik Sz., Hryc-Jusik B., 2009: Relations between morphometric and
trophic parameters of shallow lakes of the Polish Lowland, Nauka Przyroda Technol.,
3, 2, 69.
Staniszewski R., Szoszkiewicz K., Zbierska J., Leśny J., Jusik S., Clarke R., 2005:
Assessment of sources of uncertainty in macrophyte surveys and the consequences for
river classification, Hydrobiologia 566: 235-246.
Szoszka H. (red.), 2011: Ocena stanu ekologicznego wód zlewni rzeki Wel. Wytyczne
do zintegrowanej oceny stanu ekologicznego rzek i jezior na potrzeby planów
gospodarowania wodami w dorzeczu, Wyd. IRS, Olsztyn.
Szoszkiewicz K., Zbierska J., Jusik S., Zgoła T., 2006: Opracowanie podstaw dla
monitoringu biologicznego wód powierzchniowych w zakresie makrofitów i pilotowe
ich zastosowanie dla części wód reprezentujących wybrane kategorie i typy, T. 1,
Rzeki, Warszawa – Poznań – Olsztyn, s. 5.
24
Szoszkiewicz K., Zbierska J., Jusik S., Zgoła T., 2010: Makrofitowa Metoda Oceny
Rzek : Podręcznik metodyczny do oceny i klasyfikacji stanu ekologicznego wód
płynących w oparciu o rośliny wodne, Bogucki Wyd. Nauk., Poznań.
Szoszkiewicz K., Zgoła T., Jusik S., Hryc-Jusik B., Dawson F. H., Raven P., 2009:
Hydromorfologiczna ocena wód płynących. Podręcznik do badań terenowych według
metody River Habitat Survey w warunkach Polski, Bogucki Wyd. Nauk., PoznańWarrington.
Walpole R.E., Myers R.H., Myers S.L., Ye K., 2012: Probability and Statistics for
Scientists and Engineers, 9th Ed., Prentice Hall.
25
Prediction Model of State of the Environment –
Evaluation of Water Bodies in the Case of Missing Observations
Abstract
The purpose of this study is to:
- suggest methods that can predict the missing values of elements required to assess
the biological classification of surface water bodies (WB) based on physicochemical
and/or hydromorphological elements and/or biological measurements;
- suggest a mathematical model that allows carrying out accurate calculations;
- suggest a procedure that will allow implementation of the above objective.
Two statistical methods have been proposed to complete this task:
- an analysis of contingency tables that determine classification of biological elements
based on physicochemical and hydromorphological elements;
- an analysis of multiple regression that allows an estimation of indicators/indices
(MIR, IO, EFI, PSI, MBI) that determine classification of biological elements based on
independent variables such as biological, physicochemical or hydromorphological
measurements. This entails a classification of estimated values for ordinal type scale.
The analysis of contingency tables is based on a qualitative classification of biological,
physicochemical and hydromorphological elements presented in an ordered scale that
illustrates the state of water environment. There are five categories of biological
elements, three categories of physicochemical elements and usually two categories of
hydromorphological elements.
The essence of this method is a study of dependency/independency of pair variables
(biological vs. physicochemical or biological vs. hydromorphological) and in the case
of their dependency a prediction of biological elements that depend on the other
elements.
26
Variables’ prediction evaluation will be carried out through an analysis of good-wrong
classification. An analysis of research literature indicates dependency of qualitative
variables and therefore an ability to estimate unknown values of biological variables.
For example (see table below), based on Nutrient Conditions status when dependency
between symptoms are identified, Macrophyte Status can be predicted (table 3 by 3).
Nutrient Conditions Status (Variable X)
Macrophyte
Status
(Variable Y)
Very good
Good
Less than good
x1
x2
x3
Very good
y1
n11
n12
n13
Good
y2
n21
n22
n23
Moderate
y3
n31
n32
n33
Poor,
Bad
(if dependency between symptoms using  2 test is proofed, frequencies n31, n32, n13,
n23 - grey cells are comparatively low).
Then prediction of category yi (i=1,2,3) (i.e very good, good or moderate-poor-bad)
for variable Y is made as follow:
Pred(y1 ) = x1 , Pred(y2 ) = x2 , Pred(y3 ) = x3
and xi (i=1,2,3) are categories (very good, good or less than ) of X.
The errors of classification are defined:
- (n21 + n31)/( n11 + n21 + n31) for category y1 of variable Y ;
- (n12 + n32)/( n12 + n22 + n32) for category y2 of variable Y ;
- (n13 + n23)/( n13 + n23 + n33) for category y3 of variable Y ;
In practice, tables 3 by 3 can be even removed by tables 2 by 2 with right prediction.
If the contingency tables method is insufficient, a multiple regression analysis with a
variables selection (analysis of quantitative variables) will be used.
27
The multiple linear regression model
y = a0 + a1x1 + a2x2 + … + akxk + e
is fitted to the data points (x1i, x2i, … xki, yi)
i=1,2, … n;
and
yi = a0 + a1x1i + a2x2i + … + akxki + ei
where yi is the observed response to the values x1i, x2i, … xki of k independent
variables.
Values e and ei are random error and residuals respectively (it is assumed that the ei
(i=1,2, … n) are independent and identically distributed with mean 0 and variance σ2 ).
The parameters a0 , a1, a2 … ak are estimated using the last squares method
n
2
min
F
(
a
,...a
)

[
f(a
,...a
,
x
,
…
,
x
)]

y
(
0
k
0
k 1i
ki
i
aj
i 1
and j  0,...,k; ) .
Coefficient of determination - R2 , adjusted coefficient of determination - R2adj
n y  yˆ
and relative absolute error EE ( EE   i i 100% ) were selected to evaluate a
yi
i 1
model fitting, ( yi , ŷi are observations and estimates).
In addition, in case of lack of data Cross Validation test with Leave-Out-One method
is provided. To optimize a multiple regression model stepwise procedure (backwardforward method) is also provided.
The following indicators have been proposed as dependent variables (y) for the
analysis of biological elements (a dependent variable): Macrophyte Index for Rivers
(MIR) as an indicator of macrophyte-based ecological status, Diatom Index (IO) for
rivers and lakes (IOJ) as an indicator of phytobenthos monitoring, European Fish
Index (EFI) as an indicator of ichthyofauna assemblages, new bentic
Macroinvertebrate-Based Index (MBI) as an indicator of macroinvertebrate bentos
river assessment, and the Phyto-Seen-Index (PSI) as an indicator of phytoplankton.
Independent variables are a results of numerous measurements carried out on a regular
basis over the years of 2004-2012. These are, for example, pH, ammonia nitrogen,
28
total phosphorus content, chlorophyll a, and other variables that allow a prediction of
biological elements.
This research will also take into account a possibility of modifying regression
equations (introduction of modified variables and non-linear functions).
In the final stage of regression analysis, estimates of indicators/indices will be
classified according to the ecological status of waters (in line with regulation of the
Ministry of the Environment).
Literature review and research projects about environmental issues (water ecology)
show clearly that the regression analysis is the most accurate statistical tool that allows
prediction of biological elements based on other biological, physicochemical and
hydromorphological variables (Szoszka H. (Ed.), 2011: Ecological Status Assessment
of the Waters in the Wel River Catchment. Guidelines for Integrated Assessment of
Ecological Status of Rivers and Lakes to Support Basin Managament Plans, IRS,
Olsztyn, based on Report „Development and Validation of Methods for Integrated
Assessment of Ecological Status of Rivers and Lakes to Support River Basin
Management Plans”, Polish-Norwegian Research Fund, 2008-2011).
Evaluation of methods (estimation of parameters) will be carried out for the data
collected during 2010-2012, and used for predictions of biological elements for years
2004-2009.
The first of the methods, which is straightforward and operational, was prioritized. The
second method, which involves more sophisticated computations, was suggested as an
alternative for scenarios that require more accurate results.The methodology includes
computation procedure designed to verify statistical methods as well as a regular
calculation of biological elements’ status and assessments of surface water bodies for
the years 2004-2009.
The following eight stage procedure is suggested:
1. Overall assessment of empirical data;
2. Selection of material testing methods;
29
3. Testing symptoms of independency in two dimensional contingency tables;
4. Prediction of biological elements;
5. Multiple regression prediction with a variables selection (where value prediction of
biological elements using contingency tables is not possible);
6. Effectiveness evaluation of function approximation;
7. Alternative procedure – independent variables modification and regression function
where lack of efficiency for the linear model occurs;
8. Value estimation of biological elements and evaluation of surface water bodies for
the period of 2004 to 2009.
The above procedure for determining assessments of biological elements followed by
evaluation of water bodies allows calculations in accordance with EU Water Frame
Directive (WFD) by specialists in ecology with only intermediate working knowledge
of statistics.
The choice of this method enables calculations using standard and available
computational packages (Statistica, SPSS, SAS, Statgrafics and others). Due to large
capabilities of import/export data and data formats, these databases can be organised in
an unrestricted fashion.
The above methodology has been developed on behalf of Director General of National
Water Management Authority.
Agresti, A., 1990: Categorical Data Analysis, New York, Wiley.
Szoszka H. (Ed.), 2011: Ecological Status Assessment of the Waters in the Wel River
Catchment. Gudelines for Integrated Assessment of Ecological Status of Rivers and Lakes to
Support Basin Managament Plans, IRS, Olsztyn.
Szoszkiewicz K., Zgoła T., Jusik S., Hryc-Jusik B., Dawson F. H., Raven P., 2009:
Hydromorphological Evaluation of Water Bodies. Handbook for Fieldwork under River
Habitat Survey Method in Poland, Bogucki Publishing House, Poznań-Warrington.
Walpole R.E., Myers R.H., Myers S.L., Ye K., 2012: Probability and Statistics for Scientists
and Engineers, 9th Ed., Prentice Hall.
Prof. Dr. Leszek Kuchar
Department of Applied Mathematics,
Wroclaw University of Environment and Life Sciences
Wroclaw (Poland)
30
Spis treści
1. Wstęp.
2. Ocena JCWP w sytuacji braku oceny elementów biologicznych.
2.1 Predykcja przy użyciu tablic kontyngencji.
2.2 Predykcja z użyciem aproksymacji funkcji.
2.3 Oceny metod predykcji stanów elementów biologicznych.
2.4 Wybór danych do konstrukcji i testowania modeli.
3. Procedura wyznaczania ocen stanu elementów biologicznych oraz oceny JCWP.
4. Literatura podstawowa i uzupełniająca do zagadnienia.
Abstract ‘Prediction Model of State of the Environment – Evaluation of Water
Bodies in the Case of Missing Observations’.
31

Podobne dokumenty