Statystyczny opis wydzielonych litofacji

Transkrypt

Statystyczny opis wydzielonych litofacji
Wykorzystanie statystyki w poszukiwaniach
naftowych
1) Pojęcia podstawowe i przykłady
2) Obliczanie statystyk opisowych i tworzenie
wykresów statystycznych z zastosowaniem
programu Grapher 7.0
mgr inż. Bartosz Papiernik
Kraków 2007
Statystyki opisowe
Podstawowy krok statystycznej analizy danych wejściowych stanowi opracowanie dla
wyróżnionych populacji tzw. statystyk opisowych, które standardowo obejmują tzw.
podstawowe miary położenia (średnia -mean [Xśr], mediana - median [Me]), miary
zmienności (minimum - minimum value, maksimum – maksimum value, wariancja - Variance
[s2], odchylenie standardowe –standard deviation [s]), a także współczynnik skośności –
skewness [A] oraz spłaszczenia - kurtosis [Sp], i in. (Słomka, Krawczyk 1986; Mucha 1991).
Postać rozkładu populacji (próbki)
Zmienność parametru w obrębie badanej populacji punktów (tzw. postać rozkładu
dwuwymiarowego) można przeanalizować z wykorzystaniem histogramów.
W przypadku rozkładu porowatości, jeżeli analizowana próba obejmuje oznaczenia
laboratoryjne pobrane ze skał o jednakowej genezie – histogram będzie wykazywał rozkład
dzwonowy – czyli normalny (inaczej Gaussa).
O populacji możemy powiedzieć, że wykazuje rozkład normalny, jeżeli 68% przypadków
trafia do przedziału ±1 odchylenia standardowego od wartości średniej, a ±2 odchylenia
standardowe obejmują 95% przypadków. Innymi słowy w rozkładzie normalnym wartości
standaryzowane mniejsze niż -2 i większe niż +2 zdarzać się mogą z częstością równą lub
mniejszą niż 5%.
Konstruując histogramy dla kilku populacji danych w celu ułatwienia porównania form
rozkładu danych należy zachować stałą szerokość klas dla każdej analizowanej subpopulacji.
Niektóre programy jak np. RockWorks 2002 (i nowsze) umożliwiają uproszczoną graficzną
formę oceny normalności rozkładu,z wykorzystaniem zmiennych barw słupków histogramu :
• tła (background); mieszczące się w przedziale zmienności (M. ± 1s) (gdzie: M.- średnia; s
– odchylenie standardowe);
• pomiarów nieznacznie anomalnych (slightly anomalous) mieszczące się w klasach (M-2s;
M.-1s> oraz <M.+1s; M.+2s)
• Pomiarów anomalnych (anomalous) mieszczące się w klasach (M-3s; M-2s> oraz <M+2s;
M+3s)
• Pomiarów mocno anomalnych (strongly anomalous) mieszczące się w klasach (ponad M3s > oraz <ponad M+3s)
STATYSTYKA - POROWATOŚĆ EFEKTYWNA [PRZYKŁAD STATYSTYKI
OPISOWEJ I HISTOGRAMU]
Utwory facji eolicznej (subpopulacja W)
Univariate Statistics:(Statystyka jednej zmiennej)
Population ........... 496
Minimum Value ........ 0.25
Maximum Value ........ 29.31
Range ................ 29.06
Mean ................. 11.102681
Standard Deviation ... 5.343875
Standard Error ....... 0.239947
Median ............... 10.325
Sum .................. 5,506.93
Sum of Squares ....... 75,277.4047
Variance ............. 28.557
Skewness ............. 0.629533
Kurtosis ............. 0.283535
Rozkład porowatości efektywnej
Background
M+1SD
(16)
M+2SD
(22)
M+3SD
(27)
Anomalous
Strongly Anomalous
Mean
(11)
Slightly Anomalous
17.5
M-1SD
(6)
Standard Deviation
M-2SD
(0)
Slightly Anomalous
Anomalous
W utworach facji eolicznej (subpopulacja W)
15
17.5
15
12.5
12.5
10
10
7.5
7.5
5
5
2.5
0
2.5
0
5
10
15
20
25
30
0
STATYSTYKA -LOGARYTMOWANA PRZEPUSZCZALNOŚĆ [Przykład 2]
Utwory facji eolicznej (subpopulacja W)
Univariate Statistics:(Statystyka jednej zmiennej)
Population ........... 428
Minimum Value ........ -2.09691
Maximum Value ........ 2.658965
Range ................ 4.755875
Mean ................. 0.710358
Standard Deviation ... 1.027635
Standard Error ....... 0.049673
Median ............... 0.909772
Sum .................. 304.03321
Sum of Squares ....... 666.89863
Variance ............. 1.056033
Skewness ............. -0.345495
Kurtosis ............. -0.997528
Rozkład logarytmowanej (log10) przepuszczalności
Mean
(0.7)
Background
M+1SD
(1.7)
M+2SD
(2.8)
Anomalous
Anomalous
M-1SD
(-0.3)
Slightly Anomalous
M-2SD
(-1.3)
Standard Deviation
M-3SD
(-2.4)
Slightly Anomalous
Strongly Anomalous
W utworach facji eolicznej (subpopulacja W)
25
25
20
20
15
15
10
10
5
5
0
0
-2.4
-1.4
-0.4
0.6
1.6
2.6
W przypadku, gdy analizowany zbiór oznaczeń pochodzi ze skał o różnej genezie
sedymentacyjnej albo odmiennym rozwoju procesów kompakcji i diagenezy histogram będzie
wykazywał rozkład wyraźnie różny od unimodalnego1 rozkładu Gaussa.
Polimodalny rozkład porowatości utworów dolomitu głównego pokazuje na rysunku poniżej
pokazuje, że analizowana populacja jest niejednorodna prawdopodobnie obejmując kilka
odmiennych subpopulacji..
Rozkład porowatości średnich
w otworach przewiercających utwory Ca2
80
70
62
60
Mo1
64
57
Liczba obs.
50
40
Mo2
36
28
30
20
10
0
17
Mo3
18
Mo4
16
13
4
7
6
6
9
5
2
4
4
2
1
1
0
1
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Oczekiwane
Normalny
Porowatości średnie
Górna granica (x<=granica)
Ilustracja 1: Przykład polimodalnego histogramu. Porowatość
utworów Ca2
Analizy statystyczne dla przepuszczalności
Przepuszczalność jest parametrem, który na ogół wykazuje bardzo wysoką zmienność,
wyraźnie odbiegającą od rozkładu Gaussa. Na ogół w skałach – w klastycznych, a zwłaszcza
w węglanowych, dominują próbki o niskiej przepuszczalności. Zjawisko to jest szczególnie
widoczne w węglanach, gdzie dominacja partii skał słabo przepuszczalnych jest tak wyraźna,
że analizowane populacje „surowych” danych mają rozkład zbliżony do logarytmicznego
1
Histogram unimodalny ma jeden słupek zawierający najwyższą ilość pomiarów ( tzw. klasa modalna). H.
bimodalny ma dwie oddalone od siebie klasy (słupki) obserwacji wyższe od otaczających
Rozklad przepuszczalność utworów Ca2
(populacja ogólna N)
350
300
298
Liczba obs
250
200
150
100
50
17
11
2411110020111010000000000000000000000000000001000000000000000000000000000000001
-10
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
230
240
250
260
270
280
290
300
310
320
330
340
350
360
370
380
390
400
410
420
430
440
450
460
470
480
490
500
510
520
530
540
550
560
570
580
590
600
610
620
630
640
650
660
670
680
690
700
710
720
730
740
750
760
770
780
790
800
810
820
0
Oczekiwane
Normalny
Górna granica (x<=granica)
Ilustracja 2: Przykład histogramu obrazującego zmienność nie
przekształconej przepusczalności utworów dolomitu głównego.
Populacja wykazuje rozkład logarymiczny
Słuszność powyższej obserwacji potwierdza niżej załączony histogram, wykonany dla
tej samej populacji po zlogarytmowaniu przepuszczalności. Iustracja ta pokazuje, że
wykazuje ona postać rozkład zbliżoną do rozkładu Gaussa.
Rozkład Log10 Przepuszczalności
(Populacja ogólna)
100
90
85
80
70
Liczba obs
60
52
48
50
42
40
30
20
10
29
28
19
18
9
6
0
-3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5
0.0
0.5
Górna granica (x<=granica)
1.0
1.5
6
2.0
2
2.5
3.0
Oczekiwane
Normalny
Zmiana postaci rozkładu przekłada się bardzo wyraźnie na wartości obliczanych miar
statystycznych
Średnia
Xśr
N
Mediana
Me
Minim um
Maksim um
Warianc.
Odch.Std
S
Skośność
A
Kurtoza
Sp
Przepuszczalność
344
10,44
0,45
0
811,5
2977,98
11,46
152,18
1,45
Log(Przepuszcz.)
344
-0.287
-0.347
-3.000
2,91
1,33
1,15
-0.162
0,1
Wartości przeliczone z logarytmow anych
0,516
0,450
0,001
810,961
21,478
14,256
0,689
1,265
Badanie siły związku pomiędzy parametrami na podstawie analizy współczynnika
korelacji porowatości i przepuszczalności
Ocena postaci rozkładu umożliwia określenie wiarygodności odczytanych statystyk oraz
stanowi niezbędny krok przygotowania danych, jeżeli chcemy zbadać związki pomiędzy
parametrami fizycznymi złoża. np. porowatością a przepuszczalnością. W większości
programów statystycznych analiza ta jest wykonywana z wykorzystaniem wykresów rozrzutu
opartych na tzw. korelacji liniowej, a dokładniej korelacji Pearsona.
Współczynnik korelacji Pearsona (dalej nazywany współczynnikiem korelacji),
wymaga aby zmienne były mierzalne. Określa on stopień wzajemnej proporcjonalności
wartości dwóch zmiennych. Wartość korelacji (współczynnik korelacji) nie zależy od
jednostek miary w jakich wyrażamy badane zmienne. Proporcjonalność zmiennych oznacza,
że korelacja jest silna jeśli może być wyrażona przy pomocy linii prostej (nachylonej dodatnio
lub ujemnie), zwanej linią regresji (lub najmniejszych kwadratów). Jest ona wyznaczana w
taki sposób by suma kwadratów odchyleń punktów pomiarowych od tej linii była minimalna.
Współczynniki korelacji r mierzą liniową zależność między dwiema zmiennymi. Jeśli
podnieść współczynnik korelacji do kwadratu wówczas otrzymana wartość (r2 –
współczynnik determinacji) wyraża proporcję wspólnej zmienności dwóch zmiennych (tzn.
siłę lub wielkość ich zależności). Innymi słowy współczynnik determinacji (r2) określa dla
jakiego procent analizowanych danych (Y) traktowanych jako tzw. zmienna zależna zmiana
wartości będzie bezpośrednio warunkowana zmianami wartości zmiennej X (tzw. zmienna
niezależna) w zależności funkcyjnej opisanej równaniem regresji. Współczynnik r2 pozwala
nam również w łatwy sposób ocenić jaka część zmian wartości Y ma charakter przypadkowy.
Mówi o tym współczynnik Vp= 1-r2 (Słomka, Krawczyk 1986, Mucha 1991, [1])
Wykres rozrzutu dla populacji ogólnej N
Przepuszczalność( L)=12.484-0.443*x
Log10(Przepuszczalność) (R)=-0.387+0.022*x
900
3.5
Przepuszczalność (L)
Log10(Przepuszcz) (R)
2.5
1.5
500
0.5
-0.5
300
-1.5
100
Log10 (Przepuszczalność)
Przepuszczalność (mD)
700
-2.5
-100
-2
2
6
10
14
18
22
26
-3.5
Porowatość
Aby ocenić korelację pomiędzy zmiennymi należy znać zarówno tę siłę, wielkość jak
też istotność współczynnika korelacji. Wstępnym warunkiem, który muszą spełnić
korelowane zmienne jest zachowanie normalności rozkładu, szczególnie dla prób mniejszych
niż 100 przypadków.
Dla nie zanieczyszczonych populacji współczynniki są na ogół znacznie wyższe.
Wykres rozrzutu - "facje 1 i 2" nierozdzielone (N1)
Przepuszczalność (L)=-3.292+1.73*x
Log10(Przepuszczalność) (R)=-1.065+0.148*x
180
3.5
Przepuszczalność(L)
Log10(Przepuszcz.) (R)
2.5
Przepuszczalność
1.5
100
0.5
-0.5
60
-1.5
20
-2.5
-20
-3.5
-2
2
6
10
14
Porowatość
18
22
26
Log10 (Przepuszczalność)
140
Wykresy statystyczne w programie Grapher 7.0
Statystyczna analiza danych wykonywana w programie Grapher 7.0 obejmuje możliwość:
●
edycji i przeliczania danych w arkusz (tzw. Worksheet),
●
policzenia statystyk opisowych definiujących zmienność badanego zbioru danych
(populacji bądź próby statystycznej),
●
graficznej analizy zmienności danych w postaci wykresów dwu wymiarowych (2D
Graphs), trójwymiarowych (3D XYZ Graphs),
●
a także opracowywania bardzo uproszczone form map konturowych (Contour map)
oraz map z wypełnieniami barwnymi (Surface Maps)
Aby rozpocząć pracę otwórz plik zawierający dane wejściowe (File --> Open).Podobnie jak
Open Office Calc, program jest w stanie wykorzystać pliki zapisane w wielu formatach.
Aby przygotować dane dla Grapher'a otwórz w Open Office Calc, plik zawierający dane
petrofizyczne (POROWATOŚĆ, PRZEPUSZCZALNOŚĆ, np. dla grupy 7, plik g7petro.ods) i zapisz go w formacie Excel.
Podobnie jak Open Office Calc, program Grapher 7.0 pozwala korzystać z plików zapisanych
w formatach popularnych arkuszy kalkulacyjnych, baz danych i różnych odmian plików
tekstowych – MS Excel (xls), Dbase (dbf), Lotus 1-2-3 (w??), pliki wymiany danych SYLK
(slk), pliki tekstowe o kolumnach rozdzielonych przecinkami (CSV), bądź tabulatorami (txt,
DAT). Dane do arkusza programu Grapher (Worksheet) można również pobierać z arkuszy
bazy danych Ms Access.
Statystyczna analiza danych
Program G7 umożliwia wykonanie rozbudowanych statystyk opisowych analizowanych
parametrów, obejmujących podstawowe miary położenia i zmienności, a także wykonanie
przetestowanie normalności rozkładu analizowanej populacji lub wylosowanej z niej próbki z
wykorzystaniem testu Kołmogorowa - Smirnowa
Porowatosc_Efe
ktywna
Number of values
106
Liczba wartości
Sum
616.07
Suma
Minimum
0
Minimum
Maximum
21.47
Maximum
Range
21.47
Zakres zmienności
Mean
5.812
Średnia
Median
1.435
Mediana
First quartile
0.36
Pierwszy kwartyl (25%)
Third quartile
12.7
Kwartyl 75%
95% confidence
interval
1.3883
Poziom istotności 95%
99% confidence
interval
1.8364
Poziom istotności 95%
Variance
51.937
Wariancja
Average deviation
6.3343
Średnie odchylenie
Standard deviation
7.2067
Standardowe odchylenie
Coefficient of
variation
1.23998
Współczynnik zmienności
Skewness
0.924
Skośność
Kurtosis
-0.805
Spłaszczenie
KolmogorovSmirnov stat
0.284
Statystyka Kołmogorowa
-Smirnowa
Critical K-S stat,
alpha=.10
0.117
Statystyka K-S dla poziomu
istotności p=0.1
Cri`tical K-S stat,
alpha=.05
0.13
Statystyka K-S dla poziomu
istotności p=0.1
Critical K-S stat,
alpha=.01
0.156
Statystyka K-S dla poziomu
istotności p=0.1
Ćwiczenie
Aby wykonać analizę zmienności parametru w arkuszu zaznacz odpowiednią kolumnę (np.
Wsp_Poro) w menu głównym przejdź do opcji Data--> Statistics.
Do obliczeń wybierz liczebność próby - number of values, średnią -mean, medianę - median,
minimum - minimum value, maksimum – maksimum value, wariancję - Variance, odchylenie
standardowe –standard deviation , a także współczynnik skośności – skewness oraz
spłaszczenia – kurtosis. [Zaakceptuj wybory OK]
wyniki
Policz wymienione statystyki dla zmiennych: współczynnik porowatości (WspPoro) oraz
logarytmowanej przepuszczalności (LogPrzep).
Ostateczne wyniki z okna Statistic Results skopiuj i wklej do pliku Open Office Writer,
w którym będzie się znajdować sprawozdanie z wykonania ćwiczenia
II. Wykresy statystyczne
Jak już nadmieniono program Grapher. 7 stwarza możliwość graficznej analizy
zmienności danych z wykorzystaniem wykresów dwu wymiarowych (2D Graphs),
trójwymiarowych (3D XYZ Graphs). Wykresy są wykonywane dla aktywnego arkusza
danych i zaznaczonej kolumny (jednej lub większej ich ilości)), po zaznaczeniu w menu
(Opcja Graph) (Rys.3). W dalszej części tekstu omówiono przede wszystkim wykresy 2D,
gdyż one mają największe znaczenie w procedurze statystycznej analizy danych dla oceny
własności zbiornikowej strefy złożowe.
W tekście zwrócono też uwagę wykresy 2D nie spotykane w praktyce powszechnie
stosowanym oprogramowaniu „statystycznym”. W bardzo wąskim zakresie zostaną również
omówione niektóre z wykresów 3D.
Wykresy dwuwymiarowe
Podstawowe znaczenie dla statystycznego rozpoznania analizowanego zbioru danych
mają wykresy dwuwymiarowe, które z jednej strony pozwalają określić jak wygląda
zróżnicowanie poszczególnych zmiennych (np. porowatości, przepuszczalności, głębokości
poboru prób, litologii itp)
Nazwy wszystkich wykresów dwuwymiarowych (2D Graphs) przedstawia Ilustracja 3. Część
z nich jak wykresy liniowe (Line) rozrzutu (Scatter), słupkowe (Bar chart), kołowe (Pie
chart) są znane z arkuszy kalkulacyjnych. Ale wiele wykresów dostępnych w programie
Grapher 7.0 można znaleźć wyłącznie w nielicznych specjalistycznych pakietów programów
(RockWorks2002 i nowsze wersję)
Rys. 3: Menu 2D Graphs -wykresów dwuwymiarowych
Na podstawie rysunków demonstracyjnych dołączonych do programu Grapher7.0
zilustrowano niżej wygląd części z nich, biorąc pod
uwagę wykresy ewentualnie przydatne w
poszukiwaniach naftowych lub zagadnieniach
związanych z energetyką wiatrową.
Histogram 2D
Rys. 4: Histogram materiały demonstracyjne
Grapher 7.0
Wykres ten opisuje tzw. gęstość prawdopodobieństwa występowania wartości parametru w
analizowanym zbiorze danych, czy innymi słowy postać rozkładu tego zbioru (populacji).
Zbiór danych w zakresie od wartości minimalnej do maksymalnej jest dzielony na przedziały
(klasy) o stałe szerokości, a wykres pokazuje jak wiele przypadków wpada do każdej z klas.
Częstotliwość ta może być wyrażona jako ilość przypadków lub jako procent przypadków w
analizowanej populacji.
Wykres kołowy
Kiedy analizowaną populację (np. pomiary porowatości) reprezentują próbki należące do
Rys. 5: Wykres kołowy ( mat.
demonstarcyjne Grapher 7.0)
różnych grup, czyli tzw. subpopulacji ( np. próbki pobrane dla różnych skał= litologii) często
chcemy poznać liczebność tych subpopulacji. . Umożliwiają nam to nam m.in. wykresy
słupkowy (Rys.5) i kołowy lub ich odmiany przestrzenne [3D] (Rys.6)
Rys. 6: Wykresy kołowy i słupkowy kreślone z wykorzystaniem opcji 3D XYZ Graphs
Wykresy rozrzutu
Do podstawowych wykresów statystycznych
wykorzystywanych w analizach naftowych należą
wykresy rozrzutu badające siłę związku pomiędzy
analizowanymi parametrami. W programie Grapher
ich najprostszą dwuwymiarową formą są wykresy
dostępne jako Line/Scatter (Rys.7) bądź , nieco
bardziej złożone, Classed scatter. Wykresy liniowe
(Line) w poszukiwaniach naftowych na ogół nie są
stosowane.
Rys. 7: Przykład wykresu rozrzutu z
naniesionymi liniami najlepszego dopasowania
Na wykresie rozrzutu można przedstawić tylko
punkty, ale także linie najlepszego dopasowania
wyznaczane metodami najmniejszych kwadratów, wielomianów logarytmicznie itp.
Inne specjalistyczne wykresy 2D stosowane w geologii
Wykresy biegunowe Polar charts
Wykresy biegunowe nie są powszechnie
stosowane w arkuszach kalkulacyjnych.
Umożliwiają je tylko specjalistyczne
programy, jak Grapher. 7.0 i RockWorks
(Rys.8). Wykresy biegunowe są stosowane w
przypadku, gdy oprócz częstości
występowania zjawiska chcemy określić jego
kierunkową zmienność odniesioną względem
północy geograficznej.
W zakresie odnawialnych źródeł
energii wykresy tego typu mogą być stosowane
do kreślenia częstości wiania wiatru z
określonych kierunków.
Wykresy trójkątne (Ternary plots)
Rys.8: Przykład wykresu biegunowego (mat.
demonstarcyjne Grapher).
Wykresy trójkątne są stosowane do
klasyfikowania różnych zjawisk na podstawie
zawartości trzech składników, np. w różnych
klasyfikacjach petrograficznych skał
osadowych, klasyfikacjach gleb itp.
Rys.9: Wykresy trójkątny - klasyfikacja gleb
(mat. demonstarcyjne Grapher).
Wykresy składu (Stiff plots)
Grapher 7.0 umożliwia opracowanie wykresów składu jonowego wód. Podobne rozwiązania
zapewniają stosunkowo nieliczne specjalistyczne programy.
Wykresy bąbelkowe (Buble Plots)
Wykresy bąbelkowe są nieco zbliżone do wykresów liniowych / rozrzutu. Jednakże poprzez
skalowanie wielkości symboli w zależności od wielkości zadanego parametru można uzyskać
dodatkową informację o współzależności przedstawionych parametrów. W programie
dostępne są wykresy bąbelkowe 2D i 3D
Rys.11: Wykresy bąbelkowe w programie Grapher 7.0 można przedstawiać jako wykresy 2D
lub 3D (mat. demonstracyjne Grapher)
Ćwiczenie
1)
Na podstawie danych petrofizycznych odpowiednich dla twojej grup (np. g6-petro dla
grupy 6) skonstruuj histogramy dla zmiennych (WspPoro) oraz logarytmowanej
przepuszczalności (LogPrzep). (W arkuszu kalkulacyjnym zaznacz odpowiednią kolumnę,
wybierz opcję [New Graph -->2D Graphs- Histogram]
2) Wykonaj wykres rozrzutu dla wyżej wymienionych zmiennych
3) Wykonaj wykres bąbelkowy dla powyższych zmiennych
Literatura:
DAVIS J.,C., - 1986 - Statistics and data analysis in geology. John Wiley & Sons, New York,
Second Edition.
Mucha J. – 1991 – Wybrane metody matematyczne w geologii górniczej. Skrypty
Uczelniane nr 1215. Wydawnictwo AGH, Kraków 1991.
KRAWCZYK A., SŁOMKA T., 1986 - Podstawowe metody matematyczne w geologii.
Wydanie drugie poprawione. Skrypty Uczelniane nr 1026. Wydawnictwo AGH, Kraków
1986.