Statystyczny opis wydzielonych litofacji
Transkrypt
Statystyczny opis wydzielonych litofacji
Wykorzystanie statystyki w poszukiwaniach naftowych 1) Pojęcia podstawowe i przykłady 2) Obliczanie statystyk opisowych i tworzenie wykresów statystycznych z zastosowaniem programu Grapher 7.0 mgr inż. Bartosz Papiernik Kraków 2007 Statystyki opisowe Podstawowy krok statystycznej analizy danych wejściowych stanowi opracowanie dla wyróżnionych populacji tzw. statystyk opisowych, które standardowo obejmują tzw. podstawowe miary położenia (średnia -mean [Xśr], mediana - median [Me]), miary zmienności (minimum - minimum value, maksimum – maksimum value, wariancja - Variance [s2], odchylenie standardowe –standard deviation [s]), a także współczynnik skośności – skewness [A] oraz spłaszczenia - kurtosis [Sp], i in. (Słomka, Krawczyk 1986; Mucha 1991). Postać rozkładu populacji (próbki) Zmienność parametru w obrębie badanej populacji punktów (tzw. postać rozkładu dwuwymiarowego) można przeanalizować z wykorzystaniem histogramów. W przypadku rozkładu porowatości, jeżeli analizowana próba obejmuje oznaczenia laboratoryjne pobrane ze skał o jednakowej genezie – histogram będzie wykazywał rozkład dzwonowy – czyli normalny (inaczej Gaussa). O populacji możemy powiedzieć, że wykazuje rozkład normalny, jeżeli 68% przypadków trafia do przedziału ±1 odchylenia standardowego od wartości średniej, a ±2 odchylenia standardowe obejmują 95% przypadków. Innymi słowy w rozkładzie normalnym wartości standaryzowane mniejsze niż -2 i większe niż +2 zdarzać się mogą z częstością równą lub mniejszą niż 5%. Konstruując histogramy dla kilku populacji danych w celu ułatwienia porównania form rozkładu danych należy zachować stałą szerokość klas dla każdej analizowanej subpopulacji. Niektóre programy jak np. RockWorks 2002 (i nowsze) umożliwiają uproszczoną graficzną formę oceny normalności rozkładu,z wykorzystaniem zmiennych barw słupków histogramu : • tła (background); mieszczące się w przedziale zmienności (M. ± 1s) (gdzie: M.- średnia; s – odchylenie standardowe); • pomiarów nieznacznie anomalnych (slightly anomalous) mieszczące się w klasach (M-2s; M.-1s> oraz <M.+1s; M.+2s) • Pomiarów anomalnych (anomalous) mieszczące się w klasach (M-3s; M-2s> oraz <M+2s; M+3s) • Pomiarów mocno anomalnych (strongly anomalous) mieszczące się w klasach (ponad M3s > oraz <ponad M+3s) STATYSTYKA - POROWATOŚĆ EFEKTYWNA [PRZYKŁAD STATYSTYKI OPISOWEJ I HISTOGRAMU] Utwory facji eolicznej (subpopulacja W) Univariate Statistics:(Statystyka jednej zmiennej) Population ........... 496 Minimum Value ........ 0.25 Maximum Value ........ 29.31 Range ................ 29.06 Mean ................. 11.102681 Standard Deviation ... 5.343875 Standard Error ....... 0.239947 Median ............... 10.325 Sum .................. 5,506.93 Sum of Squares ....... 75,277.4047 Variance ............. 28.557 Skewness ............. 0.629533 Kurtosis ............. 0.283535 Rozkład porowatości efektywnej Background M+1SD (16) M+2SD (22) M+3SD (27) Anomalous Strongly Anomalous Mean (11) Slightly Anomalous 17.5 M-1SD (6) Standard Deviation M-2SD (0) Slightly Anomalous Anomalous W utworach facji eolicznej (subpopulacja W) 15 17.5 15 12.5 12.5 10 10 7.5 7.5 5 5 2.5 0 2.5 0 5 10 15 20 25 30 0 STATYSTYKA -LOGARYTMOWANA PRZEPUSZCZALNOŚĆ [Przykład 2] Utwory facji eolicznej (subpopulacja W) Univariate Statistics:(Statystyka jednej zmiennej) Population ........... 428 Minimum Value ........ -2.09691 Maximum Value ........ 2.658965 Range ................ 4.755875 Mean ................. 0.710358 Standard Deviation ... 1.027635 Standard Error ....... 0.049673 Median ............... 0.909772 Sum .................. 304.03321 Sum of Squares ....... 666.89863 Variance ............. 1.056033 Skewness ............. -0.345495 Kurtosis ............. -0.997528 Rozkład logarytmowanej (log10) przepuszczalności Mean (0.7) Background M+1SD (1.7) M+2SD (2.8) Anomalous Anomalous M-1SD (-0.3) Slightly Anomalous M-2SD (-1.3) Standard Deviation M-3SD (-2.4) Slightly Anomalous Strongly Anomalous W utworach facji eolicznej (subpopulacja W) 25 25 20 20 15 15 10 10 5 5 0 0 -2.4 -1.4 -0.4 0.6 1.6 2.6 W przypadku, gdy analizowany zbiór oznaczeń pochodzi ze skał o różnej genezie sedymentacyjnej albo odmiennym rozwoju procesów kompakcji i diagenezy histogram będzie wykazywał rozkład wyraźnie różny od unimodalnego1 rozkładu Gaussa. Polimodalny rozkład porowatości utworów dolomitu głównego pokazuje na rysunku poniżej pokazuje, że analizowana populacja jest niejednorodna prawdopodobnie obejmując kilka odmiennych subpopulacji.. Rozkład porowatości średnich w otworach przewiercających utwory Ca2 80 70 62 60 Mo1 64 57 Liczba obs. 50 40 Mo2 36 28 30 20 10 0 17 Mo3 18 Mo4 16 13 4 7 6 6 9 5 2 4 4 2 1 1 0 1 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Oczekiwane Normalny Porowatości średnie Górna granica (x<=granica) Ilustracja 1: Przykład polimodalnego histogramu. Porowatość utworów Ca2 Analizy statystyczne dla przepuszczalności Przepuszczalność jest parametrem, który na ogół wykazuje bardzo wysoką zmienność, wyraźnie odbiegającą od rozkładu Gaussa. Na ogół w skałach – w klastycznych, a zwłaszcza w węglanowych, dominują próbki o niskiej przepuszczalności. Zjawisko to jest szczególnie widoczne w węglanach, gdzie dominacja partii skał słabo przepuszczalnych jest tak wyraźna, że analizowane populacje „surowych” danych mają rozkład zbliżony do logarytmicznego 1 Histogram unimodalny ma jeden słupek zawierający najwyższą ilość pomiarów ( tzw. klasa modalna). H. bimodalny ma dwie oddalone od siebie klasy (słupki) obserwacji wyższe od otaczających Rozklad przepuszczalność utworów Ca2 (populacja ogólna N) 350 300 298 Liczba obs 250 200 150 100 50 17 11 2411110020111010000000000000000000000000000001000000000000000000000000000000001 -10 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260 270 280 290 300 310 320 330 340 350 360 370 380 390 400 410 420 430 440 450 460 470 480 490 500 510 520 530 540 550 560 570 580 590 600 610 620 630 640 650 660 670 680 690 700 710 720 730 740 750 760 770 780 790 800 810 820 0 Oczekiwane Normalny Górna granica (x<=granica) Ilustracja 2: Przykład histogramu obrazującego zmienność nie przekształconej przepusczalności utworów dolomitu głównego. Populacja wykazuje rozkład logarymiczny Słuszność powyższej obserwacji potwierdza niżej załączony histogram, wykonany dla tej samej populacji po zlogarytmowaniu przepuszczalności. Iustracja ta pokazuje, że wykazuje ona postać rozkład zbliżoną do rozkładu Gaussa. Rozkład Log10 Przepuszczalności (Populacja ogólna) 100 90 85 80 70 Liczba obs 60 52 48 50 42 40 30 20 10 29 28 19 18 9 6 0 -3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 Górna granica (x<=granica) 1.0 1.5 6 2.0 2 2.5 3.0 Oczekiwane Normalny Zmiana postaci rozkładu przekłada się bardzo wyraźnie na wartości obliczanych miar statystycznych Średnia Xśr N Mediana Me Minim um Maksim um Warianc. Odch.Std S Skośność A Kurtoza Sp Przepuszczalność 344 10,44 0,45 0 811,5 2977,98 11,46 152,18 1,45 Log(Przepuszcz.) 344 -0.287 -0.347 -3.000 2,91 1,33 1,15 -0.162 0,1 Wartości przeliczone z logarytmow anych 0,516 0,450 0,001 810,961 21,478 14,256 0,689 1,265 Badanie siły związku pomiędzy parametrami na podstawie analizy współczynnika korelacji porowatości i przepuszczalności Ocena postaci rozkładu umożliwia określenie wiarygodności odczytanych statystyk oraz stanowi niezbędny krok przygotowania danych, jeżeli chcemy zbadać związki pomiędzy parametrami fizycznymi złoża. np. porowatością a przepuszczalnością. W większości programów statystycznych analiza ta jest wykonywana z wykorzystaniem wykresów rozrzutu opartych na tzw. korelacji liniowej, a dokładniej korelacji Pearsona. Współczynnik korelacji Pearsona (dalej nazywany współczynnikiem korelacji), wymaga aby zmienne były mierzalne. Określa on stopień wzajemnej proporcjonalności wartości dwóch zmiennych. Wartość korelacji (współczynnik korelacji) nie zależy od jednostek miary w jakich wyrażamy badane zmienne. Proporcjonalność zmiennych oznacza, że korelacja jest silna jeśli może być wyrażona przy pomocy linii prostej (nachylonej dodatnio lub ujemnie), zwanej linią regresji (lub najmniejszych kwadratów). Jest ona wyznaczana w taki sposób by suma kwadratów odchyleń punktów pomiarowych od tej linii była minimalna. Współczynniki korelacji r mierzą liniową zależność między dwiema zmiennymi. Jeśli podnieść współczynnik korelacji do kwadratu wówczas otrzymana wartość (r2 – współczynnik determinacji) wyraża proporcję wspólnej zmienności dwóch zmiennych (tzn. siłę lub wielkość ich zależności). Innymi słowy współczynnik determinacji (r2) określa dla jakiego procent analizowanych danych (Y) traktowanych jako tzw. zmienna zależna zmiana wartości będzie bezpośrednio warunkowana zmianami wartości zmiennej X (tzw. zmienna niezależna) w zależności funkcyjnej opisanej równaniem regresji. Współczynnik r2 pozwala nam również w łatwy sposób ocenić jaka część zmian wartości Y ma charakter przypadkowy. Mówi o tym współczynnik Vp= 1-r2 (Słomka, Krawczyk 1986, Mucha 1991, [1]) Wykres rozrzutu dla populacji ogólnej N Przepuszczalność( L)=12.484-0.443*x Log10(Przepuszczalność) (R)=-0.387+0.022*x 900 3.5 Przepuszczalność (L) Log10(Przepuszcz) (R) 2.5 1.5 500 0.5 -0.5 300 -1.5 100 Log10 (Przepuszczalność) Przepuszczalność (mD) 700 -2.5 -100 -2 2 6 10 14 18 22 26 -3.5 Porowatość Aby ocenić korelację pomiędzy zmiennymi należy znać zarówno tę siłę, wielkość jak też istotność współczynnika korelacji. Wstępnym warunkiem, który muszą spełnić korelowane zmienne jest zachowanie normalności rozkładu, szczególnie dla prób mniejszych niż 100 przypadków. Dla nie zanieczyszczonych populacji współczynniki są na ogół znacznie wyższe. Wykres rozrzutu - "facje 1 i 2" nierozdzielone (N1) Przepuszczalność (L)=-3.292+1.73*x Log10(Przepuszczalność) (R)=-1.065+0.148*x 180 3.5 Przepuszczalność(L) Log10(Przepuszcz.) (R) 2.5 Przepuszczalność 1.5 100 0.5 -0.5 60 -1.5 20 -2.5 -20 -3.5 -2 2 6 10 14 Porowatość 18 22 26 Log10 (Przepuszczalność) 140 Wykresy statystyczne w programie Grapher 7.0 Statystyczna analiza danych wykonywana w programie Grapher 7.0 obejmuje możliwość: ● edycji i przeliczania danych w arkusz (tzw. Worksheet), ● policzenia statystyk opisowych definiujących zmienność badanego zbioru danych (populacji bądź próby statystycznej), ● graficznej analizy zmienności danych w postaci wykresów dwu wymiarowych (2D Graphs), trójwymiarowych (3D XYZ Graphs), ● a także opracowywania bardzo uproszczone form map konturowych (Contour map) oraz map z wypełnieniami barwnymi (Surface Maps) Aby rozpocząć pracę otwórz plik zawierający dane wejściowe (File --> Open).Podobnie jak Open Office Calc, program jest w stanie wykorzystać pliki zapisane w wielu formatach. Aby przygotować dane dla Grapher'a otwórz w Open Office Calc, plik zawierający dane petrofizyczne (POROWATOŚĆ, PRZEPUSZCZALNOŚĆ, np. dla grupy 7, plik g7petro.ods) i zapisz go w formacie Excel. Podobnie jak Open Office Calc, program Grapher 7.0 pozwala korzystać z plików zapisanych w formatach popularnych arkuszy kalkulacyjnych, baz danych i różnych odmian plików tekstowych – MS Excel (xls), Dbase (dbf), Lotus 1-2-3 (w??), pliki wymiany danych SYLK (slk), pliki tekstowe o kolumnach rozdzielonych przecinkami (CSV), bądź tabulatorami (txt, DAT). Dane do arkusza programu Grapher (Worksheet) można również pobierać z arkuszy bazy danych Ms Access. Statystyczna analiza danych Program G7 umożliwia wykonanie rozbudowanych statystyk opisowych analizowanych parametrów, obejmujących podstawowe miary położenia i zmienności, a także wykonanie przetestowanie normalności rozkładu analizowanej populacji lub wylosowanej z niej próbki z wykorzystaniem testu Kołmogorowa - Smirnowa Porowatosc_Efe ktywna Number of values 106 Liczba wartości Sum 616.07 Suma Minimum 0 Minimum Maximum 21.47 Maximum Range 21.47 Zakres zmienności Mean 5.812 Średnia Median 1.435 Mediana First quartile 0.36 Pierwszy kwartyl (25%) Third quartile 12.7 Kwartyl 75% 95% confidence interval 1.3883 Poziom istotności 95% 99% confidence interval 1.8364 Poziom istotności 95% Variance 51.937 Wariancja Average deviation 6.3343 Średnie odchylenie Standard deviation 7.2067 Standardowe odchylenie Coefficient of variation 1.23998 Współczynnik zmienności Skewness 0.924 Skośność Kurtosis -0.805 Spłaszczenie KolmogorovSmirnov stat 0.284 Statystyka Kołmogorowa -Smirnowa Critical K-S stat, alpha=.10 0.117 Statystyka K-S dla poziomu istotności p=0.1 Cri`tical K-S stat, alpha=.05 0.13 Statystyka K-S dla poziomu istotności p=0.1 Critical K-S stat, alpha=.01 0.156 Statystyka K-S dla poziomu istotności p=0.1 Ćwiczenie Aby wykonać analizę zmienności parametru w arkuszu zaznacz odpowiednią kolumnę (np. Wsp_Poro) w menu głównym przejdź do opcji Data--> Statistics. Do obliczeń wybierz liczebność próby - number of values, średnią -mean, medianę - median, minimum - minimum value, maksimum – maksimum value, wariancję - Variance, odchylenie standardowe –standard deviation , a także współczynnik skośności – skewness oraz spłaszczenia – kurtosis. [Zaakceptuj wybory OK] wyniki Policz wymienione statystyki dla zmiennych: współczynnik porowatości (WspPoro) oraz logarytmowanej przepuszczalności (LogPrzep). Ostateczne wyniki z okna Statistic Results skopiuj i wklej do pliku Open Office Writer, w którym będzie się znajdować sprawozdanie z wykonania ćwiczenia II. Wykresy statystyczne Jak już nadmieniono program Grapher. 7 stwarza możliwość graficznej analizy zmienności danych z wykorzystaniem wykresów dwu wymiarowych (2D Graphs), trójwymiarowych (3D XYZ Graphs). Wykresy są wykonywane dla aktywnego arkusza danych i zaznaczonej kolumny (jednej lub większej ich ilości)), po zaznaczeniu w menu (Opcja Graph) (Rys.3). W dalszej części tekstu omówiono przede wszystkim wykresy 2D, gdyż one mają największe znaczenie w procedurze statystycznej analizy danych dla oceny własności zbiornikowej strefy złożowe. W tekście zwrócono też uwagę wykresy 2D nie spotykane w praktyce powszechnie stosowanym oprogramowaniu „statystycznym”. W bardzo wąskim zakresie zostaną również omówione niektóre z wykresów 3D. Wykresy dwuwymiarowe Podstawowe znaczenie dla statystycznego rozpoznania analizowanego zbioru danych mają wykresy dwuwymiarowe, które z jednej strony pozwalają określić jak wygląda zróżnicowanie poszczególnych zmiennych (np. porowatości, przepuszczalności, głębokości poboru prób, litologii itp) Nazwy wszystkich wykresów dwuwymiarowych (2D Graphs) przedstawia Ilustracja 3. Część z nich jak wykresy liniowe (Line) rozrzutu (Scatter), słupkowe (Bar chart), kołowe (Pie chart) są znane z arkuszy kalkulacyjnych. Ale wiele wykresów dostępnych w programie Grapher 7.0 można znaleźć wyłącznie w nielicznych specjalistycznych pakietów programów (RockWorks2002 i nowsze wersję) Rys. 3: Menu 2D Graphs -wykresów dwuwymiarowych Na podstawie rysunków demonstracyjnych dołączonych do programu Grapher7.0 zilustrowano niżej wygląd części z nich, biorąc pod uwagę wykresy ewentualnie przydatne w poszukiwaniach naftowych lub zagadnieniach związanych z energetyką wiatrową. Histogram 2D Rys. 4: Histogram materiały demonstracyjne Grapher 7.0 Wykres ten opisuje tzw. gęstość prawdopodobieństwa występowania wartości parametru w analizowanym zbiorze danych, czy innymi słowy postać rozkładu tego zbioru (populacji). Zbiór danych w zakresie od wartości minimalnej do maksymalnej jest dzielony na przedziały (klasy) o stałe szerokości, a wykres pokazuje jak wiele przypadków wpada do każdej z klas. Częstotliwość ta może być wyrażona jako ilość przypadków lub jako procent przypadków w analizowanej populacji. Wykres kołowy Kiedy analizowaną populację (np. pomiary porowatości) reprezentują próbki należące do Rys. 5: Wykres kołowy ( mat. demonstarcyjne Grapher 7.0) różnych grup, czyli tzw. subpopulacji ( np. próbki pobrane dla różnych skał= litologii) często chcemy poznać liczebność tych subpopulacji. . Umożliwiają nam to nam m.in. wykresy słupkowy (Rys.5) i kołowy lub ich odmiany przestrzenne [3D] (Rys.6) Rys. 6: Wykresy kołowy i słupkowy kreślone z wykorzystaniem opcji 3D XYZ Graphs Wykresy rozrzutu Do podstawowych wykresów statystycznych wykorzystywanych w analizach naftowych należą wykresy rozrzutu badające siłę związku pomiędzy analizowanymi parametrami. W programie Grapher ich najprostszą dwuwymiarową formą są wykresy dostępne jako Line/Scatter (Rys.7) bądź , nieco bardziej złożone, Classed scatter. Wykresy liniowe (Line) w poszukiwaniach naftowych na ogół nie są stosowane. Rys. 7: Przykład wykresu rozrzutu z naniesionymi liniami najlepszego dopasowania Na wykresie rozrzutu można przedstawić tylko punkty, ale także linie najlepszego dopasowania wyznaczane metodami najmniejszych kwadratów, wielomianów logarytmicznie itp. Inne specjalistyczne wykresy 2D stosowane w geologii Wykresy biegunowe Polar charts Wykresy biegunowe nie są powszechnie stosowane w arkuszach kalkulacyjnych. Umożliwiają je tylko specjalistyczne programy, jak Grapher. 7.0 i RockWorks (Rys.8). Wykresy biegunowe są stosowane w przypadku, gdy oprócz częstości występowania zjawiska chcemy określić jego kierunkową zmienność odniesioną względem północy geograficznej. W zakresie odnawialnych źródeł energii wykresy tego typu mogą być stosowane do kreślenia częstości wiania wiatru z określonych kierunków. Wykresy trójkątne (Ternary plots) Rys.8: Przykład wykresu biegunowego (mat. demonstarcyjne Grapher). Wykresy trójkątne są stosowane do klasyfikowania różnych zjawisk na podstawie zawartości trzech składników, np. w różnych klasyfikacjach petrograficznych skał osadowych, klasyfikacjach gleb itp. Rys.9: Wykresy trójkątny - klasyfikacja gleb (mat. demonstarcyjne Grapher). Wykresy składu (Stiff plots) Grapher 7.0 umożliwia opracowanie wykresów składu jonowego wód. Podobne rozwiązania zapewniają stosunkowo nieliczne specjalistyczne programy. Wykresy bąbelkowe (Buble Plots) Wykresy bąbelkowe są nieco zbliżone do wykresów liniowych / rozrzutu. Jednakże poprzez skalowanie wielkości symboli w zależności od wielkości zadanego parametru można uzyskać dodatkową informację o współzależności przedstawionych parametrów. W programie dostępne są wykresy bąbelkowe 2D i 3D Rys.11: Wykresy bąbelkowe w programie Grapher 7.0 można przedstawiać jako wykresy 2D lub 3D (mat. demonstracyjne Grapher) Ćwiczenie 1) Na podstawie danych petrofizycznych odpowiednich dla twojej grup (np. g6-petro dla grupy 6) skonstruuj histogramy dla zmiennych (WspPoro) oraz logarytmowanej przepuszczalności (LogPrzep). (W arkuszu kalkulacyjnym zaznacz odpowiednią kolumnę, wybierz opcję [New Graph -->2D Graphs- Histogram] 2) Wykonaj wykres rozrzutu dla wyżej wymienionych zmiennych 3) Wykonaj wykres bąbelkowy dla powyższych zmiennych Literatura: DAVIS J.,C., - 1986 - Statistics and data analysis in geology. John Wiley & Sons, New York, Second Edition. Mucha J. – 1991 – Wybrane metody matematyczne w geologii górniczej. Skrypty Uczelniane nr 1215. Wydawnictwo AGH, Kraków 1991. KRAWCZYK A., SŁOMKA T., 1986 - Podstawowe metody matematyczne w geologii. Wydanie drugie poprawione. Skrypty Uczelniane nr 1026. Wydawnictwo AGH, Kraków 1986.