Marek Cieciura METODY PROBABILISTYCZNE
Transkrypt
Marek Cieciura METODY PROBABILISTYCZNE
Marek Cieciura METODY PROBABILISTYCZNE W PIGUŁCE Recenzenci prof. dr hab. inż. Jerzy Gawinecki prof. dr hab. Tomasz Kuszewski Projekt okładki i generowanie ebooka Marek Cieciura ISBN 978-83-62855-54-4 Copyright © by Marek Cieciura Data ostatnich poprawek 22 października 2015 Niniejsza książka jest wydrukiem z formatu PDF ebooka dostępnego pod adresem http://cieciura.net/ebooki/ Instrukcja korzystania z ebooków umieszczona jest pod adresem http://cieciura.net/ebooki/ebook_instrukcja.pdf METODY PROBABILISTYCZNE W PIGUŁCE SPIS TREŚCI PRZEDMOWA ........................................................................................................... 4 1. WPROWADZENIE ................................................................................................ 5 2. CHARAKTERYSTYKI LICZBOWE ........................................................................ 7 3. OPRACOWANIE DANYCH STATYSTYCZNYCH .............................................. 10 4. ZDARZENIA LOSOWE ....................................................................................... 12 5. ZMIENNE LOSOWE ............................................................................................ 15 6. PARAMETRY ROZKŁADU ZMIENNYCH LOSOWYCH ..................................... 16 7. ROZKŁADY SKOKOWYCH ZMIENNYCH LOSOWYCH .................................... 18 8. ROZKŁADY CIĄGŁYCH ZMIENNYCH LOSOWYCH ......................................... 19 9. TWIERDZENIA GRANICZNE .............................................................................. 20 10. PARAMETRYCZNA ESTYMACJA PUNKTOWA .............................................. 21 11. PARAMETRYCZNA ESTYMACJA PRZEDZIAŁOWA ...................................... 22 12. ZASADY WERYFIKACJI HIPOTEZ .................................................................. 23 13. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH .......................................... 24 14. WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH .................................... 26 15. ANALIZA KORELACJI I REGRESJI DWÓCH ZMIENNYCH ............................ 28 16. ZAAWANSOWANE METODY ANALIZY STATYSTYCZNEJ ........................... 29 17. OPERACJE NA SYGNAŁACH CIĄGŁYCH....................................................... 31 18. OCENA WYDAJNOŚCI OPROGRAMOWANIA ................................................ 33 DODATEK 1. PODSTAWOWA TERMINOLOGIA ................................................... 35 DODATEK 2. CYTATY STATYSTYCZNE ............................................................... 38 METODY PROBABILISTYCZNE W PIGUŁCE PRZEDMOWA O wszystkim należy mówić tak prosto jak się da, ale nie prościej – Albert Einstein Opracowanie zawiera krótką charakterystykę 18 tematów metod probabilistycznych i uwzględnia następujący cel i efekty kształcenia. Cel kształcenia Zapoznanie studentów z podstawami statystyki opisowej, rachunku prawdopodobieństwa i statystyki matematycznej. Efekty kształcenia Wiedza • Podstawowe pojęcia i metody statystyki opisowej, rachunku prawdopodobieństwa i statystyki matematycznej. • Formułowanie problemów w kategoriach rachunku prawdopodobieństwa i statystyki. • Możliwości arkusza Excel w rozwiązywaniu zadań z rachunku prawdopodobieństwa i statystyki i statystyki. Umiejętności • Rozwiązywanie zadań ze statystyki opisowej, rachunku prawdopodobieństwa i statystyki matematycznej oraz interpretacja uzyskiwanych wyników. Kompetencje społeczne • Zrozumienie probabilistycznego charakteru otaczającego nas świata. • Świadomość istoty i ograniczeń wykorzystywania wskaźników statystycznych stosowanych w życiu codziennym. Elementy 16 charakterystyk zostały przedstawione w postaci odrębnego zadania z lukami, dostępnego w portalu: http://cieciura.net/mp/ w wersji Nauka i w wersji Sprawdzanie. Terminologia występująca w opracowaniu jest także treścią krzyżówek dostępnych w portalu w wersji Nauka i w wersji Sprawdzanie. Nie zaleca się rozwiązywania krzyżówek i zadań z lukami w tych wersjach przy wykorzystaniu niniejszego opracowania. Bardziej przydaje się ono do rozszerzenia wiedzy i powtórzenia opanowanych wcześniej wiadomości. Zwraca się uwagę, że w opracowaniu nie są podawane wzory1, należy je na podstawie zamieszczonego tekstu samodzielnie odtworzyć w pamięci i zapisać na kartce. Opracowanie rekomendowane jest przede wszystkim: • jako pomoc w powtórzeniu materiału, • do przypomnienia sobie wcześniej opanowywanej wiedzy. Kolejny etap rozszerzenia wiedzy powinien opierać się na lekturze udostępnionego podręcznika: http://cieciura.net/mp/index.php/pomoce-dydaktyczne/5-podrcznik Pierwszy dodatek zawiera podstawową terminologię występującą w krzyżówkach. Zamieszczone na końcu cytaty rekomenduje się do przemyślenia i zapamiętania kilku najbardziej przemawiających do Czytelnika. Informacje podane w opracowaniu będą treścią sprawdzianów egzaminacyjnych: krzyżówki i zadań z lukami. 1 Proszę przeczytać cytat autorstwa Renaty Bednarczyk zamieszony w ostatniej części opracowania. 4 METODY PROBABILISTYCZNE W PIGUŁCE 1. WPROWADZENIE Populacja jest to zbiór elementów podlegających badaniu statystycznemu. Elementy populacji charakteryzują się: • właściwością wspólną, pozwalającą odróżnić elementy populacji od innych elementów, które do niej nie należą; • właściwościami różniącymi je między sobą. Aby można było odróżnić elementy populacji od innych elementów, populacja powinna być określona pod względem: rzeczowym, terytorialnym (przestrzennym), czasowym. Cecha populacji jest to właściwość, ze względu na którą elementy populacji mogą się różnić. Warianty cechy są to możliwe wartości tej cechy. Wyróżniające jednostki wchodzące w skład badanej zbiorowości nazywamy cechami statystycznymi. Rozróżniamy trzy zasadnicze typy cech: jakościowe, porządkowe i ilościowe. Cechy jakościowe (niemierzalne) to takie, których nie można jednoznacznie scharakteryzować za pomocą liczb (czyli nie można zmierzyć). Możemy je tylko opisać słowami. Cechy porządkowe (mierzalne) umożliwiają porządkowanie (lub szeregowanie) wszystkich elementów zbioru wyników. Cechy takie najlepiej określa się przymiotnikami i ich stopniowaniem. Cechy ilościowe (mierzalne) to takie, które dadzą się wyrazić za pomocą jednostek miary w pewnej skali. Wyróżnia się tutaj dwie skale: przedziałową – określone jest odejmowanie wariantów – i ilorazową – określone jest odejmowanie i dzielenie wariantów. Wyróżnia się dwie podstawowe metody badań statystycznych: badanie pełne – wyznaczanie wartości badanej cechy wszystkich jednostek populacji – oraz badanie częściowe – wyznaczanie wartości badanej cechy tylko niektórych, specjalnie dobranych jednostek populacji. Badanie częściowe stosujemy, gdy: • jest niszczące; • pełne jest zbyt drogie; • musi być przeprowadzone i opracowane w krótkim czasie. Próba reprezentatywna, stosowana w badaniach częściowych, jest to próba, w której struktura cechy mało różni się od struktury tej cechy w populacji. Inny słowy, rozkład wariantów cech elementów próby powinien być taki sam jak w populacji. Aby próba była reprezentatywna, powinna być dostatecznie liczna i elementy populacji powinny być w odpowiedni sposób losowane. Analizowane próby mogą być uzyskane z tych samych elementów – nazywane są one w tym wypadku próbami powiązanymi. Przy uzyskaniu prób z różnych elementów nazywane są one próbami niepowiązanymi. 5 METODY PROBABILISTYCZNE W PIGUŁCE W opracowaniu podano w pierwszej kolejności informacje dotyczące statystyki opisowej – jest to dział statystyki zajmujący się metodami opisu danych statystycznych uzyskanych podczas badania statystycznego – analizie podlegają wszystkie elementy populacji bądź próby. Celem stosowania metod statystyki opisowej jest podsumowanie zbioru danych i wyciągnięcie pewnych podstawowych wniosków i uogólnień na temat zbioru. Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach statystyki opisowej następuje prezentacja (tabelaryczna i graficzna) rozkładu cechy, a wstępne opracowanie wyników pomiarów (próby) odbywa się bez posługiwania się pojęciami rachunku prawdopodobieństwa. Jeśli badana jest próba to nie są wyciągane wnioski dotyczące populacji generalnej. W następnej kolejności przedmiotem rozważań jest rachunek prawdopodobieństwa – dział matematyki zwany także teorią prawdopodobieństwa, czy też probabilistyką, zajmujący się tzw. zdarzeniami losowymi lub inaczej badaniem zjawisk losowych. Rachunek prawdopodobieństwa zajmuje się badaniem abstrakcyjnych pojęć matematycznych stworzonych do opisu zjawisk, które nie są deterministyczne: zmiennych losowych w wypadku pojedynczych zdarzeń oraz procesów stochastycznych w wypadku zdarzeń powtarzających się (w czasie). Na zakończenie opisano statystykę matematyczną – dział statystyki, w którym stosuje się teorię prawdopodobieństwa i metody charakterystyczne dla innych działów matematyki. Przedmiotem zainteresowania są tutaj metody wnioskowania statystycznego, które polegają na tym, że na podstawie wyników uzyskanych z próby formułujemy wnioski o całej zbiorowości. Przyjmuje się, że modele badanych cech populacji są zmiennymi losowymi. Statystyka matematyczna zajmuje się budowaniem i wykorzystywaniem reguł wnioskowania statystycznego. Wnioskowanie statystyczne jest to wnioskowanie o rozkładzie cechy populacji lub kilku cech oraz o ich współzależności na podstawie próby. Statystykę matematyczną można umownie podzielić na dwa podstawowe działy: teorię estymacji i teorię weryfikacji hipotez. Umowność podziału wynika z faktu, że przy rozwiązywaniu konkretnych problemów z reguły wykorzystuje się łącznie metody z obu tych działów. W ramach statystyki opisowej podano szereg charakterystyk liczbowych danych statystycznych o postaciach wynikających ze „zdrowego rozsądku”. Określają one rozkład analizowanych elementów populacji czy też próby pobranej z populacji – bez żadnych uogólnień na populację. Z kolei w wypadku estymacji, prowadzonej w ramach statystyki matematycznej, oszacowania na podstawie próby są uogólniane na populację i stąd w naturalny sposób pojawia się pytanie o dokładność takiego uogólniania. 6 METODY PROBABILISTYCZNE W PIGUŁCE 2. CHARAKTERYSTYKI LICZBOWE W ramach statystyki opisowej analizuje się wartości określonej cechy wszystkich elementów populacji albo próby – są to tak zwane dane statystyczne. Charakterystyki liczbowe danych statystycznych dzielimy na: • charakterystyki położenia (średnia, mediana, dominanta/moda); • charakterystyki rozproszenia (wariancja, odchylenie standardowe, współczynnik zmienności, odchylenie przeciętne, rozstęp); • charakterystyki asymetrii (współczynnik asymetrii, wskaźnik asymetrii); • charakterystyki spłaszczenia (kurtoza). Podstawowe charakterystyki położenia Średnia danych statystycznych – jest równa ilorazowi sumy danych statystycznych i ich liczby. Mediana danych statystycznych – w wypadku próby o liczności nieparzystej jest równa środkowej danej po uporządkowaniu danych statystycznych od najmniejszej do największej. W wypadku liczności nieparzystej medianę oblicza się po uporządkowaniu jako średnią arytmetyczną dwóch środkowych elementów. Dominanta danych statystycznych – najczęściej występująca dana statystyczna (o ile istnieje). Interpretacja charakterystyk położenia Średnia arytmetyczna, mediana i dominanta są przykładami tzw. charakterystyk położenia, czyli wielkości informujących o przeciętnej wielkości cechy populacji. Wokół tych wielkości skupiają się na ogół wartości cechy populacji. Inaczej wyrażamy to mówiąc, że poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji. Średnia arytmetyczna jest liczbą informującą o tym, jaką wartość cechy powinny mieć elementy populacji, gdyby wszystkie dane statystyczne były sobie równe Mediana dzieli zbiór danych statystycznych na dwa równoliczne podzbiory: do jednego z nich należą dane mniejsze lub równe medianie, zaś do drugiego dane większe lub równe medianie. Dominanta jest najbardziej typową daną statystyczną. Charakterystyki rozproszenia Wariancja danych statystycznych – średnia arytmetyczna kwadratów różnic pomiędzy danymi statystycznymi i ich średnią. Odchylenie standardowe danych statystycznych – pierwiastek z wariancji. Współczynnik zmienności danych statystycznych – iloraz odchylenia standardowego i modułu średniej. Rozstęp danych – różnica pomiędzy największą a najmniejszą daną Interpretacja charakterystyk rozproszenia Wariancja, odchylenie standardowe, współczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności, zróżnicowania). 7 METODY PROBABILISTYCZNE W PIGUŁCE Każda z tych charakterystyk ma wartość równą zeru tylko wtedy, jeśli wszystkie dane statystyczne są równe (nie ma wtedy zróżnicowania danych) i przyjmuje coraz większą wartość, gdy dane są bardziej zróżnicowane. Wariancja i odchylenie standardowe mierzą średnie rozproszenie danych statystycznych od ich średniej arytmetycznej. Współczynnik zmienności wyraża, jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej. Jest wielkością niemianowaną (bez jednostki). Nadaje się więc do porównywania zróżnicowania cech populacji wyrażonych w różnych jednostkach. Rozstęp wyraża długość najkrótszego przedziału, do którego należą wszystkie dane statystyczne. Charakterystyki asymetrii Współczynnik asymetrii (skośności) – iloraz średniej arytmetycznej trzeciej potęgi różnic danych statystycznych i ich średniej oraz trzeciej potęgi odchylenia standardowego. Jeśli współczynnik jest równy 0, rozkład cechy jest symetryczny, jeśli jest różny od zera, rozkład jest asymetryczny, przy czym, jeśli jest dodatni, to asymetria rozkładu jest prawostronna, jeśli ujemny, asymetria jest lewostronna. Wartość bezwzględna współczynnika mierzy siłę asymetrii, im jest większa tym asymetria jest silniejsza. Współczynnik jest jednostką niemianowaną, może więc służyć do porównywania asymetrii cech populacji wyrażonych w różnych jednostkach. Charakterystyki spłaszczenia Współczynnik spłaszczenia (kurtoza) – zmniejszony o 3 iloraz średniej arytmetycznej czwartej potęgi różnic danych statystycznych i ich średniej oraz czwartej potęgi odchylenia standardowego. Kurtoza jest miarą skupienia wokół średniej arytmetycznej; im większa jest jej wartość, tym bardziej wartości zmiennej koncentrują się wokół średniej – miarą odniesienia jest rozkład normalny. Jeśli kurtoza jest ujemna, rozkład jest bardziej spłaszczony od normalnego, jeśli dodatnia, rozkład jest bardziej wysmukły niż normalny. 8 METODY PROBABILISTYCZNE W PIGUŁCE 9 METODY PROBABILISTYCZNE W PIGUŁCE 3. OPRACOWANIE DANYCH STATYSTYCZNYCH Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych. Szereg rozdzielczy Na wstępie analizy z reguły przedstawia się dane statystyczne w postaci szeregu rozdzielczego. Szereg rozdzielczy jest statystycznym sposobem prezentacji rozkładu empirycznego. Uzyskuje się go, dzieląc dane statystyczne na pewne kategorie i podając liczebność lub częstość zbiorów danych przypadających na każdą z tych kategorii. Podstawowe rodzaje szeregów rozdzielczych: • strukturalny (cecha jakościowa), • punktowy (cecha ilościowa, skokowa), • przedziałowy (cecha ilościowa, ciągła). Kolejne kroki podczas wykonywania szeregu rozdzielczego: 1. Porządkowanie (jeśli to możliwe rosnąco) wartości cechy. 2. Zliczenie liczby wystąpień danej cechy w próbie. 3. Obliczenie częstości występowania dla każdej wartości cechy. 4. Prezentacja wyniku w formie tabeli. Dla cechy w skali nominalnej wyznaczamy tylko dominantę. Dla cech w skali porządkowej wyznaczamy dominantę, kwantyle, medianę i rozstęp. Dla cech w pozostałych skalach: przedziałowej i ilorazowej można obliczać wszystkie charakterystyki liczbowe. Przy małej liczbie danych obliczamy charakterystyki liczbowe i dokonujemy ich interpretacji. Przy umiarkowanej liczbie różnych wartości (do 25) i dużej liczbie danych statystycznych dane prezentujemy tabelarycznie w postaci szeregu statystycznego punktowego (liczności występujących danych) oraz graficznie w postaci histogramu lub wykresu kołowego – jako wykres szeregu punktowego. Obliczamy następnie charakterystyki liczbowe i dokonujemy ich interpretacji. Przy rozkładzie ciągłym, a także przy dużej liczbie różnych wartości (>25), dane grupujemy w pewną liczbę klas i obliczamy liczebności w poszczególnych klasach, prezentujemy je w postaci szeregu rozdzielczego przedziałowego. Obliczamy następnie charakterystyki liczbowe i dokonujemy ich interpretacji. Badanie zależności cech populacji Przy badaniu populacji ze względu na dwie cechy X i Y sprawdza się, czy cechy te są zależne i jak silnie. W tym celu konstruuje się szeregi statystyczne i wyznacza tablice korelacyjne oraz prezentuje graficznie dane statystyczne. Rozważmy szeregi rozdzielcze warunkowe cechy postaci X/Y=vj dla wszystkich wariantów vj. Jeśli w każdym z tych szeregów dowolny wariant wi cechy X występuje z jednakową częstością, to cechę X nazywamy cechą stochastycznie niezależną od cechy Y. 10 METODY PROBABILISTYCZNE W PIGUŁCE Analogicznie definiuje się niezależność stochastyczną cechy Y od cechy X. Mówimy, że cechy X i Y są niezależne stochastycznie, jeśli cecha X nie zależy stochastycznie od cechy Y i Y nie zależy w tym sensie od X. Niezależność stochastyczna bywa nazywana także niezależnością statystyczną. Niezależność stochastyczna cech X i Y oznacza, że przyjęcie przez jedną z nich dowolnej wartości nie ma wpływu na wielkość częstości, z którą przyjmowane są wartości przez drugą cechę. Cechy X i Y są zależne stochastycznie, jeśli przynajmniej w dwóch szeregach warunkowych nie wszystkie warianty mają jednakową częstość. Zależność stochastyczna oznacza więc, że fakt przyjęcia przez jedną cechę pewnej wartości może mieć wpływ na częstości przyjmowania wartości przez drugą cechę. Najważniejszą charakterystyką, która dotyczy tych dwóch cech łącznie, jest współczynnik korelacji r. Jest on równy ilorazowi kowariancji oraz iloczynu odchyleń standardowych. Przy czym kowariancja jest równa średniej arytmetycznej iloczynów różnic danych statystycznych i ich średnich.. Współczynnik korelacji r cech X i Y jest miarą siły ich zależności liniowej. Im wartość bezwzględna r jest bliższa 1, tym zależność stochastyczna mniej różni się od zależności liniowej, przy czym dla r>0 upodabnia się do zależności liniowej rosnącej, natomiast dla r<0 do zależności malejącej. Dla modułu współczynnika równego 1 staje się zależnością liniową. 11 METODY PROBABILISTYCZNE W PIGUŁCE 4. ZDARZENIA LOSOWE Pojęciem pierwotnym rachunku prawdopodobieństwa jest zdarzenie elementarne. Zdarzenia losowe (krótko: zdarzenia) są podzbiorami złożonymi z pewnej liczby zdarzeń elementarnych. Sam zbiór wszystkich zdarzeń elementarnych nazywamy zdarzeniem pewnym. Zbiór niezawierający żadnego zdarzenia elementarnego (zbiór pusty) nazywamy zdarzeniem niemożliwym. Relacje między zdarzeniami Suma zdarzeń A, B – zdarzenie składające się z tych wszystkich zdarzeń elementarnych, które należą do co najmniej jednego ze zdarzeń A, B. Suma zdarzeń A, B zachodzi wtedy i tylko wtedy, gdy zachodzi co najmniej jedno ze zdarzeń A, B. Iloczyn zdarzeń A, B – zdarzenie składające się z tych wszystkich zdarzeń elementarnych, które należą do każdego ze zdarzeń A, B. Iloczyn zdarzeń A, B zachodzi wtedy i tylko wtedy, gdy zachodzi każde ze zdarzeń A, B. Różnica zdarzeń A, B – zdarzenie składające się z tych wszystkich zdarzeń elementarnych, które należą do A i nie należą do B. Różnica zdarzeń A, B zachodzi wtedy i tylko wtedy, gdy zachodzi A i nie zachodzi B. Zdarzenie przeciwne do zdarzenia A – zdarzenie składające się z tych wszystkich zdarzeń elementarnych, które nie należą do A (lecz należą do zbioru zdarzeń elementarnych ). Zdarzenie przeciwne do A zachodzi wtedy i tylko wtedy, gdy nie zachodzi zdarzenie A. 12 METODY PROBABILISTYCZNE W PIGUŁCE Zdarzenie A pociągające za sobą zdarzenie B - jeśli każde zdarzenie elementarne należące do A należy także do B. Zdarzenie A pociąga zdarzenie B wtedy i tylko, wtedy, gdy z zajścia zdarzenia A wynika zajście zdarzenia B. Wykluczające się zdarzenia A, B – jeśli nie mają one wspólnych zdarzeń elementarnych. Zdarzenia A, B wykluczają się wtedy i tylko wtedy, gdy nie mogą zajść łącznie. Prawa de Morgana Zdarzenie przeciwne do sumy dwóch zdarzeń jest równe (równoważne) iloczynowi zdarzeń przeciwnych. Zdarzenie przeciwne do iloczynu dwóch zdarzeń jest równe (równoważne) sumie zdarzeń przeciwnych Definicje prawdopodobieństwa Klasyczna definicja prawdopodobieństwa Założenia: zbiór zdarzeń elementarnych ma skończoną liczbę elementów, wszystkie zdarzenia losowe jednoelementowe są jednakowo prawdopodobne. Prawdopodobieństwo zdarzenia A jest równe ilorazowi liczby zdarzeń elementarnych należących do zdarzenia A oraz liczby wszystkich zdarzeń elementarnych. Geometryczna definicja prawdopodobieństwa Zbiór zdarzeń elementarnych jest zbiorem punktów prostej, płaszczyzny lub przestrzeni. Założenia: zbiór jest mierzalny, o skończonej mierze, tzn. ma skończoną długość, pole lub objętość oraz wszystkie punkty zbioru mają jednakowe szanse wylosowania. Prawdopodobieństwo dowolnego zdarzenia A, będącego podzbiorem mierzalnym zbioru , jest równe ilorazowi miary zdarzenia A i miary zbioru zdarzeń elementarnych. Statystyczna definicja prawdopodobieństwa W długiej serii doświadczeń obserwuje się wystąpienia zdarzenia A. Jeżeli częstość n/N zdarzenia A, gdzie N jest długością serii, a n liczbą doświadczeń, w których pojawiło się zdarzenie A, przy wzrastaniu długości serii zbliża się do pewnej liczby p, oscylując wokół tej liczby, i jeśli wahania częstości zdarzenia przejawiają tendencję 13 METODY PROBABILISTYCZNE W PIGUŁCE malejącą przy wzrastającym N, to liczba p nazywana jest prawdopodobieństwem zdarzenia A. Aksjomatyczna definicja prawdopodobieństwa Jeśli każdemu zdarzeniu losowemu A przyporządkowano liczbę rzeczywistą P(A), zwaną prawdopodobieństwem zdarzenia A, w taki sposób, aby spełnione były następujące warunki: • P(A) jest niemniejsza od 0 i nie większa od 1; • Prawdopodobieństwo zdarzenia pewnego jest równe 1; • Jeżeli zdarzenia A1, A2, ... , An, ... wykluczają się parami (tzn. każde dwa z nich wykluczają się), wtedy prawdopodobieństwo sumy tych zdarzeń jest równe sumie ich prawdopodobieństw; tak określoną funkcję P nazywamy prawdopodobieństwem. Ocena definicji prawdopodobieństwa Klasyczna definicja prawdopodobieństwa zajścia zdarzenia jest tautologią, gdyż, definiując prawdopodobieństwo, posługuje się pojęciem zdarzeń jednakowo możliwych, czyli jednakowo prawdopodobnych. Geometryczna definicja prawdopodobieństwa wymaga znajomości miary zbiorów, którymi się posługuje. Statystyczna definicja prawdopodobieństwa nie jest ścisła, ponieważ nie jest sprecyzowana granica w niej występująca. Wad tych nie ma aksjomatyczna definicja prawdopodobieństwa. Prawdopodobieństwem warunkowym zdarzenia A pod warunkiem, że zaszło zdarzenie B, dla którego P(B)>0, nazywamy iloraz prawdopodobieństwa iloczynu zdarzeń A i B oraz prawdopodobieństwa zdarzenia B. Prawdopodobieństwo iloczynu dwóch zdarzeń jest równe iloczynowi prawdopodobieństwa jednego z tych zdarzeń i prawdopodobieństwa drugiego zdarzenia pod warunkiem zajścia pierwszego. Zdarzenia A, B nazywamy zdarzeniami niezależnymi, jeśli prawdopodobieństwo iloczynu tych zdarzeń jest równe iloczynowi ich prawdopodobieństw. Wzór Bayesa Jeżeli pewne zdarzenia losowe Ai o dodatnich prawdopodobieństwach wykluczają się parami i suma ich jest zdarzeniem pewnym, to prawdopodobieństwo wystąpienia dowolnego zdarzenia losowego B jest równe sumie iloczynów prawdopodobieństwa zdarzenia losowych Ai oraz prawdopodobieństwa zdarzenia B pod warunkiem zajścia zdarzenia Ai. 14 METODY PROBABILISTYCZNE W PIGUŁCE 5. ZMIENNE LOSOWE Jeżeli każdemu zdarzeniu elementarnemu przyporządkujemy liczbę rzeczywistą, to mówimy, że została określona zmienna losowa jednowymiarowa, albo – w skrócie – zmienna losowa. Zmienna losowa jest więc funkcją, której dziedziną jest zbiór zdarzeń elementarnych Ω, a wartościami są liczby rzeczywiste ze zbioru R. Zmienna losowa, która przyjmuje wartości ze zbioru skończonego lub przeliczalnego, nazywana jest skokową zmienną losową. Z kolei zmienna losowa przyjmująca wartości z określonego przedziału nazywana jest ciągłą zmienną losową. Uniwersalnym sposobem określenia rozkładu zmiennej losowej jest podanie funkcji F(x) zwanej dystrybuantą i określonej wzorem F(x) = P(X < x) dla każdego x należącego do zbioru wartości R. Dystrybuanta w punkcie x jest równa prawdopodobieństwu, że zmienna losowa przyjmie wartości mniejsze od x. Prawdopodobieństwo, że zmienna losowa przyjmie wartości z określonego przedziału jest równe różnicy wartości dystrybuanty w tych punktach. Dystrybuanta F(x) jest funkcją niemalejącą i lewostronnie ciągłą. Dla zmiennych losowych skokowych rozkład określa funkcja prawdopodobieństwa podająca dla każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia. Między dystrybuantą zmiennej losowej skokowej X i jej funkcją prawdopodobieństwa istnieje wzajemnie jednoznaczna odpowiedniość: • dystrybuancie zmiennej X odpowiada funkcja prawdopodobieństwa, • funkcji prawdopodobieństwa zmiennej X odpowiada dystrybuanta. Dla zmiennych losowych ciągłych rozkład można wyrazić za pomocą gęstości prawdopodobieństwa f(x). Gęstość prawdopodobieństwa jest równa pochodnej dystrybuanty, jeżeli ta pochodna istnieje. Prawdopodobieństwo, że zmienna losowa przyjmie wartości z określonego przedziału jest równa całce z funkcji gęstości w tym przedziale – interpretacja geometryczna: pole obszaru ograniczonego wykresem gęstości i osią OX w granicach całkowania. Gęstość f(x) jest funkcją nieujemną. Jeśli na zbiorze zdarzeń elementarnych określimy dwie zmienne losowe X i Y, to uporządkowaną parę (X, Y) nazywamy zmienną losową dwuwymiarową. Zmienna losowa dwuwymiarowa jest więc przyporządkowaniem każdemu zdarzeniu elementarnemu uporządkowanej pary liczb rzeczywistych (x, y). Pary te nazywamy wartościami zmiennej losowej dwuwymiarowej (X, Y), są one punktami płaszczyzny. Dla zmiennej losowej dwuwymiarowej w analogiczny sposób jak dla zmiennej losowej jednowymiarowej określa się dystrybuantę i funkcję gęstości. 15 METODY PROBABILISTYCZNE W PIGUŁCE 6. PARAMETRY ROZKŁADU ZMIENNYCH LOSOWYCH W zastosowaniach praktycznych zamiast rozpatrywać funkcje rozkładu prawdopodobieństwa, gęstość czy dystrybuantę zmiennych losowych, wystarczy nieraz ograniczyć się do wykorzystania jednego lub kilku parametrów opisujących zasadnicze właściwości rozkładu zmiennej losowej. Parametry rozkładu zmiennej losowej jednowymiarowej dzielimy na dwie grupy: • miary położenia, dotyczące określonych wartości zmiennej losowej, do miar tego typu zaliczamy wartość oczekiwaną, medianę i dominantę (modę); • miary zmienności, zwane też miarami rozproszenia, przykładami miar tego typu są wariancja i odchylenie standardowe. Wartość oczekiwaną zmiennej losowej X oznaczamy symbolami EX lub m. Dla dyskretnej zmiennej losowej wartość oczekiwana jest równa sumie iloczynów możliwych wartości zmiennych losowych i prawdopodobieństwa ich występowania. Dla ciągłej zmiennej losowej wartość oczekiwana jest równa całce z iloczynu x f(x) w przedziale wartości zmiennych losowych. Wartość oczekiwana sumy zmiennych losowych jest równa sumie ich wartości oczekiwanych (addytywność). Wartość oczekiwana iloczynu zmiennych losowych niezależnych jest równa iloczynowi ich wartości oczekiwanej (multiplikatywność). Wartość oczekiwana zmiennej losowej to taka wartość, wokół której skupiają się wyniki wielokrotnych realizacji tej zmiennej. Medianą zmiennej losowej jest taka wartość, dla której dystrybuanta wynosi 0,5. Wariancję zmiennej losowej X oznaczamy symbolami D2 X lub σ2. Jest ona równa wartości oczekiwanej kwadratu różnicy pomiędzy zmienna losową i jej wartością oczekiwaną. Uwzględniając sposób obliczenia wartości oczekiwanej zmiennej losowej, otrzymujemy wzory do obliczenia wariancji zmiennej losowej. Wariancja charakteryzuje średni rozrzut wokół wartości oczekiwanej. Wariancję zmiennej losowej można obliczyć jako różnicę wartości oczekiwanej kwadratu zmiennej losowej oraz kwadratu wartości oczekiwanej. Wariancja sumy lub różnicy zmiennych losowych niezależnych jest równa sumie wariancji tych zmiennych. Odchylenie standardowe zmiennej losowej X jest równe pierwiastkowi z wariancji zmiennej losowej. Współczynnikiem zmienności zmiennej losowej X nazywamy iloraz odchylenia standardowego i wartości oczekiwanej tej zmiennej losowej, przy założeniu że wartość oczekiwana nie jest równa zeru. Współczynnikiem korelacji Pearsona (albo krótko współczynnikiem korelacji) zmiennych losowych X i Y nazywamy liczbę równą ilorazowi kowariancji oraz iloczynu odchyleń standardowych (przy założeniu, że żadne z nich nie jest równe zeru). 16 METODY PROBABILISTYCZNE W PIGUŁCE Kowariancja jest równa wartości oczekiwanej iloczynu różnic zmiennych losowych i ich wartości oczekiwanych. • Współczynnik korelacji zmiennych losowych niezależnych jest równy 0 (bo wtedy kowariancja jest równa zeru). • Współczynnik korelacji przyjmuje wartości z przedziału <-1,+1>. • Wartość bezwzględna współczynnika korelacji jest równa 1 wtedy i tylko wtedy, gdy z prawdopodobieństwem równym 1 zmienne losowe są zależne liniowo, przy czym dla ρ=1 mamy a > 0, zaś dla ρ = -1 mamy a < 0. Współczynnik korelacji, ze względu na powyższe własności, interpretujemy jako miarę zależności liniowej zmiennych losowych. Jeśli współczynnik korelacji ma moduł większy od 0,7, przyjmuje się, że stopień zależności linowej jest na tyle wysoki, iż można wtedy jedną zmienną losową aproksymować funkcją liniową drugiej zmiennej losowej. Do oceny korelacji można stosować też współczynnik korelacji Spearmana obliczany jako współczynnik korelacji Pearsona dla rang zmiennych. 17 METODY PROBABILISTYCZNE W PIGUŁCE 7. ROZKŁADY SKOKOWYCH ZMIENNYCH LOSOWYCH Rozkład dwupunktowy – zmienna losowa X przyjmuje dwie wartości a, b z prawdopodobieństwami p i 1-p. Zmienne losowe o rozkładzie dwupunktowym są modelami służącymi do opisu własności urządzeń dwustanowych, jak np. wszelkiego rodzaju układy przekaźnikowe. Jeżeli a = 0 i b =1 to rozkład dwupunktowy nazywa się rozkładem zerojedynkowym. Rozkładem dwupunktowym (zerojedynkowym) posługujemy się także wtedy, gdy w doświadczeniu spodziewamy się tylko dwóch wyników. Jeden z nich czasami nazywamy sukcesem i spodziewamy się go z prawdopodobieństwem p. Drugi nazywamy niepowodzeniem lub porażką i jest on oczekiwany z prawdopodobieństwem q = 1 – p. Parametry rozkładu zerojedynkowego są równe: EX=p D2X=pq Rozkład Bernoulliego (rozkład dwumianowy) – rozkład sukcesów w n doświadczeniach Bernoulliego: • w wyniku każdego doświadczenia może zajść zdarzenie A, zwane sukcesem, lub zdarzenie do niego przeciwne, zwane porażką; • wyniki poszczególnych doświadczeń są niezależne, przy czym prawdopodobieństwo sukcesu w każdym doświadczeniu jest takie samo i wynosi p, a prawdopodobieństwo porażki q=1 – p Parametry rozkładu dwumianowego są równe: EX=np D2X=npq Poszczególne doświadczenia można modelować zmiennymi losowymi niezależnymi o tym samym rozkładzie zerojedynkowym z parametrem p będącym prawdopodobieństwem sukcesu w jednym doświadczeniu. Zmienna losowa o rozkładzie dwumianowym może być traktowana jako suma n zmiennych niezależnych o takim samym rozkładzie dwupunktowym z parametrem p. Rozkład, jakiemu podlega numer doświadczenia Bernoulliego, w którym sukces wypadnie po raz pierwszy, nazywamy rozkładem geometrycznym. Rozkład Poissona – określa prawdopodobieństwa występowania szeregu wydarzeń mających miejsce w określonym czasie, gdy występują one ze znaną średnią częstotliwością i w sposób niezależny od czasu, jaki upłynął od ostatniego zajścia takiego zdarzenia. Rozkład jest granicą ciągu rozkładów dwumianowych, gdy liczba prób dąży do nieskończoności, a oczekiwana liczba sukcesów jest stała. Wartość oczekiwana i wariancja zmiennej losowej o rozkładzie Poissona są równe parametrowi λ rozkładu. W oparciu o rozkład Poissona można w prosty sposób obliczyć przybliżoną wartość prawdopodobieństwa w rozkładzie Bernoulliego, przy dużej liczbie prób i niskim prawdopodobieństwie sukcesu 18 METODY PROBABILISTYCZNE W PIGUŁCE 8. ROZKŁADY CIĄGŁYCH ZMIENNYCH LOSOWYCH Rozkład jednostajny (zwany też równomiernym lub prostokątnym) w przedziale (a; b) – gęstość prawdopodobieństwa w tym przedziale jest stałą dodatnią, równą odwrotności długości przedziału, a poza nim jest równa zeru. Wartość oczekiwana rozkładu jednostajnego jest równa środkowi długości przedziału, a wariancja kwadratowi długości przedziału podzielonemu przez 12. Rozkład normalny, zwany też rozkładem Gaussa – rozkład określony przez wartość oczekiwaną i wariancję. Gęstość rozkładu ma kształt „dzwonu”. Rozkład normalny z parametrami m i σ oznaczamy N(m, σ). Parametry m i σ są parametrami rozkładu: EX=m oraz DX= σ. Rozkład ten jest często spotykany wśród zjawisk mających charakter przyrodniczy, fizyczny, ekonomiczny i techniczny. Teoretycznie zmienna losowa o rozkładzie normalnym przyjmuje wartości od -∞ do +∞, praktycznie jednak prawie wszystkie wartości tej zmiennej (około 99,73%) należą do przedziału (m-3σ, m+3σ), czyli do otoczenia wartości oczekiwanej o promieniu równym trzem odchyleniom standardowym (reguła trzysigmowa). Długość tego przedziału zależy od wartości , co jeszcze raz potwierdza interpretację tego parametru. Rozkład wykładniczy – rozkład zmiennej losowej opisujący sytuację, w której obiekt może przyjmować stany X i Y, przy czym obiekt w stanie X może ze stałym prawdopodobieństwem przejść w stan Y w jednostce czasu. Prawdopodobieństwo wyznaczane przez ten rozkład to prawdopodobieństwo przejścia ze stanu X w stan Y w czasie δt. Dystrybuanta tego rozkładu to prawdopodobieństwo, że obiekt jest w stanie Y. Wartość oczekiwana i zmiennej losowej o wykładniczym jest równa odwrotności parametru a rozkładu, zaś wariancja – odwrotności kwadratu tego parametru. Rozkład chi-kwadrat – rozkład, któremu podlega suma kwadratów niezależnych zmiennych losowych o rozkładach N(0,1). Wykres gęstości g(t) jest symetryczny względem prostej t = 0 i ma kształt zbliżony (szczególnie dla dużych n) do wykresu gęstości rozkładu normalnego N(0, 1). Rozkład Studenta – rozkład, któremu podlega iloraz dwóch niezależnych zmiennych losowych, z których pierwsza ma rozkład N(0,1), a druga rozkład chi-kwadrat z n stopniami swobody pomnożony przez pierwiastek z liczby zmiennych losowych tworzących zmienną losową o rozkładzie chi-kwadrat. Rozkład Snedecora – rozkład, któremu podlega iloraz dwóch niezależnych zmiennych losowych o rozkładach chi-kwadrat z n1 i n2 stopniami swobody, unormowanych względem liczby stopni swobody. 19 METODY PROBABILISTYCZNE W PIGUŁCE 9. TWIERDZENIA GRANICZNE Twierdzenia graniczne są to twierdzenia podające warunki dostateczne lub warunki konieczne i dostateczne zbieżności ciągów zmiennych losowych dla różnych rodzajów zbieżności. Twierdzenie Lindeberga – Levy’ego: Dla dużych n suma niezależnych zmiennych losowych o takim samym rozkładzie ma w przybliżeniu rozkład normalny. Integralne twierdzenie Moivre’a – Laplace’a: Dla dużych n zmienna losowa X o rozkładzie dwumianowym ma rozkład w przybliżeniu normalny. Lokalne twierdzenie Moivre’a – Laplace’a: Dla dużych n prawdopodobieństwa rozkładu dwumianowego mogą być obliczone za pomocą funkcji gęstości rozkładu normalnego. Prawo wielkich liczb Bernoulliego: Jeśli liczba doświadczeń Bernoulliego jest duża, to z prawdopodobieństwem bliskim jedności częstość sukcesu Yn przyjmuje wartości mało różniące się od prawdopodobieństwa sukcesu p. Z tego prawa wynika, że prawdopodobieństwo zdarzenia może być oceniane przez jego częstość w długim ciągu powtórzeń doświadczenia, w którym zdarzenie występuje. Uprawniona jest zatem interpretacja prawdopodobieństwa zdarzenia za pomocą częstości tego zdarzenia. Prawo wielkich liczb Chinczyna: Średnia arytmetyczna dużej liczby zmiennych losowych niezależnych o jednakowym rozkładzie, o wartości oczekiwanej m, przyjmuje wartości mało różniące się od m. Z tego prawa wynika, że wartość oczekiwana może być oceniana przez średnią arytmetyczną dużej liczby zmiennych losowych. Uprawniona jest więc interpretacja wartości oczekiwanej za pomocą średniej arytmetycznej. 20 METODY PROBABILISTYCZNE W PIGUŁCE 10. PARAMETRYCZNA ESTYMACJA PUNKTOWA Parametryczna estymacja punktowa dotyczy dokładnego szacowania nieznanych parametrów rozkładu, na przykład wartości oczekiwanej, wariancji albo współczynnika korelacji. Parametryczna estymacja punktowa parametru Q polega na: 1) wybraniu pewnej statystyki Un o rozkładzie zależnym od parametru Q; 2) obliczeniu na podstawie próby wartości un statystyki Un; 3) przyjęciu, że un jest oszacowaniem parametru Q, co zapisujemy i czytamy: oceną parametru Q jest un. Statystyka Un nazywa się wówczas estymatorem parametru Q. Najstarszą metodą wyznaczania estymatorów parametrycznych jest metoda momentów, zgodnie z którą przyjmuje się, że estymatorem momentu cechy populacji jest odpowiadający mu moment z próby. Najważniejsze własności estymatorów to zgodność, tzn. zbieżność według prawdopodobieństwa do estymowanego parametru Q, oraz nieobciążoność, tzn. równość wartości oczekiwanej estymatora estymowanemu parametrowi. „Najlepszym” estymatorem jest estymator najefektywniejszy, tzn. taki estymator nieobciążony, którego wariancja jest najmniejsza spośród wszystkich estymatorów nieobciążonych. Minimalny możliwy średniokwadratowy błąd estymatora określa nierówność RaoCraméra. Jako estymator wartości oczekiwanej przyjmuje się średnią z próby. Jest ona estymatorem zgodnym i nieobciążonym wartości oczekiwanej. Dla rozkładu normalnego jest ona także estymatorem najefektywniejszym. 21 METODY PROBABILISTYCZNE W PIGUŁCE 11. PARAMETRYCZNA ESTYMACJA PRZEDZIAŁOWA Parametryczna estymacja przedziałowa dotyczy przybliżonego szacowania nieznanych parametrów rozkładu, na przykład wartości oczekiwanej, wariancji, albo współczynnika korelacji. Szacowanie polega na wyznaczeniu przedziału ufności alfa. Przedział ufności wyznacza się na podstawie tzw. poziomu ufności (1 – alfa), którego typowa wartością jest 0,95. Parametr Q może należeć do przedziału ufności lub nie należeć. Jeśli jednak poziom ufności (1 – alfa) jest bliski jedności, to bardzo rzadko będziemy otrzymywać liczbowe przedziały ufności, do których parametr Q nie należy. Granice przedziału ufności są zmiennymi losowymi. Dla różnych realizacji próby otrzymujemy na ogół różne realizacje przedziałów ufności. Gdybyśmy oszacowanie przedziałowe powtórzyli wiele razy, częstość realizacji, do których szacowany parametr należy, byłaby bliska poziomowi ufności. Na przykład, jeśli próbę powtórzono 100 razy i poziom ufności przyjęto 0,99, to częstość tych realizacji, do których parametr należy, będzie bliska 0,99, a więc średnio tylko do jednej ze 100 realizacji szacowany parametr nie będzie należał. Położenie końców przedziału ufności jest losowe. Długość przedziału zależy od poziomu ufności (1–alfa), im większy poziom ufności, tym dłuższy przedział ufności. Długość przedziału jest odwrotnie proporcjonalna do liczebności próby. Przedział ufności dla wartości oczekiwanej zmiennej losowej o rozkładzie normalnym ze znaną wariancją wyznaczamy z wykorzystaniem dystrybuanty standaryzowanego rozkładu normalnego. Przedział ufności dla wartości oczekiwanej zmiennej losowej o rozkładzie normalnym z nieznaną wariancją wyznaczamy z wykorzystaniem rozkładu Studenta. Przedział ufności dla wariancji zmiennej losowej o rozkładzie normalnym wyznaczamy z wykorzystaniem rozkładu chi-kwadrat. 22 METODY PROBABILISTYCZNE W PIGUŁCE 12. ZASADY WERYFIKACJI HIPOTEZ Teoria weryfikacji hipotez zajmuje się metodami sprawdzania hipotez statystycznych. Hipoteza statystyczna to każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy (cech). Hipotezę dotyczącą jedynie wartości parametrów cechy nazywamy hipotezą parametryczną. O parametrze Q wysuwamy dwie hipotezy: Hipotezę zerową, H0 (główną, sprawdzaną) oraz Hipotezę alternatywną H1. Hipoteza zerowa odzwierciedla z reguły pytanie, na które należy uzyskać odpowiedź. Przy weryfikacji hipotez podejmujemy jedną z dwu decyzji: 1) odrzucić hipotezę zerową H0 i przyjąć alternatywną H1 lub 2) przyjąć hipotezę zerową H0 i odrzucić alternatywną H1. Postępowanie przy weryfikacji powyższych hipotez jest następujące: 1) Wybieramy pewną statystykę o rozkładzie zależnym od parametru Q oraz pewną liczbę alfa z przedziału [0;1] i wyznaczamy podzbiór K zbioru liczb rzeczywistych, tak by prawdopodobieństwo, iż statystyka Un przyjmie wartość ze zbioru K, przy założeniu, że prawdziwa jest hipoteza zerowa H0, było równe alfa. 2) Pobieramy próbę i obliczamy wartość un statystyki Un. 3) Podejmujemy decyzję: odrzucamy H0, gdy wartość un należy do K lub przyjmujemy H0 w przeciwnym przypadku. Wykorzystywaną statystykę Un nazywamy sprawdzianem, zbiór K – zbiorem krytycznym, a liczbę alfa poziomem istotności – typową wartością alfa jest 0,05. W zależności od postaci hipotezy alternatywnej przyjmuje się różną postać zbioru krytycznego: dwustronną lub jednostronną (lewostronną lub prawostronną). Dwustronny zbiór krytyczny przyjmuje się, gdy hipoteza alternatywna H1 jest zaprzeczeniem hipotezy zerowej H0. Przy weryfikacji hipotez można zawsze popełnić jeden z dwu błędów: błąd I rodzaju polegający na odrzuceniu hipotezy zerowej H0, gdy ta hipoteza jest prawdziwa, lub błąd II rodzaju polegający na przyjęciu hipotezy zerowej H0, gdy ta hipoteza jest fałszywa. Prawdopodobieństwo błędu I rodzaju jest równe poziomowi istotności alfa. 23 METODY PROBABILISTYCZNE W PIGUŁCE 13. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH Hipoteza określająca wartość parametru rozkładu cechy populacji nosi nazwę hipotezy parametrycznej. Poniżej scharakteryzowano kilka testów umożliwiających weryfikację hipotez parametrycznych. Testy do weryfikacji hipotezy o wartości oczekiwanej Testy te umożliwiają weryfikację hipotezy H0: m=m0 na podstawie jednej próby. Mamy tutaj kilka wariantów: • Rozkład cechy normalny N(m, σ) o znanym σ. • Rozkład cechy normalny N(m, σ) o nieznanym σ. • Rozkład cechy dowolny o nieznanym σ i licznej próbie. W każdym wariancie wykorzystuje się statystykę w postaci unormowanej różnicy średniej z próby i wartości oczekiwanej występującej w hipotezie zerowej. Rozkład statystyki zależy od rozkładu cechy, znajomości σ i liczności próby. Zbiór krytyczny przyjmuje się w zależności od postaci hipotezy alternatywnej. Testy do porównywania wartości oczekiwanych dla prób niezależnych Testy te umożliwiają weryfikację hipotezy o równości wartości oczekiwanej określonej cechy w dwóch populacjach H0: m1=m2 na podstawie dwóch prób. Mamy tutaj kilka wariantów: • Rozkład cechy normalny N(m1, σ1), N(m2, σ2) o znanych σ1 i σ2. • Rozkład cechy normalny N(m1, σ), N(m2,σ) o nieznanym σ. • Rozkład cechy normalny N(m1, σ1), N(m2, σ2) o nieznanych σ1 i σ2. • Rozkład cechy dowolny i liczne próby. W każdym wariancie wykorzystuje się statystykę w postaci unormowanej różnicy średnich z obu prób. Rozkład statystyki zależy od rozkładu cechy, znajomości σ1 i σ2, równości σ1 i σ2 oraz liczności prób. Zbiór krytyczny przyjmuje się w zależności od postaci hipotezy alternatywnej. Testy dla wartości oczekiwanej nazywane są testami Studenta. Sprawdzenia, czy wariancje są równe, dokonuje się opisanym poniżej testem. Testy do porównywania wariancji Badane są dwie populacje: pierwsza ze względu na cechę X, druga ze względu na cechę Y. Zakładamy, że cechy te są niezależne, o rozkładach normalnych odpowiednio N(m1,σ1), N(m2,σ2). Hipoteza zerowa H0: σ1 = σ2. Wykorzystuje się statystykę w postaci ilorazu estymatorów wariancji, która podlega rozkładowi Snedecora z parą (n1–1, n2 –1) stopni swobody. Zbiór krytyczny przyjmuje się z reguły jako dwustronny. Test do porównywania wartości oczekiwanych dla prób zależnych Test stosuje się, gdy z populacji losujmy n elementów i mierzymy wartości cechy X w dwóch momentach. Otrzymujemy dwie próby n-elementowe dla dwóch cech: ce24 METODY PROBABILISTYCZNE W PIGUŁCE chy X1 – wartość badanej cechy w momencie początkowym i cechy X2 – wartość badanej cechy w momencie końcowym. Aby sprawdzić hipotezę, że wartości oczekiwane obu cech są równe, należy najpierw sprawdzić hipotezę, iż wartość oczekiwana zmiennej losowej Y = X1 – X2 jest równa zeru na podstawie próby, której wartościami są różnice wartości prób dla obu cech. Jeżeli cecha Y ma rozkład normalny, potrzebny test jest szczególnym przypadkiem testu do weryfikacji hipotezy o wartości oczekiwanej m0=0 25 METODY PROBABILISTYCZNE W PIGUŁCE 14. WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH Hipoteza podająca, do jakiego typu rozkładów należy rozkład cechy populacji, nosi nazwę hipotezy nieparametrycznej. Ważnym przykładem hipotezy nieparametrycznej jest losowość próby. Może być ona sprawdzona testem serii, opartym o medianę z próby. W pierwszej kolejności wyznaczamy medianę z próby i transformujemy próbę wg zasady: • jeśli element próby ma wartość mniejszą od mediany, przyporządkowujemy mu liczbę 0; • jeśli element próby ma wartość większą od mediany, przyporządkowujemy mu liczbę 1; • jeśli element próby ma wartość równą medianie, odrzucamy go z próby. Po takiej transformacji wyznaczamy statystykę Un w postaci liczby serii w transformowanej próbie. Jeśli hipoteza zerowa jest prawdziwa, w transformowanej próbie powinna być umiarkowana liczba serii. Gdyby bowiem serii było mało, np. byłyby tylko dwie serie, oznaczałoby to, że w próbie najpierw kolejno występują elementy o wartościach mniejszych od mediany, a następnie kolejno elementy większe od mediany (lub na odwrót). Próba taka z oczywistego powodu nie byłaby losowa. Gdyby serii było dużo, np. tyle, ile jest elementów próby, oznaczałoby to, iż w próbie występują na przemian elementy większe i mniejsze od mediany. Taką próbę też byłoby trudno uznać za losową. Duża i mała liczba serii w próbie transformowanej przemawia więc za odrzuceniem hipotezy zerowej, natomiast umiarkowana liczba serii przemawia za jej przyjęciem. Dlatego zbiór krytyczny przyjmujemy dwustronny. Granice zbioru krytycznego wyznaczamy na podstawie dostępnych tablic, zgodnie z przyjętym poziomem istotności. Inny przykład hipotezy nieparametrycznej dotyczy dystrybuanty F(x) występującej w hipotezie zerowej H0. Taką hipotezę można zweryfikować za pomocą testu zgodności chi-kwadrat. Idea postępowania jest następująca: 1) Przedział zmienności próby dzielimy na pewna liczę podprzedziałów i obliczamy liczbę elementów próby w tych podprzedziałach – są to tzw. liczności empiryczne. 2) Obliczamy, jakie są prawdopodobieństwa, że cecha populacji o rozkładzie określonym F(x) przyjmie wartości należące do wyznaczonych podprzedziałów – są to tzw. prawdopodobieństwa teoretyczne. 3) Na podstawie prawdopodobieństw teoretycznych obliczamy, ile elementów próby trafiłoby do poszczególnych przedziałów – są to tzw. liczebności teoretyczne. 4) Obliczamy wartość sprawdzianu w oparciu o sumę kwadratów różnic liczebności teoretycznych i empirycznych. 5) Sprawdzamy hipotezę w oparciu o prawostronny zbiór krytyczny – duża różnica pomiędzy liczebnościami teoretycznymi i empirycznymi przemawia za fałszywością hipotezy zerowej – wyznaczany na podstawie poziomu istotności. Do weryfikacji hipotezy o normalności rozkładu na podstawie próby o małej liczebności stosuje się test Shapiro-Wilka. 26 METODY PROBABILISTYCZNE W PIGUŁCE Kolejny z testów nieparametrycznych to test zgodności rozkładów dla prób niepowiązanych, zwany też testem Wilcoxona. Hipoteza zerowa H0 dotyczy jednakowego rozkładu dwóch cech, tzn. rozkład określa taka sama dystrybuanta. Aby sprawdzić hipotezy zerową i alternatywną, łączymy obie próby w jedną próbę i porządkujemy ją niemalejąco. Następnie rangujemy elementy uporządkowanej próby, tzn. numerujemy jej elementy kolejnymi liczbami naturalnymi, poczynając od liczby 1. Jeśli w uporządkowanej próbie występują elementy jednakowe, to każdemu z nich przypisujemy tę samą rangę, równą średniej arytmetycznej rang tych elementów, gdyby były one różne. Sprawdzianem testu do weryfikacji wysuniętych hipotez jest statystyka Un = suma rang elementów próby o mniejszej liczebności. Przyjmujemy zbiór krytyczny dwustronny, co wynika z poniższego rozumowania. Gdyby wszystkie elementy próby o mniejszej liczebności były mniejsze od wszystkich elementów próby o większej liczebności, ich suma byłaby możliwie mała. Gdyby wszystkie elementy próby o mniejszej liczebności były większe od wszystkich elementów próby o większej liczebności, ich suma byłaby możliwie duża. Ostatni z rozpatrywanych testów to test zgodności rozkładów dla prób powiązanych, nazywany testem rangowanych znaków. Z populacji losujemy n elementów i badamy wartości cechy X w dwóch momentach początkowym i końcowym. Niech X1 będzie cechą oznaczającą wartości cechy X w momencie początkowym, a X2 cechą oznaczającą wartości cechy X w momencie końcowym. Otrzymujemy dwie próby (powiązane) n-elementowe. Obliczamy różnice między elementami pierwszej i drugiej próby, sortujemy je niemalejąco i rangujemy (numerujemy) liczbami od 1 do n. Przyjmujemy sprawdzian w postaci: suma rang różnic dodatnich oraz z reguły dwustronny zbiór krytyczny, co wynika z następującego rozumowania. Gdyby wszystkie elementy pierwszej próby były większe od wszystkich elementów drugiej próby, wszystkie różnice byłyby dodatnie, a ich suma możliwie duża. Gdyby wszystkie elementy pierwszej próby były mniejsze od wszystkich elementów drugiej próby, wszystkie różnice byłyby ujemne, a ich suma byłaby równa, czyli byłaby możliwie mała. Dla małych liczności prób rozkład dokładny statystyki jest stablicowany. Dla n > 20 statystyka ta ma rozkład asymptotycznie normalny N(m, σ), gdzie m i σ zależą od liczebności próby. 27 METODY PROBABILISTYCZNE W PIGUŁCE 15. ANALIZA KORELACJI I REGRESJI DWÓCH ZMIENNYCH W dziale statystyki zwanym analizą korelacji bada się, czy istnieje zależność między cechami populacji oraz to, jaka jest siła tej zależności. Ograniczymy się do badania istnienia i siły związku liniowego. Do tego celu służy współczynnik korelacji ρ badanych cech populacji. Rzecz jednak w tym, że w zagadnieniach praktycznych wartość tego współczynnika nie jest znana. Należy zatem wnioskować o ρ na podstawie próby. Stąd nazwa działu statystyki, który podaje reguły wnioskowania o tym parametrze. W analizie korelacji zakłada się, że przy normalnym rozkładzie zmiennej losowej dwuwymiarowej (X, Y) współczynnik korelacji z próby ma rozkład asymptotycznie normalny, przy czym zgodność ta jest dobra dla wielkich prób – n ≥ 500. Z tego powodu wykorzystuje się statystykę w postaci przekształcenia logarytmicznego współczynnika korelacji, która ma rozkład asymptotycznie normalny, przy czym zgodność z rozkładem normalnym jest dobra nawet dla niewielkich prób – n ≥ 20. Analiza korelacji obejmuje wnioskowanie o sile związku liniowego między cechami X i Y, do tego celu służy współczynnik korelacji badanych cech populacji. Estymatorem współczynnika korelacji jest współczynnik korelacji R z próby, jest on równy ilorazowi kowariancji z próby oraz iloczynu odchyleń standardowych z próby. R jest estymatorem zgodnym i asymptotycznie nieobciążonym współczynnika korelacji. Współczynnik korelacji z próby R ma rozkład asymptotycznie normalny. W ramach analizy korelacji wyznacza się przedział ufności dla współczynnika korelacji oraz weryfikuje hipotezy o współczynniku korelacji, w tym także o jego istotności (H0: ρ=0) – hipoteza taka oznacza, że zmienne losowe są nieskorelowane, a ponieważ z założenia mają dwuwymiarowy rozkład normalny, są też niezależne. Analizę regresji prowadzi się, jeżeli siła związku liniowego jest duża. Ma ona na celu aproksymowanie związku między cechami a zależnością liniową. Do estymacji współczynników regresji można wykorzystać metodę momentów, metodę najmniejszych kwadratów lub metodę największej wiarygodności. Dla empirycznej funkcji regresji: • Suma różnic pomiędzy wartościami zmiennej zależnej i wartościami funkcji regresji jest równa zeru. • Suma odchyleń dodatnich od funkcji regresji jest równa sumie odchyleń ujemnych. Jeżeli zmienna losowa dwuwymiarowa (X,Y), ze względu na którą badana jest populacja, ma rozkład normalny o współczynniku korelacji ρ, to estymatory współczynników regresji liniowej mają rozkłady normalne oraz są estymatorami zgodnymi i nieobciążonymi tych parametrów. W ramach analizy regresji wyznacza się także przedziały ufności dla współczynników regresji oraz weryfikuje hipotezy o współczynnikach regresji. 28 METODY PROBABILISTYCZNE W PIGUŁCE 16. ZAAWANSOWANE METODY ANALIZY STATYSTYCZNEJ Zaawansowane metody statystyczne są metodami wielowymiarowymi, tzn. służą do analizy prób wielowymiarowych, składających się z wyników pomiaru określonej liczby zmiennych > 2. Pojęcie próby wielowymiarowej jest uogólnieniem pojęcia próby dwuwymiarowej. Poniżej krótko scharakteryzowano zaawansowane metody statystyczne. Ocena istotności różnic rozkładu w więcej niż dwóch warunkach. Dla rozwiązania tego problemu przeznaczony jest szereg metod. Jedną z nich jest analiza wariancji, stanowiąca rozszerzenie testu Studenta. Analiza regresji wykorzystywana jest do szukania związku funkcyjnego pomiędzy tzw. zmienną zależną i określoną liczbą tzw. zmiennych niezależnych. Najczęściej przyjmuje się związek liniowy. W wypadku małej liczby zmiennych niezależnych szuka się też związku w postaci wielomianu. Możliwe jest ustalenie a priori zmiennych niezależnych, które ujmowane są w równaniu regresji lub też określenie tylko ich zbioru. Do równania wprowadzane są wówczas tylko te zmienne, które charakteryzuje określony współczynnik korelacji cząstkowej ze zmienną zależną. Analiza czynnikowa pozwala na podział analizowanych zmiennych na określoną liczbę grup, z których każda kształtowana jest samoistnie przez oddzielny czynnik. Analiza korelacji kanonicznej wykorzystywana jest do wyznaczania związku liniowego pomiędzy dwoma grupami zmiennych. Można traktować ją więc jako uogólnienie analizy regresji. Analiza skupień wykorzystywana jest do podziału zbioru określonych elementów na grupy, których obiekty są podobne do siebie w określonym sensie. Obiektami mogą być zarówno dowolne elementy materialne, opisane wybranymi cechami, jak i cechy opisujące rozpatrywane elementy materialne. Wielowymiarowa analiza wariancji (MANOVA) wykorzystywana jest do weryfikacji hipotez o równości kilku wektorów wartości oczekiwanych. Jest ona rozszerzeniem analizy wariancji (ANOVA) albowiem rozpatruje ona powyższą hipotezę dla kilku wartości oczekiwanych. MANOVA stosowana jest w powiązaniu z analizą dyskryminacji, której ważnym krokiem jest zastąpienie wielu cech naturalnych małą liczbą zmiennych abstrakcyjnych bez zmniejszenia zróżnicowania grup. Możliwe jest też wybranie cech najbardziej różnicujących. W ramach tej analizy prowadzona jest klasyfikacja na podstawie cech abstrakcyjnych. Stopień jej zgodności z podziałem a priori świadczy poglądowo o występującym zróżnicowaniu grup. Podsumowanie Należy podkreślić wyjątkowo duże znaczenie analiz wielowymiarowych, wykorzystujących naturalne powiązania pomiędzy poszczególnymi cechami. Właśnie to stanowi o ich bardzo istotnym znaczeniu. Można zilustrować ten fakt następującymi przykładami: • Wartości współczynników korelacji cząstkowej różnią się na ogół w znacznym stopniu od wartości współczynników korelacji Pearsona. • Cechy różniące dwie populacje wielowymiarowe nie muszą podlegać istotnie zróżnicowanym rozkładom przy ocenie wyizolowanej. 29 METODY PROBABILISTYCZNE W PIGUŁCE • Postać związku pomiędzy dwoma zbiorami cech w wielu wypadkach jest sprzeczna z wartościami współczynników korelacji pomiędzy parami cech uwzględnianych zbiorów. W ramach tych analiz można dokonywać porównania rozkładów cech, oceniać korelacje oraz budować i weryfikować modele matematyczne analizowanych zjawisk. Poszczególne metody umożliwiają przeprowadzenie analiz z różnych punktów widzenia. Bardzo często dopiero łączne ich zastosowanie powoduje otrzymanie wartościowych wniosków. Na przykład: • łączne zastosowanie analizy regresji i analizy korelacji kanonicznej pozwala na identyfikację nieznanych zależności pomiędzy rozpatrywanymi cechami; • w analizie dyskryminacji przedmiotem obliczeń są zbiory danych dotyczące grup określonych elementów wyróżnionych a priori; analiza skupień prowadzona dla tych elementów może być wykorzystana do weryfikacji takiego podziału; • w analizie czynnikowej uzyskuje się podział rozpatrywanych cech na podzbiory kształtowane oddzielnie przez poszczególne czynniki; analiza skupień prowadzona dla tych cech może być wykorzystana do weryfikacji otrzymanego podziału. Dwuwymiarowe i wielowymiarowe analizy statystyczne umożliwiają rozwiązywanie 3 rodzajów problemów: • oceny istotności zależności statystycznej pomiędzy cechami; • skupiania elementów (obiektów lub cech); • oceny istotności różnic rozkładu cechy. 30 METODY PROBABILISTYCZNE W PIGUŁCE 17. OPERACJE NA SYGNAŁACH CIĄGŁYCH Ważną operacją jest konwersja analogowo-cyfrowa A/C (ang. A/D – analog to digital) - przekształcanie sygnału analogowego (ciągłego) na reprezentację cyfrową (sygnał cyfrowy. Przetwarzanie A/C składa się z trzech kolejnych etapów: 1. Próbkowanie (dyskretyzacja, kwantowanie w czasie) to proces tworzenia sygnału dyskretnego, reprezentującego sygnał ciągły za pomocą ciągu wartości zwanych próbkami. Okres próbkowania to czas pomiędzy pobieraniem kolejnych próbek. Częstotliwość próbkowania to odwrotność okresu próbkowania. Częstotliwość próbkowania, po której sygnał ciągły może być ponownie odtworzony z sygnału dyskretnego, powinna być co najmniej dwa razy większa od granicznej częstotliwości swego widma, określa to twierdzenie Kotielnikowa – Shannona. 2. Kwantowanie (kwantyzacja) – polega na podzieleniu ciągłego zbioru wartości sygnału na skończoną liczbę sąsiadujących ze sobą przedziałów i ustaleniu poziomów kwantowania (tj. określonych wartości z każdego przedziału reprezentujących wszystkie wartości w tym przedziale), a następnie przypisaniu każdej próbce odpowiedniego (najbliższego) poziomu kwantowania. Poziomem reprezentacji może być górna bądź dolna granica przedziału, jednak najczęściej jest nią wartość ze środka przedziału. Takie rozwiązanie skutkuje minimalizacją błędu średniokwadratowego, jednak tylko pod warunkiem, że rozkład prawdopodobieństwa wartości wejściowych jest stały w danym przedziale. Warunek ten zostaje w przybliżeniu spełniony, jeśli szerokości przedziałów kwantyzacji są bardzo małe. Rozróżnia się dwa rodzaje kwantyzacji: • skalarna, w której kwantowane są niezależnie pojedyncze wartości; • wektorowa, w której kwantowanych jest jednocześnie kilka wartości (co najmniej dwie). Kwantyzacja skalarna może być: • równomierna (ang. uniform), • nierównomierna (ang. nonuniform). 3. Kodowanie – polega na przyporządkowaniu poziomom kwantowania (a więc i skwantowanym próbkom) ciągów kodowych – w wypadku kodowania binarnego każdemu z 2**n poziomów kwantowania odpowiada słowo kodowe składające się z n zer i jedynek2. Na sygnałach ciągłych wykonywane są jeszcze inne operacje: • Interpolacja – określenie wartości procesu w momencie, w którym nie dokonywano pomiaru, realizowane jest to w oparciu o informację, jaką niosą elementy sąsiednie. 2 Ewangelia według św. Mateusza Wasza mowa niech będzie: "Tak - tak, nie - nie". A co nadto, z zepsucia jest. "Tak - tak, nie - nie" oznacza mówienie prawdy i odrzucenie kłamstwa. Oznacza usunięcie ze składanej przysięgi, ślubu, przyrzeczenia i obietnicy, przesady i nadmiaru słów. 31 METODY PROBABILISTYCZNE W PIGUŁCE • Predykcja (prognozowanie) – przewidywanie wartości procesu w chwili t + θ na podstawie wartości procesu dla momentu t i wcześniejszych. Dokładność prognozy można ocenić: • ex post – badając odchylenie prognozy od rzeczywistej wartości. Używane statystyki są wynikami porównania przeszłych prognoz ze znanymi już prawdziwymi wartościami prognozowanych wielkości. • ex ante – wyznaczając możliwy błąd prognozy na etapie prognozowania. 32 METODY PROBABILISTYCZNE W PIGUŁCE 18. OCENA WYDAJNOŚCI OPROGRAMOWANIA Wydajność oprogramowania wyraża ilość pracy wykonanej w określonym przedziale czasu. Im więcej pracy program wykona w jednostce czasu, tym większa jest jego wydajność. Uściślając, wydajność programu jest mierzona liczbą jednostek danych wejściowych (rozmiarem danych), którymi w danym czasie program ten zarządza w celu przekształcenia ich na jednostki wyjściowe (dane wynikowe). Jednym ze sposobów oceny wydajności oprogramowania jest wykorzystanie teorii masowej obsługi (teoria kolejek), jednej z gałęzi zastosowań rachunku prawdopodobieństwa, przydatnej w warunkach konieczności obsługi w krótkim okresie czasu dużej ilości klientów. Podstawy teorii opracował w 1955 radziecki matematyk Aleksander Chinczyn, pierwsze zastosowania dotyczyły projektowania i eksploatacji central telefonicznych. W teorii obsługi masowej najczęściej analizowane są następujące dyscypliny obsługi: • FIFO – zgłoszenia są obsługiwane w kolejności ich przybycia do systemu; • LIFO – pierwszeństwo w sensie kolejności obsługi ma zgłoszenie, które przybyło jako ostatnie do systemu obsługi; • SIRO – w chwili ukończenia obsługi zgłoszenia, następne wybierane jest w sposób losowy. Wyróżnia się systemy obsługi z szeregową, równoległą i mieszaną organizacją obsługi, jak również systemy bez poczekalni i z poczekalnią. Podstawowe charakterystyki systemu to: • oczekiwany czas obsługi jednego zgłoszenia, • oczekiwana długość kolejki, • oczekiwany czas pobytu w systemie, • oczekiwany czas pobytu w kolejce, • prawdopodobieństwo braku zgłoszeń w systemie, • prawdopodobieństwo tego, że w systemie znajduje się n zgłoszeń. Przyjmując założenia odnośnie do realizowanego procesu obsługi, można uzyskać wzory pozwalające na obliczenie ww. charakterystyk3. Założenia te dotyczą: • rozkładu napływu zgłoszeń, • rozkładu czasu obsługi, • liczby stanowisk obsługi, • liczby miejsc w systemie (łącznie stanowiska obsługi + kolejka). Innym sposobem oceny wydajności oprogramowania jest przeprowadzenie testów wydajnościowych. Istnieje kilka rodzajów wymagań wydajnościowych: • wymagania na szybkość przetwarzania, • wymagania na równoległość przetwarzania, • wymagania na wielkość obsługiwanych danych. 3 https://www.google.pl/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&sqi=2&ved=0CCgQFjABahUKEwjrxfCZa3IAhXCbRQKHcIhBj4&url=http%3A%2F%2Foizet.p.lodz.pl%2Fistan%2Fdydaktyka%2Fbadania%2FTEORIA%2520KOLEJEK1.ppt& usg=AFQjCNGhGNg6jdHhctAP_Pky0Vv5jfJ0Pg&sig2=eFcm1dmFlHsVRrOdMhVD6A 33 METODY PROBABILISTYCZNE W PIGUŁCE Testy wydajnościowe przeprowadza się zwykle w dwóch sytuacjach: na granicy wymagania wydajnościowego oraz powyżej wymagania wydajnościowego. W tym drugim przypadku testy są nazywane przeciążeniowymi. Wyniki uzyskiwane podczas testów poddawane są różnorodnym analizom statystycznym. 34 METODY PROBABILISTYCZNE W PIGUŁCE DODATEK 1. PODSTAWOWA TERMINOLOGIA4 ANALIZA REGRESJI - Metoda określania postaci zależności pomiędzy zmiennymi, pozwalająca na zbadanie związku pomiędzy różnymi wielkościami i wykorzystanie tej wiedzy do przewidywania nieznanych wartości jednych wielkości na podstawie znanych wartości innych BENCHMARK - Test wydajności systemu komputerowego: sprzętu lub oprogramowania BŁĄD PIERWSZEGO RODZAJU - Błąd polegający na odrzuceniu hipotezy zerowej, gdy ta hipoteza jest prawdziwa DYSTRYBUANTA - Funkcja rzeczywista, jednoznacznie wyznaczająca rozkład prawdopodobieństwa, niemalejąca, lewostronnie ciągła oraz mająca granice w minus i plus nieskończoności odpowiednio równe 0 i 1 EFEKTYWNOŚĆ - Własność estymatora, iloraz jego wariancji i wariancji estymatora najefektywniejszego ESTYMACJA NIEPARAMETRYCZNA - Szacowanie postaci funkcyjnej rozkładu, np. w postaci dystrybuanty. ESTYMACJA PARAMETRYCZNA - Szacowanie nieznanych parametrów rozkładu ESTYMATOR NAJEFEKTYWNIEJSZY - Estymator o możliwie najmniejszej wariancji w klasie estymatorów nieobciążonych ESTYMATOR - Statystyka służąca do szacowania wartości parametru rozkładu FIFO - Zgłoszenia są obsługiwane w kolejności ich przybycia do systemu GĘSTOŚĆ - Nieujemna funkcja ciągłej zmiennej losowej X pozwalająca wyznaczyć prawdopodobieństwo, że zmienna losowa należy do przedziału (a,b) za pomocą całki oznaczonej w tym przedziale HIPOTEZA ALTERNATYWNA - Hipoteza wyrażająca skrystalizowane a priori przypuszczenie o treści różnej od treści hipotezy sprawdzanej HIPOTEZA NIEPARAMETRYCZNA - Przypuszczenie precyzujące do jakiego typu rozkładów należy rozkład cechy populacji HIPOTEZA PARAMETRYCZNA - Przypuszczenie dotyczące wartości parametru rozkładu HIPOTEZA ZEROWA - Hipoteza odzwierciedlająca z reguły pytanie, na które należy uzyskać odpowiedź ISTOTNOŚĆ - Pojęcie występujące w teorii weryfikacji hipotez przy określaniu błędu pierwszego rodzaju - błędu polegającego na odrzuceniu hipotezy zerowej, która w rzeczywistości jest prawdziwa KWANTOWANIE - Proces zamiany informacji ciągłej na jej reprezentację cyfrową LIFO - Pierwszeństwo obsługi ma zgłoszenie, które przybyło jako ostatnie do systemu obsługi 4 Proszę o uzupełnianie niniejszego wykazu 35 METODY PROBABILISTYCZNE W PIGUŁCE MEDIANA - Wartość cechy w szeregu uporządkowanym, powyżej i poniżej której znajduje się jednakowa liczba obserwacji MODA - Wartość o największym prawdopodobieństwie wystąpienia, lub wartość najczęściej występująca w próbie MOMENT CENTRALNY RZĘDU K - Wartość oczekiwana k-tej potęgi różnicy zmiennej losowej i jej wartości oczekiwanej NIEOBCIĄŻONOŚĆ - Własność estymatora: wartość oczekiwana rozkładu estymatora jest równa wartości szacowanego parametru NIEZALEŻNOŚĆ ZDARZEŃ - Równość prawdopodobieństwa iloczynu dwóch zdarzeń oraz iloczynu ich prawdopodobieństw POPULACJA - Zbiór elementów, podlegających badaniu statystycznemu POZIOM ISTOTNOŚCI - Prawdopodobieństwo odrzucenia hipotezy zerowej w przypadku gdy jest ona prawdziwa POZIOM UFNOŚCI - Prawdopodobieństwo z którym przedział ufności pokrywa prawdziwą wartość parametru PRAWO WIELKICH LICZB CHINCZYNA - Średnia arytmetyczna dużej liczby zmiennych losowych niezależnych o jednakowym rozkładzie o wartości oczekiwanej m przyjmuje z prawdopodobieństwem bliskim jedności, wartości mało różniące się od m PRÓBA - Zbiór obserwacji statystycznych wybranych (zwykle wylosowanych) z populacji PRÓBKOWANIE - Proces tworzenia sygnału dyskretnego, reprezentującego sygnał ciągły za pomocą ciągu wartości nazywanych próbkami PRÓBY NIEPOWIĄZANE - Wartości określonej cechy zmierzone u różnych elementów PRÓBY POWIĄZANE - Wartości określonej cechy mierzone są u tych samych elementów w różnych momentach lub w różnych warunkach ROZKŁAD CHI-KWADRAT - Podlega mu suma kwadratów niezależnych zmiennych losowych o rozkładach normalnych N(0,1) ROZKŁAD POISSONA - Rozkład skokowy którym przybliżamy rozkład liczby sukcesów gdy liczba doświadczeń jest duża, a prawdopodobieństwo sukcesu małe ROZKŁAD SNEDECORA – Rozkład któremu podlega sprawdzian testu do porównywania wariancji … . ROZKŁAD STUDENTA – Rozklad definiowany w oparciu o niezależne zmienne losowe kako …: zmiennej losowej o rozkładzie N(0,1) i zmiennej losowej o rozkładzie chi-kwadrat ROZSTĘP DANYCH - Różnica pomiędzy największym i najmniejszym elementem próby SKALA NOMINALNA - … SKALA PORZĄDKOWA - … 36 METODY PROBABILISTYCZNE W PIGUŁCE SKALA PRZEDZIAŁOWA - Jedna ze skal pomiarowych, określona relacja: większe o tyle ŚREDNIA UCINANA - Średnia arytmetyczna elementów próby z pominięciem najmniejszych i największych ŚREDNIA WAŻONA - … STANDARYZACJA - Przekształcenie zmiennej losowej w zmienną losową o zerowej wartości oczekiwanej i wariancji równej 1 TWIERDZENIE BAYESA - Twierdzenie wiążące prawdopodobieństwa warunkowe oraz prawdopodobieństwa a'priori i a'posteriori … TWIERDZENIE BERNOULLIEGO - Przy dużej liczebności próby częstość występowania danego zdarzenia losowego będzie się dowolnie mało różniła od jego prawdopodobieństwa z prawdopodobieństwem bliskim 1 WARIANCJA - Wartość oczekiwana kwadratu różnicy zmiennej losowej i jej wartości oczekiwanej WSPÓŁCZYNNIK KORELACJI PEARSONA - Wspólczynnik określający poziom zależności liniowej między zmiennymi losowymi WSPÓŁCZYNNIK ZMIENNOŚCI - Iloraz odchylenia standardowego i modułu średniej arytmetycznej elementów próby ZBIÓR KRYTYCZNY - Zbiór wartości sprawdzianu testu przy których następuje odrzucanie hipotezy zerowej ZDARZENIA WYKLUCZAJĄCE - Jeżeli zdarzenia A i B nie mają wspólnych zdarzeń elementarnych ZDARZENIE POCIĄGAJĄCE ZA SOBĄ ZDRAZENNIE B - Jeżeli zdarzenie elementarne należące do A należy także do B to zdarzenie A ZGODNOŚĆ - Własność estymatora: zbieżność według prawdopodobieństwa do prawdziwej wartości szacowanego parametru 37 METODY PROBABILISTYCZNE W PIGUŁCE DODATEK 2. CYTATY STATYSTYCZNE 1. Fakt jest zawsze głupi. Zresztą bierze je diabeł i statystyka – Friedrich Nietzsche 2. Istnieją trzy rodzaje kłamstw: kłamstwa, okropne kłamstwa, statystyki – Benjamin Disraeli 3. Istnieją trzy rodzaje kłamstwa: przepowiadanie pogody, statystyka i komunikat dyplomatyczny – Jean Rigaux 4. Jest prawda, półprawda i statystyki. Statystykami można manipulować, a intuicją nie. Ona praktycznie nigdy nie zawodzi – Zbigniew Bartman 5. Jeśli mój sąsiad codziennie bije swoją żonę, ja zaś nie biję jej nigdy, to w świetle statystyki obaj bijemy je co drugi dzień – George Bernard Shaw 6. Każdy człowiek ma określony horyzont. Gdy ten się zawęża i staje się nieskończenie mały, ogranicza się do punktu. Wówczas człowiek powiada: to jest mój punkt widzenia – Dawid Hilbert 7. Korzystanie z metod statystycznych nie eliminuje zwykłego, ludzkiego podejmowania decyzji, ale pomaga ukierunkować badacza, menedżera czy dyrektora w tym zadaniu. Narzędzia statystyczne są środkiem do celu, a nie celem samym w sobie – Duane Schulz 8. Myślenie w kategoriach statystyki będzie kiedyś równie niezbędne do skutecznego wykorzystywania praw obywatelskich, jak umiejętność czytania i pisania – Herbert George Wells 9. Najważniejszą rzeczą w nauczaniu rachunku prawdopodobieństwa jest zdrowy rozsądek i logiczne myślenie (niekoniecznie znajomość wzorów) – Renata Bednarczyk 10. Nastąpił ostateczny koniec zbierania danych. Nie było już czego zbierać. Ale wszystkie zebrane dane trzeba jeszcze kompletnie skorelować i umieścić we wszystkich możliwych relacjach. Poświęcono na to wieczność. I nagle AC zrozumiał, jak zmienić kierunek entropii – Isaac Asimov 11. Nasze dni są policzone: przez statystyków – Stanisław Jerzy Lec 12. Nauki statystyczne są tym szczególnym aspektem postępu ludzkości, który nadał XX wiekom jego specjalny charakter, (...) to do statystyka zwraca się obecny wiek w poszukiwaniu tego, co jest najistotniejsze we wszystkich ważniejszych przedsięwzięciach – Ronald Aylmer Fisher 13. Nic się nie da zmienić: statystycznie wypada jedna śmierć na jednego człowieka – Krzysztof Mętrak 14. Nie wierzę w zrządzenia losu ani w przeznaczenie, jako technik przyzwyczajony jestem do liczenia się z formułami prawdopodobieństwa. [...] Żeby uznać nieprawdopodobieństwo za fakt istniejący, nie potrzebna mi mistyka: matematyka mi wystarcza – Max Frisch 15. Nikt z nas nie zna ludzi tak dobrze, by mieć statystycznie poprawny punkt widzenia – Claude C. Hopkins 38 METODY PROBABILISTYCZNE W PIGUŁCE 16. Normalność nie jest kwestią statystyki – George Orwell 17. Obrywał „po głowie”, bo wystawała mu ponad przeciętne – Czesław Banach 18. Pozwólmy przemówić danym, niech mówią za siebie – John Tukey 19. Statystyka jest jak kostium bikini: pokazuje wiele, ale nie pokazuje najważniejszego – Aaron Levenstein 20. Statystyka nie kłamie. Kłamią jedynie statystycy – Janusz Leon Wiśniewski 21. Statystyka to matematyczny kamuflaż błędu – Georges Elgozy 22. Śmierć jednostki to tragedia – milion zabitych to tylko statystyka – Józef Stalin 23. To nieprawda, że prawdopodobieństwo śmierci w czasie wojny jest większe. Ono jest zawsze takie samo – stuprocentowe - Clive Staples Lewis 24. W morzu dociekań toną statki hipotez – Sławomir Wróblewski Uwaga: Treść „złośliwych” cytatów nie jest prawdziwa. Przy reprezentatywnych danych i właściwym doborze metod analizy statystycznych uzyskiwane wyniki są zgodne z rzeczywistością i jednoznaczne. Inne cytaty Inne cytaty 39