Marek Cieciura METODY PROBABILISTYCZNE

Transkrypt

Marek Cieciura METODY PROBABILISTYCZNE
Marek Cieciura
METODY PROBABILISTYCZNE
W PIGUŁCE
Recenzenci
prof. dr hab. inż. Jerzy Gawinecki
prof. dr hab. Tomasz Kuszewski
Projekt okładki i generowanie ebooka
Marek Cieciura
ISBN
978-83-62855-54-4
Copyright © by Marek Cieciura
Data ostatnich poprawek
22 października 2015
Niniejsza książka jest wydrukiem z formatu PDF ebooka dostępnego pod adresem
http://cieciura.net/ebooki/
Instrukcja korzystania z ebooków umieszczona jest pod adresem
http://cieciura.net/ebooki/ebook_instrukcja.pdf
METODY PROBABILISTYCZNE W PIGUŁCE
SPIS TREŚCI
PRZEDMOWA ........................................................................................................... 4
1. WPROWADZENIE ................................................................................................ 5
2. CHARAKTERYSTYKI LICZBOWE ........................................................................ 7
3. OPRACOWANIE DANYCH STATYSTYCZNYCH .............................................. 10
4. ZDARZENIA LOSOWE ....................................................................................... 12
5. ZMIENNE LOSOWE ............................................................................................ 15
6. PARAMETRY ROZKŁADU ZMIENNYCH LOSOWYCH ..................................... 16
7. ROZKŁADY SKOKOWYCH ZMIENNYCH LOSOWYCH .................................... 18
8. ROZKŁADY CIĄGŁYCH ZMIENNYCH LOSOWYCH ......................................... 19
9. TWIERDZENIA GRANICZNE .............................................................................. 20
10. PARAMETRYCZNA ESTYMACJA PUNKTOWA .............................................. 21
11. PARAMETRYCZNA ESTYMACJA PRZEDZIAŁOWA ...................................... 22
12. ZASADY WERYFIKACJI HIPOTEZ .................................................................. 23
13. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH .......................................... 24
14. WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH .................................... 26
15. ANALIZA KORELACJI I REGRESJI DWÓCH ZMIENNYCH ............................ 28
16. ZAAWANSOWANE METODY ANALIZY STATYSTYCZNEJ ........................... 29
17. OPERACJE NA SYGNAŁACH CIĄGŁYCH....................................................... 31
18. OCENA WYDAJNOŚCI OPROGRAMOWANIA ................................................ 33
DODATEK 1. PODSTAWOWA TERMINOLOGIA ................................................... 35
DODATEK 2. CYTATY STATYSTYCZNE ............................................................... 38
METODY PROBABILISTYCZNE W PIGUŁCE
PRZEDMOWA
O wszystkim należy mówić tak prosto jak się da, ale nie prościej – Albert Einstein
Opracowanie zawiera krótką charakterystykę 18 tematów metod probabilistycznych
i uwzględnia następujący cel i efekty kształcenia.
Cel kształcenia
Zapoznanie studentów z podstawami statystyki opisowej, rachunku prawdopodobieństwa i statystyki matematycznej.
Efekty kształcenia
Wiedza
• Podstawowe pojęcia i metody statystyki opisowej, rachunku prawdopodobieństwa
i statystyki matematycznej.
• Formułowanie problemów w kategoriach rachunku prawdopodobieństwa i statystyki.
• Możliwości arkusza Excel w rozwiązywaniu zadań z rachunku prawdopodobieństwa i statystyki i statystyki.
Umiejętności
• Rozwiązywanie zadań ze statystyki opisowej, rachunku prawdopodobieństwa
i statystyki matematycznej oraz interpretacja uzyskiwanych wyników.
Kompetencje społeczne
• Zrozumienie probabilistycznego charakteru otaczającego nas świata.
• Świadomość istoty i ograniczeń wykorzystywania wskaźników statystycznych stosowanych w życiu codziennym.
Elementy 16 charakterystyk zostały przedstawione w postaci odrębnego zadania
z lukami, dostępnego w portalu: http://cieciura.net/mp/ w wersji Nauka i w wersji
Sprawdzanie. Terminologia występująca w opracowaniu jest także treścią krzyżówek dostępnych w portalu w wersji Nauka i w wersji Sprawdzanie.
Nie zaleca się rozwiązywania krzyżówek i zadań z lukami w tych wersjach
przy wykorzystaniu niniejszego opracowania. Bardziej przydaje się ono do
rozszerzenia wiedzy i powtórzenia opanowanych wcześniej wiadomości.
Zwraca się uwagę, że w opracowaniu nie są podawane wzory1, należy je na
podstawie zamieszczonego tekstu samodzielnie odtworzyć w pamięci i zapisać na kartce.
Opracowanie rekomendowane jest przede wszystkim:
• jako pomoc w powtórzeniu materiału,
• do przypomnienia sobie wcześniej opanowywanej wiedzy.
Kolejny etap rozszerzenia wiedzy powinien opierać się na lekturze udostępnionego
podręcznika: http://cieciura.net/mp/index.php/pomoce-dydaktyczne/5-podrcznik
Pierwszy dodatek zawiera podstawową terminologię występującą w krzyżówkach.
Zamieszczone na końcu cytaty rekomenduje się do przemyślenia i zapamiętania
kilku najbardziej przemawiających do Czytelnika.
Informacje podane w opracowaniu będą treścią sprawdzianów egzaminacyjnych: krzyżówki i zadań z lukami.
1
Proszę przeczytać cytat autorstwa Renaty Bednarczyk zamieszony w ostatniej części opracowania.
4
METODY PROBABILISTYCZNE W PIGUŁCE
1. WPROWADZENIE
Populacja jest to zbiór elementów podlegających badaniu statystycznemu.
Elementy populacji charakteryzują się:
• właściwością wspólną, pozwalającą odróżnić elementy populacji od innych elementów, które do niej nie należą;
• właściwościami różniącymi je między sobą.
Aby można było odróżnić elementy populacji od innych elementów, populacja powinna być określona pod względem: rzeczowym, terytorialnym (przestrzennym),
czasowym.
Cecha populacji jest to właściwość, ze względu na którą elementy populacji mogą
się różnić.
Warianty cechy są to możliwe wartości tej cechy.
Wyróżniające jednostki wchodzące w skład badanej zbiorowości nazywamy cechami statystycznymi. Rozróżniamy trzy zasadnicze typy cech: jakościowe, porządkowe i ilościowe.
Cechy jakościowe (niemierzalne) to takie, których nie można jednoznacznie scharakteryzować za pomocą liczb (czyli nie można zmierzyć). Możemy je tylko opisać
słowami.
Cechy porządkowe (mierzalne) umożliwiają porządkowanie (lub szeregowanie)
wszystkich elementów zbioru wyników. Cechy takie najlepiej określa się przymiotnikami i ich stopniowaniem.
Cechy ilościowe (mierzalne) to takie, które dadzą się wyrazić za pomocą jednostek miary w pewnej skali.
Wyróżnia się tutaj dwie skale: przedziałową – określone jest odejmowanie wariantów – i ilorazową – określone jest odejmowanie i dzielenie wariantów.
Wyróżnia się dwie podstawowe metody badań statystycznych: badanie pełne –
wyznaczanie wartości badanej cechy wszystkich jednostek populacji – oraz badanie częściowe – wyznaczanie wartości badanej cechy tylko niektórych, specjalnie
dobranych jednostek populacji.
Badanie częściowe stosujemy, gdy:
• jest niszczące;
• pełne jest zbyt drogie;
• musi być przeprowadzone i opracowane w krótkim czasie.
Próba reprezentatywna, stosowana w badaniach częściowych, jest to próba,
w której struktura cechy mało różni się od struktury tej cechy w populacji. Inny słowy, rozkład wariantów cech elementów próby powinien być taki sam jak w populacji.
Aby próba była reprezentatywna, powinna być dostatecznie liczna i elementy populacji powinny być w odpowiedni sposób losowane.
Analizowane próby mogą być uzyskane z tych samych elementów – nazywane są
one w tym wypadku próbami powiązanymi. Przy uzyskaniu prób z różnych elementów nazywane są one próbami niepowiązanymi.
5
METODY PROBABILISTYCZNE W PIGUŁCE
W opracowaniu podano w pierwszej kolejności informacje dotyczące statystyki opisowej – jest to dział statystyki zajmujący się metodami opisu danych statystycznych
uzyskanych podczas badania statystycznego – analizie podlegają wszystkie elementy populacji bądź próby.
Celem stosowania metod statystyki opisowej jest podsumowanie zbioru danych
i wyciągnięcie pewnych podstawowych wniosków i uogólnień na temat zbioru.
Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez
metod wnioskowania statystycznego. W ramach statystyki opisowej następuje prezentacja (tabelaryczna i graficzna) rozkładu cechy, a wstępne opracowanie wyników pomiarów (próby) odbywa się bez posługiwania się pojęciami rachunku prawdopodobieństwa. Jeśli badana jest próba to nie są wyciągane wnioski dotyczące
populacji generalnej.
W następnej kolejności przedmiotem rozważań jest rachunek prawdopodobieństwa – dział matematyki zwany także teorią prawdopodobieństwa, czy też probabilistyką, zajmujący się tzw. zdarzeniami losowymi lub inaczej badaniem zjawisk losowych. Rachunek prawdopodobieństwa zajmuje się badaniem abstrakcyjnych pojęć matematycznych stworzonych do opisu zjawisk, które nie są deterministyczne:
zmiennych losowych w wypadku pojedynczych zdarzeń oraz procesów stochastycznych w wypadku zdarzeń powtarzających się (w czasie).
Na zakończenie opisano statystykę matematyczną – dział statystyki, w którym
stosuje się teorię prawdopodobieństwa i metody charakterystyczne dla innych działów matematyki. Przedmiotem zainteresowania są tutaj metody wnioskowania statystycznego, które polegają na tym, że na podstawie wyników uzyskanych z próby
formułujemy wnioski o całej zbiorowości.
Przyjmuje się, że modele badanych cech populacji są zmiennymi losowymi. Statystyka matematyczna zajmuje się budowaniem i wykorzystywaniem reguł wnioskowania statystycznego. Wnioskowanie statystyczne jest to wnioskowanie o rozkładzie cechy populacji lub kilku cech oraz o ich współzależności na podstawie próby.
Statystykę matematyczną można umownie podzielić na dwa podstawowe działy:
teorię estymacji i teorię weryfikacji hipotez. Umowność podziału wynika z faktu,
że przy rozwiązywaniu konkretnych problemów z reguły wykorzystuje się łącznie
metody z obu tych działów.
W ramach statystyki opisowej podano szereg charakterystyk liczbowych danych
statystycznych o postaciach wynikających ze „zdrowego rozsądku”. Określają one
rozkład analizowanych elementów populacji czy też próby pobranej z populacji –
bez żadnych uogólnień na populację.
Z kolei w wypadku estymacji, prowadzonej w ramach statystyki matematycznej,
oszacowania na podstawie próby są uogólniane na populację i stąd w naturalny
sposób pojawia się pytanie o dokładność takiego uogólniania.
6
METODY PROBABILISTYCZNE W PIGUŁCE
2. CHARAKTERYSTYKI LICZBOWE
W ramach statystyki opisowej analizuje się wartości określonej cechy wszystkich
elementów populacji albo próby – są to tak zwane dane statystyczne.
Charakterystyki liczbowe danych statystycznych dzielimy na:
• charakterystyki położenia (średnia, mediana, dominanta/moda);
• charakterystyki rozproszenia (wariancja, odchylenie standardowe, współczynnik
zmienności, odchylenie przeciętne, rozstęp);
• charakterystyki asymetrii (współczynnik asymetrii, wskaźnik asymetrii);
• charakterystyki spłaszczenia (kurtoza).
Podstawowe charakterystyki położenia
Średnia danych statystycznych – jest równa ilorazowi sumy danych statystycznych i ich liczby.
Mediana danych statystycznych – w wypadku próby o liczności nieparzystej jest
równa środkowej danej po uporządkowaniu danych statystycznych od najmniejszej
do największej. W wypadku liczności nieparzystej medianę oblicza się po uporządkowaniu jako średnią arytmetyczną dwóch środkowych elementów.
Dominanta danych statystycznych – najczęściej występująca dana statystyczna
(o ile istnieje).
Interpretacja charakterystyk położenia
Średnia arytmetyczna, mediana i dominanta są przykładami tzw. charakterystyk
położenia, czyli wielkości informujących o przeciętnej wielkości cechy populacji.
Wokół tych wielkości skupiają się na ogół wartości cechy populacji. Inaczej wyrażamy to mówiąc, że poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji.
Średnia arytmetyczna jest liczbą informującą o tym, jaką wartość cechy powinny
mieć elementy populacji, gdyby wszystkie dane statystyczne były sobie równe
Mediana dzieli zbiór danych statystycznych na dwa równoliczne podzbiory: do jednego z nich należą dane mniejsze lub równe medianie, zaś do drugiego dane większe lub równe medianie.
Dominanta jest najbardziej typową daną statystyczną.
Charakterystyki rozproszenia
Wariancja danych statystycznych – średnia arytmetyczna kwadratów różnic pomiędzy danymi statystycznymi i ich średnią.
Odchylenie standardowe danych statystycznych – pierwiastek z wariancji.
Współczynnik zmienności danych statystycznych – iloraz odchylenia standardowego i modułu średniej.
Rozstęp danych – różnica pomiędzy największą a najmniejszą daną
Interpretacja charakterystyk rozproszenia
Wariancja, odchylenie standardowe, współczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności, zróżnicowania).
7
METODY PROBABILISTYCZNE W PIGUŁCE
Każda z tych charakterystyk ma wartość równą zeru tylko wtedy, jeśli wszystkie dane statystyczne są równe (nie ma wtedy zróżnicowania danych) i przyjmuje coraz
większą wartość, gdy dane są bardziej zróżnicowane.
Wariancja i odchylenie standardowe mierzą średnie rozproszenie danych statystycznych od ich średniej arytmetycznej.
Współczynnik zmienności wyraża, jaki procent stanowi odchylenie standardowe
względem wartości średniej arytmetycznej. Jest wielkością niemianowaną (bez jednostki). Nadaje się więc do porównywania zróżnicowania cech populacji wyrażonych w różnych jednostkach.
Rozstęp wyraża długość najkrótszego przedziału, do którego należą wszystkie dane statystyczne.
Charakterystyki asymetrii
Współczynnik asymetrii (skośności) – iloraz średniej arytmetycznej trzeciej potęgi
różnic danych statystycznych i ich średniej oraz trzeciej potęgi odchylenia standardowego.
Jeśli współczynnik jest równy 0, rozkład cechy jest symetryczny, jeśli jest różny od
zera, rozkład jest asymetryczny, przy czym, jeśli jest dodatni, to asymetria rozkładu
jest prawostronna, jeśli ujemny, asymetria jest lewostronna.
Wartość bezwzględna współczynnika mierzy siłę asymetrii, im jest większa tym
asymetria jest silniejsza.
Współczynnik jest jednostką niemianowaną, może więc służyć do porównywania
asymetrii cech populacji wyrażonych w różnych jednostkach.
Charakterystyki spłaszczenia
Współczynnik spłaszczenia (kurtoza) – zmniejszony o 3 iloraz średniej arytmetycznej czwartej potęgi różnic danych statystycznych i ich średniej oraz czwartej
potęgi odchylenia standardowego.
Kurtoza jest miarą skupienia wokół średniej arytmetycznej; im większa jest jej wartość, tym bardziej wartości zmiennej koncentrują się wokół średniej – miarą odniesienia jest rozkład normalny. Jeśli kurtoza jest ujemna, rozkład jest bardziej spłaszczony od normalnego, jeśli dodatnia, rozkład jest bardziej wysmukły niż normalny.
8
METODY PROBABILISTYCZNE W PIGUŁCE
9
METODY PROBABILISTYCZNE W PIGUŁCE
3. OPRACOWANIE DANYCH STATYSTYCZNYCH
Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych.
Szereg rozdzielczy
Na wstępie analizy z reguły przedstawia się dane statystyczne w postaci szeregu
rozdzielczego.
Szereg rozdzielczy jest statystycznym sposobem prezentacji rozkładu empirycznego. Uzyskuje się go, dzieląc dane statystyczne na pewne kategorie i podając liczebność lub częstość zbiorów danych przypadających na każdą z tych kategorii.
Podstawowe rodzaje szeregów rozdzielczych:
• strukturalny (cecha jakościowa),
• punktowy (cecha ilościowa, skokowa),
• przedziałowy (cecha ilościowa, ciągła).
Kolejne kroki podczas wykonywania szeregu rozdzielczego:
1. Porządkowanie (jeśli to możliwe rosnąco) wartości cechy.
2. Zliczenie liczby wystąpień danej cechy w próbie.
3. Obliczenie częstości występowania dla każdej wartości cechy.
4. Prezentacja wyniku w formie tabeli.
Dla cechy w skali nominalnej wyznaczamy tylko dominantę. Dla cech w skali porządkowej wyznaczamy dominantę, kwantyle, medianę i rozstęp. Dla cech w pozostałych skalach: przedziałowej i ilorazowej można obliczać wszystkie charakterystyki liczbowe.
Przy małej liczbie danych obliczamy charakterystyki liczbowe i dokonujemy ich interpretacji.
Przy umiarkowanej liczbie różnych wartości (do 25) i dużej liczbie danych statystycznych dane prezentujemy tabelarycznie w postaci szeregu statystycznego
punktowego (liczności występujących danych) oraz graficznie w postaci histogramu
lub wykresu kołowego – jako wykres szeregu punktowego. Obliczamy następnie
charakterystyki liczbowe i dokonujemy ich interpretacji.
Przy rozkładzie ciągłym, a także przy dużej liczbie różnych wartości (>25), dane
grupujemy w pewną liczbę klas i obliczamy liczebności w poszczególnych klasach,
prezentujemy je w postaci szeregu rozdzielczego przedziałowego. Obliczamy następnie charakterystyki liczbowe i dokonujemy ich interpretacji.
Badanie zależności cech populacji
Przy badaniu populacji ze względu na dwie cechy X i Y sprawdza się, czy cechy te
są zależne i jak silnie.
W tym celu konstruuje się szeregi statystyczne i wyznacza tablice korelacyjne oraz
prezentuje graficznie dane statystyczne.
Rozważmy szeregi rozdzielcze warunkowe cechy postaci X/Y=vj dla wszystkich wariantów vj. Jeśli w każdym z tych szeregów dowolny wariant wi cechy X występuje
z jednakową częstością, to cechę X nazywamy cechą stochastycznie niezależną od
cechy Y.
10
METODY PROBABILISTYCZNE W PIGUŁCE
Analogicznie definiuje się niezależność stochastyczną cechy Y od cechy X. Mówimy, że cechy X i Y są niezależne stochastycznie, jeśli cecha X nie zależy stochastycznie od cechy Y i Y nie zależy w tym sensie od X.
Niezależność stochastyczna bywa nazywana także niezależnością statystyczną.
Niezależność stochastyczna cech X i Y oznacza, że przyjęcie przez jedną z nich
dowolnej wartości nie ma wpływu na wielkość częstości, z którą przyjmowane są
wartości przez drugą cechę.
Cechy X i Y są zależne stochastycznie, jeśli przynajmniej w dwóch szeregach warunkowych nie wszystkie warianty mają jednakową częstość. Zależność stochastyczna oznacza więc, że fakt przyjęcia przez jedną cechę pewnej wartości może
mieć wpływ na częstości przyjmowania wartości przez drugą cechę.
Najważniejszą charakterystyką, która dotyczy tych dwóch cech łącznie, jest współczynnik korelacji r. Jest on równy ilorazowi kowariancji oraz iloczynu odchyleń
standardowych. Przy czym kowariancja jest równa średniej arytmetycznej iloczynów różnic danych statystycznych i ich średnich..
Współczynnik korelacji r cech X i Y jest miarą siły ich zależności liniowej. Im wartość bezwzględna r jest bliższa 1, tym zależność stochastyczna mniej różni się od
zależności liniowej, przy czym dla r>0 upodabnia się do zależności liniowej rosnącej, natomiast dla r<0 do zależności malejącej. Dla modułu współczynnika równego
1 staje się zależnością liniową.
11
METODY PROBABILISTYCZNE W PIGUŁCE
4. ZDARZENIA LOSOWE
Pojęciem pierwotnym rachunku prawdopodobieństwa jest zdarzenie elementarne.
Zdarzenia losowe (krótko: zdarzenia) są podzbiorami złożonymi z pewnej liczby
zdarzeń elementarnych.
Sam zbiór wszystkich zdarzeń elementarnych nazywamy zdarzeniem pewnym.
Zbiór niezawierający żadnego zdarzenia elementarnego (zbiór pusty) nazywamy
zdarzeniem niemożliwym.
Relacje między zdarzeniami
 Suma zdarzeń A, B – zdarzenie składające się z tych wszystkich zdarzeń elementarnych, które należą do co najmniej jednego ze zdarzeń A, B.
Suma zdarzeń A, B zachodzi wtedy i tylko wtedy, gdy zachodzi co najmniej jedno ze zdarzeń A, B.

Iloczyn zdarzeń A, B – zdarzenie składające się z tych wszystkich zdarzeń elementarnych, które należą do każdego ze zdarzeń A, B.
Iloczyn zdarzeń A, B zachodzi wtedy i tylko wtedy, gdy zachodzi każde ze zdarzeń A, B.

Różnica zdarzeń A, B – zdarzenie składające się z tych wszystkich zdarzeń
elementarnych, które należą do A i nie należą do B.
Różnica zdarzeń A, B zachodzi wtedy i tylko wtedy, gdy zachodzi A i nie zachodzi B.

Zdarzenie przeciwne do zdarzenia A – zdarzenie składające się z tych wszystkich zdarzeń elementarnych, które nie należą do A (lecz należą do zbioru zdarzeń elementarnych ).
Zdarzenie przeciwne do A zachodzi wtedy i tylko wtedy, gdy nie zachodzi zdarzenie A.
12
METODY PROBABILISTYCZNE W PIGUŁCE

Zdarzenie A pociągające za sobą zdarzenie B - jeśli każde zdarzenie elementarne należące do A należy także do B.
Zdarzenie A pociąga zdarzenie B wtedy i tylko, wtedy, gdy z zajścia zdarzenia A
wynika zajście zdarzenia B.

Wykluczające się zdarzenia A, B – jeśli nie mają one wspólnych zdarzeń elementarnych.
Zdarzenia A, B wykluczają się wtedy i tylko wtedy, gdy nie mogą zajść łącznie.
Prawa de Morgana
Zdarzenie przeciwne do sumy dwóch zdarzeń jest równe (równoważne) iloczynowi
zdarzeń przeciwnych.
Zdarzenie przeciwne do iloczynu dwóch zdarzeń jest równe (równoważne) sumie
zdarzeń przeciwnych
Definicje prawdopodobieństwa
Klasyczna definicja prawdopodobieństwa
Założenia: zbiór zdarzeń elementarnych  ma skończoną liczbę elementów,
wszystkie zdarzenia losowe jednoelementowe są jednakowo prawdopodobne.
Prawdopodobieństwo zdarzenia A jest równe ilorazowi liczby zdarzeń elementarnych należących do zdarzenia A oraz liczby wszystkich zdarzeń elementarnych.
Geometryczna definicja prawdopodobieństwa
Zbiór zdarzeń elementarnych  jest zbiorem punktów prostej, płaszczyzny lub
przestrzeni. Założenia: zbiór  jest mierzalny, o skończonej mierze, tzn. ma skończoną długość, pole lub objętość oraz wszystkie punkty zbioru  mają jednakowe
szanse wylosowania.
Prawdopodobieństwo dowolnego zdarzenia A, będącego podzbiorem mierzalnym
zbioru , jest równe ilorazowi miary zdarzenia A i miary zbioru zdarzeń elementarnych.
Statystyczna definicja prawdopodobieństwa
W długiej serii doświadczeń obserwuje się wystąpienia zdarzenia A. Jeżeli częstość
n/N zdarzenia A, gdzie N jest długością serii, a n liczbą doświadczeń, w których pojawiło się zdarzenie A, przy wzrastaniu długości serii zbliża się do pewnej liczby p,
oscylując wokół tej liczby, i jeśli wahania częstości zdarzenia przejawiają tendencję
13
METODY PROBABILISTYCZNE W PIGUŁCE
malejącą przy wzrastającym N, to liczba p nazywana jest prawdopodobieństwem
zdarzenia A.
Aksjomatyczna definicja prawdopodobieństwa
Jeśli każdemu zdarzeniu losowemu A przyporządkowano liczbę rzeczywistą P(A),
zwaną prawdopodobieństwem zdarzenia A, w taki sposób, aby spełnione były następujące warunki:
• P(A) jest niemniejsza od 0 i nie większa od 1;
• Prawdopodobieństwo zdarzenia pewnego jest równe 1;
• Jeżeli zdarzenia A1, A2, ... , An, ... wykluczają się parami (tzn. każde dwa z nich
wykluczają się), wtedy prawdopodobieństwo sumy tych zdarzeń jest równe sumie
ich prawdopodobieństw;
tak określoną funkcję P nazywamy prawdopodobieństwem.
Ocena definicji prawdopodobieństwa
Klasyczna definicja prawdopodobieństwa zajścia zdarzenia jest tautologią, gdyż,
definiując prawdopodobieństwo, posługuje się pojęciem zdarzeń jednakowo możliwych, czyli jednakowo prawdopodobnych. Geometryczna definicja prawdopodobieństwa wymaga znajomości miary zbiorów, którymi się posługuje. Statystyczna
definicja prawdopodobieństwa nie jest ścisła, ponieważ nie jest sprecyzowana granica w niej występująca. Wad tych nie ma aksjomatyczna definicja prawdopodobieństwa.
Prawdopodobieństwem warunkowym zdarzenia A pod warunkiem, że zaszło
zdarzenie B, dla którego P(B)>0, nazywamy iloraz prawdopodobieństwa iloczynu
zdarzeń A i B oraz prawdopodobieństwa zdarzenia B.
Prawdopodobieństwo iloczynu dwóch zdarzeń jest równe iloczynowi prawdopodobieństwa jednego z tych zdarzeń i prawdopodobieństwa drugiego zdarzenia pod
warunkiem zajścia pierwszego.
Zdarzenia A, B nazywamy zdarzeniami niezależnymi, jeśli prawdopodobieństwo
iloczynu tych zdarzeń jest równe iloczynowi ich prawdopodobieństw.
Wzór Bayesa
Jeżeli pewne zdarzenia losowe Ai o dodatnich prawdopodobieństwach wykluczają
się parami i suma ich jest zdarzeniem pewnym, to prawdopodobieństwo wystąpienia dowolnego zdarzenia losowego B jest równe sumie iloczynów prawdopodobieństwa zdarzenia losowych Ai oraz prawdopodobieństwa zdarzenia B pod warunkiem zajścia zdarzenia Ai.
14
METODY PROBABILISTYCZNE W PIGUŁCE
5. ZMIENNE LOSOWE
Jeżeli każdemu zdarzeniu elementarnemu przyporządkujemy liczbę rzeczywistą, to
mówimy, że została określona zmienna losowa jednowymiarowa, albo – w skrócie – zmienna losowa. Zmienna losowa jest więc funkcją, której dziedziną jest zbiór
zdarzeń elementarnych Ω, a wartościami są liczby rzeczywiste ze zbioru R.
Zmienna losowa, która przyjmuje wartości ze zbioru skończonego lub przeliczalnego, nazywana jest skokową zmienną losową. Z kolei zmienna losowa przyjmująca
wartości z określonego przedziału nazywana jest ciągłą zmienną losową.
Uniwersalnym sposobem określenia rozkładu zmiennej losowej jest podanie funkcji
F(x) zwanej dystrybuantą i określonej wzorem F(x) = P(X < x) dla każdego x należącego do zbioru wartości R. Dystrybuanta w punkcie x jest równa prawdopodobieństwu, że zmienna losowa przyjmie wartości mniejsze od x. Prawdopodobieństwo, że zmienna losowa przyjmie wartości z określonego przedziału jest równe
różnicy wartości dystrybuanty w tych punktach.
Dystrybuanta F(x) jest funkcją niemalejącą i lewostronnie ciągłą.
Dla zmiennych losowych skokowych rozkład określa funkcja prawdopodobieństwa
podająca dla każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.
Między dystrybuantą zmiennej losowej skokowej X i jej funkcją prawdopodobieństwa istnieje wzajemnie jednoznaczna odpowiedniość:
• dystrybuancie zmiennej X odpowiada funkcja prawdopodobieństwa,
• funkcji prawdopodobieństwa zmiennej X odpowiada dystrybuanta.
Dla zmiennych losowych ciągłych rozkład można wyrazić za pomocą gęstości
prawdopodobieństwa f(x). Gęstość prawdopodobieństwa jest równa pochodnej
dystrybuanty, jeżeli ta pochodna istnieje. Prawdopodobieństwo, że zmienna losowa
przyjmie wartości z określonego przedziału jest równa całce z funkcji gęstości
w tym przedziale – interpretacja geometryczna: pole obszaru ograniczonego wykresem gęstości i osią OX w granicach całkowania.
Gęstość f(x) jest funkcją nieujemną.
Jeśli na zbiorze zdarzeń elementarnych  określimy dwie zmienne losowe X i Y,
to uporządkowaną parę (X, Y) nazywamy zmienną losową dwuwymiarową.
Zmienna losowa dwuwymiarowa jest więc przyporządkowaniem każdemu zdarzeniu elementarnemu uporządkowanej pary liczb rzeczywistych (x, y). Pary te nazywamy wartościami zmiennej losowej dwuwymiarowej (X, Y), są one punktami
płaszczyzny.
Dla zmiennej losowej dwuwymiarowej w analogiczny sposób jak dla zmiennej losowej jednowymiarowej określa się dystrybuantę i funkcję gęstości.
15
METODY PROBABILISTYCZNE W PIGUŁCE
6. PARAMETRY ROZKŁADU ZMIENNYCH LOSOWYCH
W zastosowaniach praktycznych zamiast rozpatrywać funkcje rozkładu prawdopodobieństwa, gęstość czy dystrybuantę zmiennych losowych, wystarczy nieraz ograniczyć się do wykorzystania jednego lub kilku parametrów opisujących zasadnicze
właściwości rozkładu zmiennej losowej.
Parametry rozkładu zmiennej losowej jednowymiarowej dzielimy na dwie grupy:
• miary położenia, dotyczące określonych wartości zmiennej losowej, do miar tego
typu zaliczamy wartość oczekiwaną, medianę i dominantę (modę);
• miary zmienności, zwane też miarami rozproszenia, przykładami miar tego typu
są wariancja i odchylenie standardowe.
Wartość oczekiwaną zmiennej losowej X oznaczamy symbolami EX lub m.
Dla dyskretnej zmiennej losowej wartość oczekiwana jest równa sumie iloczynów
możliwych wartości zmiennych losowych i prawdopodobieństwa ich występowania.
Dla ciągłej zmiennej losowej wartość oczekiwana jest równa całce z iloczynu x f(x)
w przedziale wartości zmiennych losowych.
Wartość oczekiwana sumy zmiennych losowych jest równa sumie ich wartości
oczekiwanych (addytywność).
Wartość oczekiwana iloczynu zmiennych losowych niezależnych jest równa iloczynowi ich wartości oczekiwanej (multiplikatywność).
Wartość oczekiwana zmiennej losowej to taka wartość, wokół której skupiają się
wyniki wielokrotnych realizacji tej zmiennej.
Medianą zmiennej losowej jest taka wartość, dla której dystrybuanta wynosi 0,5.
Wariancję zmiennej losowej X oznaczamy symbolami D2 X lub σ2. Jest ona równa
wartości oczekiwanej kwadratu różnicy pomiędzy zmienna losową i jej wartością
oczekiwaną. Uwzględniając sposób obliczenia wartości oczekiwanej zmiennej losowej, otrzymujemy wzory do obliczenia wariancji zmiennej losowej. Wariancja charakteryzuje średni rozrzut wokół wartości oczekiwanej.
Wariancję zmiennej losowej można obliczyć jako różnicę wartości oczekiwanej
kwadratu zmiennej losowej oraz kwadratu wartości oczekiwanej.
Wariancja sumy lub różnicy zmiennych losowych niezależnych jest równa sumie
wariancji tych zmiennych.
Odchylenie standardowe zmiennej losowej X jest równe pierwiastkowi z wariancji zmiennej losowej.
Współczynnikiem zmienności zmiennej losowej X nazywamy iloraz odchylenia
standardowego i wartości oczekiwanej tej zmiennej losowej, przy założeniu że wartość oczekiwana nie jest równa zeru.
Współczynnikiem korelacji Pearsona (albo krótko współczynnikiem korelacji)
zmiennych losowych X i Y nazywamy liczbę  równą ilorazowi kowariancji oraz iloczynu odchyleń standardowych (przy założeniu, że żadne z nich nie jest równe zeru).
16
METODY PROBABILISTYCZNE W PIGUŁCE
Kowariancja jest równa wartości oczekiwanej iloczynu różnic zmiennych losowych
i ich wartości oczekiwanych.
• Współczynnik korelacji zmiennych losowych niezależnych jest równy 0 (bo wtedy
kowariancja jest równa zeru).
• Współczynnik korelacji przyjmuje wartości z przedziału <-1,+1>.
• Wartość bezwzględna współczynnika korelacji jest równa 1 wtedy i tylko wtedy,
gdy z prawdopodobieństwem równym 1 zmienne losowe są zależne liniowo, przy
czym dla ρ=1 mamy a > 0, zaś dla ρ = -1 mamy a < 0.
Współczynnik korelacji, ze względu na powyższe własności, interpretujemy jako
miarę zależności liniowej zmiennych losowych. Jeśli współczynnik korelacji ma moduł większy od 0,7, przyjmuje się, że stopień zależności linowej jest na tyle wysoki,
iż można wtedy jedną zmienną losową aproksymować funkcją liniową drugiej
zmiennej losowej.
Do oceny korelacji można stosować też współczynnik korelacji Spearmana obliczany jako współczynnik korelacji Pearsona dla rang zmiennych.
17
METODY PROBABILISTYCZNE W PIGUŁCE
7. ROZKŁADY SKOKOWYCH ZMIENNYCH LOSOWYCH
Rozkład dwupunktowy – zmienna losowa X przyjmuje dwie wartości a, b z prawdopodobieństwami p i 1-p.
Zmienne losowe o rozkładzie dwupunktowym są modelami służącymi do opisu własności urządzeń dwustanowych, jak np. wszelkiego rodzaju układy przekaźnikowe.
Jeżeli a = 0 i b =1 to rozkład dwupunktowy nazywa się rozkładem zerojedynkowym.
Rozkładem dwupunktowym (zerojedynkowym) posługujemy się także wtedy, gdy
w doświadczeniu spodziewamy się tylko dwóch wyników. Jeden z nich czasami nazywamy sukcesem i spodziewamy się go z prawdopodobieństwem p. Drugi nazywamy niepowodzeniem lub porażką i jest on oczekiwany z prawdopodobieństwem
q = 1 – p.
Parametry rozkładu zerojedynkowego są równe: EX=p D2X=pq
Rozkład Bernoulliego (rozkład dwumianowy) – rozkład sukcesów w n doświadczeniach Bernoulliego:
• w wyniku każdego doświadczenia może zajść zdarzenie A, zwane sukcesem, lub
zdarzenie do niego przeciwne, zwane porażką;
• wyniki poszczególnych doświadczeń są niezależne, przy czym prawdopodobieństwo sukcesu w każdym doświadczeniu jest takie samo i wynosi p, a prawdopodobieństwo porażki q=1 – p
Parametry rozkładu dwumianowego są równe:
EX=np D2X=npq
Poszczególne doświadczenia można modelować zmiennymi losowymi niezależnymi o tym samym rozkładzie zerojedynkowym z parametrem p będącym prawdopodobieństwem sukcesu w jednym doświadczeniu. Zmienna losowa o rozkładzie
dwumianowym może być traktowana jako suma n zmiennych niezależnych o takim
samym rozkładzie dwupunktowym z parametrem p.
Rozkład, jakiemu podlega numer doświadczenia Bernoulliego, w którym sukces
wypadnie po raz pierwszy, nazywamy rozkładem geometrycznym.
Rozkład Poissona – określa prawdopodobieństwa występowania szeregu wydarzeń mających miejsce w określonym czasie, gdy występują one ze znaną średnią
częstotliwością i w sposób niezależny od czasu, jaki upłynął od ostatniego zajścia
takiego zdarzenia. Rozkład jest granicą ciągu rozkładów dwumianowych, gdy liczba
prób dąży do nieskończoności, a oczekiwana liczba sukcesów jest stała.
Wartość oczekiwana i wariancja zmiennej losowej o rozkładzie Poissona są równe
parametrowi λ rozkładu.
W oparciu o rozkład Poissona można w prosty sposób obliczyć przybliżoną wartość
prawdopodobieństwa w rozkładzie Bernoulliego, przy dużej liczbie prób i niskim
prawdopodobieństwie sukcesu
18
METODY PROBABILISTYCZNE W PIGUŁCE
8. ROZKŁADY CIĄGŁYCH ZMIENNYCH LOSOWYCH
Rozkład jednostajny (zwany też równomiernym lub prostokątnym) w przedziale (a;
b) – gęstość prawdopodobieństwa w tym przedziale jest stałą dodatnią, równą odwrotności długości przedziału, a poza nim jest równa zeru.
Wartość oczekiwana rozkładu jednostajnego jest równa środkowi długości przedziału, a wariancja kwadratowi długości przedziału podzielonemu przez 12.
Rozkład normalny, zwany też rozkładem Gaussa – rozkład określony przez wartość oczekiwaną i wariancję. Gęstość rozkładu ma kształt „dzwonu”. Rozkład normalny z parametrami m i σ oznaczamy N(m, σ).
Parametry m i σ są parametrami rozkładu: EX=m oraz DX= σ.
Rozkład ten jest często spotykany wśród zjawisk mających charakter przyrodniczy,
fizyczny, ekonomiczny i techniczny.
Teoretycznie zmienna losowa o rozkładzie normalnym przyjmuje wartości od -∞ do
+∞, praktycznie jednak prawie wszystkie wartości tej zmiennej (około 99,73%) należą do przedziału (m-3σ, m+3σ), czyli do otoczenia wartości oczekiwanej o promieniu równym trzem odchyleniom standardowym (reguła trzysigmowa). Długość
tego przedziału zależy od wartości , co jeszcze raz potwierdza interpretację tego
parametru.
Rozkład wykładniczy – rozkład zmiennej losowej opisujący sytuację, w której
obiekt może przyjmować stany X i Y, przy czym obiekt w stanie X może ze stałym
prawdopodobieństwem przejść w stan Y w jednostce czasu. Prawdopodobieństwo
wyznaczane przez ten rozkład to prawdopodobieństwo przejścia ze stanu X w stan
Y w czasie δt. Dystrybuanta tego rozkładu to prawdopodobieństwo, że obiekt jest w
stanie Y.
Wartość oczekiwana i zmiennej losowej o wykładniczym jest równa odwrotności
parametru a rozkładu, zaś wariancja – odwrotności kwadratu tego parametru.
Rozkład chi-kwadrat – rozkład, któremu podlega suma kwadratów niezależnych
zmiennych losowych o rozkładach N(0,1).
Wykres gęstości g(t) jest symetryczny względem prostej t = 0 i ma kształt zbliżony
(szczególnie dla dużych n) do wykresu gęstości rozkładu normalnego N(0, 1).
Rozkład Studenta – rozkład, któremu podlega iloraz dwóch niezależnych zmiennych losowych, z których pierwsza ma rozkład N(0,1), a druga rozkład chi-kwadrat
z n stopniami swobody pomnożony przez pierwiastek z liczby zmiennych losowych
tworzących zmienną losową o rozkładzie chi-kwadrat.
Rozkład Snedecora – rozkład, któremu podlega iloraz dwóch niezależnych zmiennych losowych o rozkładach chi-kwadrat z n1 i n2 stopniami swobody, unormowanych względem liczby stopni swobody.
19
METODY PROBABILISTYCZNE W PIGUŁCE
9. TWIERDZENIA GRANICZNE
Twierdzenia graniczne są to twierdzenia podające warunki dostateczne lub warunki
konieczne i dostateczne zbieżności ciągów zmiennych losowych dla różnych rodzajów zbieżności.
Twierdzenie Lindeberga – Levy’ego: Dla dużych n suma niezależnych zmiennych
losowych o takim samym rozkładzie ma w przybliżeniu rozkład normalny.
Integralne twierdzenie Moivre’a – Laplace’a: Dla dużych n zmienna losowa X
o rozkładzie dwumianowym ma rozkład w przybliżeniu normalny.
Lokalne twierdzenie Moivre’a – Laplace’a: Dla dużych n prawdopodobieństwa
rozkładu dwumianowego mogą być obliczone za pomocą funkcji gęstości rozkładu
normalnego.
Prawo wielkich liczb Bernoulliego: Jeśli liczba doświadczeń Bernoulliego jest
duża, to z prawdopodobieństwem bliskim jedności częstość sukcesu Yn przyjmuje
wartości mało różniące się od prawdopodobieństwa sukcesu p.
Z tego prawa wynika, że prawdopodobieństwo zdarzenia może być oceniane
przez jego częstość w długim ciągu powtórzeń doświadczenia, w którym zdarzenie
występuje. Uprawniona jest zatem interpretacja prawdopodobieństwa zdarzenia za
pomocą częstości tego zdarzenia.
Prawo wielkich liczb Chinczyna: Średnia arytmetyczna dużej liczby zmiennych
losowych niezależnych o jednakowym rozkładzie, o wartości oczekiwanej m, przyjmuje wartości mało różniące się od m.
Z tego prawa wynika, że wartość oczekiwana może być oceniana przez średnią
arytmetyczną dużej liczby zmiennych losowych.
Uprawniona jest więc interpretacja wartości oczekiwanej za pomocą średniej arytmetycznej.
20
METODY PROBABILISTYCZNE W PIGUŁCE
10. PARAMETRYCZNA ESTYMACJA PUNKTOWA
Parametryczna estymacja punktowa dotyczy dokładnego szacowania nieznanych
parametrów rozkładu, na przykład wartości oczekiwanej, wariancji albo współczynnika korelacji.
Parametryczna estymacja punktowa parametru Q polega na:
1) wybraniu pewnej statystyki Un o rozkładzie zależnym od parametru Q;
2) obliczeniu na podstawie próby wartości un statystyki Un;
3) przyjęciu, że un jest oszacowaniem parametru Q, co zapisujemy i czytamy: oceną parametru Q jest un. Statystyka Un nazywa się wówczas estymatorem parametru Q.
Najstarszą metodą wyznaczania estymatorów parametrycznych jest metoda momentów, zgodnie z którą przyjmuje się, że estymatorem momentu cechy populacji
jest odpowiadający mu moment z próby.
Najważniejsze własności estymatorów to zgodność, tzn. zbieżność według prawdopodobieństwa do estymowanego parametru Q, oraz nieobciążoność, tzn. równość wartości oczekiwanej estymatora estymowanemu parametrowi.
„Najlepszym” estymatorem jest estymator najefektywniejszy, tzn. taki estymator
nieobciążony, którego wariancja jest najmniejsza spośród wszystkich estymatorów
nieobciążonych.
Minimalny możliwy średniokwadratowy błąd estymatora określa nierówność RaoCraméra.
Jako estymator wartości oczekiwanej przyjmuje się średnią z próby. Jest ona estymatorem zgodnym i nieobciążonym wartości oczekiwanej. Dla rozkładu normalnego
jest ona także estymatorem najefektywniejszym.
21
METODY PROBABILISTYCZNE W PIGUŁCE
11. PARAMETRYCZNA ESTYMACJA PRZEDZIAŁOWA
Parametryczna estymacja przedziałowa dotyczy przybliżonego szacowania nieznanych parametrów rozkładu, na przykład wartości oczekiwanej, wariancji, albo
współczynnika korelacji.
Szacowanie polega na wyznaczeniu przedziału ufności alfa. Przedział ufności wyznacza się na podstawie tzw. poziomu ufności (1 – alfa), którego typowa wartością
jest 0,95.
Parametr Q może należeć do przedziału ufności lub nie należeć. Jeśli jednak poziom ufności (1 – alfa) jest bliski jedności, to bardzo rzadko będziemy otrzymywać
liczbowe przedziały ufności, do których parametr Q nie należy.
Granice przedziału ufności są zmiennymi losowymi. Dla różnych realizacji próby
otrzymujemy na ogół różne realizacje przedziałów ufności. Gdybyśmy oszacowanie
przedziałowe powtórzyli wiele razy, częstość realizacji, do których szacowany parametr należy, byłaby bliska poziomowi ufności. Na przykład, jeśli próbę powtórzono 100 razy i poziom ufności przyjęto 0,99, to częstość tych realizacji, do których
parametr należy, będzie bliska 0,99, a więc średnio tylko do jednej ze 100 realizacji
szacowany parametr nie będzie należał.
Położenie końców przedziału ufności jest losowe. Długość przedziału zależy od poziomu ufności (1–alfa), im większy poziom ufności, tym dłuższy przedział ufności.
Długość przedziału jest odwrotnie proporcjonalna do liczebności próby.
Przedział ufności dla wartości oczekiwanej zmiennej losowej o rozkładzie normalnym ze znaną wariancją wyznaczamy z wykorzystaniem dystrybuanty standaryzowanego rozkładu normalnego.
Przedział ufności dla wartości oczekiwanej zmiennej losowej o rozkładzie normalnym z nieznaną wariancją wyznaczamy z wykorzystaniem rozkładu Studenta.
Przedział ufności dla wariancji zmiennej losowej o rozkładzie normalnym wyznaczamy z wykorzystaniem rozkładu chi-kwadrat.
22
METODY PROBABILISTYCZNE W PIGUŁCE
12. ZASADY WERYFIKACJI HIPOTEZ
Teoria weryfikacji hipotez zajmuje się metodami sprawdzania hipotez statystycznych.
Hipoteza statystyczna to każde przypuszczenie dotyczące nieznanego rozkładu
badanej cechy (cech). Hipotezę dotyczącą jedynie wartości parametrów cechy nazywamy hipotezą parametryczną.
O parametrze Q wysuwamy dwie hipotezy: Hipotezę zerową, H0 (główną, sprawdzaną) oraz Hipotezę alternatywną H1. Hipoteza zerowa odzwierciedla z reguły pytanie, na które należy uzyskać odpowiedź.
Przy weryfikacji hipotez podejmujemy jedną z dwu decyzji:
1) odrzucić hipotezę zerową H0 i przyjąć alternatywną H1
lub
2) przyjąć hipotezę zerową H0 i odrzucić alternatywną H1.
Postępowanie przy weryfikacji powyższych hipotez jest następujące:
1) Wybieramy pewną statystykę o rozkładzie zależnym od parametru Q oraz pewną
liczbę alfa z przedziału [0;1] i wyznaczamy podzbiór K zbioru liczb rzeczywistych,
tak by prawdopodobieństwo, iż statystyka Un przyjmie wartość ze zbioru K, przy
założeniu, że prawdziwa jest hipoteza zerowa H0, było równe alfa.
2) Pobieramy próbę i obliczamy wartość un statystyki Un.
3) Podejmujemy decyzję: odrzucamy H0, gdy wartość un należy do K lub przyjmujemy H0 w przeciwnym przypadku.
Wykorzystywaną statystykę Un nazywamy sprawdzianem, zbiór K – zbiorem krytycznym, a liczbę alfa poziomem istotności – typową wartością alfa jest 0,05.
W zależności od postaci hipotezy alternatywnej przyjmuje się różną postać zbioru
krytycznego: dwustronną lub jednostronną (lewostronną lub prawostronną). Dwustronny zbiór krytyczny przyjmuje się, gdy hipoteza alternatywna H1 jest zaprzeczeniem hipotezy zerowej H0.
Przy weryfikacji hipotez można zawsze popełnić jeden z dwu błędów: błąd I rodzaju
polegający na odrzuceniu hipotezy zerowej H0, gdy ta hipoteza jest prawdziwa, lub
błąd II rodzaju polegający na przyjęciu hipotezy zerowej H0, gdy ta hipoteza jest
fałszywa.
Prawdopodobieństwo błędu I rodzaju jest równe poziomowi istotności alfa.
23
METODY PROBABILISTYCZNE W PIGUŁCE
13. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH
Hipoteza określająca wartość parametru rozkładu cechy populacji nosi nazwę hipotezy parametrycznej.
Poniżej scharakteryzowano kilka testów umożliwiających weryfikację hipotez parametrycznych.
Testy do weryfikacji hipotezy o wartości oczekiwanej
Testy te umożliwiają weryfikację hipotezy H0: m=m0 na podstawie jednej próby.
Mamy tutaj kilka wariantów:
• Rozkład cechy normalny N(m, σ) o znanym σ.
• Rozkład cechy normalny N(m, σ) o nieznanym σ.
• Rozkład cechy dowolny o nieznanym σ i licznej próbie.
W każdym wariancie wykorzystuje się statystykę w postaci unormowanej różnicy
średniej z próby i wartości oczekiwanej występującej w hipotezie zerowej. Rozkład
statystyki zależy od rozkładu cechy, znajomości σ i liczności próby.
Zbiór krytyczny przyjmuje się w zależności od postaci hipotezy alternatywnej.
Testy do porównywania wartości oczekiwanych dla prób niezależnych
Testy te umożliwiają weryfikację hipotezy o równości wartości oczekiwanej określonej cechy w dwóch populacjach H0: m1=m2 na podstawie dwóch prób. Mamy tutaj
kilka wariantów:
• Rozkład cechy normalny N(m1, σ1), N(m2, σ2) o znanych σ1 i σ2.
• Rozkład cechy normalny N(m1, σ), N(m2,σ) o nieznanym σ.
• Rozkład cechy normalny N(m1, σ1), N(m2, σ2) o nieznanych σ1 i σ2.
• Rozkład cechy dowolny i liczne próby.
W każdym wariancie wykorzystuje się statystykę w postaci unormowanej różnicy
średnich z obu prób. Rozkład statystyki zależy od rozkładu cechy, znajomości σ1
i σ2, równości σ1 i σ2 oraz liczności prób.
Zbiór krytyczny przyjmuje się w zależności od postaci hipotezy alternatywnej.
Testy dla wartości oczekiwanej nazywane są testami Studenta.
Sprawdzenia, czy wariancje są równe, dokonuje się opisanym poniżej testem.
Testy do porównywania wariancji
Badane są dwie populacje: pierwsza ze względu na cechę X, druga ze względu na
cechę Y. Zakładamy, że cechy te są niezależne, o rozkładach normalnych odpowiednio N(m1,σ1), N(m2,σ2).
Hipoteza zerowa H0: σ1 = σ2.
Wykorzystuje się statystykę w postaci ilorazu estymatorów wariancji, która podlega
rozkładowi Snedecora z parą (n1–1, n2 –1) stopni swobody.
Zbiór krytyczny przyjmuje się z reguły jako dwustronny.
Test do porównywania wartości oczekiwanych dla prób zależnych
Test stosuje się, gdy z populacji losujmy n elementów i mierzymy wartości cechy X
w dwóch momentach. Otrzymujemy dwie próby n-elementowe dla dwóch cech: ce24
METODY PROBABILISTYCZNE W PIGUŁCE
chy X1 – wartość badanej cechy w momencie początkowym i cechy X2 – wartość
badanej cechy w momencie końcowym. Aby sprawdzić hipotezę, że wartości oczekiwane obu cech są równe, należy najpierw sprawdzić hipotezę, iż wartość oczekiwana zmiennej losowej Y = X1 – X2 jest równa zeru na podstawie próby, której
wartościami są różnice wartości prób dla obu cech.
Jeżeli cecha Y ma rozkład normalny, potrzebny test jest szczególnym przypadkiem
testu do weryfikacji hipotezy o wartości oczekiwanej m0=0
25
METODY PROBABILISTYCZNE W PIGUŁCE
14. WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH
Hipoteza podająca, do jakiego typu rozkładów należy rozkład cechy populacji, nosi
nazwę hipotezy nieparametrycznej.
Ważnym przykładem hipotezy nieparametrycznej jest losowość próby. Może być
ona sprawdzona testem serii, opartym o medianę z próby.
W pierwszej kolejności wyznaczamy medianę z próby i transformujemy próbę wg
zasady:
• jeśli element próby ma wartość mniejszą od mediany, przyporządkowujemy mu
liczbę 0;
• jeśli element próby ma wartość większą od mediany, przyporządkowujemy mu
liczbę 1;
• jeśli element próby ma wartość równą medianie, odrzucamy go z próby.
Po takiej transformacji wyznaczamy statystykę Un w postaci liczby serii w transformowanej próbie.
Jeśli hipoteza zerowa jest prawdziwa, w transformowanej próbie powinna być
umiarkowana liczba serii. Gdyby bowiem serii było mało, np. byłyby tylko dwie serie, oznaczałoby to, że w próbie najpierw kolejno występują elementy o wartościach
mniejszych od mediany, a następnie kolejno elementy większe od mediany (lub na
odwrót). Próba taka z oczywistego powodu nie byłaby losowa. Gdyby serii było dużo, np. tyle, ile jest elementów próby, oznaczałoby to, iż w próbie występują na
przemian elementy większe i mniejsze od mediany. Taką próbę też byłoby trudno
uznać za losową. Duża i mała liczba serii w próbie transformowanej przemawia
więc za odrzuceniem hipotezy zerowej, natomiast umiarkowana liczba serii przemawia za jej przyjęciem. Dlatego zbiór krytyczny przyjmujemy dwustronny.
Granice zbioru krytycznego wyznaczamy na podstawie dostępnych tablic, zgodnie
z przyjętym poziomem istotności.
Inny przykład hipotezy nieparametrycznej dotyczy dystrybuanty F(x) występującej w
hipotezie zerowej H0. Taką hipotezę można zweryfikować za pomocą testu zgodności chi-kwadrat. Idea postępowania jest następująca:
1) Przedział zmienności próby dzielimy na pewna liczę podprzedziałów i obliczamy
liczbę elementów próby w tych podprzedziałach – są to tzw. liczności empiryczne.
2) Obliczamy, jakie są prawdopodobieństwa, że cecha populacji o rozkładzie określonym F(x) przyjmie wartości należące do wyznaczonych podprzedziałów – są to
tzw. prawdopodobieństwa teoretyczne.
3) Na podstawie prawdopodobieństw teoretycznych obliczamy, ile elementów próby
trafiłoby do poszczególnych przedziałów – są to tzw. liczebności teoretyczne.
4) Obliczamy wartość sprawdzianu w oparciu o sumę kwadratów różnic liczebności
teoretycznych i empirycznych.
5) Sprawdzamy hipotezę w oparciu o prawostronny zbiór krytyczny – duża różnica
pomiędzy liczebnościami teoretycznymi i empirycznymi przemawia za fałszywością hipotezy zerowej – wyznaczany na podstawie poziomu istotności.
Do weryfikacji hipotezy o normalności rozkładu na podstawie próby o małej liczebności stosuje się test Shapiro-Wilka.
26
METODY PROBABILISTYCZNE W PIGUŁCE
Kolejny z testów nieparametrycznych to test zgodności rozkładów dla prób niepowiązanych, zwany też testem Wilcoxona. Hipoteza zerowa H0 dotyczy jednakowego rozkładu dwóch cech, tzn. rozkład określa taka sama dystrybuanta.
Aby sprawdzić hipotezy zerową i alternatywną, łączymy obie próby w jedną próbę
i porządkujemy ją niemalejąco. Następnie rangujemy elementy uporządkowanej
próby, tzn. numerujemy jej elementy kolejnymi liczbami naturalnymi, poczynając od
liczby 1. Jeśli w uporządkowanej próbie występują elementy jednakowe, to każdemu z nich przypisujemy tę samą rangę, równą średniej arytmetycznej rang tych
elementów, gdyby były one różne.
Sprawdzianem testu do weryfikacji wysuniętych hipotez jest statystyka Un = suma
rang elementów próby o mniejszej liczebności.
Przyjmujemy zbiór krytyczny dwustronny, co wynika z poniższego rozumowania.
Gdyby wszystkie elementy próby o mniejszej liczebności były mniejsze od wszystkich elementów próby o większej liczebności, ich suma byłaby możliwie mała. Gdyby wszystkie elementy próby o mniejszej liczebności były większe od wszystkich
elementów próby o większej liczebności, ich suma byłaby możliwie duża.
Ostatni z rozpatrywanych testów to test zgodności rozkładów dla prób powiązanych, nazywany testem rangowanych znaków.
Z populacji losujemy n elementów i badamy wartości cechy X w dwóch momentach
początkowym i końcowym. Niech X1 będzie cechą oznaczającą wartości cechy X w
momencie początkowym, a X2 cechą oznaczającą wartości cechy X w momencie
końcowym. Otrzymujemy dwie próby (powiązane) n-elementowe. Obliczamy różnice między elementami pierwszej i drugiej próby, sortujemy je niemalejąco i rangujemy (numerujemy) liczbami od 1 do n.
Przyjmujemy sprawdzian w postaci: suma rang różnic dodatnich oraz z reguły dwustronny zbiór krytyczny, co wynika z następującego rozumowania. Gdyby wszystkie
elementy pierwszej próby były większe od wszystkich elementów drugiej próby,
wszystkie różnice byłyby dodatnie, a ich suma możliwie duża. Gdyby wszystkie
elementy pierwszej próby były mniejsze od wszystkich elementów drugiej próby,
wszystkie różnice byłyby ujemne, a ich suma byłaby równa, czyli byłaby możliwie
mała.
Dla małych liczności prób rozkład dokładny statystyki jest stablicowany. Dla n > 20
statystyka ta ma rozkład asymptotycznie normalny N(m, σ), gdzie m i σ zależą od
liczebności próby.
27
METODY PROBABILISTYCZNE W PIGUŁCE
15. ANALIZA KORELACJI I REGRESJI DWÓCH ZMIENNYCH
W dziale statystyki zwanym analizą korelacji bada się, czy istnieje zależność między cechami populacji oraz to, jaka jest siła tej zależności. Ograniczymy się do badania istnienia i siły związku liniowego. Do tego celu służy współczynnik korelacji ρ
badanych cech populacji. Rzecz jednak w tym, że w zagadnieniach praktycznych
wartość tego współczynnika nie jest znana. Należy zatem wnioskować o ρ na podstawie próby. Stąd nazwa działu statystyki, który podaje reguły wnioskowania o tym
parametrze.
W analizie korelacji zakłada się, że przy normalnym rozkładzie zmiennej losowej
dwuwymiarowej (X, Y) współczynnik korelacji z próby ma rozkład asymptotycznie
normalny, przy czym zgodność ta jest dobra dla wielkich prób – n ≥ 500. Z tego
powodu wykorzystuje się statystykę w postaci przekształcenia logarytmicznego
współczynnika korelacji, która ma rozkład asymptotycznie normalny, przy czym
zgodność z rozkładem normalnym jest dobra nawet dla niewielkich prób – n ≥ 20.
Analiza korelacji obejmuje wnioskowanie o sile związku liniowego między cechami
X i Y, do tego celu służy współczynnik korelacji badanych cech populacji.
Estymatorem współczynnika korelacji jest współczynnik korelacji R z próby, jest on
równy ilorazowi kowariancji z próby oraz iloczynu odchyleń standardowych z próby.
R jest estymatorem zgodnym i asymptotycznie nieobciążonym współczynnika korelacji.
Współczynnik korelacji z próby R ma rozkład asymptotycznie normalny.
W ramach analizy korelacji wyznacza się przedział ufności dla współczynnika korelacji oraz weryfikuje hipotezy o współczynniku korelacji, w tym także o jego istotności (H0: ρ=0) – hipoteza taka oznacza, że zmienne losowe są nieskorelowane,
a ponieważ z założenia mają dwuwymiarowy rozkład normalny, są też niezależne.
Analizę regresji prowadzi się, jeżeli siła związku liniowego jest duża. Ma ona na
celu aproksymowanie związku między cechami a zależnością liniową.
Do estymacji współczynników regresji można wykorzystać metodę momentów, metodę najmniejszych kwadratów lub metodę największej wiarygodności.
Dla empirycznej funkcji regresji:
• Suma różnic pomiędzy wartościami zmiennej zależnej i wartościami funkcji regresji jest równa zeru.
• Suma odchyleń dodatnich od funkcji regresji jest równa sumie odchyleń ujemnych.
Jeżeli zmienna losowa dwuwymiarowa (X,Y), ze względu na którą badana jest populacja, ma rozkład normalny o współczynniku korelacji ρ, to estymatory współczynników regresji liniowej mają rozkłady normalne oraz są estymatorami zgodnymi
i nieobciążonymi tych parametrów.
W ramach analizy regresji wyznacza się także przedziały ufności dla współczynników regresji oraz weryfikuje hipotezy o współczynnikach regresji.
28
METODY PROBABILISTYCZNE W PIGUŁCE
16. ZAAWANSOWANE METODY ANALIZY STATYSTYCZNEJ
Zaawansowane metody statystyczne są metodami wielowymiarowymi, tzn. służą do
analizy prób wielowymiarowych, składających się z wyników pomiaru określonej
liczby zmiennych > 2.
Pojęcie próby wielowymiarowej jest uogólnieniem pojęcia próby dwuwymiarowej.
Poniżej krótko scharakteryzowano zaawansowane metody statystyczne.
Ocena istotności różnic rozkładu w więcej niż dwóch warunkach. Dla rozwiązania tego problemu przeznaczony jest szereg metod. Jedną z nich jest analiza wariancji, stanowiąca rozszerzenie testu Studenta.
Analiza regresji wykorzystywana jest do szukania związku funkcyjnego pomiędzy
tzw. zmienną zależną i określoną liczbą tzw. zmiennych niezależnych. Najczęściej
przyjmuje się związek liniowy. W wypadku małej liczby zmiennych niezależnych
szuka się też związku w postaci wielomianu. Możliwe jest ustalenie a priori zmiennych niezależnych, które ujmowane są w równaniu regresji lub też określenie tylko
ich zbioru. Do równania wprowadzane są wówczas tylko te zmienne, które charakteryzuje określony współczynnik korelacji cząstkowej ze zmienną zależną.
Analiza czynnikowa pozwala na podział analizowanych zmiennych na określoną
liczbę grup, z których każda kształtowana jest samoistnie przez oddzielny czynnik.
Analiza korelacji kanonicznej wykorzystywana jest do wyznaczania związku liniowego pomiędzy dwoma grupami zmiennych. Można traktować ją więc jako
uogólnienie analizy regresji.
Analiza skupień wykorzystywana jest do podziału zbioru określonych elementów
na grupy, których obiekty są podobne do siebie w określonym sensie. Obiektami
mogą być zarówno dowolne elementy materialne, opisane wybranymi cechami, jak
i cechy opisujące rozpatrywane elementy materialne.
Wielowymiarowa analiza wariancji (MANOVA) wykorzystywana jest do weryfikacji hipotez o równości kilku wektorów wartości oczekiwanych. Jest ona rozszerzeniem analizy wariancji (ANOVA) albowiem rozpatruje ona powyższą hipotezę dla
kilku wartości oczekiwanych. MANOVA stosowana jest w powiązaniu z analizą
dyskryminacji, której ważnym krokiem jest zastąpienie wielu cech naturalnych małą liczbą zmiennych abstrakcyjnych bez zmniejszenia zróżnicowania grup. Możliwe
jest też wybranie cech najbardziej różnicujących. W ramach tej analizy prowadzona
jest klasyfikacja na podstawie cech abstrakcyjnych. Stopień jej zgodności z podziałem a priori świadczy poglądowo o występującym zróżnicowaniu grup.
Podsumowanie
Należy podkreślić wyjątkowo duże znaczenie analiz wielowymiarowych, wykorzystujących naturalne powiązania pomiędzy poszczególnymi cechami. Właśnie to
stanowi o ich bardzo istotnym znaczeniu. Można zilustrować ten fakt następującymi
przykładami:
• Wartości współczynników korelacji cząstkowej różnią się na ogół w znacznym
stopniu od wartości współczynników korelacji Pearsona.
• Cechy różniące dwie populacje wielowymiarowe nie muszą podlegać istotnie
zróżnicowanym rozkładom przy ocenie wyizolowanej.
29
METODY PROBABILISTYCZNE W PIGUŁCE
• Postać związku pomiędzy dwoma zbiorami cech w wielu wypadkach jest sprzeczna z wartościami współczynników korelacji pomiędzy parami cech uwzględnianych zbiorów.
W ramach tych analiz można dokonywać porównania rozkładów cech, oceniać korelacje oraz budować i weryfikować modele matematyczne analizowanych zjawisk.
Poszczególne metody umożliwiają przeprowadzenie analiz z różnych punktów widzenia.
Bardzo często dopiero łączne ich zastosowanie powoduje otrzymanie wartościowych wniosków. Na przykład:
• łączne zastosowanie analizy regresji i analizy korelacji kanonicznej pozwala na
identyfikację nieznanych zależności pomiędzy rozpatrywanymi cechami;
• w analizie dyskryminacji przedmiotem obliczeń są zbiory danych dotyczące grup
określonych elementów wyróżnionych a priori; analiza skupień prowadzona dla
tych elementów może być wykorzystana do weryfikacji takiego podziału;
• w analizie czynnikowej uzyskuje się podział rozpatrywanych cech na podzbiory
kształtowane oddzielnie przez poszczególne czynniki; analiza skupień prowadzona dla tych cech może być wykorzystana do weryfikacji otrzymanego podziału.
Dwuwymiarowe i wielowymiarowe analizy statystyczne umożliwiają rozwiązywanie
3 rodzajów problemów:
• oceny istotności zależności statystycznej pomiędzy cechami;
• skupiania elementów (obiektów lub cech);
• oceny istotności różnic rozkładu cechy.
30
METODY PROBABILISTYCZNE W PIGUŁCE
17. OPERACJE NA SYGNAŁACH CIĄGŁYCH
Ważną operacją jest konwersja analogowo-cyfrowa A/C (ang. A/D – analog to digital) - przekształcanie sygnału analogowego (ciągłego) na reprezentację cyfrową
(sygnał cyfrowy. Przetwarzanie A/C składa się z trzech kolejnych etapów:
1. Próbkowanie (dyskretyzacja, kwantowanie w czasie) to proces tworzenia sygnału dyskretnego, reprezentującego sygnał ciągły za pomocą ciągu wartości zwanych próbkami.
Okres próbkowania to czas pomiędzy pobieraniem kolejnych próbek. Częstotliwość próbkowania to odwrotność okresu próbkowania.
Częstotliwość próbkowania, po której sygnał ciągły może być ponownie odtworzony z sygnału dyskretnego, powinna być co najmniej dwa razy większa od granicznej częstotliwości swego widma, określa to twierdzenie Kotielnikowa – Shannona.
2. Kwantowanie (kwantyzacja) – polega na podzieleniu ciągłego zbioru wartości
sygnału na skończoną liczbę sąsiadujących ze sobą przedziałów i ustaleniu poziomów kwantowania (tj. określonych wartości z każdego przedziału reprezentujących wszystkie wartości w tym przedziale), a następnie przypisaniu każdej
próbce odpowiedniego (najbliższego) poziomu kwantowania. Poziomem reprezentacji może być górna bądź dolna granica przedziału, jednak najczęściej jest
nią wartość ze środka przedziału. Takie rozwiązanie skutkuje minimalizacją błędu
średniokwadratowego, jednak tylko pod warunkiem, że rozkład prawdopodobieństwa wartości wejściowych jest stały w danym przedziale. Warunek ten zostaje
w przybliżeniu spełniony, jeśli szerokości przedziałów kwantyzacji są bardzo małe.
Rozróżnia się dwa rodzaje kwantyzacji:
• skalarna, w której kwantowane są niezależnie pojedyncze wartości;
• wektorowa, w której kwantowanych jest jednocześnie kilka wartości (co najmniej dwie).
Kwantyzacja skalarna może być:
• równomierna (ang. uniform),
• nierównomierna (ang. nonuniform).
3. Kodowanie – polega na przyporządkowaniu poziomom kwantowania (a więc
i skwantowanym próbkom) ciągów kodowych – w wypadku kodowania binarnego
każdemu z 2**n poziomów kwantowania odpowiada słowo kodowe składające się
z n zer i jedynek2.
Na sygnałach ciągłych wykonywane są jeszcze inne operacje:
• Interpolacja – określenie wartości procesu w momencie, w którym nie dokonywano pomiaru, realizowane jest to w oparciu o informację, jaką niosą elementy
sąsiednie.
2
Ewangelia według św. Mateusza
 Wasza mowa niech będzie: "Tak - tak, nie - nie". A co nadto, z zepsucia jest.
 "Tak - tak, nie - nie" oznacza mówienie prawdy i odrzucenie kłamstwa. Oznacza usunięcie ze składanej
przysięgi, ślubu, przyrzeczenia i obietnicy, przesady i nadmiaru słów.
31
METODY PROBABILISTYCZNE W PIGUŁCE
• Predykcja (prognozowanie) – przewidywanie wartości procesu w chwili t + θ na
podstawie wartości procesu dla momentu t i wcześniejszych.
Dokładność prognozy można ocenić:
• ex post – badając odchylenie prognozy od rzeczywistej wartości. Używane statystyki są wynikami porównania przeszłych prognoz ze znanymi już prawdziwymi
wartościami prognozowanych wielkości.
• ex ante – wyznaczając możliwy błąd prognozy na etapie prognozowania.
32
METODY PROBABILISTYCZNE W PIGUŁCE
18. OCENA WYDAJNOŚCI OPROGRAMOWANIA
Wydajność oprogramowania wyraża ilość pracy wykonanej w określonym przedziale czasu. Im więcej pracy program wykona w jednostce czasu, tym większa jest jego wydajność. Uściślając, wydajność programu jest mierzona liczbą jednostek danych wejściowych (rozmiarem danych), którymi w danym czasie program ten zarządza w celu przekształcenia ich na jednostki wyjściowe (dane wynikowe).
Jednym ze sposobów oceny wydajności oprogramowania jest wykorzystanie teorii
masowej obsługi (teoria kolejek), jednej z gałęzi zastosowań rachunku prawdopodobieństwa, przydatnej w warunkach konieczności obsługi w krótkim okresie czasu
dużej ilości klientów. Podstawy teorii opracował w 1955 radziecki matematyk Aleksander Chinczyn, pierwsze zastosowania dotyczyły projektowania i eksploatacji
central telefonicznych.
W teorii obsługi masowej najczęściej analizowane są następujące dyscypliny obsługi:
• FIFO – zgłoszenia są obsługiwane w kolejności ich przybycia do systemu;
• LIFO – pierwszeństwo w sensie kolejności obsługi ma zgłoszenie, które przybyło
jako ostatnie do systemu obsługi;
• SIRO – w chwili ukończenia obsługi zgłoszenia, następne wybierane jest w sposób losowy.
Wyróżnia się systemy obsługi z szeregową, równoległą i mieszaną organizacją obsługi, jak również systemy bez poczekalni i z poczekalnią.
Podstawowe charakterystyki systemu to:
• oczekiwany czas obsługi jednego zgłoszenia,
• oczekiwana długość kolejki,
• oczekiwany czas pobytu w systemie,
• oczekiwany czas pobytu w kolejce,
• prawdopodobieństwo braku zgłoszeń w systemie,
• prawdopodobieństwo tego, że w systemie znajduje się n zgłoszeń.
Przyjmując założenia odnośnie do realizowanego procesu obsługi, można uzyskać
wzory pozwalające na obliczenie ww. charakterystyk3. Założenia te dotyczą:
• rozkładu napływu zgłoszeń,
• rozkładu czasu obsługi,
• liczby stanowisk obsługi,
• liczby miejsc w systemie (łącznie stanowiska obsługi + kolejka).
Innym sposobem oceny wydajności oprogramowania jest przeprowadzenie testów
wydajnościowych.
Istnieje kilka rodzajów wymagań wydajnościowych:
• wymagania na szybkość przetwarzania,
• wymagania na równoległość przetwarzania,
• wymagania na wielkość obsługiwanych danych.
3
https://www.google.pl/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&sqi=2&ved=0CCgQFjABahUKEwjrxfCZa3IAhXCbRQKHcIhBj4&url=http%3A%2F%2Foizet.p.lodz.pl%2Fistan%2Fdydaktyka%2Fbadania%2FTEORIA%2520KOLEJEK1.ppt&
usg=AFQjCNGhGNg6jdHhctAP_Pky0Vv5jfJ0Pg&sig2=eFcm1dmFlHsVRrOdMhVD6A
33
METODY PROBABILISTYCZNE W PIGUŁCE
Testy wydajnościowe przeprowadza się zwykle w dwóch sytuacjach: na granicy
wymagania wydajnościowego oraz powyżej wymagania wydajnościowego. W tym
drugim przypadku testy są nazywane przeciążeniowymi.
Wyniki uzyskiwane podczas testów poddawane są różnorodnym analizom statystycznym.
34
METODY PROBABILISTYCZNE W PIGUŁCE
DODATEK 1. PODSTAWOWA TERMINOLOGIA4
ANALIZA REGRESJI - Metoda określania postaci zależności pomiędzy zmiennymi,
pozwalająca na zbadanie związku pomiędzy różnymi wielkościami i wykorzystanie
tej wiedzy do przewidywania nieznanych wartości jednych wielkości na podstawie
znanych wartości innych
BENCHMARK - Test wydajności systemu komputerowego: sprzętu lub oprogramowania
BŁĄD PIERWSZEGO RODZAJU - Błąd polegający na odrzuceniu hipotezy zerowej, gdy ta hipoteza jest prawdziwa
DYSTRYBUANTA - Funkcja rzeczywista, jednoznacznie wyznaczająca rozkład
prawdopodobieństwa, niemalejąca, lewostronnie ciągła oraz mająca granice w minus i plus nieskończoności odpowiednio równe 0 i 1
EFEKTYWNOŚĆ - Własność estymatora, iloraz jego wariancji i wariancji estymatora najefektywniejszego
ESTYMACJA NIEPARAMETRYCZNA - Szacowanie postaci funkcyjnej rozkładu,
np. w postaci dystrybuanty.
ESTYMACJA PARAMETRYCZNA - Szacowanie nieznanych parametrów rozkładu
ESTYMATOR NAJEFEKTYWNIEJSZY - Estymator o możliwie najmniejszej wariancji w klasie estymatorów nieobciążonych
ESTYMATOR - Statystyka służąca do szacowania wartości parametru rozkładu
FIFO - Zgłoszenia są obsługiwane w kolejności ich przybycia do systemu
GĘSTOŚĆ - Nieujemna funkcja ciągłej zmiennej losowej X pozwalająca wyznaczyć
prawdopodobieństwo, że zmienna losowa należy do przedziału (a,b) za pomocą
całki oznaczonej w tym przedziale
HIPOTEZA ALTERNATYWNA - Hipoteza wyrażająca skrystalizowane a priori przypuszczenie o treści różnej od treści hipotezy sprawdzanej
HIPOTEZA NIEPARAMETRYCZNA - Przypuszczenie precyzujące do jakiego typu
rozkładów należy rozkład cechy populacji
HIPOTEZA PARAMETRYCZNA - Przypuszczenie dotyczące wartości parametru
rozkładu
HIPOTEZA ZEROWA - Hipoteza odzwierciedlająca z reguły pytanie, na które należy uzyskać odpowiedź
ISTOTNOŚĆ - Pojęcie występujące w teorii weryfikacji hipotez przy określaniu błędu pierwszego rodzaju - błędu polegającego na odrzuceniu hipotezy zerowej, która
w rzeczywistości jest prawdziwa
KWANTOWANIE - Proces zamiany informacji ciągłej na jej reprezentację cyfrową
LIFO - Pierwszeństwo obsługi ma zgłoszenie, które przybyło jako ostatnie do systemu obsługi
4
Proszę o uzupełnianie niniejszego wykazu
35
METODY PROBABILISTYCZNE W PIGUŁCE
MEDIANA - Wartość cechy w szeregu uporządkowanym, powyżej i poniżej której
znajduje się jednakowa liczba obserwacji
MODA - Wartość o największym prawdopodobieństwie wystąpienia, lub wartość
najczęściej występująca w próbie
MOMENT CENTRALNY RZĘDU K - Wartość oczekiwana k-tej potęgi różnicy
zmiennej losowej i jej wartości oczekiwanej
NIEOBCIĄŻONOŚĆ - Własność estymatora: wartość oczekiwana rozkładu estymatora jest równa wartości szacowanego parametru
NIEZALEŻNOŚĆ ZDARZEŃ - Równość prawdopodobieństwa iloczynu dwóch zdarzeń oraz iloczynu ich prawdopodobieństw
POPULACJA - Zbiór elementów, podlegających badaniu statystycznemu
POZIOM ISTOTNOŚCI - Prawdopodobieństwo odrzucenia hipotezy zerowej
w przypadku gdy jest ona prawdziwa
POZIOM UFNOŚCI - Prawdopodobieństwo z którym przedział ufności pokrywa
prawdziwą wartość parametru
PRAWO WIELKICH LICZB CHINCZYNA - Średnia arytmetyczna dużej liczby
zmiennych losowych niezależnych o jednakowym rozkładzie o wartości oczekiwanej m przyjmuje z prawdopodobieństwem bliskim jedności, wartości mało różniące
się od m
PRÓBA - Zbiór obserwacji statystycznych wybranych (zwykle wylosowanych) z populacji
PRÓBKOWANIE - Proces tworzenia sygnału dyskretnego, reprezentującego sygnał
ciągły za pomocą ciągu wartości nazywanych próbkami
PRÓBY NIEPOWIĄZANE - Wartości określonej cechy zmierzone u różnych elementów
PRÓBY POWIĄZANE - Wartości określonej cechy mierzone są u tych samych
elementów w różnych momentach lub w różnych warunkach
ROZKŁAD CHI-KWADRAT - Podlega mu suma kwadratów niezależnych zmiennych losowych o rozkładach normalnych N(0,1)
ROZKŁAD POISSONA - Rozkład skokowy którym przybliżamy rozkład liczby sukcesów gdy liczba doświadczeń jest duża, a prawdopodobieństwo sukcesu małe
ROZKŁAD SNEDECORA – Rozkład któremu podlega sprawdzian testu do porównywania wariancji … .
ROZKŁAD STUDENTA – Rozklad definiowany w oparciu o niezależne zmienne
losowe kako …: zmiennej losowej o rozkładzie N(0,1) i zmiennej losowej o rozkładzie chi-kwadrat
ROZSTĘP DANYCH - Różnica pomiędzy największym i najmniejszym elementem
próby
SKALA NOMINALNA - …
SKALA PORZĄDKOWA - …
36
METODY PROBABILISTYCZNE W PIGUŁCE
SKALA PRZEDZIAŁOWA - Jedna ze skal pomiarowych, określona relacja: większe
o tyle
ŚREDNIA UCINANA - Średnia arytmetyczna elementów próby z pominięciem najmniejszych i największych
ŚREDNIA WAŻONA - …
STANDARYZACJA - Przekształcenie zmiennej losowej w zmienną losową o zerowej wartości oczekiwanej i wariancji równej 1
TWIERDZENIE BAYESA - Twierdzenie wiążące prawdopodobieństwa warunkowe
oraz prawdopodobieństwa a'priori i a'posteriori …
TWIERDZENIE BERNOULLIEGO - Przy dużej liczebności próby częstość występowania danego zdarzenia losowego będzie się dowolnie mało różniła od jego
prawdopodobieństwa z prawdopodobieństwem bliskim 1
WARIANCJA - Wartość oczekiwana kwadratu różnicy zmiennej losowej i jej wartości oczekiwanej
WSPÓŁCZYNNIK KORELACJI PEARSONA - Wspólczynnik określający poziom
zależności liniowej między zmiennymi losowymi
WSPÓŁCZYNNIK ZMIENNOŚCI - Iloraz odchylenia standardowego i modułu średniej arytmetycznej elementów próby
ZBIÓR KRYTYCZNY - Zbiór wartości sprawdzianu testu przy których następuje odrzucanie hipotezy zerowej
ZDARZENIA WYKLUCZAJĄCE - Jeżeli zdarzenia A i B nie mają wspólnych zdarzeń elementarnych
ZDARZENIE POCIĄGAJĄCE ZA SOBĄ ZDRAZENNIE B - Jeżeli zdarzenie elementarne należące do A należy także do B to zdarzenie A
ZGODNOŚĆ - Własność estymatora: zbieżność według prawdopodobieństwa do
prawdziwej wartości szacowanego parametru
37
METODY PROBABILISTYCZNE W PIGUŁCE
DODATEK 2. CYTATY STATYSTYCZNE
1.
Fakt jest zawsze głupi. Zresztą bierze je diabeł i statystyka – Friedrich Nietzsche
2.
Istnieją trzy rodzaje kłamstw: kłamstwa, okropne kłamstwa, statystyki – Benjamin Disraeli
3.
Istnieją trzy rodzaje kłamstwa: przepowiadanie pogody, statystyka i komunikat
dyplomatyczny – Jean Rigaux
4.
Jest prawda, półprawda i statystyki. Statystykami można manipulować, a intuicją nie. Ona praktycznie nigdy nie zawodzi – Zbigniew Bartman
5.
Jeśli mój sąsiad codziennie bije swoją żonę, ja zaś nie biję jej nigdy, to w świetle statystyki obaj bijemy je co drugi dzień – George Bernard Shaw
6.
Każdy człowiek ma określony horyzont. Gdy ten się zawęża i staje się nieskończenie mały, ogranicza się do punktu. Wówczas człowiek powiada: to jest mój
punkt widzenia – Dawid Hilbert
7.
Korzystanie z metod statystycznych nie eliminuje zwykłego, ludzkiego podejmowania decyzji, ale pomaga ukierunkować badacza, menedżera czy dyrektora w tym zadaniu. Narzędzia statystyczne są środkiem do celu, a nie celem
samym w sobie – Duane Schulz
8.
Myślenie w kategoriach statystyki będzie kiedyś równie niezbędne do skutecznego wykorzystywania praw obywatelskich, jak umiejętność czytania i pisania –
Herbert George Wells
9.
Najważniejszą rzeczą w nauczaniu rachunku prawdopodobieństwa jest zdrowy
rozsądek i logiczne myślenie (niekoniecznie znajomość wzorów) – Renata
Bednarczyk
10. Nastąpił ostateczny koniec zbierania danych. Nie było już czego zbierać. Ale
wszystkie zebrane dane trzeba jeszcze kompletnie skorelować i umieścić we
wszystkich możliwych relacjach. Poświęcono na to wieczność. I nagle AC zrozumiał, jak zmienić kierunek entropii – Isaac Asimov
11. Nasze dni są policzone: przez statystyków – Stanisław Jerzy Lec
12. Nauki statystyczne są tym szczególnym aspektem postępu ludzkości, który nadał XX wiekom jego specjalny charakter, (...) to do statystyka zwraca się obecny wiek w poszukiwaniu tego, co jest najistotniejsze we wszystkich ważniejszych przedsięwzięciach – Ronald Aylmer Fisher
13. Nic się nie da zmienić: statystycznie wypada jedna śmierć na jednego człowieka – Krzysztof Mętrak
14. Nie wierzę w zrządzenia losu ani w przeznaczenie, jako technik przyzwyczajony jestem do liczenia się z formułami prawdopodobieństwa. [...] Żeby uznać
nieprawdopodobieństwo za fakt istniejący, nie potrzebna mi mistyka: matematyka mi wystarcza – Max Frisch
15. Nikt z nas nie zna ludzi tak dobrze, by mieć statystycznie poprawny punkt widzenia – Claude C. Hopkins
38
METODY PROBABILISTYCZNE W PIGUŁCE
16. Normalność nie jest kwestią statystyki – George Orwell
17. Obrywał „po głowie”, bo wystawała mu ponad przeciętne – Czesław Banach
18. Pozwólmy przemówić danym, niech mówią za siebie – John Tukey
19. Statystyka jest jak kostium bikini: pokazuje wiele, ale nie pokazuje najważniejszego – Aaron Levenstein
20. Statystyka nie kłamie. Kłamią jedynie statystycy – Janusz Leon Wiśniewski
21. Statystyka to matematyczny kamuflaż błędu – Georges Elgozy
22. Śmierć jednostki to tragedia – milion zabitych to tylko statystyka – Józef Stalin
23. To nieprawda, że prawdopodobieństwo śmierci w czasie wojny jest większe.
Ono jest zawsze takie samo – stuprocentowe - Clive Staples Lewis
24. W morzu dociekań toną statki hipotez – Sławomir Wróblewski
Uwaga: Treść „złośliwych” cytatów nie jest prawdziwa. Przy reprezentatywnych danych i właściwym doborze metod analizy statystycznych uzyskiwane wyniki są
zgodne z rzeczywistością i jednoznaczne.
Inne cytaty
Inne cytaty
39

Podobne dokumenty