Statystyka

Transkrypt

Statystyka
Statystyka
Opisowa analiza zjawisk masowych
Typy rozkładów empirycznych jednej zmiennej
Rozkładem empirycznym zmiennej nazywamy
przyporządkowanie kolejnym wartościom zmiennej (xi)
odpowiadających im liczebności (ni). Rozkład odzwierciedla
więc strukturę badanej zbiorowości z punktu widzenia określonej
cechy.
ROZKŁADY EMPIRYCZNE
cechy skokowe
wielomodalne
jednomodalne
symetryczne
normalne
cechy ciągłe
leptokurtyczne
jednomodalne
umiarkowanie
symetryczne
platokurtyczne
wielomodalne
skrajnie
symetryczne
prawoskośne
lewoskośne
Przykłady podstawowych typów
rozkładów empirycznych dla cechy skokowej
Przykłady podstawowych typów
rozkładów empirycznych dla cechy ciągłej
Opisowe charakterystyki rozkładów
W badaniach statystycznych stosuje się wiele
charakterystyk opisujących rozkłady empiryczne. Należą do nich
następujące grupy miar:
1) miary średnie (zwane też miarami położenia, przeciętnymi
lub miarami poziomu wartości zmiennej) służące do
określania tej wartości zmiennej opisanej przez rozkład,
wokół której skupiają się wszystkie pozostałe wartości
zmiennej,
2) miary rozproszenia (zmienności, zróżnicowania, dyspersji)
służące do badania stopnia zróżnicowania wartości
zmiennej,
Opisowe charakterystyki rozkładów
miary asymetrii (skośności) służące do badania kierunku
zróżnicowania wartości zmiennej,
4) miary koncentracji służące do badania stopnia
nierównomierności rozkładu ogólnej sumy wartości zmiennej
pomiędzy poszczególne jednostki zbiorowości lub do analizy
stopnia skupienia poszczególnych jednostek wokół średniej.
Charakterystyki opisowe są bardziej syntetycznymi
formami opisu rozkładów niż forma graficzna czy tabelaryczna.
Pozwalają one w sposób syntetyczny określić właściwości
badanych rozkładów i dokonać porównania różnych
zbiorowości.
3)
Miary średnie dzieli się na dwie grupy: średnie klasyczne i
pozycyjne. Do średnich klasycznych należą: średnia
arytmetyczna, średnia harmoniczna oraz średnia
geometryczna. Najczęściej wykorzystywanymi średnimi
pozycyjnymi są: dominanta (modalna, wartość najczęstsza) oraz
kwantyle. Wśród kwantyli wyróżniamy z kolei kwartyle (dzielące
zbiorowość na cztery części), kwintyle (na pięć części), decyle
(na dziesięć części) oraz centyle, zwane też percentylami (na sto
części).
Średnie klasyczne są obliczane na podstawie wszystkich
wartości szeregu. Średnie pozycyjne są wartościami konkretnych
wyrazów szeregu (pozycji) wyróżniających się pod pewnym
względem. Obie grupy średnich nawzajem się uzupełniają.
Każda opisuje bowiem poziom wartości zmiennej z innego
punktu widzenia.
Średnia arytmetyczna
Średnią arytmetyczną nazywamy sumę wartości
zmiennej wszystkich jednostek badanej zbiorowości podzieloną
przez liczbę tych jednostek.
gdzie:
- symbol średniej arytmetycznej,
- warianty cechy mierzalnej,
- liczebność badanej zbiorowości.
Średnia arytmetyczna
Jeżeli warianty zmiennej występują z różną
częstotliwością, to oblicza się średnią arytmetyczną ważoną.
Wagami są liczebności odpowiadające poszczególnym
wariantom. Z tego rodzaju sytuacją mamy do czynienia w
szeregach rozdzielczych punktowych i przedziałowych. Wzór na
obliczanie średniej arytmetycznej ważonej z szeregów
rozdzielczych punktowych ma postać:
gdzie ni (i=1, 2, …, k) oznacza liczebność jednostek
odpowiadającą poszczególnym wariantom zmiennej, a N jest
sumą tych liczebności.
Dla szeregu rozdzielczego z przedziałami klasowymi wzór jest
następujący:
gdzie
środek przedziału klasowego.
Średnia arytmetyczna
Jeżeli zamiast liczebności absolutnych wykorzystywane są
w obliczeniach procentowe wskaźniki struktury, to wzór na
średnią arytmetyczną przyjmuje postać:
gdzie
.
Często się zdarza, ze znamy średnie arytmetyczne dla pewnych
grup i na tej podstawie chcemy obliczyć średnią arytmetyczną
dla wszystkich grup łącznie. Wykorzystujemy wówczas
następujący wzór:
gdzie:
jest średnią ze średnich.
Średnia arytmetyczna
Średnia arytmetyczna – jako miara przeciętna –
charakteryzuje się pewnymi właściwościami. Oto niektóre z nich:
1) Jako miara klasyczna jest wypadkową wszystkich wartości
zmiennej i spełnia nierówność:
;
2) suma odchyleń poszczególnych wartości zmiennej od
średniej arytmetycznej jest równa zeru, czyli:
w przypadku szeregu wyliczającego,
w przypadku szeregu rozdzielczego punktowego,
w przypadku szeregu rozdzielczego z przedziałami
klasowymi;
Średnia arytmetyczna
3)
4)
5)
6)
jeżeli wszystkie wartości zmiennej powiększymy
(pomniejszymy), podzielimy lub pomnożymy) o pewną stałą,
to średnia arytmetyczna będzie równa sumie (różnicy,
ilorazowi lub iloczynowi) średniej arytmetycznej wyjściowych
zmiennych i tej stałej;
jeżeli liczebności poszczególnych wariantów cechy są
jednakowe, to średnia arytmetyczną można obliczyć jako
iloraz sumy wariantów i ich liczby;
suma wartości zmiennej jest równa iloczynowi średniej
arytmetycznej i liczebności zbiorowości, czyli:
na poziom średniej arytmetycznej silny wpływ wywierają
wartości ekstremalne (skrajne), przy czym wpływ ten jest
silniejszy w przypadku wysokich wartości zmiennej.
Średnia harmoniczna
Średnia harmoniczna jest odwrotnością średniej
arytmetycznej z odwrotności wartości zmiennych. W przypadku
szeregów szczegółowych obliczamy średnią harmoniczną
według wzoru:
Przy obliczaniu średniej harmonicznej z szeregów rozdzielczych
(punktowych bądź przedziałowych) zachodzi konieczność
zastosowania wag (uwzględnienia liczebności). Dla szeregów
rozdzielczych punktowych średnią harmoniczną obliczamy
następująco:
Średnia harmoniczna
Średnią harmoniczną stosuje się wówczas, kiedy wartości
zmiennej podane są w jednostkach względnych, np. w km/h,
kg/osobę, wagi zaś – w jednostkach występujących w licznikach
tych jednostek względnych. Można tutaj wymienić np. takie
zmienne, jak:
- prędkość pojazdu (zmienna: w km/h, waga: w km);
- gęstość zaludnienia (zmienna: w osobach/km2, waga: w
osobach),
- spożycie artykułu X na 1 osobę (zmienna: kg/osoba, waga: w
kg).
Średnia geometryczna
Średnia geometryczna jest pierwiastkiem n-tego stopnia z
iloczynu n wartości danej zmiennej, czyli:
Gdy wartości zmiennej występują z różną częstotliwością, średnią
geometryczną obliczamy następująco:
gdzie:
Średnia geometryczna znajduje zastosowanie przy badaniu
średniego tempa zmian zjawisk.
Modalna (dominanta, wartość najczęstsza)
Modalną nazywamy taką wartość zmiennej, która w
danym rozkładzie empirycznym występuje najczęściej. Wynika z
tego, że wartość dominanty można ustalić jedynie z rozkładów
jednomodalnych.
W szeregach szczegółowych i rozdzielczych punktowych
dominanta jest tą wartością cechy, której odpowiada
największa liczebność.
W szeregach rozdzielczych przedziałowych bezpośrednio można
określić tylko przedział, w którym znajduje się dominanta (jest to
przedział o największej liczebności).
Modalna (dominanta, wartość najczęstsza)
Konkretną wartość liczbową wyznacza się następująco:
gdzie:
D – symbol dominanty;
xD – dolna granica klasy, w której znajduje się dominanta;
nD – liczebność przedziału modalnej;
nD-1 – liczebność przedziału poprzedzającego przedział
modalnej;
nD+1 – liczebność przedziału następującego po przedziale
dominanty;
iD – interwał, czyli rozpiętość przedziału dominanty.
Graficzna metoda wyznaczania modalnej
Kwantyle
Do najczęściej używanych kwantyli zaliczamy kwartyle, a
w przypadku badania struktury zbiorowości o dużej liczbie
jednostek – decyle i centyle (percentyle).
Wśród kwartyli wyróżniamy: kwartyl pierwszy (zwany dolnym),
kwartyl drugi ( określany mianem mediany lub wartości
środkowej) oraz kwartyl trzeci (górny). Każdy z kwartyli dzieli
uporządkowaną zbiorowość na dwie części pod względem
liczebności, przy czym:
- kwartyl pierwszy dzieli zbiorowość uporządkowaną na dwie części w ten
sposób, że 25% jednostek ma wartości cechy niższe, a 75% wyższe od
kwartyla pierwszego,
- mediana dzieli zbiorowość uporządkowaną na dwie równe części w
ten sposób, że 50% jednostek ma wartości cechy niższe i 50% wyższe od
mediany,
- kwartyl trzeci dzieli zbiorowość uporządkowaną na dwie części w ten
sposób, że 75% jednostek ma wartości cechy niższe, a 25% wyższe od
kwartyla trzeciego.
Mediana
W przypadku szeregów szczegółowych, składających się z
reguły z niewielkiej liczby jednostek, medianę oblicza się
najczęściej za pomocą wzoru:
gdzie Me jest symbolem mediany.
Obliczanie mediany z szeregu rozdzielczego punktowego
sprowadza się do wskazania jednostki środkowej i odczytania
wariantu cechy odpowiadającego tej jednostce.
Odnalezienie środkowej jednostki ułatwia skumulowanie
liczebności. Kumulacja polega na kolejnym, narastającym
sumowaniu liczebności dotyczących poszczególnych wariantów
cechy.
Mediana
W przypadku szeregów rozdzielczych przedziałowych kwartyle
wyznaczamy metodą graficzną lub rachunkową. Przy metodzie
rachunkowej wykorzystuje się następujące wzory:
gdzie: Q1, Q2, Q3 – odpowiednio kwartyl pierwszy, drugi (mediana) i
trzeci; xQ1, xQ2, xQ3 – dolne granice przedziałów, w których znajdują się
odpowiednio kwartyl pierwszy, drugi i trzeci; N – ogólna liczebność danej
zbiorowości; nQ1, nQ2, nQ3 – liczebności przedziałów, w których znajdują
się odpowiednio kwartyl pierwszy, mediana i kwartyl trzeci; iQ1, iQ2, iQ3 –
interwały przedziałów, w których znajduje się odpowiednio kwartyl
pierwszy, drugi i trzeci;
suma liczebności od klasy pierwszej do tej, w
której znajduje się odpowiednio kwartyl pierwszy, drugi i trzeci.
Graficzna metoda wyznaczania kwartyli
Kwantyle
Decyle i percentyle wyznacza się podobnie jak kwartyle.
Decyle dzielą zbiorowość uporządkowaną na 10 części pod
względem liczebności. Percentyle dzielą zbiorowość
uporządkowaną na 100 części pod względem liczebności.
Średnia arytmetyczna, dominanta i mediana, jako miary
tendencji centralnej, są powiązane ze sobą odpowiednimi
zależnościami, które można wyrazić równościami lub
nierównościami (decyduje tu typ rozkładu empirycznego).
W przypadku umiarkowanie asymetrycznego rozkładu zachodzi
między nimi następujący związek:
Wzór ten nosi nazwę wzoru Pearsona.
Wartości średnie nie dają wyczerpującej charakterystyki
struktury zbiorowości. W szczególności nie informują one o stopniu
zmienności (dyspersji) badanej cechy. Dyspersją (rozproszeniem)
nazywamy zróżnicowanie jednostek zbiorowości statystycznej ze
względu na wartości badanej cechy. Siłę dyspersji oceniamy za
pomocą pozycyjnych i klasycznych miar zmienności. Do miar
pozycyjnych należą: empiryczny obszar zmienności (rozstęp,
amplituda wahań) oraz odchylenie ćwiartkowe. Grupę miar
klasycznych worzą: odchylenie standardowe, wariancja oraz
odchylenie przeciętne. Do miar zmienności zaliczamy również
współczynnik zmienności, który – w zależności od sposobu
liczenia – może być klasyczną lub pozycyjną miarą dyspersji.
Empiryczny obszar zmienności (Rozstęp)
Empiryczny obszar zmienności jest różnica między
największą i najmniejszą wartością zmiennej w badanej
zbiorowości:
R = xmax - xmin
Jak wynika ze wzoru, obszar zmienności możemy określić ściśle na
podstawie szeregu wyliczającego. Na podstawie szeregu
rozdzielczego przedziałowego można jedynie określić jego
przybliżoną wartość, jako różnicę między górną granicą ostatniej
klasy i dolną granicą klasy pierwszej.
Odchylenie przeciętne
Odchylenie przeciętne określa, o ile wszystkie jednostki
danej zbiorowości różnią się średnio ze względu na wartość
zmiennej od średniej arytmetycznej tej zmiennej. Odchylenie
przeciętne jest średnią arytmetyczną bezwzględnych wartości
(modułów) odchyleń wartości cechy od jej średniej
arytmetycznej. Dla szeregu szczegółowego:
dla szeregu rozdzielczego punktowego:
dla szeregu rozdzielczego przedziałowego:
Odchylenie ćwiartkowe
Odchylenie ćwiartkowe opiera się na wartościach
kwartyla pierwszego i trzeciego. Oblicza się je następująco:
Odchylenie ćwiartkowe mierzy poziom zróżnicowania tylko części
jednostek badanej zbiorowości (pozostałej po odrzuceniu 25%
jednostek o wartościach najniższych oraz 25% jednostek o
wartościach najwyższych). Odchylenie ćwiartkowe mierzy więc
średnią rozpiętość w połowie obszaru zmienności. Jeżeli do opisu
tendencji centralnej w danym szeregu użyto mediany, a do opisu
zmienności – odchylenia ćwiartkowego, to można określić typowy
obszar zmienności w następujący sposób:
Nietypowe w danej zbiorowości są te jednostki, których wartości
są niższe od Me – Q i wyższe od Me + Q.
Wariancja
Wariancja to średnia arytmetyczna z kwadratów
odchyleń poszczególnych wartości cechy od średniej
arytmetycznej całej zbiorowości. Dla szeregu szczegółowego
oblicza się ją następująco:
dla szeregu rozdzielczego punktowego:
dla szeregu rozdzielczego przedziałowego:
Wariancja
Wariancja jako miara zróżnicowania ma szereg
właściwości, m.in.:
1) wariancja wartości zmiennej jest różnicą między średnią
arytmetyczną kwadratów wartości zmiennej a kwadratem
średniej arytmetycznej tej zmiennej, czyli,
2) jeżeli badaną zbiorowość podzielimy według określonego
kryterium na k grup, to wariancja dla całej zbiorowości
(wariancja ogólna) będzie sumą dwóch składników: średniej
arytmetycznej wewnątrz grupowych wariancji wartości
zmiennej (wariancji wewnątrzgrupowej) oraz wariancji
średniej grupowych wartości tej zmiennej (wariancji
międzygrupowej), co można zapisać:
Wariancja
Wariancja obliczana na podstawie szeregów
rozdzielczych przedziałowych jest wielkością zawyżoną.
Spowodowane jest to tym, że do obliczeń wykorzystujemy środki
przedziałów klasowych, a nie średnie arytmetyczne z
poszczególnych klas. Ponieważ liczba przedziałów klasowych jest
z reguły odwrotnie proporcjonalna do ich rozpiętości,
przeszacowanie wariancji jest tym większe, im mniejsza jest
liczba klas. W celu zmniejszenia popełnianego błędu zaleca się
stosowanie poprawki Shepparda równej , gdzie i jest rozpiętością
klas. Stosując poprawkę Shepparda, wariancję z szeregu
rozdzielczego przedziałowego obliczamy za pomocą wzoru:
Poprawkę Shepparda możemy stosować tylko w szeregu
rozdzielczym o równych rozpiętościach wszystkich klas.
Odchylenie standardowe
Odchylenie standardowe jest pierwiastkiem kwadratowym
z wariancji, czyli:
Odchylenie standardowe określa, o ile wszystkie jednostki danej
zbiorowości różnią się średnio od średniej arytmetycznej badanej
zmiennej.
Odchylenie standardowe można wykorzystać do konstrukcji
typowego przedziału zmienności badanej cechy. Typowy
przedział zmienności określa wzór:
Pomiędzy odchyleniami: ćwiartkowym, przeciętnym i
standardowym, obliczonymi z tego samego szeregu, zachodzi
następująca relacja:
Graficzna prezentacja reguły trzech sigm
68%
95%
99,7%
-3,5
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
Odchylenie standardowe
1)
2)
3)
4)
Odchylenie standardowe ma następujące właściwości:
jest wielkością obliczaną na podstawie wszystkich obserwacji
w danym szeregu;
jego wartość nie zmieni się, jeśli liczebności szeregu wyrazimy
w liczbach względnych (procentach) dostatecznie dokładnie
ustalonych;
wartość odchylenia standardowego nie zmieni się, jeśli do
wszystkich wartości zmiennej w szeregu dodamy pewną stałą
liczbę;
jeżeli wszystkie wartości szeregu pomnożymy przez pewną
stałą liczbę większą od zera, to odchylenie standardowe
będzie również tylokrotnie większe.
Współczynnik zmienności
Współczynnik zmienności jest ilorazem bezwzględnej
miary dyspersji i odpowiednich wartości średnich. Jest on
wyrażony w procentach. Można obliczyć współczynnik
zmienności różnymi metodami:
Z punktu widzenia potrzeb analizy statystycznej istotny jest
nie tylko przeciętny poziom i wewnętrzne zróżnicowanie
zbiorowości, ale również to, czy przeważająca liczba jednostek
znajduje się powyżej, czy poniżej przeciętnego poziomu badanej
cechy. Problem ten wiąże się z oceną asymetrii (skośności)
rozkładu.
Asymetrię rozkładu najłatwiej jest określić poprzez porównanie
modalnej, mediany i średniej arytmetycznej. W rozkładach
symetrycznych wszystkie średnie są sobie równe. W rozkładach
asymetrycznych wymienione średnie kształtują się na różnych
poziomach. Jeśli spełniona jest nierówność:
, o rozkład
charakteryzuje się asymetrią prawostronną; jeżeli zaś zachodzi
nierówność
, to mówimy o asymetrii lewostronnej.
Współczynnik asymetrii
Miarą określającą zarówno kierunek jak i siłę asymetrii jest
współczynnik asymetrii (skośności). Jest to miara niemianowana i
unormowana, co umożliwia porównanie asymetrii różnych
rozkładów. Współczynnik skośności można obliczać
następującymi metodami:
Wartość współczynników asymetrii z reguły zawiera się w
granicach <-1;1>. Jedynie przy bardzo silnej asymetrii
przekraczają one nieznacznie wartość ±1.
Współczynnik asymetrii
Dla rozkładu symetrycznego As=0, dla rozkładu o asymetrii
prawostronnej As>0, a dla rozkładu o asymetrii lewostronnej As<0.
Do klasycznych współczynników asymetrii należy także
współczynnik asymetrii A:
przy czym:
dla szeregu szczegółowego,
dla szeregu rozdzielczego.
gdzie:
m3 – moment centralny rzędu trzeciego.
Istnieje ścisły związek miedzy koncentracją wartości cechy
wokół średniej a ich zróżnicowaniem. Im większe jest
zróżnicowanie, tym mniejsza jest koncentracja. Miarą skupienia
poszczególnych obserwacji wokół średniej jest współczynnik
skupienia (kurtoza):
przy czym:
dla szeregu szczegółowego,
dla szeregu rozdzielczego.
gdzie:
m4 – moment centralny rzędu czwartego.
Kurtoza
Im wyższa wartość współczynnika K, tym bardziej
wysmukła jest krzywa liczebności, a zatem większa koncentracja
wartości cech wokół średniej. Małe wartości wskazują natomiast
na spłaszczenie rozkładu zbiorowości względem badanej cechy.
Przyjmuje się, że jeżeli zbiorowość ma rozkład normalny, to K=3,
bardziej spłaszczony rozkład od normalnego ma K<3, a bardziej
wysmukły K>3. Z tego względu współczynnik koncentracji K
podaje się w postaci:
Dziękuję za uwagę