Podstawowe wzory ze statystyki opisowej

Transkrypt

Podstawowe wzory ze statystyki opisowej
STATYSTYKA OPISOWA
PODSTAWOWE WZORY
MIARY POŁOŻENIA
gdzie mi – numer grupy zawierającej daną o nu-
Średnia
merze
Dla danych indywidualnych:
go przedziału klasowego do przedziału poprzedzającego przedział kwartyla; nmi – liczebność przedziału
w którym znajduje się kwartyl.
n
1X
x=
xi
n i=1
ni
4;
mP
i −1
nj – suma liczebności od pierwsze-
j=1
Dla i = 1 otrzymujemy kwartyl Q1 , dla i = 2 kwartyl
Q2 , czyli medianę, dla i = 3 kwartyl Q3 .
Dla szeregu rozdzielczego
MIARY ROZPROSZENIA (ZMIENNOŚCI)
k
1X
x=
ni ẋi ,
n i=1
Wariancja.
gdzie ẋi – środek i-tego przedziału, ni – liczność itego przedziału.
Dla danych indywidualnych:
Dominanta (moda)
n
1 X
s2 =
(xi − x)2 .
n i=1
!
Liczba najczęściej występująca (jeśli taka istnieje) –
dla danych idywidualnych.
Dla szeregu rozdzielczego
Dla szeregu rozdzielczego
nd − nd−1
D = xld + hd
,
2nd − nd−1 − nd+1
k
1 X
s =
ni (ẋi − x)2 ,
n i=1
!
2
gdzie d numer najliczniejszego przedziału, xld – lewy
koniec d-tego przedziału, hd – długość d-tego przedziału.
gdzie ẋi – środek i-tego przedziału. 1
√
Mediana i kwartyle
Odchylenie standardowe: s = s2 .
Dla danych indywidualnych x(n+1)/2 dla n nieparzy- Odchylenie przeciętne od średniej:
x
+x
stego, n/2 2 n/2+1 dla n parzystego.
Dla danych indywidualnych:
n
Pierwszy kwartyl Q1 : jeśli 4 jest liczbą całkowitą to
!
n
x +x
1 X
Q1 = xn/4 , jeśli k < n4 < k + 1, to Q1 = k 2 k+1 .
d=
|xi − x| .
n i=1
Trzeci kwartyl Q3 : jeśli 3n
4 jest liczbą całkowitą to
x +x
3n
Q1 = x3n/4 , jeśli k < 4 < k + 1, to Q1 = k 2 k+1 .
Dla szeregu rozdzielczego
Są też w użyciu inne wzory na kwartyle dla szeregu
!
indywidualnego.
k
1 X
d=
ni |ẋi − x| ,
n i=1
Kwartyle dla szeregów indywidualnych stosuje się
rzadko!
gdzie ẋi - środek i-tego przedziału.
Dla szeregu rozdzielczego


Typowy klasyczny obszar zmienności
mX
i −1
ni
h
m
i
Qi = xlmi +  −
nj 
,
4
nmi
x − s ¬ x ¬ x + s.
j=1
1
W statystyce matematycznej wariancję definiuje się dzieląc przez n − 1 zamiast przez n. W szczególności w arkuszu
kalkulacyjnym funkcja WARIANCJA okrela wariancję ze statystyki matematycznej. Wariancję omawianą tutaj określa funkcja
WARIANCJA.POPUL
1
DYNAMIKA ZJAWISK
Rozstęp
R = xmax − xmin .
Indeksy jednopodstawowe o podstawie y0
Odchylenie ćwiartkowe
Q=
JiP =
Q3 − Q1
.
2
yi
.
y0
Indeksy łańcuchowe
Typowy pozycyjny obszar zmienności
Współczynnik zmienności klasyczny
k
P
Iw =
Współczynnik zmienności pozycyjny
.
i=1
k
P
qi1 pi1
.
qi0 pi0
i=1
Q
.
M
Vx =
yi−1
Agregatowy indeks wartości
s
.
x
Vx =
yi
JiL =
M − Q ¬ x ¬ M + Q.
Agregatowy indeks ilości Laspeyresa
Moment centralny rzędu l
k
P
Dla danych indywidualnych
Ml =
n
1X
n
IqL
(xi − x)l
qi1 pi0
.
qi0 pi0
i=1
i=1
Agregatowy indeks cen Laspeyresa
Dla szeregu rozdzielczego
Ml =
=
i=1
k
P
k
X
ni
i=1
n
k
P
l
(ẋi − x)
IpL =
i=1
k
P
qi0 pi1
.
qi0 pi0
i=1
Klasyczny współczynnik asymetrii
Ax =
M3
.
s3
Agregatowy indeks ilości Paaschego
k
P
Współczynnik skośności (asymetrii)
IqP
=
x−D
As =
.
s
i=1
k
P
qi1 pi1
.
qi0 pi1
i=1
As > 0 – asymetria prawostronna
As < 0 – asymetria lewostronna
As = 0 – symetria
Agregatowy indeks cen Paaschego
k
P
IpP
Pozycyjny współczynnik asymetrii
=
Q3 + Q1 − 2M
Ap =
.
2Q
i=1
k
P
qi1 pi1
.
qi1 pi0
i=1
Agregatowy indeks ilości Fishera
Kurtoza
K=
M4
s4
IqF =
2
q
IqL · IqP .
współczynnik zgodności
Agregatowy indeks cen Fishera
IpF =
n
P
q
IpL · IpP .
2
φ =
t=1
n
P
(yt − ybt )2
.
(yt − y)2
pi0 – cena i-tego produktu w okresie podstawowym
t=1
pi1 – cena i-tego produktu w okresie badanym
qi0 – produkcja i-tego produktu w okresie podstawowspółczynnik determinacji
wym
qi1 – produkcja i-tego produktu w okresie badanym
R2 = 1 − φ2 .
ANALIZA SZEREGÓW CZASOWYCH
Model uważa się za dopuszczalny, jeśli φ2 < 0,2.
Metoda mechaniczna
Dany jest ciąg (yt ), t = 1, 2, . . . , n (t czas dyskretny) błędy średnie szacunku
su
D(a) = s
Średnie ruchome – nieparzysta liczba p podokresów
n
P
,
(t −
t)2
t=1
ybk =
k=
p+1
2 ,...,n
1
yk− p−1 + . . . + yk+ p−1 ,
2
2
p
−
s
p−1
2 .
D(b) = s
n
- parzysta liczba podokresów
ybk =
k=
p
2
1
p
n
P
su
t2
t=1
n
P
,
(t − t)2
t=1
1
1
y p + yk− p +1 + . . . + yk+ p −1 + yk+ p ,
2
2
2
Oceny parametrów uznajemy za precyzyjne, jeśli
2 k− 2
2
+ 1, . . . , n − p2 .
|a|
|b|
> 2,
> 2.
D(a)
D(b)
Metoda analityczna – liniowa funkcja trendu wyznaczona metodą najmniejszych kwaWAHANIA SEZONOWE
dratów
Dany jest ciąg yt , t = 1, 2, . . . , n = d · m, gdzie
m - liczba okresów
d - liczba sezonów w każdym okresie.
ybt = at + b,
gdzie
n
P
a=
Krok 1. Wyliczamy ybt metodą średnich ruchomych albo analityczną (przy średnich ruchomych „brakuje”
kilku skrajnych danych). Niech Nj (j = 1, 2, . . . , d)
oznacza zbiór zawierający wskaźniki dotyczące j-tego
sezonu oraz pj liczność zbioru Nj . Zwykle Nj =
{m(j − 1) + 1, m(j − 1) + 2, . . . , mj} - wtedy pj = d;
przy średnich ruchomych zbiory N1 oraz Nm są pomniejszone o skrajne liczby i p1 oraz pm są mniejsze.
(t − t)yt
t=1
n
P
,
(t − t)2
t=1
b = y − at,
t=
n
X
n
1
n+1
1X
t=
, y=
yt .
n t=1
2
n t=1
Odchylenie standardowe składnika losowego
su =
v
uP
u n
(y − ybt )2
u
t t=1 t
n−2
Krok 2. Wyliczamy surowe wskaźniki sezonowości:
yt
St = .
ybt
.
Krok 3. Liczymy średnie czyli oczyszczone wskaźniki sezonowości:
współczynnik zmienności losowej
s
su
vu =
· 100%.
y
Sj =
1 X
Si , j = 1, 2, . . . , d,
pj i∈N
j
3
Krok 4. (opcjonalny) Korektujemy oczyszczone wskaniki:
s
Sj
o
,
Sj =
k
gdzie k =
1
m
d
P
yi =
k
1 X
xj nij
ni. j=l
s
j=1
Sj .
s2j (x)
WSPÓŁZALEŻNOŚĆ ZJAWISK
k
1 X
=
(xi − xj )2 nij
n.j i=1
Tablica korelacyjna
yj
xi
x1
x2
..
.
xk
n.j
s2i (y) =
y 1 y2
n11 n12
n21 n22
..
..
.
.
nk1 nk2
n.1 n.2
. . . yl
. . . n1l
. . . n2l
.
..
. ..
. . . nkl
. . . n.l
ni.
n1.
n2.
..
.
Dla cechy ciągłej zastępujemy wartości xi (yi ) środkami przedziałów klasowych.
Cechy niemierzalne
nk.
n
xi i yj są wtedy pewnymi charakterystykami (własnościami).
xi – wartości pierwszej cechy
yj – wartości drugiej cechy
nij – liczność zbioru z warością cechy pierwszej xi i
drugiej yj
ni. =
n.j =
l
P
p=1
k
P
l
1 X
(yj − xi )2 nij
ni. j=1
2
χ =
ni. n.j 2
n
ni. n.j
n
l X
k
X
nij −
i=1 j=1
nip
Współczynnik kontyngencji Cxy
npj
p=1
n=
s
l P
k
P
nij .
Cxy =
i=1 j=1
χ2
+n
χ2
Cechy mierzalne
Współczynnik Czuprowa Txy
k
l
1X
1X
x=
xi ni. , y =
xj n.j
n i=1
n j=1
s
Txy =
k
l
1X
1X
2
2
s (x) =
(xi − x) ni. , s (y) =
(yj − y)2 n.j
n i=1
n j=1
2
χ2
n (k − 1)(l − 1)
p
Modele korelacji i regresji liniowej dwóch
zmiennych:
Współczynnik korelacji rang Spearmana
Kowariancja
C(xy) = C(yx) =
l X
k
1X
xi yj nij − xy
n i=1 j=1
Numerujemy dane xi oraz yi wg kolejności rosnącej
np. odpowiednio liczbami ai oraz bi .
Wtedy
Współczynnik korelacji
rxy = ryx
xj =
6
C(xy)
=
S(x)S(y)
R(xy) = R(yx) = 1 −
k
1 X
xi nij
n.j i=1
n
P
i=1
n(n2 − 1)
yb(x) = ax + b
4
(ai − bi )2
Współczynnik determinacji
n
n
1X
1X
yi
xi , y =
x=
n i=1
n i=1
C(xy) =
s2 (x) =
R2 = 1 − φ2
n
1X
(xi − x)(yi − y)
n i=1
Błędy średnie szacunku parametrów funkcji
regresji
su
D(a) = s
n
n
1X
1X
(xi − x)2 , s2 (y) =
(yi − y)2
n i=1
n i=1
rxy = ryx =
n
P
C(xy)
s(x)s(y)
s
su
C(xy)
a= 2
s (x)
n
P
i=1
D(b) = s
n
n
P
x2i
(xi − x)2
i=1
Uznaje się, że parametry są oszacowane precyzyjnie
jeśli
a
b
> 2 oraz
>2
D(a)
D(b)
b = y − ax
Definiujemy:
ybi = y(xi )
Odchylenie standardowe składnika losowego
su =
(xi − x)2
i=1
Prognoza i błąd prognozy
v
uP
u n
u (yi − ybi )2
t i=1
y(x) = ax + b ± S(y)
n−2
przy czym
Współczynnik zgodności
n
P
φ2 = i=1
n
P
(yi − ybi
v
u
u
u
1
(x − x)2
u
S(y) = su · u
1+ + P
n

t
n
)2
(xi − x)2
(yi − y)2
i=1
i=1
5



