Miary położenia Miary rozproszenia

Transkrypt

Miary położenia Miary rozproszenia
Miary położenia
Miary rozproszenia
Średnia
Wariancja.
Dla danych indywidualnych:
Dla danych indywidualnych:
n
x=
n
X
1
s =
n
2
1X
xi
n i=1
!
2
(xi − x)
.
i=1
Dla szeregu rozdzielczego
Dla szeregu rozdzielczego
1
s =
n
2
k
1X
x=
ni ẋi ,
n i=1
k
X
!
2
ni (ẋi − x)
,
i=1
gdzie ẋi - środek i-tego przedziału.
gdzie ẋi – środek i− tego przedziału, ni - liczność i-tego
Równie często w literaturze wariancję definiuje się dzieląc
przedziału.
przez n − 1 zamiast przez n.
Dominanta (moda)
√
Odchylenie standardowe: s = s2 .
Liczba najczęściej występująca (jeśli taka istnieje) - dla
Odchylenie przeciętne od średniej:
danych idywidualnych.
Dla danych indywidualnych:
Dla szeregu rozdzielczego
D = xld + hd
n
X
1
d=
n
nd − nd−1
,
2nd − nd−1 − nd+1
!
|xi − x| .
i=1
gdzie d numer najliczniejszego przedziału, xld lewy koniec
Dla szeregu rozdzielczego
d-tego przedziału, hd długość d-tego przedziału.
Mediana i kwartyle
1
d=
n
Dla danych indywidualnych
x(n+1)/2 dla n nieparzystego,
go.
xn/2 +xn/2+1
2
k
X
Typowy klasyczny obszar zmienności
Pierwszy kwartyl Q1 : jeśli jest liczbą całkowitą to Q1 =
k+1
xn/4 , jeśli k < n4 < k + 1, to Q1 = xk +x
.
2
x − s ¬ x ¬ x + s.
Trzeci kwartyl Q3 : jeśli 3n
4 jest liczbą całkowitą to Q1 = Rozstęp
k+1
x3n/4 , jeśli k < 3n
<
k
+
1, to Q1 = xk +x
.
4
2
R = xmax − xmin .
Są też w użyciu inne wzory na kwartyle dla szeregu indywidualnego.
Odchylenie ćwiartkowe
Kwartyle dla szeregów indywidualnych stosuje się rzadko!
Q=
Qi = xlmi + 
ni
−
4
m
i −1
X
j=1
nj 
Q3 − Q1
.
2
Typowy pozycyjny obszar zmienności

hmi
,
nmi
gdzie mi – numer grupy zawierającej daną o numerze
mP
i −1
ni |ẋi − x| ,
i=1
gdzie ẋi - środek i-tego przedziału.
dla n parzyste-
n
4
Dla szeregu rozdzielczego

!
M − Q ¬ x ¬ M + Q.
Współczynnik zmienności klasyczny
ni
4 ;
– suma liczebności od pierwszego przedziału klasowe-
Vx =
j=1
go do przedziału poprzedzającego przedział kwartyla; nmi
– liczebność przedziału w którym znajduje się kwartyl.
s
.
x
Współczynnik zmienności pozycyjny
Dla i = 1 otrzymujemy kwartyl Q1 , dla i = 2 kwartyla
Q2 , czyli medianę, dla i = 3 kwartyl Q3 .
Vx =
1
Q
.
M
Moment centralny rzędu l
Agregatowy indeks cen Laspeyresa
k
P
Dla danych indywidualnych
IpL =
n
1X
Ml =
(xi − x)l
n i=1
i=1
k
P
.
qi0 pi0
i=1
Agregatowy indeks ilości Paaschego
Dla szeregu rozdzielczego
k
P
Ml =
qi0 pi1
k
X
ni
n
i=1
IqP
(ẋi − x)l
=
i=1
k
P
qi1 pi1
.
qi0 pi1
i=1
Klasyczny współczynnik asymetrii
Agregatowy indeks cen Paaschego
M3
Ax = 3 .
s
k
P
IpP =
Współczynnik skośności (asymetrii)
i=1
k
P
qi1 pi1
.
qi1 pi0
i=1
As =
x−D
.
s
Agregatowy indeks ilości Fishera
q
IqF = IqL · IqP .
Pozycyjny współczynnik asymetrii
Ap =
Q3 + Q1 − 2M
.
2Q
Agregatowy indeks cen Fishera
q
IpF = IpL · IpP .
Kurtoza
M4
s4
K=
pi0
pi1
qi0
qi1
DYNAMIKA ZJAWISK
Indeksy jednopodstawowe o podstawie y0
JiP =
yi
.
y0
Indeksy łańcuchowe
JiL =
yi
yi−1
.
Agregatowy indeks wartości
k
P
Iw =
i=1
k
P
qi1 pi1
.
qi0 pi0
i=1
Agregatowy indeks ilości Laspeyresa
k
P
IqL =
i=1
k
P
qi1 pi0
.
qi0 pi0
i=1
2
– cena i-tego produktu w okresie podstawowym
– cena i-tego produktu w okresie badanym
– produkcja i-tego produktu w okresie podstawowym
– produkcja i-tego produktu w okresie badanym
Analiza szeregów czasowych
błędy średnie szacunku
Metoda mechaniczna
su
D(a) = s
Dany jest ciąg (yt ), t = 1, 2, . . . , n (t czas dyskretny)
n
P
,
(t − t)2
t=1
Średnie ruchome - nieparzysta liczba p podokresów
s
su
D(b) = s
1
p+1
p−1
ybk =
yk− p−1 + . . . + yk+ p−1 , k =
, . . . , n−
.
2
2
p
2
2
n
n
P
t2
t=1
n
P
(t −
,
t)2
t=1
Oceny parametrów uznajemy za precyzyjne, jeśli
- parzysta liczba podokresów
|a|
|b|
> 2,
> 2.
D(a)
D(b)
1
ybk =
p
k=
p
2
1
1
yk− p2 + yk− p2 +1 + . . . + yk+ p2 −1 + yk+ p2
2
2
+ 1, . . . , n −
,
Wahania sezonowe
p
2.
Dany jest ciąg yt , t = 1, 2, . . . , n = d · m, gdzie
m - liczba okresów
d - liczba sezonów w każdym okresie.
Metoda analityczna – liniowa funkcja trendu wyznaczona metodą najmniejszych kwadratów
Krok 1. Wyliczamy ybt metodą średnich ruchomych albo analityczną (przy średnich ruchomych „brakuje” kilku skrajnych danych). Niech Nj (j = 1, 2, . . . , d) oznacza
zbiór zawierający wskaźniki dotyczące j-tego sezonu oraz
pj liczność zbioru Nj . Zwykle Nj = {m(j − 1) + 1, m(j −
1) + 2, . . . , mj} - wtedy pj = d; przy średnich ruchomych
zbiory N1 oraz Nm są pomniejszone o skrajne liczby i p1
oraz pm są mniejsze.
ybt = at + b,
gdzie
n
P
(t − t)yt
,
a = t=1
n
P
(t − t)2
t=1
b = y − at,
Krok 2. Wyliczamy
n
n
1X
n+1
1X
t=
t=
, y=
yt .
n t=1
2
n t=1
St =
Krok 3. Liczymy średnie
1 X
s
Sj =
Si , j = 1, 2, . . . , d,
pj
Odchylenie standardowe składnika losowego
v
uP
u n
u (yt − ybt )2
t
su = t=1
.
n−2
i∈Nj
zwane surowymi wskaźnikami sezonowości
Krok 4. (opcjonalny) Liczymy oczyszczone wskaźniki
sezonowości:
s
Sj
o
Sj =
,
k
d
P
s
1
gdzie k = m
Sj .
współczynnik zmienności losowej
vu =
yt
.
ybt
su
· 100%.
y
j=1
współczynnik zgodności
n
P
2
φ =
Współzależność zjawisk
2
(yt − ybt )
t=1
n
P
Tablica korelacyjna
.
(yt − y)2
yj
xi
x1
x2
..
.
xk
n.j
t=1
współczynnik determinacji
R2 = 1 − φ2 .
Model uważa się za dopuszczalny, jeśli φ2 < 0,2.
3
y1
y2
n11 n12
n21 n22
..
..
.
.
nk1 nk2
n.1 n.2
. . . yl
. . . n1l
. . . n2l
..
..
.
.
. . . nkl
. . . n.l
ni.
n1.
n2.
..
.
nk.
n
xi - wartości pierwszej cechy
l X
k
n n 2
X
yj - wartości drugiej cechy
nij − i.n .j
2
χ =
ni. n.j
nij - liczność zbioru z warością cechy pierwszej xi i drugiej
n
i=1 j=1
yj
l
P
ni. =
nip
Współczynnik kontyngencji Cxy
n.j =
n=
p=1
k
P
npj
p=1
l P
k
P
s
Cxy =
nij .
χ2
+n
χ2
i=1 j=1
Współczynnik Czuprowa Txy
Cechy mierzalne
s
k
l
1X
1X
x=
xi ni. , y =
xj n.j
n i=1
n j=1
Txy =
χ2
p
n (k − 1)(l − 1)
Model korelacji i regresji liniowej dwóch zmiennych:
k
s2 (x) =
l
1X
1X
(xi − x)2 ni. , s2 (y) =
(yj − y)2 n.j
n i=1
n j=1
Współczynnik korelacji rang Spearmana
Numerujemy dane xi oraz yi wg kolejności rosnącej np.
odpowiednio liczbami ai oraz bi .
Kowariancja
Wtedy
l
C(xy) = C(yx) =
k
1 XX
xi yj nij − xy
n i=1 j=1
6
R(xy) = R(yx) = 1 −
n
P
(ai − bi )2
i=1
n(n2 − 1)
Współczynnik korelacji
yb(x) = ax + b
rxy = ryx =
C(xy)
S(x)S(y)
n
x=
xj =
k
1 X
xi nij
n.j i=1
n
C(xy) =
yi =
k
1 X
xj nij
ni.
s2 (x) =
k
1 X
=
(xi − xj )2 nij
n.j i=1
s2i (y) =
1X
(xi − x)(yi − y)
n i=1
n
j=l
s2j (x)
n
1X
1X
xi , y =
yi
n i=1
n i=1
n
1X
1X
(xi − x)2 , s2 (y) =
(yi − y)2
n i=1
n i=1
rxy = ryx =
l
1 X
(yj − xi )2 nij
ni. j=1
a=
C(xy)
s(x)s(y)
C(xy)
s2 (x)
b = y − ax
Dla cechy ciągłej zastępujemy wartości xi (yi ) środkami
przedziałów klasowych.
Definiujemy:
Cechy niemierzalne
ybi = y(xi )
xi i yj są wtedy pewnymi charakterystykami (własnościami).
Odchylenie standardowe składnika losowego
4
v
uP
u n
u (yi − ybi )2
t
su = i=1
n−2
s
su
i=1
D(b) = s
n
Współczynnik zgodności
n
P
n
P
n
P
x2i
(xi − x)2
i=1
Uznaje się, że parametry są oszacowane precyzyjnie jeśli
(yi − ybi )2
φ2 = i=1
n
P
a
b
> 2 oraz
>2
D(a)
D(b)
(yi − y)2
i=1
Współczynnik determinacji
Prognoza i błąd prognozy
R2 = 1 − φ2
y(x) = ax + b ± S(y)
Błędy średnie szacunku parametrów funkcji regresji
przy czym
v

u
u
u
1
(x − x)2 
u

S(y) = su · u
1+ + P
n

t
n
2
(xi − x)
su
D(a) = s
n
P
(xi − x)2
i=1
i=1
5