Trudności z estymacją ilorazu parametrów

Transkrypt

Trudności z estymacją ilorazu parametrów
Dorota Kozioł∗ , Robert Pietrzykowski∗∗ , Wojciech Zieliński∗∗
*Wyższa Szkoła Ekonomiczno-Informatyczna w Warszawie
**Szkola Główna Gospodarstwa Wiejskiego w Warszawie
TRUDNOŚCI Z ESTYMACJĄ ILORAZU PARAMETRÓW
Słowa kluczowe: estymacja punktowa ilorazu parametrów, rozkład prawdopodobieństwa
Synopsis. Omówiono problem estymacji punktowej ilorazu parametrów dwóch zmiennych losowych. Zaprezentowano rozkład prawdopodobieństwa takiego estymatora i związanych z nim trudności. Ilustracja
numeryczna, wykonana w oparciu o symulacje komputerowe, dotyczy modelu liniowego yi = β0 + β1 xi i
estymatora najmniejszych kwadratów wielkości β0 /β1 . Zaprezentowano rozkład badanego ilorazu w dwóch
przypadkach, kiedy estymatory najmniejszych kwadratów β̂0 i β̂1 są niezależne oraz skorelowane.
Wstęp
Ilorazy dwóch form liniowych bardzo często pojawiają się w analizie regresji dwuwymiarowych danych:
1. Analiza prostego modelu liniowego yi = β0 + β1 xi + εi , (i = l, . . . , n), gdzie ε1 , . . . , εn są niezależnymi
zmiennymi losowymi o jednakowym rozkładzie normalnym ze średnią zero i wariancją σ 2 . Iloraz dwóch
parametrów −β0 /β1 jest punktem przecięcia osi x-ów przez prostą regresji.
2. Analiza modelu kwadratowego yi = β0 + β1 xi + β2 x2i + εi , (i = l, . . . , n), gdzie ε1 , . . . , εn są niezależnymi
zmiennymi losowymi o jednakowym rozkładzie normalnym ze średnią zero i wariancją σ 2 . Iloraz dwóch
parametrów −β1 /2β2 jest punktem maksimum funkcji.
3. Analiza dwóch modeli liniowych:
yi =
β0 + β1 xi + εi , i = l, . . . , n1 ,
α0 + α1 xi + εi , i = nl , . . . , n1 + n2 ,
gdzie wszystkie błędy losowe ε są niezależnymi zmiennymi losowymi o jednakowym rozkładzie normalnym ze
średnią zero i wariancją σ 2 . Iloraz (β0 − α0 )/(α1 − β1 ) jest odciętą punktu przecięcia dwóch funkcji regresji.
Wspomniane ilorazy dwóch form liniowych pojawiają się również w nieregresyjnych zagadnieniach. Przykładem mogą być:
wskaźnik cyklu spłaty zobowiązań krótkoterminowych:
Ws =
przeciętny stan zobowiązań krótkoterminowych z dwóch lat
X̄zob
=
przeciętna sprzedaż netto
X̄sp
wskaźnik cyklu obrotu zapasami:
Ws =
przeciętny stan zapasów z dwóch lat
X̄zap
=
przeciętna sprzedaż netto
X̄sp
W każdym z powyższych przykładów iloraz parametrów jest estymowany przez odpowiedni iloraz dwóch
skorelowanych zmiennych losowych o rozkładach normalnych. W niniejszej pracy zaprezentowano rozkład
takiego estymatora.
Rozkład prawdopodobieństwa ilorazu
Niech X i Y będą zmiennymi losowymi o rozkładach normalnych odpowiednio ze średnimi θ1 i θ2 , wariancjami
σ12 i σ22 oraz współczynnikiem korelacji %. Ponadto niech W = X/Y . Jeżeli θ1 = θ2 = 0, σ12 = σ22 = 1 i % = 0
(niezależne zmienne losowe o standardowych rozkładach normalnych), to W ma rozkład Cauchy’ego. Poniżej
przedstawiono przypadki, gdy zmienne losowe X i Y nie mają standardowych rozkładów normalnych.
Przypadek I. Przypadkiem, w którym θ1 6= 0 zajmował się Marsaglia [1965]. W swojej pracy skoncentrował
się na rozkładzie ilorazu:
a+X
Z=
,
b+Y
1
gdzie a i b są dodatnimi stałymi, X i Y są niezależnymi zmiennymi losowymi o standardowych rozkładach
normalnych. Marsaglia [1965] podaje, że jeżeli Z 0 = X1 /Y1 jest ilorazem dwóch zmiennych losowych o
dowolnych rozkładach normalnych (korelacja między nim nie ma w tym przypadku znaczenia), to istnieją
stałe c1 i c2 takie, że c1 + c2 Z 0 ma taki sam rozkład jak Z. A więc wystarczy zbadać rozkład zmiennej losowej
Z, zaś odpowiednie przekształcenia i zmiany skali doprowadzą do rozkładu Z 0 . Uogólnienie to zakłada, że
istnieją cztery parametry θ1 , θ2 , σ12 , σ22 i nie uwzględnia współczynnika korelacji %. Dystrybuanta rozkładu
zmiennej losowej Z:
a+X
F (t) = P
≤t
b+Y
może być zapisana na kilka sposobów:
a − bt
t
t
−a + bt
F (t) = L √
, −b, √
, b, √
+L √
1 + t2
1 + t2
1 + t2
1 + t2
Z b
Z (bt−a)/√1+t2
−a + bt
t
φ(x)dx +
φ(x)dx + 2L √
, b, √
=
1 + t2
1 + t2
0
0
1
1
−a + bt b + at
= + tan−1 t + 2V √
,√
− 2V (a, b).
2 π
1 + t2
1 + t2
W powyższym wzorze:
L(h, k, γ) =
2π
p
1
1 − γ2
Z
∞
h
Z
∞
k
x2 − 2γxy + y 2
exp −
2(1 − γ 2 )
dxdy,
natomiast V jest funkcją Nicholson’a określoną wzorem (φ jest gęstością standardowego rozkładu normalnego):
Z h Z qx/h
V (h, q) =
φ(x)φ(y)dydx.
0
Jeśli b > 3, to zmienna losowa:
0
(bZ − a)
√
1 + Z2
ma w przybliżeniu rozkład normalny:
Z
√
(bt−a)/ 1+t2
P [Z ≤ t] ≈
φ(u)du.
−∞
Gęstość rozkładu zmiennej losowej Z ma postać:
Z q
exp −0.5(a2 + b2 )
q
f (t) =
1+
φ(y)dy ,
π(1 + t2 )
φ(q) 0
b + at
.
q=√
1 + t2
Jest ona jednomodalna lub dwumodalna w zależności od wartości stałych (a, b).
Przypadek II. Hinkley [1969] zajmował się rozkładem ilorazu dwóch zmiennych losowych o rozkładach
normalnych z parametrami θ1 , θ2 , σ12 , σ22 i varrho. Jeżeli łączną gęstość rozkładu (X, Y ) zostanie oznaczona
przez g(x, y) i funkcja gęstości dla W oznaczona przez f (w),to:
Z ∞
f (w) =
|y|g(wy, y)dy.
−∞
Odpowiednie całkowanie daje:
"
!
!#
p
b(w)a(w)
b(w)
b(w)
1 − %2
c
f (w) = p
Φ p
−Φ − p
+
exp −
,
πσ1 σ2 a2 (w)
2(1 − %2 )
2πσ1 σ2 a3 (w)
a(w)(1 − %2 )
a(w)(1 − %2 )
2
gdzie
s
2%w
1
w2
−
+ 2,
σ12
σ1 σ2
σ2
a(w) =
c=
θ12
%θ1 θ2
θ22
−
+
,
σ12
σ1 σ2
σ22
θ1 w %(θ1 + θ2 w)
θ2
−
+ 2,
σ12
σ1 σ2
σ2
2
b (w) − ca2 (w)
d(w) = exp
2(1 − %2 )a2 (w)
b(w) =
oraz Φ oznacza dystrybuantę standardowego rozkładu normalnego.
Dystrybuanta F(w) zmiennej losowej W może być zapisana w postaci:
F (w) = L
θ1 − θ2 w
θ2 σ2 w − %σ1
,− ,
σ1 σ2 a(w) σ2 σ1 σ2 a(w)
+L
θ2 w − θ1 θ2 σ2 w − %σ1
, ,
σ1 σ2 a(w) σ2 σ1 σ2 a(w)
.
Wyniki symulacji komputerowych
Ilustracja numeryczna rozkładu ilorazu ϕ̂ = −β0 /β1 w modelu yi = β0 + β1 xi + εi (i = 1, . . . , n), gdzie
ε1 , . . . , εn są niezależnymi zmiennymi losowymi o jednakowym rozkładzie normalnym ze średnią zero i wariancją σ 2 , została wykonana na podstawie symulacji komputerowych.
Na rysunku 1 pokazano rozkład zmiennej losowej ϕ̂ w sytuacji, gdy zmienne losowe β̂0 i β̂1 są niezależne. Do
badań wylosowano dziesięć obserwacji, po pięć z dwóch punktów pomiarowych −2 i 2. Dzięki takiej macierzy
eksperymentu
0.1
0
β0
β̂0
,
, σ 2 (X 0 X)−1 ,
(X 0 X)−1 =
∼N
0 0.025
β1
β̂1
a więc β̂0 i β̂1 nie są skorelowane. Na potrzeby symulacji przyjęto β0 = 15, β1 = 0.1, σ = 21 oraz ϕ =
−150. Doświadczenie mające na celu oszacowanie wartości ϕ powtórzono 50000 razy. Na rysunku 1 na osi
odciętych zaznaczono uzyskane wartości estymatora ϕ̂, zaś na osi rzędnych zaznaczono częstości wystąpień
danych wartości. Jak widać na rysunku 1 nie ma jednej dominującej wartości estymatora, lecz są dwie (jedna
mniejsza od zera i druga większa). Rozkład ϕ̂ w sytuacji, gdy zmienne losowe β̂0 i β̂1 nie są skorelowane jest
dwumodalny.
Rysunek 2 pokazuje rozkład estymatora ϕ̂ w sytuacji, gdy zmienne losowe β̂0 i β̂1 są skorelowane. Symulacje
przeprowadzono niemal identycznie jak poprzednio. Do badań ponownie wybrano dziesięć obserwacji, tym
razem trzy z punktu pomiarowego w −2 i siedem z punktu pomiarowego w 2. Wobec tego
β̂0
β̂1
∼N
β0
, σ 2 (X 0 X)−1 ,
β1
(X 0 X)−1 =
0.119
−0.0238
,
−0.0238 0.0298
a więc β̂0 i β̂1 nie są niezależne. Ponadto przyjęto β0 = 15, β1 = 0.1, σ = 21 oraz ϕ = −150. Doświadczenie,
mające na celu oszacowanie wartości ϕ, podobnie jak poprzednim razem, powtórzono 50000 razy. Na rysunku
2 na osi odciętych zaznaczono uzyskane wartości estymatora ϕ̂, zaś na osi rzędnych zaznaczono częstości
wystąpień danych wartości. Jak widać na rysunku 2, w tym przypadku również nie ma jednej dominującej
wartości estymatora, lecz są dwie (jedna mniejsza od zera i druga większa). Rozkład ϕ̂ w sytuacji, gdy
zmienne losowe β̂0 i β̂1 są skorelowane, również jest dwumodainy, chociaż w stosunku do poprzedniego jest
nieco bardziej przesunięty w prawo.
Widoczna na obu wykresach dwumodalność komplikuje estymację punktową ilorazów dwóch zmiennych
losowych, ze względu na to, że równie często otrzymuje się −ϕ̂ i ϕ̂. Estymacja takiego ilorazu może być
obarczona dużym błędem.
Literatura
Hinkley D. V. 1969: On the ratio of two correlated normal random variables. Biometrika, nr 56, 635-639.
Marsaglia G. 1965: Ratios of normal variables and ratios of sums of uniform variables. American Slatistical
Association Journal, nr 60, 193-204.
3
4