Trudności z estymacją ilorazu parametrów
Transkrypt
Trudności z estymacją ilorazu parametrów
Dorota Kozioł∗ , Robert Pietrzykowski∗∗ , Wojciech Zieliński∗∗ *Wyższa Szkoła Ekonomiczno-Informatyczna w Warszawie **Szkola Główna Gospodarstwa Wiejskiego w Warszawie TRUDNOŚCI Z ESTYMACJĄ ILORAZU PARAMETRÓW Słowa kluczowe: estymacja punktowa ilorazu parametrów, rozkład prawdopodobieństwa Synopsis. Omówiono problem estymacji punktowej ilorazu parametrów dwóch zmiennych losowych. Zaprezentowano rozkład prawdopodobieństwa takiego estymatora i związanych z nim trudności. Ilustracja numeryczna, wykonana w oparciu o symulacje komputerowe, dotyczy modelu liniowego yi = β0 + β1 xi i estymatora najmniejszych kwadratów wielkości β0 /β1 . Zaprezentowano rozkład badanego ilorazu w dwóch przypadkach, kiedy estymatory najmniejszych kwadratów β̂0 i β̂1 są niezależne oraz skorelowane. Wstęp Ilorazy dwóch form liniowych bardzo często pojawiają się w analizie regresji dwuwymiarowych danych: 1. Analiza prostego modelu liniowego yi = β0 + β1 xi + εi , (i = l, . . . , n), gdzie ε1 , . . . , εn są niezależnymi zmiennymi losowymi o jednakowym rozkładzie normalnym ze średnią zero i wariancją σ 2 . Iloraz dwóch parametrów −β0 /β1 jest punktem przecięcia osi x-ów przez prostą regresji. 2. Analiza modelu kwadratowego yi = β0 + β1 xi + β2 x2i + εi , (i = l, . . . , n), gdzie ε1 , . . . , εn są niezależnymi zmiennymi losowymi o jednakowym rozkładzie normalnym ze średnią zero i wariancją σ 2 . Iloraz dwóch parametrów −β1 /2β2 jest punktem maksimum funkcji. 3. Analiza dwóch modeli liniowych: yi = β0 + β1 xi + εi , i = l, . . . , n1 , α0 + α1 xi + εi , i = nl , . . . , n1 + n2 , gdzie wszystkie błędy losowe ε są niezależnymi zmiennymi losowymi o jednakowym rozkładzie normalnym ze średnią zero i wariancją σ 2 . Iloraz (β0 − α0 )/(α1 − β1 ) jest odciętą punktu przecięcia dwóch funkcji regresji. Wspomniane ilorazy dwóch form liniowych pojawiają się również w nieregresyjnych zagadnieniach. Przykładem mogą być: wskaźnik cyklu spłaty zobowiązań krótkoterminowych: Ws = przeciętny stan zobowiązań krótkoterminowych z dwóch lat X̄zob = przeciętna sprzedaż netto X̄sp wskaźnik cyklu obrotu zapasami: Ws = przeciętny stan zapasów z dwóch lat X̄zap = przeciętna sprzedaż netto X̄sp W każdym z powyższych przykładów iloraz parametrów jest estymowany przez odpowiedni iloraz dwóch skorelowanych zmiennych losowych o rozkładach normalnych. W niniejszej pracy zaprezentowano rozkład takiego estymatora. Rozkład prawdopodobieństwa ilorazu Niech X i Y będą zmiennymi losowymi o rozkładach normalnych odpowiednio ze średnimi θ1 i θ2 , wariancjami σ12 i σ22 oraz współczynnikiem korelacji %. Ponadto niech W = X/Y . Jeżeli θ1 = θ2 = 0, σ12 = σ22 = 1 i % = 0 (niezależne zmienne losowe o standardowych rozkładach normalnych), to W ma rozkład Cauchy’ego. Poniżej przedstawiono przypadki, gdy zmienne losowe X i Y nie mają standardowych rozkładów normalnych. Przypadek I. Przypadkiem, w którym θ1 6= 0 zajmował się Marsaglia [1965]. W swojej pracy skoncentrował się na rozkładzie ilorazu: a+X Z= , b+Y 1 gdzie a i b są dodatnimi stałymi, X i Y są niezależnymi zmiennymi losowymi o standardowych rozkładach normalnych. Marsaglia [1965] podaje, że jeżeli Z 0 = X1 /Y1 jest ilorazem dwóch zmiennych losowych o dowolnych rozkładach normalnych (korelacja między nim nie ma w tym przypadku znaczenia), to istnieją stałe c1 i c2 takie, że c1 + c2 Z 0 ma taki sam rozkład jak Z. A więc wystarczy zbadać rozkład zmiennej losowej Z, zaś odpowiednie przekształcenia i zmiany skali doprowadzą do rozkładu Z 0 . Uogólnienie to zakłada, że istnieją cztery parametry θ1 , θ2 , σ12 , σ22 i nie uwzględnia współczynnika korelacji %. Dystrybuanta rozkładu zmiennej losowej Z: a+X F (t) = P ≤t b+Y może być zapisana na kilka sposobów: a − bt t t −a + bt F (t) = L √ , −b, √ , b, √ +L √ 1 + t2 1 + t2 1 + t2 1 + t2 Z b Z (bt−a)/√1+t2 −a + bt t φ(x)dx + φ(x)dx + 2L √ , b, √ = 1 + t2 1 + t2 0 0 1 1 −a + bt b + at = + tan−1 t + 2V √ ,√ − 2V (a, b). 2 π 1 + t2 1 + t2 W powyższym wzorze: L(h, k, γ) = 2π p 1 1 − γ2 Z ∞ h Z ∞ k x2 − 2γxy + y 2 exp − 2(1 − γ 2 ) dxdy, natomiast V jest funkcją Nicholson’a określoną wzorem (φ jest gęstością standardowego rozkładu normalnego): Z h Z qx/h V (h, q) = φ(x)φ(y)dydx. 0 Jeśli b > 3, to zmienna losowa: 0 (bZ − a) √ 1 + Z2 ma w przybliżeniu rozkład normalny: Z √ (bt−a)/ 1+t2 P [Z ≤ t] ≈ φ(u)du. −∞ Gęstość rozkładu zmiennej losowej Z ma postać: Z q exp −0.5(a2 + b2 ) q f (t) = 1+ φ(y)dy , π(1 + t2 ) φ(q) 0 b + at . q=√ 1 + t2 Jest ona jednomodalna lub dwumodalna w zależności od wartości stałych (a, b). Przypadek II. Hinkley [1969] zajmował się rozkładem ilorazu dwóch zmiennych losowych o rozkładach normalnych z parametrami θ1 , θ2 , σ12 , σ22 i varrho. Jeżeli łączną gęstość rozkładu (X, Y ) zostanie oznaczona przez g(x, y) i funkcja gęstości dla W oznaczona przez f (w),to: Z ∞ f (w) = |y|g(wy, y)dy. −∞ Odpowiednie całkowanie daje: " ! !# p b(w)a(w) b(w) b(w) 1 − %2 c f (w) = p Φ p −Φ − p + exp − , πσ1 σ2 a2 (w) 2(1 − %2 ) 2πσ1 σ2 a3 (w) a(w)(1 − %2 ) a(w)(1 − %2 ) 2 gdzie s 2%w 1 w2 − + 2, σ12 σ1 σ2 σ2 a(w) = c= θ12 %θ1 θ2 θ22 − + , σ12 σ1 σ2 σ22 θ1 w %(θ1 + θ2 w) θ2 − + 2, σ12 σ1 σ2 σ2 2 b (w) − ca2 (w) d(w) = exp 2(1 − %2 )a2 (w) b(w) = oraz Φ oznacza dystrybuantę standardowego rozkładu normalnego. Dystrybuanta F(w) zmiennej losowej W może być zapisana w postaci: F (w) = L θ1 − θ2 w θ2 σ2 w − %σ1 ,− , σ1 σ2 a(w) σ2 σ1 σ2 a(w) +L θ2 w − θ1 θ2 σ2 w − %σ1 , , σ1 σ2 a(w) σ2 σ1 σ2 a(w) . Wyniki symulacji komputerowych Ilustracja numeryczna rozkładu ilorazu ϕ̂ = −β0 /β1 w modelu yi = β0 + β1 xi + εi (i = 1, . . . , n), gdzie ε1 , . . . , εn są niezależnymi zmiennymi losowymi o jednakowym rozkładzie normalnym ze średnią zero i wariancją σ 2 , została wykonana na podstawie symulacji komputerowych. Na rysunku 1 pokazano rozkład zmiennej losowej ϕ̂ w sytuacji, gdy zmienne losowe β̂0 i β̂1 są niezależne. Do badań wylosowano dziesięć obserwacji, po pięć z dwóch punktów pomiarowych −2 i 2. Dzięki takiej macierzy eksperymentu 0.1 0 β0 β̂0 , , σ 2 (X 0 X)−1 , (X 0 X)−1 = ∼N 0 0.025 β1 β̂1 a więc β̂0 i β̂1 nie są skorelowane. Na potrzeby symulacji przyjęto β0 = 15, β1 = 0.1, σ = 21 oraz ϕ = −150. Doświadczenie mające na celu oszacowanie wartości ϕ powtórzono 50000 razy. Na rysunku 1 na osi odciętych zaznaczono uzyskane wartości estymatora ϕ̂, zaś na osi rzędnych zaznaczono częstości wystąpień danych wartości. Jak widać na rysunku 1 nie ma jednej dominującej wartości estymatora, lecz są dwie (jedna mniejsza od zera i druga większa). Rozkład ϕ̂ w sytuacji, gdy zmienne losowe β̂0 i β̂1 nie są skorelowane jest dwumodalny. Rysunek 2 pokazuje rozkład estymatora ϕ̂ w sytuacji, gdy zmienne losowe β̂0 i β̂1 są skorelowane. Symulacje przeprowadzono niemal identycznie jak poprzednio. Do badań ponownie wybrano dziesięć obserwacji, tym razem trzy z punktu pomiarowego w −2 i siedem z punktu pomiarowego w 2. Wobec tego β̂0 β̂1 ∼N β0 , σ 2 (X 0 X)−1 , β1 (X 0 X)−1 = 0.119 −0.0238 , −0.0238 0.0298 a więc β̂0 i β̂1 nie są niezależne. Ponadto przyjęto β0 = 15, β1 = 0.1, σ = 21 oraz ϕ = −150. Doświadczenie, mające na celu oszacowanie wartości ϕ, podobnie jak poprzednim razem, powtórzono 50000 razy. Na rysunku 2 na osi odciętych zaznaczono uzyskane wartości estymatora ϕ̂, zaś na osi rzędnych zaznaczono częstości wystąpień danych wartości. Jak widać na rysunku 2, w tym przypadku również nie ma jednej dominującej wartości estymatora, lecz są dwie (jedna mniejsza od zera i druga większa). Rozkład ϕ̂ w sytuacji, gdy zmienne losowe β̂0 i β̂1 są skorelowane, również jest dwumodainy, chociaż w stosunku do poprzedniego jest nieco bardziej przesunięty w prawo. Widoczna na obu wykresach dwumodalność komplikuje estymację punktową ilorazów dwóch zmiennych losowych, ze względu na to, że równie często otrzymuje się −ϕ̂ i ϕ̂. Estymacja takiego ilorazu może być obarczona dużym błędem. Literatura Hinkley D. V. 1969: On the ratio of two correlated normal random variables. Biometrika, nr 56, 635-639. Marsaglia G. 1965: Ratios of normal variables and ratios of sums of uniform variables. American Slatistical Association Journal, nr 60, 193-204. 3 4