Modele regresyjne w analizie wydatków gospodarstw domowych

Transkrypt

Zeszyty
Naukowe nr
790
Uniwersytetu Ekonomicznego w Krakowie
2008
Barbara Podolec
Katedra Statystyki
Paweł Ulman
Katedra Statystyki
Modele regresyjne w analizie
wydatków gospodarstw domowych
1. Wprowadzenie
Procesowi transformacji gospodarczej w Polsce towarzyszy w dalszym ciągu
pogłębianie się rozwarstwienia społeczeństwa pod względem sytuacji materialnej. Zmieniają się zachowania konsumpcyjne ludności, zmianom podlega poziom
oraz struktura wydatków. Wśród wielu procedur badawczych pozwalających na
przeprowadzenie analizy kształtowania się wydatków gospodarstw domowych
wymienić należy modele regresyjne.
Zakres i tematyka modelowania regresyjnego jest bardzo obszerna. Dotyczy
zagadnień, które wynikają bezpośrednio z etapów budowy modelu ekonometrycznego. Możemy tutaj wymienić:
– specyfikację modelu regresyjnego, czyli wybór zmiennych objaśniających
i objaśnianych, które mają wystąpić w modelu regresyjnym, oraz wybór matematycznej postaci funkcji regresji,
– estymację modelu, której procedury zależą od założeń przyjętych w pierwszym etapie budowy modelu,
– weryfikację modelu mającą na celu, ogólnie rzecz ujmując, sprawdzenie, czy
model dostatecznie dobrze opisuje rzeczywistość i czy spełnia wcześniej przyjęte
założenia.
Modelowaniu ekonometrycznemu – w tym także powyższym aspektom
modelowania regresyjnego – poświęcono wiele miejsca w literaturze przedmiotu
(por. np.: [Jakubczyc 1982], [Czerwiński 1984], [Kudrycka 1984], [Zeliaś 1970],
6
Barbara Podolec, Paweł Ulman
[Pawłowski 1971], [Johnston 1984], [Neter, Wasserman, Kutner 1989], [Seber
1977], [Weisberg 1985].
Celem pracy jest przedstawienie możliwości wykorzystania modeli regresyjnych w analizie kształtowania się wydatków gospodarstw domowych1.
2. Wybrane zagadnienia modelowania regresyjnego
w analizie wydatków
Model regresyjny możemy najogólniej zapisać za pomocą formuły:
Y = f (X, ε),
gdzie:
Y – wektor obserwacji dla zmiennej objaśnianej,
X – macierz obserwacji dla zmiennych objaśniających,
ε – wektor składników losowych,
f – pewna nieznana nam funkcja.
W zależności od postaci tej funkcji modele regresyjne można podzielić na
liniowe i nieliniowe. Nieliniowość funkcji regresji może wynikać z nieliniowości
względem zmiennych objaśniających lub nieliniowości względem parametrów.
Dopóki model jest liniowy względem parametrów, nieliniowość względem
zmiennych objaśniających nie generuje problemów natury estymacyjnej, ponieważ
zostaje zachowany w takim wypadku liniowy charakter modelu. Model regresyjny
nieliniowy względem parametrów może być w prosty sposób oszacowany, jeśli
poprzez odpowiednią transformację da się go sprowadzić do postaci liniowej.
W przeciwnym wypadku należy się posłużyć właściwą w tej sytuacji metodą
estymacji nieliniowej.
W analizie regresyjnej wydatków podstawowym modelem jest liniowy model
regresyjny, którego postać można przedstawić następująco:
(1)
yi = α0 + α1xi1 + α2 xi2 + … + αkxik + εi (i = 1, …, n),
gdzie:
yi – kwota wydatków przypadających na osobę poniesionych przez i-te gospodarstwo domowe,
xji – wartość j-tej zmiennej objaśniającej dla i-tego gospodarstwa domowego,
αj – parametr stojący przy j-tej zmiennej objaśniającej,
εi – wartość składnika losowego dla i-tego gospodarstwa domowego.
1
Artykuł powstał na podstawie części opracowania nt. „Metody statystyczne w analizie
wydatków gospodarstw domowych”, przygotowanego w ramach badań statutowych w Akademii
Ekonomicznej w Krakowie w 2004 r. (zespół: Barbara Podolec – kierownik tematu, Paweł Ulman,
Agata Niemczyk, Agnieszka Walicka, Marcin Salamaga).
Modele regresyjne w analizie wydatków…
7
W analizie kształtowania się wydatków wykorzystuje się także modele nieliniowe, które przez odpowiednie transformacje sprowadzamy do postaci liniowych
(por. [Podolec 1995, 2000]). Pierwszą z takich funkcji jest funkcja potęgowa dana
wzorem:
k
yi = α 0 ∏ xij ⋅ eε , αj
i
(2)
która po sprowadzeniu do liniowości za pomocą obustronnego przekształcenia
logarytmem naturalnym prezentuje się następująco:
j =1
k
ln yi = ln α 0 + ∑ α j ln xij + εi . (3)
j =1
Drugą z funkcji nieliniowych wykorzystywanych do opisu kształtowania się
wydatków jest funkcja wykładnicza:
yi = exp (α0 + α1xi1 +α2 xi2 + … + αkxik + εi) . (4)
Po obustronnym zlogarytmowaniu powyższej funkcji otrzymujemy:
ln yi = α0 + α1xi1 + α2 xi2 + … + αkxik + εi .
(5)
Można także łączyć powyższe funkcje, otrzymując model potęgowo-wykładniczy.
Zmienną objaśnianą w podanych modelach regresyjnych są oczywiście
– ogólnie rzecz ujmując – wydatki na osobę w gospodarstwie domowym. Główną
przesłanką decydującą o wyborze zmiennych objaśniających powinna być ich
wartość merytoryczna odnosząca się do celu badania. Nie należy jednak zapominać o kryteriach formalnostatystycznych, które dotyczą zmiennych niezależnych, spośród których – w przypadku modeli jednorównaniowych – podstawowe
znaczenie ma postulat niezależności zmiennych objaśniających. Wprowadzenie do
modelu silnie skorelowanych zmiennych objaśniających może skutkować błędnymi
ocenami parametrów stojących przy tych zmiennych (może wystąpić brak tzw.
koincydencji równania objawiający się niezgodnością znaku parametru równania
i współczynnika korelacji odpowiedniej zmiennej objaśniającej ze zmienną objaśnianą). Ponadto zmienne objaśniające pozostające w silnej zależności ze zmienną
objaśnianą oraz jednocześnie ze sobą mogą zostać odrzucone jako nieistotne dla
wyjaśnienia zmiennej objaśnianej.
Spośród wielu metod doboru zmiennych objaśniających w modelu regresyjnym
powszechnie stosowaną jest procedura tzw. regresji krokowej. Jej powszechność
wynika przede wszystkim z jej dostępności w większości pakietów statystycznych.
Należy jednak pamiętać, że chociaż skomputeryzowane procedury są pomocne
8
w doborze zmiennych objaśniających do modelu, to nie zastąpią w pełni doświadczenia i intuicji badacza.
Przypomnijmy, że u podstaw klasycznego modelu regresji liniowej leżą następujące założenia:
– związek między zmienną objaśnianą Y a zmiennymi objaśniającymi Xj jest
związkiem liniowym, co można zapisać:
yi = α0 + α1xi1 + α2 xi2 + … + αkxik + εi , (6)
– wartości zmiennych niezależnych są ustalone z góry (nie są losowe). Losowość zmiennej zależnej Y jest generowana wyłącznie przez składnik losowy,
– średnia wartość składnika losowego wynosi zero: E(ε) = 0,
– wariancja składnika losowego jest stała i skończona: D2(ε) = σ2, σ2 < +∞,
– składniki losowe związane z kolejnymi obserwacjami nie są ze sobą skorelowane: cov (εiεs ) = 0 dla i � s,
– między zmiennymi objaśniającymi nie mogą zachodzić dokładne zależności
liniowe, liczba obserwacji zaś powinna być nie mniejsza niż liczba szacowanych
parametrów: rz(X) = k + 1.
Ponadto postuluje się jeszcze, aby składnik losowy charakteryzował się rozkładem normalnym, co pozwala weryfikować hipotezy dotyczące parametrów
modelu regresyjnego.
Podstawową metodą estymacji parametrów liniowego modelu regresji jest
metoda najmniejszych kwadratów (MNK).
Zaprezentowane powyżej założenia, będące podstawą klasycznego modelu
regresji liniowej, w praktyce nie zawsze są spełnione. Powstaje więc pytanie
o konsekwencje nieprawdziwości niektórych założeń.
Jeśli chodzi o założenie postulujące, że składniki losowe modelu związane
z kolejnymi obserwacjami nie są ze sobą skorelowane, to brak spełnienia tego
założenia (występowanie tzw. autokorelacji składników losowych) przy spełnieniu
wszystkich pozostałych nie wpływa na nieobciążoność i zgodność estymatorów
parametrów równania linii regresji, ale zmienia ich efektywność, i to na ogół w ten
sposób, że wariancje estymatorów wzrastają. W celu uzyskania odpowiedniej
precyzji oszacowania należy więc zwiększyć liczebność próby lub zastosować
inną metodę estymacji parametrów modelu. Nadmienić należy, że z autokorelacją składników losowych możemy spotkać się najczęściej w badaniach opartych
na szeregach czasowych, natomiast znacznie rzadziej w badaniach opartych na
danych przekrojowych. Przy szacowaniu parametrów klasycznego modelu regresji
liniowej należy się liczyć z niespełnieniem założenia o stałości wariancji składnika losowego. Niestałość ta ma swe źródło w zależności wariancji od jednej ze
zmiennych objaśniających modelu. Zmienność wariancji składnika losowego nie
9
wpływa na nieobciążoność estymatorów i z reguły zwiększa wariancję estymatorów (por. [Pawłowski 1971]). Jeśli jesteśmy w stanie poznać zróżnicowanie
wariancji, to nieobciążone i najbardziej efektywne estymatory uzyskujemy stosując uogólnioną metodę najmniejszych kwadratów A.C. Aitkena.
Wspomniane powyżej założenie normalności składnika losowego generuje
w klasycznym modelu regresji to, że warunkowe rozkłady zmiennej losowej Y
są normalne. Ponieważ estymatory MNK parametrów modelu regresyjnego są
liniowymi funkcjami wyników próby, to estymatory te również mają rozkłady
normalne. Jest to ważna okoliczność, ponieważ pozwala na wnioskowanie o wartościach szacowanych parametrów, a przede wszystkim na weryfikację odpowiednich hipotez dotyczących ich wartości.
W modelowaniu regresyjnym podstawowymi hipotezami są hipotezy odnoszące się do poszczególnych parametrów modelu, które ogólnie możemy zapisać:
H0: αj = 0 oraz H1: αj � 0 dla j = 0, 1, …, k .
Statystyką testową dla omawianych hipotez jest statystyka t charakteryzująca
się rozkładem t-Studenta o n – k – 1 stopniach swobody, przy założeniu prawdziwości hipotezy H0. Większość pakietów statystycznych nie określa obszarów krytycznych sensu stricto, lecz wyznacza tzw. wartość prawdopodobieństwa testowego
p, na podstawie której w łatwy sposób możemy wnioskować o hipotezie zerowej
przy dowolnym poziomie istotności. Jeśli mianowicie wartość p jest mniejsza lub
równa od założonego poziomu istotności testu, to hipotezę zerową należy odrzucić, co sugeruje istotność badanego parametru. W przeciwnym wypadku dane
statystyczne nie dają podstaw do odrzucenia H0.
Innym testem wykorzystywanym w analizie regresyjnej jest test F dla weryfikacji hipotezy o braku liniowego związku między zmienną objaśnianą a którąkolwiek ze zmiennych objaśniających, co formalnie możemy zapisać następująco:
H0: α1 + α2 = … = αk = 0.
Hipoteza alternatywna mówi, że nie wszystkie αj dla ( j = 1, 2, …, k) są równe
zeru. Statystyką testową jest statystyka F, która przy założeniu prawdziwości hipotezy zerowej charakteryzuje się rozkładem F-Snedecora o k oraz n – k – 1 stopniach
swobody. Należy podkreślić, że odrzucenie hipotezy zerowej mówi nam, że co
najmniej jeden z parametrów αj jest różny od zera.
Kolejnymi testami dla modelu regresyjnego są testy weryfikujące założenia
tego modelu. W szczególności dotyczą one założeń poczynionych co do składnika
losowego, czyli braku autokorelacji składników losowych, stałości jego wariancji
i normalności rozkładu. Wszystkie te testy przeprowadza się poprzez analizę reszt,
czyli różnic między wartościami rzeczywistymi zmiennej objaśnianej a jej warto-
10
ściami uzyskanymi na podstawie modelu regresyjnego. Nie wchodząc głębiej w te
zagadnienia, można o prawdziwości lub fałszywości niektórych z tych założeń
przekonać się, analizując odpowiednie wykresy reszt.
Miarą dopasowania hiperpłaszczyzny regresji (w przypadku regresji wielorakiej) do danych empirycznych jest współczynnik determinacji oznaczany symbolem R2. Przyjmuje on wartości z przedziału [0, 1] i określa, jaka część obserwowanej w próbie zmienności zmiennej objaśnianej została wyjaśniona oszacowaną
funkcją regresji. Należy tutaj przestrzec przed bezkrytycznym dążeniem do zwiększania wartości współczynnika determinacji przez wprowadzanie wielu zmiennych
objaśniających, z których każda z osobna niewiele wnosi do wyjaśnienia zmiennej
objaśnianej. Aby się ustrzec przed tym niebezpieczeństwem, konstruuje się tzw.
skorygowany współczynnik determinacji (R 2). Skorygowanie następuje tutaj przez
wprowadzenie poprawki ze względu na liczby stopni swobody związane z sumami
kwadratów będących podstawą obliczenia R2. Pakiety statystyczne podają wartości
obydwu współczynników determinacji. Od strony praktycznej do modelu regresji
warto wprowadzać nową zmienną, jeśli to spowoduje wzrost R 2.
Pakiety statystyczne dostarczają jeszcze jednego rodzaju wyników związanych
z analizą regresji. Obok wartości ocen parametrów modelu regresji uzyskujemy
oceny parametrów dla zmiennych standaryzowanych. Oceny te wyznacza się ze
wzoru:
sx
alfa( j ) = α j
,
(7)
sy
gdzie symbolem s oznaczone zostały wartości odchyleń standardowych odpowiednich zmiennych. Współczynnik alfa interpretuje się jako przyrost zmiennej
objaśnianej wyrażony w liczbie odchyleń standardowych tej zmiennej, wywołany
przyrostem zmiennej objaśniającej o jedno (jej) odchylenie standardowe. W praktyce współczynniki alfa wykorzystuje się do porównania wielkości wpływu
zmiennych objaśniających o różnych mianach i mierzonych różnymi skalami na
zmienną objaśnianą. Im większa jest wartość współczynnika alfa co do modułu,
tym większy jest wpływ odpowiedniej zmiennej na kształtowanie się zmiennej
objaśnianej.
Do modelu regresji liniowej można włączyć różnego rodzaju zmienne objaśniające. Można więc wprowadzić zmienne ciągłe (np. wiek) oraz zmienne jakościowe
(np. płeć czy wykształcenie). Zmienne jakościowe z kolei możemy podzielić na
zmienne binarne (zero-jedynkowe) i kategorialne. Przykładem pierwszej z nich jest
właśnie płeć, natomiast drugiej wykształcenie. Każdą zmienną kategorialną można
(podobnie jak zmienną ciągłą) przekształcić na zestaw zmiennych zero-jedynkowych. Taka operacja zazwyczaj uszczegóławia analizę regresji. Przyjmijmy,
że rozpatrujemy zmienną kategorialną – wykształcenie – o pięciu kategoriach
j
11
określonych słownie jako poziomy wykształcenia, poczynając od wykształcenia
podstawowego i kończąc na wyższym. Do analizy regresyjnej można włączyć
taką zmienną, przypisując uporządkowanym kategoriom kolejne liczby całkowite,
poczynając od jedynki. Jednakże można uszczegółowić analizę wpływu poszczególnych poziomów wykształcenia uzyskanych przez badane osoby na zmienną
objaśnianą, tworząc na podstawie zmiennej kategorialnej pięć zmiennych zero‑jedynkowych identyfikujących osoby o odpowiednim poziomie wykształcenia.
Oczywiste jest, że do analizy nie można wprowadzić wszystkich zmiennych
zero-jedynkowych, ponieważ zajdzie zależność liniowa między zespołem tych
zmiennych a kolumną jedynek wprowadzoną do zbioru danych dla oszacowania
wyrazu wolnego w modelu regresyjnym. Należy więc pominąć jedną ze zmiennych zero-jedynkowych, co pozwala oszacować parametry modelu. Parametry te
dla pozostałych zmiennych binarnych mają wtedy swoiste znaczenie, ponieważ
mierzą wpływ tych wariantów na zmienną objaśnianą w odniesieniu do wariantu
pominiętego. Natomiast wyraz wolny jest powiększony o wartość mierzącą wpływ
pominiętego wariantu zmiennej kategorialnej.
W celu dalszego pogłębiania analizy można badać skutki (jeśli takie istnieją)
interakcji między zmienną jakościową i ilościową. Dokonuje się tego poprzez włączenie do modelu iloczynu zmiennych stanowiących daną interakcję. Statystyczna
istotność parametru odnoszącego się do iloczynu zmiennych potwierdza istnienie
interakcji.
Kończąc tę część opracowania, należy podkreślić, że zmienne objaśniające
powinny być wprowadzane do modelu w sposób oszczędny. Formalnym kryterium
wprowadzenia zmiennych mogą być przyrosty wspomnianego już skorygowanego
współczynnika determinacji R 2, natomiast decydująca powinna być ich wartość
merytoryczna.
3. Charakterystyka materiału statystycznego
Analiza kształtowania się wydatków została przeprowadzona na podstawie
materiału statystycznego pochodzącego z badań budżetów gospodarstw domowych. Wykorzystane zostały przede wszystkim informacje o indywidualnych
gospodarstwach domowych, a także dane liczbowe zagregowane z punktu widzenia wybranych cech społeczno-ekonomicznych gospodarstw domowych, publikowane przez Główny Urząd Statystyczny.
Pełny zbiór danych dotyczący 2003 r. obejmuje 32 488 obserwacji indywidualnych gospodarstw domowych, uczestniczących w ramach reprezentacyjnego
badania budżetów gospodarstw domowych, prowadzonego przez GUS. Przypomnijmy, że GUS przeprowadza to badanie metodą rotacji miesięcznej, tzn.
12
w każdym miesiącu badane jest ok. 2700 innych gospodarstw domowych, które
w sumie dają próbę roczną o liczebności ok. 32 000 obserwacji. W ramach badania
budżetów gospodarstw domowych stawia się respondentom pytania. Odpowiednio
zakodowane odpowiedzi stają się dla nas podstawą do uzyskania zmiennych objaśniających dla modelowania regresyjnego. Tak więc w analizie wykorzystywać
będziemy zbiory danych statystycznych, które zostały utworzone po odpowiedniej
obróbce na podstawie zbiorów zakupionych w GUS-ie.
W analizie kształtowania się wydatków gospodarstw domowych, opartej na
informacjach o indywidualnych gospodarstwach domowych, wykorzystywać
będziemy następujące zmienne objaśniające: dochód na osobę (dochód), wiek
głowy gospodarstwa domowego (wiek), subiektywna ocena sytuacji materialnej
gospodarstwa domowego (sosm), główne źródło utrzymania gospodarstwa domowego (zut), klasa miejscowości, w której gospodarstwo domowe istnieje (klm),
wykształcenie głowy gospodarstwa domowego (wyk), płeć głowy gospodarstwa
domowego (płeć), kwartał, w którym dane gospodarstwo zostało poddane badaniu
(kwartał), liczba osób w gospodarstwie domowym (liczos).
Do opisu kształtowania się wybranej grupy wydatków gospodarstw domowych,
opartego na zagregowanych danych liczbowych, potencjalny zbiór zmiennych objaśniających stanowią: dochód rozporządzalny (drozp), wydatki ogółem (wydog) lub
wydatki konsumpcyjne (wydkons) – określające sytuację materialną gospodarstw,
liczba osób w gospodarstwie (los) oraz zmienne zero-jedynkowe określające główne
źródło utrzymania (grupę społeczno-ekonomiczną). Gospodarstwa pogrupowane
są według 6 klas wielkości oraz według 7 źródeł utrzymania. Zatem wymienione
wyżej zmienne określają przeciętny miesięczny poziom wydatków (dochodów) na
osobę w gospodarstwach należących do i-tej klasy wielkości (i = 1, 2, …, 6) oraz
s-tej grupy społeczno-ekonomicznej. Drugi zbiór zmiennych zawiera dane przekrojowo-czasowe za lata 1993–2003. Gospodarstwa domowe zostały w każdym roku
pogrupowane według 6 klas wielkości. Dochody i wydatki przypadające na osobę
wyrażono w cenach stałych z 2000 r.
4. Poziom i zróżnicowanie wydatków ogółem
Na wstępie zwróćmy uwagę na przedstawione w tabeli 1 podstawowe charakterystyki rozkładu wydatków ogółem na osobę w gospodarstwie domowym.
Przeciętne miesięczne wydatki w gospodarstwach domowych na osobę
w 2003 r. wyniosły 643,85 zł, natomiast za typowy można uznać wydatek na
poziomie 345 zł. 25% gospodarstw wydawało w 2003 r. nie więcej niż ok. 338 zł.
Zmienność wydatków stanowiła ok. 86% wartości przeciętnej. Jak się można było
spodziewać, asymetria (skośność) rozkładu jest prawostronna.
13
Tabela 1. Podstawowe charakterystyki liczbowe rozkładu wydatków ogółem na osobę
w gospodarstwach domowych w 2003 r.
Wartość
(w zł)
Charakterystyka
Charakterystyka
Wartość
(w zł)
Charakterystyka
Wartość
Współczynnik
zmienności (w %)
85,26
Średnia
643,85
Kwartyl 1
338,69
Modalna
344,62
Kwartyl 3
776,93
Skośność
6,16
Mediana
504,97
548,92
Kurtoza
93,15
Odchylenie standardowe
Źródło: obliczenia własne.
Interesujące są przeciętne wartości wydatków ogółem w przekrojach różnych
cech gospodarstw domowych pogrupowanych według liczby osób. Interpretacja
wyników zamieszczonych w tabelach 2–6 została z konieczności ograniczona
objętością artykułu. W tabeli 2 przedstawiono zróżnicowanie przeciętnych wartości wydatków ze względu na subiektywnie ocenianą sytuację materialną gospodarstwa domowego.
Tabela 2. Średnie wydatki ogółem na osobę w przekroju oceny sytuacji materialnej
gospodarstwa domowego i liczby osób w gospodarstwie
Liczba
osób
Subiektywna ocena sytuacji materialnej gospodarstwa domowego
bardzo
dobra
raczej
dobra
przeciętna
1422,33
961,48
1
2403,00
1803,46
3
1796,49
1171,92
5
–
2
4
6 i więcej
Ogółem
2183,55
1059,65
–
1681,08
raczej
zła
zła
ogółem
805,94
1160,50
1229,01
924,05
750,99
543,40
687,62
495,54
370,28
298,58
1075,05
670,09
484,03
396,85
931,80
625,80
593,02
389,08
687,45
441,32
301,95
576,97
451,83
366,73
253,22
948,90
739,99
577,00
455,33
358,12
643,85
Wyraźny jest związek poziomu wydatków na osobę zarówno z liczbą osób
w gospodarstwie domowym, jak i z postrzeganiem sytuacji materialnej gospodarstwa. Gospodarstwa, w których postrzega się sytuację materialną jako złą,
ponoszą ponad 4-krotnie mniejsze wydatki – przeciętnie rzecz ujmując – od
gospodarstw o bardzo dobrej sytuacji materialnej. Wzrost liczby osób w gospodarstwie domowym powoduje spadek przeciętnych wydatków prawie w każdej grupie
sytuacji materialnej. W tym miejscu można byłoby rozważyć wprowadzenie tzw.
14
jednostki ekwiwalentnej. W naszym opracowaniu pominiemy jednak świadomie
problem skali ekwiwalentności, ponieważ zadanie to wykracza poza ramy pracy2.
Zauważmy bowiem, że celem pracy nie jest określenie poziomu wydatków, jaki
powinny uzyskiwać gospodarstwa domowe o zróżnicowanym składzie osobowym,
lecz opisanie poziomu ich rzeczywistych wydatków.
Tabela 3. Średnie wydatki ogółem na osobę w przekroju klas wieku głowy gospodarstwa
domowego i liczby osób w gospodarstwie
Liczba osób
Wiek głowy gospodarstwa domowego
do 25 lat
25–35 lat
35–45 lat
45–55 lat
55–65 lat
1
1464,84
1627,98
1316,84
1115,62
1126,42
3
556,38
764,78
749,08
777,07
730,68
441,04
445,54
490,03
466,07
617,75
554,13
660,73
759,01
2
4
1035,53
453,76
546,91
327,43
367,01
5
405,80
Ogółem
612,19
6 i więcej
1119,33
908,83
586,15
345,77
977,91
613,63
378,74
948,77
559,67
358,52
powyżej
65 lat
1043,30
871,05
643,84
517,00
419,00
344,36
756,33
Kolejnym kryterium grupowania jest wiek głowy gospodarstwa domowego.
Z ostatniego wiersza tabeli 3 wynika, że najwyższy poziom przeciętnych wydatków ogółem na osobę przypada w gospodarstwach, w których głowa gospodarstwa
charakteryzuje się wiekiem powyżej 55 lat, pomimo że w żadnej z klas liczby osób
gospodarstwa te nie mają najwyższych wartości średnich. Przyczyną jest fakt, że
liczba osób w większości takich gospodarstw jest mała.
W tabeli 4 zostały zaprezentowane średnie wartości wydatków ze względu
na główne źródło utrzymania gospodarstwa domowego w poszczególnych klasach wielkości tych gospodarstw. Jak można było się spodziewać, najwyższymi
przeciętnymi wydatkami ogółem na osobę charakteryzują się gospodarstwa,
których głównym źródłem utrzymania jest praca na własny rachunek, natomiast
najniższymi gospodarstwa rolnicze. Znamienny jest fakt wysokich przeciętnych
wydatków gospodarstw emeryckich odmiennych pod tym względem od gospodarstw rencistów, co potwierdza słuszność rozdzielenia przez GUS obu grup
gospodarstw3.
S.M. Kot [2000] dla podobnych danych jak w tabeli 2 podjął próbę wyznaczenia elastyczności skali ekwiwalentności za pomocą modelu regresyjnego.
2
Do 1996 r. w przeprowadzanych przez GUS badaniach budżetów gospodarstw domowych
emeryci i renciści należeli do jednej grupy społeczno-ekonomicznej.
3
15
Tabela 4. Średnie wydatki ogółem na osobę w przekroju głównego źródła utrzymania
Liczba
osób
Źródło utrzymania gospodarstwa domowego
pracow
nicze
1
1570,60
3
795,67
2
4
rolnicze
927,57
712,42
1145,95
601,65
5
462,95
Ogółem
673,15
6 i więcej
pracow
niczo‑rolnicze
806,66
907,28
695,88
598,09
472,27
412,07
484,60
461,11
527,92
377,41
366,59
485,11
własny
rachunek
emerytów
1629,90
1103,76
1402,31
1026,38
756,38
629,58
361,17
465,96
817,31
916,78
701,96
rencistów
źródła niezarobkowe
987,12
1012,99
714,93
528,15
618,84
472,44
577,50
432,88
346,66
368,22
273,69
228,07
438,55
776,86
351,79
565,92
276,49
436,54
Wyniki przestawione w tabeli 5 dowodzą, że wielkość ponoszonych wydatków
ogółem jest funkcją rosnącą wielkości miejscowości, z której pochodzi gospodarstwo domowe. Jedyne zachwianie tej relacji obserwujemy w przypadku gospodarstw o liczbie osób 3 i większej dla mniejszych miast.
Tabela 5. Średnie wydatki ogółem na osobę w przekroju klas miejscowości pochodzenia
Klasa miejscowości pochodzenia gospodarstwa domowego
Liczba
osób
wieś
1
869,04
2
3
781,57
618,52
miasto o liczbie mieszkańców
do 20 tys.
1047,92
891,79
677,94
20–100 tys. 100–200 tys. 200–500 tys.
1109,07
1251,32
742,47
730,08
922,27
4
488,07
549,24
585,27
6 i więcej
341,58
387,47
398,85
5
Ogółem
418,81
506,43
441,58
611,25
467,60
669,88
1308,11
powyżej
500 tys.
1505,71
984,40
1054,90
1236,94
583,72
636,54
798,08
344,29
353,82
470,18
700,89
786,15
1005,07
485,74
650,28
760,86
981,93
469,93
16
Tabela 6. Średnie wydatki ogółem na osobę w przekroju poziomu wykształcenia głowy
Liczba osób
Wykształcenie głowy gospodarstwa domowego
podstawowe
zasadnicze
1
863,92
953,00
3
521,16
2
4
680,17
794,64
424,21
471,98
5
346,33
Ogółem
498,22
6 i więcej
298,02
588,82
średnie
ogólne
średnie
zawodowe
1006,36
1015,56
1291,30
749,93
618,65
419,29
464,59
499,36
762,55
331,61
434,80
wyższe
1301,88
1988,43
777,10
1211,76
632,13
513,79
448,61
712,07
1557,67
920,32
700,63
655,65
1148,13
Zaprezentowane na koniec w tabeli 6 wyniki obliczeń przekonują o prawidłowości, że wraz ze wzrostem poziomu wykształcenia głowy gospodarstwa domowego wzrasta poziom wydatków w gospodarstwie.
5. Empiryczne wykorzystanie modelowania regresyjnego
w analizie wydatków gospodarstw domowych
W tej części opracowania zostaną przedstawione wyniki modelowania regresyjnego wydatków ogółem gospodarstw domowych oraz wydatków na turystykę
zorganizowaną, na podstawie informacji o indywidualnych gospodarstwach
domowych z 2003 r. Podjęta zostanie także próba zastosowania modelu regresji
w analizie wydatków na ochronę zdrowia przy wykorzystaniu danych liczbowych,
publikowanych przez GUS.
Potrzeba turystyki zorganizowanej nie należy do potrzeb podstawowych,
spróbujemy więc określić zmienne, które mają wpływ na poziom wydatków
przeznaczonych na ich zaspokojenie. Wydatki na ochronę zdrowia mają odmienny
charakter. Do głównych celów reformy służby zdrowia należy m.in. powszechność
i obowiązkowość ubezpieczenia zdrowotnego, z którego pokrywane są koszty
całościowej opieki medycznej4. Interesujący jest zatem problem kształtowania się
tej grupy wydatków ponoszonych przez gospodarstwa domowe i jej ewentualny
związek z dochodami.
Por. Ustawa z dnia 23 stycznia 2003 r. o powszechnym ubezpieczeniu w Narodowym Funduszu Zdrowia, Dz.U. nr 45, poz. 391.
4
17
W pierwszym podejściu spróbujemy zbudować model regresyjny wyjaśniający
kształtowanie się poziomu wydatków ogółem na osobę dla gospodarstw domowych. Zestaw zmiennych objaśniających podano w punkcie 2. Zastosowano model
liniowy (1), wykładniczy (2) i potęgowo-wykładniczy (3). Parametry tych modeli
zostały oszacowane za pomocą MNK z wykorzystaniem pakietu statystycznego
STATISTICA. Doboru zmiennych do modelu dokonano na drodze regresji krokowej. Wyniki obliczeń dla modelu liniowego prezentuje tabela 7.
Tabela 7. Oceny parametrów liniowego modelu regresyjnego wydatków ogółem na osobę
(model 1)
Parametr
Wyraz wolny
Dochód
Liczos
Wiek
Wykształcenie
zasadnicze
Wykształcenie
średnie ogólne
Wykształcenie
średnie zawodowe
Wykształcenie
wyższe
alfa
–
Niezarobkowe
źródło
Własny rachunek
Poziom p
0,00488
18,2494
125,7572
0,000000
–27,6174
2,7137
0,000000
0,004960
–58,8449
0,5441
0,20049
0,021497
0,005413
31,1864
7,85220
3,9717
0,000072
0,041139
0,004490
108,1773
11,80779
9,1615
0,000000
0,059286
0,005282
92,2915
8,22207
11,2249
0,000000
0,126769
0,005249
248,0451
10,27116
24,1497
0,000000
0,004761
32,2993
7,40646
0,585411
0,012543
0,041988
Zamężna/żonaty
t (32276)
–0,136969
Kwartał 4
Miasto powyżej
500 tys.
Błąd standardowy
316,2423
0,020764
Płeć
A
–
Kwartał 2
Kwartał 3
Błąd standardowy
0,004655
0,004622
0,6132
2,13072
4,3610
0,006657
0,000013
0,004760
0,016717
0,004516
23,0206
6,21877
7,39273
8,8024
0,027427
0,004072
53,0078
7,86918
6,7361
0,000000
–0,018832
0,004907
–27,2223
7,09286
–3,8380
0,000124
–0,010032
0,004031
–27,3643
10,99494
–2,4888
0,012822
0,021437
0,003973
59,6491
11,05648
5,3949
0,000000
65,0735
7,41627
0,000000
0,038508
0,004770
59,9919
17,32892
8,0892
0,000000
3,7018
0,000214
0,000000
R = 0,716; R2 = 0,512; R = 0,512; F = 2260,9 (p < 0,000); DW = 1,96; rs = 0,0198
2
Jak można zauważyć, wszystkie parametry są statystycznie istotne. Największy
wkład w przewidywanie wartości wydatków ogółem na osobę ma dochód na osobę
w gospodarstwie domowym, o czym mówią współczynniki alfa. Dodatnie znaki
18
przy ocenach parametrów sugerują, że wraz ze wzrostem wartości odpowiedniej
zmiennej objaśniającej o jedną jednostkę wzrasta wartość zmiennej objaśnianej
o wartość danego parametru. Zatem wzrost dochodu na osobę o jedną złotówkę
powoduje wzrost ogólnych wydatków na osobę przeciętnie o 61 groszy przy ustalonych wartościach pozostałych zmiennych5. Każda dodatkowa osoba w gospodarstwie zmniejsza wydatki na osobę o przeciętnie ok. 59 zł. Gospodarstwa, których
głowa posiada wyższe wykształcenie, wydają przeciętnie na osobę o ok. 248 zł
więcej niż gospodarstwa z osobami prowadzącymi o wykształceniu podstawowym.
Przeciętnie najwyższe wydatki w stosunku do kwartału 1 obserwujemy w kwartale 4. Ponadto zamieszkiwanie w dużych miastach oraz utrzymywanie się z pracy
na własny rachunek powoduje wzrost przeciętnych wydatków ogółem na osobę.
Współczynnik determinacji wynosi 0,512, co przy wysokiej zmienności
zmiennej objaśnianej jest dobrym rezultatem. Wartość statystyki F jest bardzo
wysoka, więc odrzucamy hipotezę o równości wszystkich parametrów wartości
zero na właściwie dowolnie małym poziomie istotności. Statystyka DurbinaWatsona (DW) i współczynnik korelacji seryjnej reszt (rs) pokazują, że przypuszczalnie nie ma tutaj autokorelacji składnika losowego. Należy jednak zauważyć,
że analiza reszt nie potwierdziła normalności ich rozkładu. Okoliczność ta może
powodować wątpliwości co do wnioskowania odnośnie do istotności parametrów
modelu regresyjnego. Problem braku normalności reszt można rozwiązać poprzez
odpowiednią transformację zmiennej objaśnianej, co prowadzi do nowej postaci
funkcyjnej modelu. Przyjmijmy więc, że będziemy teraz wyjaśniać logarytm naturalny wydatków ogółem na osobę, co daje w konsekwencji wykładniczy model
regresyjny. Wyniki ocen parametrów prezentuje tabela 8.
Zauważmy, że transformacja zmiennej objaśnianej spowodowała wprowadzenie
do modelu nowych zmiennych objaśniających, które wcześniej były odrzucone na
drodze regresji krokowej. Ponadto znalazło to swoje odbicie w zwiększonej wartości współczynnika determinacji. Parametry modelu interpretujemy jako przyrosty
procentowe (wartość oceny parametru mnożymy razy 100) wartości wydatków
na osobę przy wzroście danej zmiennej objaśnianej o jednostkę. Przy zmiennych
zero-jedynkowych przyrosty te należy przeliczyć w następujący sposób: przyrost
wydatków na osobę = (ea – 1) · 100%, gdzie a oznacza ocenę danego parametru.
Na przykład jeśli głowa gospodarstwa legitymuje się wykształceniem wyższym,
to przeciętnie gospodarstwo takie wydaje o ponad (e0,302 – 1) · 100% = 32,5% więcej niż gospodarstwo, w którym głowa ma wykształcenie podstawowe. Pozostałe
5
Warunek niezmienności wartości pozostałych zmiennych jest oczywiście ważny dla interpretacji oceny każdego kolejnego parametru. Aby się nie powtarzać, przyjmijmy, że jest on spełniony
również w następnych przypadkach, o czym już nie będziemy wspominać.
19
parametry interpretujemy analogicznie. Dodajmy, że reszty modelu mają rozkład
zbliżony do normalnego.
Tabela 8. Oceny parametrów wykładniczego modelu regresyjnego wydatków ogółem
na osobę (model 2)
Parametr
Wyraz wolny
Dochód
alfa
–
Błąd standardowy
–
A
5,995269
0,004476
–0,125240
0,041026
400,3745
0,000000
0,000167
0,001828
–68,5033
16,4729
0,000000
0,004777
0,056578
0,006588
8,5883
0,000000
0,087377
0,003975
0,218449
0,009937
21,9832
0,000000
0,137655
0,004752
0,203741
0,007033
28,9705
0,000000
0,162450
0,004743
0,302296
0,008825
34,2537
0,000000
0,029147
0,004144
0,043107
0,006129
7,0337
0,000000
0,064955
0,004152
0,095709
0,006118
15,6435
0,000000
0,017522
0,003885
0,033246
0,007372
4,5098
0,000007
0,025131
0,003822
0,003953
0,055806
0,077660
0,008487
6,5755
0,057533
0,004201
0,105740
0,007721
13,6944
0,000000
Źródło niezarobkowe
0,028626
0,003486
0,075787
0,009228
8,2128
0,000000
–0,069039
0,003565
–0,179049
0,009246
–19,3643
0,000000
Pracowniczo-rolnicze
–0,019107
0,003645
–0,036343
0,006932
–5,2425
0,000000
0,022618
0,003741
0,056765
0,009388
6,0467
0,000000
0,016896
0,004312
0,023221
0,005926
3,9182
0,000089
Wykształcenie
średnie ogólne
0,004055
0,014974
0,002755
Wykształcenie
zasadnicze
0,066796
Poziom p
0,000005
Wiek
0,004200
t (32259)
0,000545
Liczos
0,504625
Błąd standardowy
–0,306618
Wykształcenie
średnie zawodowe
Wykształcenie
wyższe
Kwartał 2
Kwartał 3
Kwartał 4
Płeć
Miasto do 20 tys.
0,048527
0,026303
Miasto 20–100 tys.
Miasto powyżej
500 tys.
Własny rachunek
Renciści
Zamężna/żonaty
0,031852
0,038803
0,004143
0,003939
0,004103
0,071876
0,034435
0,051401
R = 0,794; R 2 = 0,631; R = 0,631; F = 2624,9 (p < 0,000)
2
0,006137
0,005157
0,006621
0,007911
120,1519
11,7118
6,6777
0,000000
0,000000
0,000000
0,000000
7,7632
0,000000
9,8167
0,000000
0,000000
20
Jeśli przyjrzymy się dokładnie oszacowaniom parametrów w modelu 2, to
zauważamy pewną niezgodność. Oczekiwaliśmy mianowicie, że parametr stojący
przy zmiennej zero-jedynkowej identyfikującej gospodarstwa pracowniczo-rolnicze będzie ujemny, co oznaczałoby mniejszą kwotę wydatków ogółem na osobę
ponoszonych przez te gospodarstwa w stosunku do gospodarstw pracowniczych.
Taki wniosek można wysunąć analizując tabelę 4. Można przypuszczać, że takie
wyniki są następstwem skorelowania zmiennych objaśniających. Problem ten miała
rozwiązać metoda regresji krokowej. Zauważymy także, że relatywnie bliskie zeru
wartości alfa dla zmiennych określających źródło utrzymania gospodarstwa domowego (poza zmienną identyfikującą gospodarstwa utrzymujące się z niezarobkowych źródeł) potwierdzają niewielki ich wkład w wyjaśnieniu wydatków ogółem
na osobę. W tej sytuacji powyższe zmienne można usunąć z modelu bez obniżenia
stopnia, w jakim model wyjaśnia zmienność wydatków ogółem na osobę.
Tabela 9. Oceny parametrów potęgowo-wykładniczego modelu regresyjnego wydatków
ogółem na osobę (model 3)
Parametr
Wyraz wolny
Ln dochodu
alfa
–
–
2,383521
Błąd standardowy
t (32277)
Poziom p
61,2751
0,000000
0,038899
0,004654
–0,275316
0,615864
0,004098
150,2709
–51,1031
0,000000
0,144044
0,004318
0,268292
0,008043
33,3590
0,000000
0,096628
0,004323
0,143189
0,006406
22,3514
0,000000
Wykształcenie
średnie ogólne
0,058206
0,003682
0,145695
0,009217
15,8071
0,000000
Miasto pow. 500 tys.
0,036334
0,043191
0,004308
0,059430
0,005928
10,0247
12,6103
Wykształcenie
wyższe
Wykształcenie
średnie zawodowe
Zamężna/żonaty
0,004128
A
–0,237809
Ln liczos
0,620379
Błąd standardowy
0,003369
0,066846
0,006197
Kwartał 4
0,048937
0,003869
0,072197
0,058012
0,005725
Wykształcenie
zasadnicze
0,039119
0,034175
0,004351
0,047193
Kwartał 3
Kwartał 2
0,021549
0,003881
0,005387
0,003870
Płeć
0,020822
0,003669
Miasto
200–500 tys.
0,012765
Ln wieku
0,015652
0,031908
0,005737
10,7860
0,000000
0,000000
0,000000
10,1114
0,000000
0,006008
7,8547
0,000000
0,005730
5,5685
0,000000
0,007051
4,3113
0,000016
0,003630
0,027295
0,030399
0,004809
0,003247
0,025581
0,006507
5,6758
3,9311
R = 0,823; R 2 = 0,678; R 2 = 0,678; F = 4413,5 (p < 0,000); DW = 1,89; rs = 0,055
0,000000
0,000000
0,000085
21
W tabeli 9 przedstawiono rezultaty oszacowania parametrów dla modelu
potęgowo-wykładniczego. Tym razem poszczególne zmienne objaśniające zostały
przedstawione w kolejności będącej rezultatem zastosowania regresji krokowej.
Najwyższy wkład w wyjaśnianie wydatków na osobę ma logarytm naturalny
dochodu na osobę, a najmniejszy zmienna identyfikująca gospodarstwa położone
w miastach od 200–500 tys. mieszkańców. Parametry dla zmiennych zero-jedynkowych w tym modelu interpretujemy tak jak w modelu wykładniczym. W przypadku zmiennych ciągłych parametry są elastycznościami, co narzuca interpretację w konwencji przyrostów względnych. Zatem jeśli dochód na osobę wzrośnie
o 1%, to wydatki ogółem na osobę wzrosną średnio o 0,616% przy niezmienności
pozostałych zmiennych. Współczynnik determinacji równy 0,823 przyjmuje najwyższą wartość spośród dotychczas oszacowanych modeli.
W analizie regresyjnej wydatków na turystykę zorganizowaną na osobę postanowiono zbudować modele dla zmiennej objaśnianej, jaką jest frakcja gospodarstw
podejmujących wydatki na turystykę zorganizowaną.
W celu oszacowania parametrów modelu dla wspomnianej frakcji należy
dokonać agregacji danych. Przyjmując za podstawę agregacji źródło utrzymania
gospodarstwa domowego oraz liczbę osób w gospodarstwie domowym, otrzymano
42 grupy gospodarstw, dla których policzono frakcje podejmujących analizowany
rodzaj wydatków oraz średni dochód na osobę. Tak uzyskane obserwacje dały
możliwość oszacowania parametrów modelu, czego rezultaty prezentuje tabela 10.
Tabela 10. Oceny parametrów modelu liniowego dla frakcji gospodarstw domowych
z wydatkami na turystykę zorganizowaną (model 4)
Parametr
Wyraz wolny
Liczba osób
Dochód
alfa
–
0,946841
0,462366
Błąd standardowy
A
–
–0,057750
0,173203
0,000068
0,173203
0,027175
Błąd standardowy
t (39)
0,034580
–1,67007
0,000026
2,66950
0,004971
5,46665
Poziom p
0,102913
0,000003
0,011016
R = 0,682; R2 = 0,465; R = 0,438; F = 16,96 (p < 0,000)
2
Zasadniczą rolę w wyjaśnieniu zmienności frakcji gospodarstw pokrywających
wydatki na turystykę zorganizowaną odgrywa liczba osób w gospodarstwie (alfa =
= 0,947). Drugą istotną zmienną są dochody. Dodajmy, że składnik losowy w tym
modelu charakteryzuje się rozkładem normalnym.
Zmienna objaśniana w powyżej opisanym modelu jest tzw. zmienną ograniczoną (limited-dependent variable), ponieważ przyjmuje wartości z przedziału
[0, 1]. W takim przypadku zastosowanie modelu 4 może prowadzić do oszacowań
22
frakcji gospodarstw z wydatkami na turystykę zorganizowaną spoza wspomnianego przedziału. Aby zaradzić takim sytuacjom, należy przeprowadzić transformację zmiennej objaśnianej. Proponuje się wykorzystać transformację logistyczną
postaci:
 y 
(8)
y∗ = ln 
. 1
−
y


Po oszacowaniu modelu, wartości badanej frakcji uzyskuje się poprzez przekształcenie wzoru (8) za pomocą formuły:
y=
exp(α 0 + α1 x1 + ... + α k xk )
1 + exp(α 0 + α1 x1 + ... + α k xk )
.
(9)
Wadą takiego podejścia jest brak oczywistej interpretacji parametrów modelu.
Wyniki oszacowania modelu dla transformowanej frakcji prezentuje tabela 11.
Tabela 11. Oceny parametrów modelu z transformacją logistyczną zmiennej objaśnianej
dla frakcji gospodarstw domowych z wydatkami na turystykę zorganizowaną (model 5)
Parametr
Wyraz wolny
Liczba osób
Dochód
alfa
–
1,016634
0,516812
Błąd standardowy
A
–
–4,29801
0,170405
0,00076
0,170405
0,30186
Błąd standardowy
t (37)
Poziom p
0,348755
–12,3239
0,000000
0,000250
3,0329
0,004410
0,050597
5,9660
0,000001
R = 0,682; R = 0,519; R = 0,493; F = 20,00 (p < 0,000)
2
2
Źródło: opracowanie własne.
Do opisu kształtowania się wydatków na ochronę zdrowia w 2003 r. zastosowano liniowy, potęgowy oraz potęgowo-wykładniczy model regresyjny z zaproponowanymi w punkcie 2 zmiennymi objaśniającymi. Przypomnijmy, że w tej
grupie zmiennych znalazły się m.in.: dochód rozporządzalny, wydatki ogółem oraz
wydatki konsumpcyjne, jako zmienne określające sytuację materialną gospodarstw
domowych. Po zastosowaniu metody regresji krokowej pozostawały w modelach
zawsze wydatki konsumpcyjne.
W tabeli 12 przedstawiono rezultaty oszacowania parametrów modelu potęgowo-wykładniczego, w którym oprócz wspomnianych już wydatków konsumpcyjnych znalazły się zmienne zero-jedynkowe wskazujące, że poziom wydatków
na ochronę zdrowia jest w gospodarstwach rencistów o 68,8%, a w gospodarstwach
emerytów o 61,4% wyższy od wydatków w gospodarstwach pracowników, stanowiących postawę porównania (przy założeniu stałości pozostałych zmiennych).
23
Na poziom wydatków najsilniej wpływa zmienność wydatków konsumpcyjnych
(alfa = 0,847). Zwróćmy także uwagę na wysoką wartość współczynnika elastyczności (większą od 1) przy tej zmiennej. Pozostałe wyniki wskazują, że model
dobrze opisuje kształtowanie wydatków na ochronę zdrowia.
na ochronę zdrowia (model 6)
Parametr
Wyraz wolny
alfa
–
Błąd standardowy
–
Ln wydkons
0,847104
0,074720
Emeryci
0,294562
0,074751
Renciści
0,322105
0,075793
A
–4,32547
1,16231
0,52355
0,47878
Błąd standardowy
t (35)
Poziom p
0,660898
–6,54483
0,000000
0,123193
4,24981
0,102522
0,121500
11,33711
0,000000
3,94056
0,000371
0,000151
R = 0,901; R = 0,811; R = 0,795; F = 50,0012 (p < 0,000)
2
2
Analizę dynamiki wydatków na ochronę zdrowia przeprowadzono na podstawie
średnich wartości cech charakteryzujących gospodarstwa domowe według liczby
osób w gospodarstwie (1, 2, …, 6 i więcej) w latach 1993–2003. Wydatki oraz
dochody urealniono, wyrażając je w cenach stałych z 2000 r. Do modeli wprowadzono zmienne zero-jedynkowe charakteryzujące poszczególne lata. Wprowadzono
także zmienną T przyjmującą wartości: 1, 2, …, 11. W tabelach 13 i 14 przedstawiono wyniki oszacowania parametrów wybranych modeli wydatków.
Tabela 13. Oceny parametrów liniowego modelu regresyjnego wydatków na ochronę
zdrowia (model 7)
Parametr
Wyraz wolny
Wydkons
Liczba osób
Rok 95
Rok 94
Rok 99
alfa
–
1,756328
0,822495
0,072245
0,057285
–0,051589
Błąd standardowy
–
0,091443
0,090461
0,026218
0,025982
0,024908
A
–102,990
Błąd standardowy
t (37)
Poziom p
8,625242
–11,9405
0,000000
0,950140
9,0923
0,000000
0,171
0,008882
4,955
1,798069
–3,538
1,708256
8,639
3,929
1,781911
19,2067
2,7555
2,2048
–2,0712
0,000000
0,007748
0,031316
0,042653
R = 0,982; R2 = 0,965; R 2 = 0,962; F = 328,31 (p < 0,000)
Tabela 13 zawiera rezultaty uzyskane w wyniku zastosowania modelu liniowego. Zauważmy, jak silnie poziom wydatków na ochronę zdrowia kształtuje się
24
pod wpływem zróżnicowania wydatków konsumpcyjnych. Drugą ważną zmienną
jest liczba osób w gospodarstwie domowym, która jest ujemnie skorelowana
z wydatkami na ochronę zdrowia (r = –0,93). Zauważmy jednak, że ze względu na
jej skorelowanie z wydatkami konsumpcyjnymi (r = –0,95) wartość oceny parametru zmieniła znak i jest dodatnia. W modelu znalazły się zmienne zero-jedynkowe,
wyróżniające lata 1994, 1995 oraz 1999. Przypomnijmy, że 1 stycznia 1999 r. rozpoczęła się reforma służby zdrowia.
na ochronę zdrowia (model 8)
Parametr
Wyraz wolny
Ln wydkons
Czas
alfa
–
0,960415
0,112462
Błąd standardowy
A
–
–8,36364
0,029170
0,00391
0,029170
1,79799
Błąd standardowy
t (37)
Poziom p
0,344708
–24,2630
0,000000
0,0011015
3,8554
0,000274
0,054609
32,9246
0,000000
R = 0,973; R = 0,947; R = 0,945; F = 557,79 (p < 0,000)
2
2
Do modelu potęgowo-wykładniczego zostały wprowadzone dwie zmienne:
wydatki konsumpcyjne, których wzrost o 1% powoduje wzrost wydatków na
ochronę zdrowia średnio o 1,8%, oraz zmienna czas wskazująca, że przy stałych
wydatkach konsumpcyjnych realny poziom wydatków na ochronę zdrowia wzrasta z roku na rok średnio o 0,4%. Wszystkie statystyki wskazują, że model dobrze
opisuje badaną grupę wydatków.
6. Zakończenie
W artykule przedstawiono wybrane problemy zastosowania modeli regresyjnych w analizie wydatków gospodarstw domowych. Wskazują one na złożoność
poruszonej problematyki. Analiza wydatków oparta na indywidualnych danych
liczbowych stwarza ogromne możliwości poznawcze, chociaż trudno na ich
podstawie uzyskać w pełni zadowalające rezultaty. Współczesna technika obliczeniowa dostarcza wielu narzędzi umożliwiających dobieranie postaci modelu
zgodnie z postawionym celem oraz pozwala na weryfikację jego poprawności.
Literatura
Czerwiński Z. [1984], Matematyka na usługach ekonomii, PWN, Warszawa.
Jakubczyc J. [1982], Jednorównaniowe modele ekonometryczne, PWE, Warszawa.
25
Johnston J. [1984], Econometric Methods, McGraw-Hill, New York.
Kot S.M. [2000], Ekonometryczne modele dobrobytu, PWN, Warszawa–Kraków.
Kudrycka I. [1984], Problemy i metody modelowania ekonometrycznego, PWN, Warszawa.
Neter J., Wasserman W., Kutner M.H. [1989], Applied Linear Regression Models, Richard
D. Irwin, Homewood, Ill.
Pawłowski Z. [1971], Modele ekonometryczne równań opisowych, PWN, Warszawa.
Podolec B. [1995], Zachowania konsumpcyjne gospodarstw domowych. Analiza ekonometryczna, Wydawnictowo AE w Krakowie, Zeszyty Naukowe, Seria specjalna:
Monografie, nr 124, Kraków.
Podolec B. [2000], Analiza kształtowania się dochodów i wydatków ludności, PWN,
Warszawa–Kraków.
Seber G.A.F. [1977], Linear Regression Analisis, John Wiley & Sons, New York.
Weisberg S. [1985], Applied Linear Regression, John Wiley & Sons, New York.
Zeliaś A. [1970], Uwagi o problemie optymalnego wyboru wektora zmiennych objaśniających, „Przegląd Statystyczny”, nr 2.
Regression Models in Analysis of Household Expenditure
The aim of the article is to present possibilities of regression modelling of household
expenditure, with particular emphasis on interpretation of results obtained. The authors
show that the application of various functional forms of models enables those that best
describe expenditure (according to statistical criteria) to be selected and also enables
assessment of their parameters to be interpreted. They also identify the dangers faced
by researchers using regression modelling. Furthermore, the authors also indicate the
possibility of carrying out regression analysis for so-called limited variables, illustrated
by the example of a model for households incurring expenditure on organised tourism.
The authors use real data obtained from the Household Budget Survey carried out by the
Central Statistical Office (GUS) in 2003 as the basis for all the above-mentioned regression models.

Modele regresyjne w analizie wydatków gospodarstw domowych

Transkrypt

Podobne dokumenty

zmienną zależną

Rozwiazanie_zad6a_ przedl_umowyT=200 - e

Model statystyczny Format danych Przedziały ufności i testy

STATYSTYKA ćw 7

Ekonometria Mirosław Wójciak