Modele regresyjne w analizie wydatków gospodarstw domowych
Transkrypt
Modele regresyjne w analizie wydatków gospodarstw domowych
Zeszyty Naukowe nr 790 Uniwersytetu Ekonomicznego w Krakowie 2008 Barbara Podolec Katedra Statystyki Paweł Ulman Katedra Statystyki Modele regresyjne w analizie wydatków gospodarstw domowych 1. Wprowadzenie Procesowi transformacji gospodarczej w Polsce towarzyszy w dalszym ciągu pogłębianie się rozwarstwienia społeczeństwa pod względem sytuacji materialnej. Zmieniają się zachowania konsumpcyjne ludności, zmianom podlega poziom oraz struktura wydatków. Wśród wielu procedur badawczych pozwalających na przeprowadzenie analizy kształtowania się wydatków gospodarstw domowych wymienić należy modele regresyjne. Zakres i tematyka modelowania regresyjnego jest bardzo obszerna. Dotyczy zagadnień, które wynikają bezpośrednio z etapów budowy modelu ekonometrycznego. Możemy tutaj wymienić: – specyfikację modelu regresyjnego, czyli wybór zmiennych objaśniających i objaśnianych, które mają wystąpić w modelu regresyjnym, oraz wybór matematycznej postaci funkcji regresji, – estymację modelu, której procedury zależą od założeń przyjętych w pierwszym etapie budowy modelu, – weryfikację modelu mającą na celu, ogólnie rzecz ujmując, sprawdzenie, czy model dostatecznie dobrze opisuje rzeczywistość i czy spełnia wcześniej przyjęte założenia. Modelowaniu ekonometrycznemu – w tym także powyższym aspektom modelowania regresyjnego – poświęcono wiele miejsca w literaturze przedmiotu (por. np.: [Jakubczyc 1982], [Czerwiński 1984], [Kudrycka 1984], [Zeliaś 1970], 6 Barbara Podolec, Paweł Ulman [Pawłowski 1971], [Johnston 1984], [Neter, Wasserman, Kutner 1989], [Seber 1977], [Weisberg 1985]. Celem pracy jest przedstawienie możliwości wykorzystania modeli regresyjnych w analizie kształtowania się wydatków gospodarstw domowych1. 2. Wybrane zagadnienia modelowania regresyjnego w analizie wydatków Model regresyjny możemy najogólniej zapisać za pomocą formuły: Y = f (X, ε), gdzie: Y – wektor obserwacji dla zmiennej objaśnianej, X – macierz obserwacji dla zmiennych objaśniających, ε – wektor składników losowych, f – pewna nieznana nam funkcja. W zależności od postaci tej funkcji modele regresyjne można podzielić na liniowe i nieliniowe. Nieliniowość funkcji regresji może wynikać z nieliniowości względem zmiennych objaśniających lub nieliniowości względem parametrów. Dopóki model jest liniowy względem parametrów, nieliniowość względem zmiennych objaśniających nie generuje problemów natury estymacyjnej, ponieważ zostaje zachowany w takim wypadku liniowy charakter modelu. Model regresyjny nieliniowy względem parametrów może być w prosty sposób oszacowany, jeśli poprzez odpowiednią transformację da się go sprowadzić do postaci liniowej. W przeciwnym wypadku należy się posłużyć właściwą w tej sytuacji metodą estymacji nieliniowej. W analizie regresyjnej wydatków podstawowym modelem jest liniowy model regresyjny, którego postać można przedstawić następująco: (1) yi = α0 + α1xi1 + α2 xi2 + … + αkxik + εi (i = 1, …, n), gdzie: yi – kwota wydatków przypadających na osobę poniesionych przez i-te gospodarstwo domowe, xji – wartość j-tej zmiennej objaśniającej dla i-tego gospodarstwa domowego, αj – parametr stojący przy j-tej zmiennej objaśniającej, εi – wartość składnika losowego dla i-tego gospodarstwa domowego. 1 Artykuł powstał na podstawie części opracowania nt. „Metody statystyczne w analizie wydatków gospodarstw domowych”, przygotowanego w ramach badań statutowych w Akademii Ekonomicznej w Krakowie w 2004 r. (zespół: Barbara Podolec – kierownik tematu, Paweł Ulman, Agata Niemczyk, Agnieszka Walicka, Marcin Salamaga). Modele regresyjne w analizie wydatków… 7 W analizie kształtowania się wydatków wykorzystuje się także modele nieliniowe, które przez odpowiednie transformacje sprowadzamy do postaci liniowych (por. [Podolec 1995, 2000]). Pierwszą z takich funkcji jest funkcja potęgowa dana wzorem: k yi = α 0 ∏ xij ⋅ eε , αj i (2) która po sprowadzeniu do liniowości za pomocą obustronnego przekształcenia logarytmem naturalnym prezentuje się następująco: j =1 k ln yi = ln α 0 + ∑ α j ln xij + εi . (3) j =1 Drugą z funkcji nieliniowych wykorzystywanych do opisu kształtowania się wydatków jest funkcja wykładnicza: yi = exp (α0 + α1xi1 +α2 xi2 + … + αkxik + εi) . (4) Po obustronnym zlogarytmowaniu powyższej funkcji otrzymujemy: ln yi = α0 + α1xi1 + α2 xi2 + … + αkxik + εi . (5) Można także łączyć powyższe funkcje, otrzymując model potęgowo-wykładniczy. Zmienną objaśnianą w podanych modelach regresyjnych są oczywiście – ogólnie rzecz ujmując – wydatki na osobę w gospodarstwie domowym. Główną przesłanką decydującą o wyborze zmiennych objaśniających powinna być ich wartość merytoryczna odnosząca się do celu badania. Nie należy jednak zapominać o kryteriach formalnostatystycznych, które dotyczą zmiennych niezależnych, spośród których – w przypadku modeli jednorównaniowych – podstawowe znaczenie ma postulat niezależności zmiennych objaśniających. Wprowadzenie do modelu silnie skorelowanych zmiennych objaśniających może skutkować błędnymi ocenami parametrów stojących przy tych zmiennych (może wystąpić brak tzw. koincydencji równania objawiający się niezgodnością znaku parametru równania i współczynnika korelacji odpowiedniej zmiennej objaśniającej ze zmienną objaśnianą). Ponadto zmienne objaśniające pozostające w silnej zależności ze zmienną objaśnianą oraz jednocześnie ze sobą mogą zostać odrzucone jako nieistotne dla wyjaśnienia zmiennej objaśnianej. Spośród wielu metod doboru zmiennych objaśniających w modelu regresyjnym powszechnie stosowaną jest procedura tzw. regresji krokowej. Jej powszechność wynika przede wszystkim z jej dostępności w większości pakietów statystycznych. Należy jednak pamiętać, że chociaż skomputeryzowane procedury są pomocne 8 Barbara Podolec, Paweł Ulman w doborze zmiennych objaśniających do modelu, to nie zastąpią w pełni doświadczenia i intuicji badacza. Przypomnijmy, że u podstaw klasycznego modelu regresji liniowej leżą następujące założenia: – związek między zmienną objaśnianą Y a zmiennymi objaśniającymi Xj jest związkiem liniowym, co można zapisać: yi = α0 + α1xi1 + α2 xi2 + … + αkxik + εi , (6) – wartości zmiennych niezależnych są ustalone z góry (nie są losowe). Losowość zmiennej zależnej Y jest generowana wyłącznie przez składnik losowy, – średnia wartość składnika losowego wynosi zero: E(ε) = 0, – wariancja składnika losowego jest stała i skończona: D2(ε) = σ2, σ2 < +∞, – składniki losowe związane z kolejnymi obserwacjami nie są ze sobą skorelowane: cov (εiεs ) = 0 dla i � s, – między zmiennymi objaśniającymi nie mogą zachodzić dokładne zależności liniowe, liczba obserwacji zaś powinna być nie mniejsza niż liczba szacowanych parametrów: rz(X) = k + 1. Ponadto postuluje się jeszcze, aby składnik losowy charakteryzował się rozkładem normalnym, co pozwala weryfikować hipotezy dotyczące parametrów modelu regresyjnego. Podstawową metodą estymacji parametrów liniowego modelu regresji jest metoda najmniejszych kwadratów (MNK). Zaprezentowane powyżej założenia, będące podstawą klasycznego modelu regresji liniowej, w praktyce nie zawsze są spełnione. Powstaje więc pytanie o konsekwencje nieprawdziwości niektórych założeń. Jeśli chodzi o założenie postulujące, że składniki losowe modelu związane z kolejnymi obserwacjami nie są ze sobą skorelowane, to brak spełnienia tego założenia (występowanie tzw. autokorelacji składników losowych) przy spełnieniu wszystkich pozostałych nie wpływa na nieobciążoność i zgodność estymatorów parametrów równania linii regresji, ale zmienia ich efektywność, i to na ogół w ten sposób, że wariancje estymatorów wzrastają. W celu uzyskania odpowiedniej precyzji oszacowania należy więc zwiększyć liczebność próby lub zastosować inną metodę estymacji parametrów modelu. Nadmienić należy, że z autokorelacją składników losowych możemy spotkać się najczęściej w badaniach opartych na szeregach czasowych, natomiast znacznie rzadziej w badaniach opartych na danych przekrojowych. Przy szacowaniu parametrów klasycznego modelu regresji liniowej należy się liczyć z niespełnieniem założenia o stałości wariancji składnika losowego. Niestałość ta ma swe źródło w zależności wariancji od jednej ze zmiennych objaśniających modelu. Zmienność wariancji składnika losowego nie Modele regresyjne w analizie wydatków… 9 wpływa na nieobciążoność estymatorów i z reguły zwiększa wariancję estymatorów (por. [Pawłowski 1971]). Jeśli jesteśmy w stanie poznać zróżnicowanie wariancji, to nieobciążone i najbardziej efektywne estymatory uzyskujemy stosując uogólnioną metodę najmniejszych kwadratów A.C. Aitkena. Wspomniane powyżej założenie normalności składnika losowego generuje w klasycznym modelu regresji to, że warunkowe rozkłady zmiennej losowej Y są normalne. Ponieważ estymatory MNK parametrów modelu regresyjnego są liniowymi funkcjami wyników próby, to estymatory te również mają rozkłady normalne. Jest to ważna okoliczność, ponieważ pozwala na wnioskowanie o wartościach szacowanych parametrów, a przede wszystkim na weryfikację odpowiednich hipotez dotyczących ich wartości. W modelowaniu regresyjnym podstawowymi hipotezami są hipotezy odnoszące się do poszczególnych parametrów modelu, które ogólnie możemy zapisać: H0: αj = 0 oraz H1: αj � 0 dla j = 0, 1, …, k . Statystyką testową dla omawianych hipotez jest statystyka t charakteryzująca się rozkładem t-Studenta o n – k – 1 stopniach swobody, przy założeniu prawdziwości hipotezy H0. Większość pakietów statystycznych nie określa obszarów krytycznych sensu stricto, lecz wyznacza tzw. wartość prawdopodobieństwa testowego p, na podstawie której w łatwy sposób możemy wnioskować o hipotezie zerowej przy dowolnym poziomie istotności. Jeśli mianowicie wartość p jest mniejsza lub równa od założonego poziomu istotności testu, to hipotezę zerową należy odrzucić, co sugeruje istotność badanego parametru. W przeciwnym wypadku dane statystyczne nie dają podstaw do odrzucenia H0. Innym testem wykorzystywanym w analizie regresyjnej jest test F dla weryfikacji hipotezy o braku liniowego związku między zmienną objaśnianą a którąkolwiek ze zmiennych objaśniających, co formalnie możemy zapisać następująco: H0: α1 + α2 = … = αk = 0. Hipoteza alternatywna mówi, że nie wszystkie αj dla ( j = 1, 2, …, k) są równe zeru. Statystyką testową jest statystyka F, która przy założeniu prawdziwości hipotezy zerowej charakteryzuje się rozkładem F-Snedecora o k oraz n – k – 1 stopniach swobody. Należy podkreślić, że odrzucenie hipotezy zerowej mówi nam, że co najmniej jeden z parametrów αj jest różny od zera. Kolejnymi testami dla modelu regresyjnego są testy weryfikujące założenia tego modelu. W szczególności dotyczą one założeń poczynionych co do składnika losowego, czyli braku autokorelacji składników losowych, stałości jego wariancji i normalności rozkładu. Wszystkie te testy przeprowadza się poprzez analizę reszt, czyli różnic między wartościami rzeczywistymi zmiennej objaśnianej a jej warto- Barbara Podolec, Paweł Ulman 10 ściami uzyskanymi na podstawie modelu regresyjnego. Nie wchodząc głębiej w te zagadnienia, można o prawdziwości lub fałszywości niektórych z tych założeń przekonać się, analizując odpowiednie wykresy reszt. Miarą dopasowania hiperpłaszczyzny regresji (w przypadku regresji wielorakiej) do danych empirycznych jest współczynnik determinacji oznaczany symbolem R2. Przyjmuje on wartości z przedziału [0, 1] i określa, jaka część obserwowanej w próbie zmienności zmiennej objaśnianej została wyjaśniona oszacowaną funkcją regresji. Należy tutaj przestrzec przed bezkrytycznym dążeniem do zwiększania wartości współczynnika determinacji przez wprowadzanie wielu zmiennych objaśniających, z których każda z osobna niewiele wnosi do wyjaśnienia zmiennej objaśnianej. Aby się ustrzec przed tym niebezpieczeństwem, konstruuje się tzw. skorygowany współczynnik determinacji (R 2). Skorygowanie następuje tutaj przez wprowadzenie poprawki ze względu na liczby stopni swobody związane z sumami kwadratów będących podstawą obliczenia R2. Pakiety statystyczne podają wartości obydwu współczynników determinacji. Od strony praktycznej do modelu regresji warto wprowadzać nową zmienną, jeśli to spowoduje wzrost R 2. Pakiety statystyczne dostarczają jeszcze jednego rodzaju wyników związanych z analizą regresji. Obok wartości ocen parametrów modelu regresji uzyskujemy oceny parametrów dla zmiennych standaryzowanych. Oceny te wyznacza się ze wzoru: sx alfa( j ) = α j , (7) sy gdzie symbolem s oznaczone zostały wartości odchyleń standardowych odpowiednich zmiennych. Współczynnik alfa interpretuje się jako przyrost zmiennej objaśnianej wyrażony w liczbie odchyleń standardowych tej zmiennej, wywołany przyrostem zmiennej objaśniającej o jedno (jej) odchylenie standardowe. W praktyce współczynniki alfa wykorzystuje się do porównania wielkości wpływu zmiennych objaśniających o różnych mianach i mierzonych różnymi skalami na zmienną objaśnianą. Im większa jest wartość współczynnika alfa co do modułu, tym większy jest wpływ odpowiedniej zmiennej na kształtowanie się zmiennej objaśnianej. Do modelu regresji liniowej można włączyć różnego rodzaju zmienne objaśniające. Można więc wprowadzić zmienne ciągłe (np. wiek) oraz zmienne jakościowe (np. płeć czy wykształcenie). Zmienne jakościowe z kolei możemy podzielić na zmienne binarne (zero-jedynkowe) i kategorialne. Przykładem pierwszej z nich jest właśnie płeć, natomiast drugiej wykształcenie. Każdą zmienną kategorialną można (podobnie jak zmienną ciągłą) przekształcić na zestaw zmiennych zero-jedynkowych. Taka operacja zazwyczaj uszczegóławia analizę regresji. Przyjmijmy, że rozpatrujemy zmienną kategorialną – wykształcenie – o pięciu kategoriach j Modele regresyjne w analizie wydatków… 11 określonych słownie jako poziomy wykształcenia, poczynając od wykształcenia podstawowego i kończąc na wyższym. Do analizy regresyjnej można włączyć taką zmienną, przypisując uporządkowanym kategoriom kolejne liczby całkowite, poczynając od jedynki. Jednakże można uszczegółowić analizę wpływu poszczególnych poziomów wykształcenia uzyskanych przez badane osoby na zmienną objaśnianą, tworząc na podstawie zmiennej kategorialnej pięć zmiennych zero‑jedynkowych identyfikujących osoby o odpowiednim poziomie wykształcenia. Oczywiste jest, że do analizy nie można wprowadzić wszystkich zmiennych zero-jedynkowych, ponieważ zajdzie zależność liniowa między zespołem tych zmiennych a kolumną jedynek wprowadzoną do zbioru danych dla oszacowania wyrazu wolnego w modelu regresyjnym. Należy więc pominąć jedną ze zmiennych zero-jedynkowych, co pozwala oszacować parametry modelu. Parametry te dla pozostałych zmiennych binarnych mają wtedy swoiste znaczenie, ponieważ mierzą wpływ tych wariantów na zmienną objaśnianą w odniesieniu do wariantu pominiętego. Natomiast wyraz wolny jest powiększony o wartość mierzącą wpływ pominiętego wariantu zmiennej kategorialnej. W celu dalszego pogłębiania analizy można badać skutki (jeśli takie istnieją) interakcji między zmienną jakościową i ilościową. Dokonuje się tego poprzez włączenie do modelu iloczynu zmiennych stanowiących daną interakcję. Statystyczna istotność parametru odnoszącego się do iloczynu zmiennych potwierdza istnienie interakcji. Kończąc tę część opracowania, należy podkreślić, że zmienne objaśniające powinny być wprowadzane do modelu w sposób oszczędny. Formalnym kryterium wprowadzenia zmiennych mogą być przyrosty wspomnianego już skorygowanego współczynnika determinacji R 2, natomiast decydująca powinna być ich wartość merytoryczna. 3. Charakterystyka materiału statystycznego Analiza kształtowania się wydatków została przeprowadzona na podstawie materiału statystycznego pochodzącego z badań budżetów gospodarstw domowych. Wykorzystane zostały przede wszystkim informacje o indywidualnych gospodarstwach domowych, a także dane liczbowe zagregowane z punktu widzenia wybranych cech społeczno-ekonomicznych gospodarstw domowych, publikowane przez Główny Urząd Statystyczny. Pełny zbiór danych dotyczący 2003 r. obejmuje 32 488 obserwacji indywidualnych gospodarstw domowych, uczestniczących w ramach reprezentacyjnego badania budżetów gospodarstw domowych, prowadzonego przez GUS. Przypomnijmy, że GUS przeprowadza to badanie metodą rotacji miesięcznej, tzn. 12 Barbara Podolec, Paweł Ulman w każdym miesiącu badane jest ok. 2700 innych gospodarstw domowych, które w sumie dają próbę roczną o liczebności ok. 32 000 obserwacji. W ramach badania budżetów gospodarstw domowych stawia się respondentom pytania. Odpowiednio zakodowane odpowiedzi stają się dla nas podstawą do uzyskania zmiennych objaśniających dla modelowania regresyjnego. Tak więc w analizie wykorzystywać będziemy zbiory danych statystycznych, które zostały utworzone po odpowiedniej obróbce na podstawie zbiorów zakupionych w GUS-ie. W analizie kształtowania się wydatków gospodarstw domowych, opartej na informacjach o indywidualnych gospodarstwach domowych, wykorzystywać będziemy następujące zmienne objaśniające: dochód na osobę (dochód), wiek głowy gospodarstwa domowego (wiek), subiektywna ocena sytuacji materialnej gospodarstwa domowego (sosm), główne źródło utrzymania gospodarstwa domowego (zut), klasa miejscowości, w której gospodarstwo domowe istnieje (klm), wykształcenie głowy gospodarstwa domowego (wyk), płeć głowy gospodarstwa domowego (płeć), kwartał, w którym dane gospodarstwo zostało poddane badaniu (kwartał), liczba osób w gospodarstwie domowym (liczos). Do opisu kształtowania się wybranej grupy wydatków gospodarstw domowych, opartego na zagregowanych danych liczbowych, potencjalny zbiór zmiennych objaśniających stanowią: dochód rozporządzalny (drozp), wydatki ogółem (wydog) lub wydatki konsumpcyjne (wydkons) – określające sytuację materialną gospodarstw, liczba osób w gospodarstwie (los) oraz zmienne zero-jedynkowe określające główne źródło utrzymania (grupę społeczno-ekonomiczną). Gospodarstwa pogrupowane są według 6 klas wielkości oraz według 7 źródeł utrzymania. Zatem wymienione wyżej zmienne określają przeciętny miesięczny poziom wydatków (dochodów) na osobę w gospodarstwach należących do i-tej klasy wielkości (i = 1, 2, …, 6) oraz s-tej grupy społeczno-ekonomicznej. Drugi zbiór zmiennych zawiera dane przekrojowo-czasowe za lata 1993–2003. Gospodarstwa domowe zostały w każdym roku pogrupowane według 6 klas wielkości. Dochody i wydatki przypadające na osobę wyrażono w cenach stałych z 2000 r. 4. Poziom i zróżnicowanie wydatków ogółem Na wstępie zwróćmy uwagę na przedstawione w tabeli 1 podstawowe charakterystyki rozkładu wydatków ogółem na osobę w gospodarstwie domowym. Przeciętne miesięczne wydatki w gospodarstwach domowych na osobę w 2003 r. wyniosły 643,85 zł, natomiast za typowy można uznać wydatek na poziomie 345 zł. 25% gospodarstw wydawało w 2003 r. nie więcej niż ok. 338 zł. Zmienność wydatków stanowiła ok. 86% wartości przeciętnej. Jak się można było spodziewać, asymetria (skośność) rozkładu jest prawostronna. Modele regresyjne w analizie wydatków… 13 Tabela 1. Podstawowe charakterystyki liczbowe rozkładu wydatków ogółem na osobę w gospodarstwach domowych w 2003 r. Wartość (w zł) Charakterystyka Charakterystyka Wartość (w zł) Charakterystyka Wartość Współczynnik zmienności (w %) 85,26 Średnia 643,85 Kwartyl 1 338,69 Modalna 344,62 Kwartyl 3 776,93 Skośność 6,16 Mediana 504,97 548,92 Kurtoza 93,15 Odchylenie standardowe Źródło: obliczenia własne. Interesujące są przeciętne wartości wydatków ogółem w przekrojach różnych cech gospodarstw domowych pogrupowanych według liczby osób. Interpretacja wyników zamieszczonych w tabelach 2–6 została z konieczności ograniczona objętością artykułu. W tabeli 2 przedstawiono zróżnicowanie przeciętnych wartości wydatków ze względu na subiektywnie ocenianą sytuację materialną gospodarstwa domowego. Tabela 2. Średnie wydatki ogółem na osobę w przekroju oceny sytuacji materialnej gospodarstwa domowego i liczby osób w gospodarstwie Liczba osób Subiektywna ocena sytuacji materialnej gospodarstwa domowego bardzo dobra raczej dobra przeciętna 1422,33 961,48 1 2403,00 1803,46 3 1796,49 1171,92 5 – 2 4 6 i więcej Ogółem 2183,55 1059,65 – 1681,08 raczej zła zła ogółem 805,94 1160,50 1229,01 924,05 750,99 543,40 687,62 495,54 370,28 298,58 1075,05 670,09 484,03 396,85 931,80 625,80 593,02 389,08 687,45 441,32 301,95 576,97 451,83 366,73 253,22 948,90 739,99 577,00 455,33 358,12 643,85 Źródło: obliczenia własne. Wyraźny jest związek poziomu wydatków na osobę zarówno z liczbą osób w gospodarstwie domowym, jak i z postrzeganiem sytuacji materialnej gospodarstwa. Gospodarstwa, w których postrzega się sytuację materialną jako złą, ponoszą ponad 4-krotnie mniejsze wydatki – przeciętnie rzecz ujmując – od gospodarstw o bardzo dobrej sytuacji materialnej. Wzrost liczby osób w gospodarstwie domowym powoduje spadek przeciętnych wydatków prawie w każdej grupie sytuacji materialnej. W tym miejscu można byłoby rozważyć wprowadzenie tzw. Barbara Podolec, Paweł Ulman 14 jednostki ekwiwalentnej. W naszym opracowaniu pominiemy jednak świadomie problem skali ekwiwalentności, ponieważ zadanie to wykracza poza ramy pracy2. Zauważmy bowiem, że celem pracy nie jest określenie poziomu wydatków, jaki powinny uzyskiwać gospodarstwa domowe o zróżnicowanym składzie osobowym, lecz opisanie poziomu ich rzeczywistych wydatków. Tabela 3. Średnie wydatki ogółem na osobę w przekroju klas wieku głowy gospodarstwa domowego i liczby osób w gospodarstwie Liczba osób Wiek głowy gospodarstwa domowego do 25 lat 25–35 lat 35–45 lat 45–55 lat 55–65 lat 1 1464,84 1627,98 1316,84 1115,62 1126,42 3 556,38 764,78 749,08 777,07 730,68 441,04 445,54 490,03 466,07 617,75 554,13 660,73 759,01 2 4 1035,53 453,76 546,91 327,43 367,01 5 405,80 Ogółem 612,19 6 i więcej 1119,33 908,83 586,15 345,77 977,91 613,63 378,74 948,77 559,67 358,52 powyżej 65 lat 1043,30 871,05 643,84 517,00 419,00 344,36 756,33 Źródło: obliczenia własne. Kolejnym kryterium grupowania jest wiek głowy gospodarstwa domowego. Z ostatniego wiersza tabeli 3 wynika, że najwyższy poziom przeciętnych wydatków ogółem na osobę przypada w gospodarstwach, w których głowa gospodarstwa charakteryzuje się wiekiem powyżej 55 lat, pomimo że w żadnej z klas liczby osób gospodarstwa te nie mają najwyższych wartości średnich. Przyczyną jest fakt, że liczba osób w większości takich gospodarstw jest mała. W tabeli 4 zostały zaprezentowane średnie wartości wydatków ze względu na główne źródło utrzymania gospodarstwa domowego w poszczególnych klasach wielkości tych gospodarstw. Jak można było się spodziewać, najwyższymi przeciętnymi wydatkami ogółem na osobę charakteryzują się gospodarstwa, których głównym źródłem utrzymania jest praca na własny rachunek, natomiast najniższymi gospodarstwa rolnicze. Znamienny jest fakt wysokich przeciętnych wydatków gospodarstw emeryckich odmiennych pod tym względem od gospodarstw rencistów, co potwierdza słuszność rozdzielenia przez GUS obu grup gospodarstw3. S.M. Kot [2000] dla podobnych danych jak w tabeli 2 podjął próbę wyznaczenia elastyczności skali ekwiwalentności za pomocą modelu regresyjnego. 2 Do 1996 r. w przeprowadzanych przez GUS badaniach budżetów gospodarstw domowych emeryci i renciści należeli do jednej grupy społeczno-ekonomicznej. 3 Modele regresyjne w analizie wydatków… 15 Tabela 4. Średnie wydatki ogółem na osobę w przekroju głównego źródła utrzymania gospodarstwa domowego i liczby osób w gospodarstwie Liczba osób Źródło utrzymania gospodarstwa domowego pracow nicze 1 1570,60 3 795,67 2 4 rolnicze 927,57 712,42 1145,95 601,65 5 462,95 Ogółem 673,15 6 i więcej pracow niczo‑rolnicze 806,66 907,28 695,88 598,09 472,27 412,07 484,60 461,11 527,92 377,41 366,59 485,11 własny rachunek emerytów 1629,90 1103,76 1402,31 1026,38 756,38 629,58 361,17 465,96 817,31 916,78 701,96 rencistów źródła niezarobkowe 987,12 1012,99 714,93 528,15 618,84 472,44 577,50 432,88 346,66 368,22 273,69 228,07 438,55 776,86 351,79 565,92 276,49 436,54 Źródło: obliczenia własne. Wyniki przestawione w tabeli 5 dowodzą, że wielkość ponoszonych wydatków ogółem jest funkcją rosnącą wielkości miejscowości, z której pochodzi gospodarstwo domowe. Jedyne zachwianie tej relacji obserwujemy w przypadku gospodarstw o liczbie osób 3 i większej dla mniejszych miast. Tabela 5. Średnie wydatki ogółem na osobę w przekroju klas miejscowości pochodzenia gospodarstwa domowego i liczby osób w gospodarstwie Klasa miejscowości pochodzenia gospodarstwa domowego Liczba osób wieś 1 869,04 2 3 781,57 618,52 miasto o liczbie mieszkańców do 20 tys. 1047,92 891,79 677,94 20–100 tys. 100–200 tys. 200–500 tys. 1109,07 1251,32 742,47 730,08 922,27 4 488,07 549,24 585,27 6 i więcej 341,58 387,47 398,85 5 Ogółem 418,81 506,43 Źródło: obliczenia własne. 441,58 611,25 467,60 669,88 1308,11 powyżej 500 tys. 1505,71 984,40 1054,90 1236,94 583,72 636,54 798,08 344,29 353,82 470,18 700,89 786,15 1005,07 485,74 650,28 760,86 981,93 469,93 Barbara Podolec, Paweł Ulman 16 Tabela 6. Średnie wydatki ogółem na osobę w przekroju poziomu wykształcenia głowy gospodarstwa domowego i liczby osób w gospodarstwie Liczba osób Wykształcenie głowy gospodarstwa domowego podstawowe zasadnicze 1 863,92 953,00 3 521,16 2 4 680,17 794,64 424,21 471,98 5 346,33 Ogółem 498,22 6 i więcej 298,02 588,82 średnie ogólne średnie zawodowe 1006,36 1015,56 1291,30 749,93 618,65 419,29 464,59 499,36 762,55 331,61 434,80 wyższe 1301,88 1988,43 777,10 1211,76 632,13 513,79 448,61 712,07 1557,67 920,32 700,63 655,65 1148,13 Źródło: obliczenia własne. Zaprezentowane na koniec w tabeli 6 wyniki obliczeń przekonują o prawidłowości, że wraz ze wzrostem poziomu wykształcenia głowy gospodarstwa domowego wzrasta poziom wydatków w gospodarstwie. 5. Empiryczne wykorzystanie modelowania regresyjnego w analizie wydatków gospodarstw domowych W tej części opracowania zostaną przedstawione wyniki modelowania regresyjnego wydatków ogółem gospodarstw domowych oraz wydatków na turystykę zorganizowaną, na podstawie informacji o indywidualnych gospodarstwach domowych z 2003 r. Podjęta zostanie także próba zastosowania modelu regresji w analizie wydatków na ochronę zdrowia przy wykorzystaniu danych liczbowych, publikowanych przez GUS. Potrzeba turystyki zorganizowanej nie należy do potrzeb podstawowych, spróbujemy więc określić zmienne, które mają wpływ na poziom wydatków przeznaczonych na ich zaspokojenie. Wydatki na ochronę zdrowia mają odmienny charakter. Do głównych celów reformy służby zdrowia należy m.in. powszechność i obowiązkowość ubezpieczenia zdrowotnego, z którego pokrywane są koszty całościowej opieki medycznej4. Interesujący jest zatem problem kształtowania się tej grupy wydatków ponoszonych przez gospodarstwa domowe i jej ewentualny związek z dochodami. Por. Ustawa z dnia 23 stycznia 2003 r. o powszechnym ubezpieczeniu w Narodowym Funduszu Zdrowia, Dz.U. nr 45, poz. 391. 4 Modele regresyjne w analizie wydatków… 17 W pierwszym podejściu spróbujemy zbudować model regresyjny wyjaśniający kształtowanie się poziomu wydatków ogółem na osobę dla gospodarstw domowych. Zestaw zmiennych objaśniających podano w punkcie 2. Zastosowano model liniowy (1), wykładniczy (2) i potęgowo-wykładniczy (3). Parametry tych modeli zostały oszacowane za pomocą MNK z wykorzystaniem pakietu statystycznego STATISTICA. Doboru zmiennych do modelu dokonano na drodze regresji krokowej. Wyniki obliczeń dla modelu liniowego prezentuje tabela 7. Tabela 7. Oceny parametrów liniowego modelu regresyjnego wydatków ogółem na osobę (model 1) Parametr Wyraz wolny Dochód Liczos Wiek Wykształcenie zasadnicze Wykształcenie średnie ogólne Wykształcenie średnie zawodowe Wykształcenie wyższe alfa – Niezarobkowe źródło Własny rachunek Poziom p 0,00488 18,2494 125,7572 0,000000 –27,6174 2,7137 0,000000 0,004960 –58,8449 0,5441 0,20049 0,021497 0,005413 31,1864 7,85220 3,9717 0,000072 0,041139 0,004490 108,1773 11,80779 9,1615 0,000000 0,059286 0,005282 92,2915 8,22207 11,2249 0,000000 0,126769 0,005249 248,0451 10,27116 24,1497 0,000000 0,004761 32,2993 7,40646 0,585411 0,012543 0,041988 Zamężna/żonaty t (32276) –0,136969 Kwartał 4 Miasto powyżej 500 tys. Błąd standardowy 316,2423 0,020764 Płeć A – Kwartał 2 Kwartał 3 Błąd standardowy 0,004655 0,004622 0,6132 2,13072 4,3610 0,006657 0,000013 0,004760 0,016717 0,004516 23,0206 6,21877 7,39273 8,8024 0,027427 0,004072 53,0078 7,86918 6,7361 0,000000 –0,018832 0,004907 –27,2223 7,09286 –3,8380 0,000124 –0,010032 0,004031 –27,3643 10,99494 –2,4888 0,012822 0,021437 0,003973 59,6491 11,05648 5,3949 0,000000 65,0735 7,41627 0,000000 0,038508 0,004770 59,9919 17,32892 8,0892 0,000000 3,7018 0,000214 0,000000 R = 0,716; R2 = 0,512; R = 0,512; F = 2260,9 (p < 0,000); DW = 1,96; rs = 0,0198 2 Źródło: obliczenia własne. Jak można zauważyć, wszystkie parametry są statystycznie istotne. Największy wkład w przewidywanie wartości wydatków ogółem na osobę ma dochód na osobę w gospodarstwie domowym, o czym mówią współczynniki alfa. Dodatnie znaki 18 Barbara Podolec, Paweł Ulman przy ocenach parametrów sugerują, że wraz ze wzrostem wartości odpowiedniej zmiennej objaśniającej o jedną jednostkę wzrasta wartość zmiennej objaśnianej o wartość danego parametru. Zatem wzrost dochodu na osobę o jedną złotówkę powoduje wzrost ogólnych wydatków na osobę przeciętnie o 61 groszy przy ustalonych wartościach pozostałych zmiennych5. Każda dodatkowa osoba w gospodarstwie zmniejsza wydatki na osobę o przeciętnie ok. 59 zł. Gospodarstwa, których głowa posiada wyższe wykształcenie, wydają przeciętnie na osobę o ok. 248 zł więcej niż gospodarstwa z osobami prowadzącymi o wykształceniu podstawowym. Przeciętnie najwyższe wydatki w stosunku do kwartału 1 obserwujemy w kwartale 4. Ponadto zamieszkiwanie w dużych miastach oraz utrzymywanie się z pracy na własny rachunek powoduje wzrost przeciętnych wydatków ogółem na osobę. Współczynnik determinacji wynosi 0,512, co przy wysokiej zmienności zmiennej objaśnianej jest dobrym rezultatem. Wartość statystyki F jest bardzo wysoka, więc odrzucamy hipotezę o równości wszystkich parametrów wartości zero na właściwie dowolnie małym poziomie istotności. Statystyka DurbinaWatsona (DW) i współczynnik korelacji seryjnej reszt (rs) pokazują, że przypuszczalnie nie ma tutaj autokorelacji składnika losowego. Należy jednak zauważyć, że analiza reszt nie potwierdziła normalności ich rozkładu. Okoliczność ta może powodować wątpliwości co do wnioskowania odnośnie do istotności parametrów modelu regresyjnego. Problem braku normalności reszt można rozwiązać poprzez odpowiednią transformację zmiennej objaśnianej, co prowadzi do nowej postaci funkcyjnej modelu. Przyjmijmy więc, że będziemy teraz wyjaśniać logarytm naturalny wydatków ogółem na osobę, co daje w konsekwencji wykładniczy model regresyjny. Wyniki ocen parametrów prezentuje tabela 8. Zauważmy, że transformacja zmiennej objaśnianej spowodowała wprowadzenie do modelu nowych zmiennych objaśniających, które wcześniej były odrzucone na drodze regresji krokowej. Ponadto znalazło to swoje odbicie w zwiększonej wartości współczynnika determinacji. Parametry modelu interpretujemy jako przyrosty procentowe (wartość oceny parametru mnożymy razy 100) wartości wydatków na osobę przy wzroście danej zmiennej objaśnianej o jednostkę. Przy zmiennych zero-jedynkowych przyrosty te należy przeliczyć w następujący sposób: przyrost wydatków na osobę = (ea – 1) · 100%, gdzie a oznacza ocenę danego parametru. Na przykład jeśli głowa gospodarstwa legitymuje się wykształceniem wyższym, to przeciętnie gospodarstwo takie wydaje o ponad (e0,302 – 1) · 100% = 32,5% więcej niż gospodarstwo, w którym głowa ma wykształcenie podstawowe. Pozostałe 5 Warunek niezmienności wartości pozostałych zmiennych jest oczywiście ważny dla interpretacji oceny każdego kolejnego parametru. Aby się nie powtarzać, przyjmijmy, że jest on spełniony również w następnych przypadkach, o czym już nie będziemy wspominać. Modele regresyjne w analizie wydatków… 19 parametry interpretujemy analogicznie. Dodajmy, że reszty modelu mają rozkład zbliżony do normalnego. Tabela 8. Oceny parametrów wykładniczego modelu regresyjnego wydatków ogółem na osobę (model 2) Parametr Wyraz wolny Dochód alfa – Błąd standardowy – A 5,995269 0,004476 –0,125240 0,041026 400,3745 0,000000 0,000167 0,001828 –68,5033 16,4729 0,000000 0,004777 0,056578 0,006588 8,5883 0,000000 0,087377 0,003975 0,218449 0,009937 21,9832 0,000000 0,137655 0,004752 0,203741 0,007033 28,9705 0,000000 0,162450 0,004743 0,302296 0,008825 34,2537 0,000000 0,029147 0,004144 0,043107 0,006129 7,0337 0,000000 0,064955 0,004152 0,095709 0,006118 15,6435 0,000000 0,017522 0,003885 0,033246 0,007372 4,5098 0,000007 0,025131 0,003822 0,003953 0,055806 0,077660 0,008487 6,5755 0,057533 0,004201 0,105740 0,007721 13,6944 0,000000 Źródło niezarobkowe 0,028626 0,003486 0,075787 0,009228 8,2128 0,000000 –0,069039 0,003565 –0,179049 0,009246 –19,3643 0,000000 Pracowniczo-rolnicze –0,019107 0,003645 –0,036343 0,006932 –5,2425 0,000000 0,022618 0,003741 0,056765 0,009388 6,0467 0,000000 0,016896 0,004312 0,023221 0,005926 3,9182 0,000089 Wykształcenie średnie ogólne 0,004055 0,014974 0,002755 Wykształcenie zasadnicze 0,066796 Poziom p 0,000005 Wiek 0,004200 t (32259) 0,000545 Liczos 0,504625 Błąd standardowy –0,306618 Wykształcenie średnie zawodowe Wykształcenie wyższe Kwartał 2 Kwartał 3 Kwartał 4 Płeć Miasto do 20 tys. 0,048527 0,026303 Miasto 20–100 tys. Miasto 100–200 tys. Miasto 200–500 tys. Miasto powyżej 500 tys. Własny rachunek Renciści Zamężna/żonaty 0,031852 0,038803 0,004143 0,003939 0,004103 0,071876 0,034435 0,051401 R = 0,794; R 2 = 0,631; R = 0,631; F = 2624,9 (p < 0,000) 2 Źródło: obliczenia własne. 0,006137 0,005157 0,006621 0,007911 120,1519 11,7118 6,6777 0,000000 0,000000 0,000000 0,000000 7,7632 0,000000 9,8167 0,000000 0,000000 Barbara Podolec, Paweł Ulman 20 Jeśli przyjrzymy się dokładnie oszacowaniom parametrów w modelu 2, to zauważamy pewną niezgodność. Oczekiwaliśmy mianowicie, że parametr stojący przy zmiennej zero-jedynkowej identyfikującej gospodarstwa pracowniczo-rolnicze będzie ujemny, co oznaczałoby mniejszą kwotę wydatków ogółem na osobę ponoszonych przez te gospodarstwa w stosunku do gospodarstw pracowniczych. Taki wniosek można wysunąć analizując tabelę 4. Można przypuszczać, że takie wyniki są następstwem skorelowania zmiennych objaśniających. Problem ten miała rozwiązać metoda regresji krokowej. Zauważymy także, że relatywnie bliskie zeru wartości alfa dla zmiennych określających źródło utrzymania gospodarstwa domowego (poza zmienną identyfikującą gospodarstwa utrzymujące się z niezarobkowych źródeł) potwierdzają niewielki ich wkład w wyjaśnieniu wydatków ogółem na osobę. W tej sytuacji powyższe zmienne można usunąć z modelu bez obniżenia stopnia, w jakim model wyjaśnia zmienność wydatków ogółem na osobę. Tabela 9. Oceny parametrów potęgowo-wykładniczego modelu regresyjnego wydatków ogółem na osobę (model 3) Parametr Wyraz wolny Ln dochodu alfa – – 2,383521 Błąd standardowy t (32277) Poziom p 61,2751 0,000000 0,038899 0,004654 –0,275316 0,615864 0,004098 150,2709 –51,1031 0,000000 0,144044 0,004318 0,268292 0,008043 33,3590 0,000000 0,096628 0,004323 0,143189 0,006406 22,3514 0,000000 Wykształcenie średnie ogólne 0,058206 0,003682 0,145695 0,009217 15,8071 0,000000 Miasto pow. 500 tys. 0,036334 0,043191 0,004308 0,059430 0,005928 10,0247 12,6103 Wykształcenie wyższe Wykształcenie średnie zawodowe Zamężna/żonaty 0,004128 A –0,237809 Ln liczos 0,620379 Błąd standardowy 0,003369 0,066846 0,006197 Kwartał 4 0,048937 0,003869 0,072197 0,058012 0,005725 Wykształcenie zasadnicze 0,039119 0,034175 0,004351 0,047193 Kwartał 3 Kwartał 2 0,021549 0,003881 0,005387 0,003870 Płeć 0,020822 0,003669 Miasto 200–500 tys. 0,012765 Ln wieku 0,015652 0,031908 0,005737 10,7860 0,000000 0,000000 0,000000 10,1114 0,000000 0,006008 7,8547 0,000000 0,005730 5,5685 0,000000 0,007051 4,3113 0,000016 0,003630 0,027295 0,030399 0,004809 0,003247 0,025581 0,006507 5,6758 3,9311 R = 0,823; R 2 = 0,678; R 2 = 0,678; F = 4413,5 (p < 0,000); DW = 1,89; rs = 0,055 Źródło: obliczenia własne. 0,000000 0,000000 0,000085 Modele regresyjne w analizie wydatków… 21 W tabeli 9 przedstawiono rezultaty oszacowania parametrów dla modelu potęgowo-wykładniczego. Tym razem poszczególne zmienne objaśniające zostały przedstawione w kolejności będącej rezultatem zastosowania regresji krokowej. Najwyższy wkład w wyjaśnianie wydatków na osobę ma logarytm naturalny dochodu na osobę, a najmniejszy zmienna identyfikująca gospodarstwa położone w miastach od 200–500 tys. mieszkańców. Parametry dla zmiennych zero-jedynkowych w tym modelu interpretujemy tak jak w modelu wykładniczym. W przypadku zmiennych ciągłych parametry są elastycznościami, co narzuca interpretację w konwencji przyrostów względnych. Zatem jeśli dochód na osobę wzrośnie o 1%, to wydatki ogółem na osobę wzrosną średnio o 0,616% przy niezmienności pozostałych zmiennych. Współczynnik determinacji równy 0,823 przyjmuje najwyższą wartość spośród dotychczas oszacowanych modeli. W analizie regresyjnej wydatków na turystykę zorganizowaną na osobę postanowiono zbudować modele dla zmiennej objaśnianej, jaką jest frakcja gospodarstw podejmujących wydatki na turystykę zorganizowaną. W celu oszacowania parametrów modelu dla wspomnianej frakcji należy dokonać agregacji danych. Przyjmując za podstawę agregacji źródło utrzymania gospodarstwa domowego oraz liczbę osób w gospodarstwie domowym, otrzymano 42 grupy gospodarstw, dla których policzono frakcje podejmujących analizowany rodzaj wydatków oraz średni dochód na osobę. Tak uzyskane obserwacje dały możliwość oszacowania parametrów modelu, czego rezultaty prezentuje tabela 10. Tabela 10. Oceny parametrów modelu liniowego dla frakcji gospodarstw domowych z wydatkami na turystykę zorganizowaną (model 4) Parametr Wyraz wolny Liczba osób Dochód alfa – 0,946841 0,462366 Błąd standardowy A – –0,057750 0,173203 0,000068 0,173203 0,027175 Błąd standardowy t (39) 0,034580 –1,67007 0,000026 2,66950 0,004971 5,46665 Poziom p 0,102913 0,000003 0,011016 R = 0,682; R2 = 0,465; R = 0,438; F = 16,96 (p < 0,000) 2 Źródło: obliczenia własne. Zasadniczą rolę w wyjaśnieniu zmienności frakcji gospodarstw pokrywających wydatki na turystykę zorganizowaną odgrywa liczba osób w gospodarstwie (alfa = = 0,947). Drugą istotną zmienną są dochody. Dodajmy, że składnik losowy w tym modelu charakteryzuje się rozkładem normalnym. Zmienna objaśniana w powyżej opisanym modelu jest tzw. zmienną ograniczoną (limited-dependent variable), ponieważ przyjmuje wartości z przedziału [0, 1]. W takim przypadku zastosowanie modelu 4 może prowadzić do oszacowań Barbara Podolec, Paweł Ulman 22 frakcji gospodarstw z wydatkami na turystykę zorganizowaną spoza wspomnianego przedziału. Aby zaradzić takim sytuacjom, należy przeprowadzić transformację zmiennej objaśnianej. Proponuje się wykorzystać transformację logistyczną postaci: y (8) y∗ = ln . 1 − y Po oszacowaniu modelu, wartości badanej frakcji uzyskuje się poprzez przekształcenie wzoru (8) za pomocą formuły: y= exp(α 0 + α1 x1 + ... + α k xk ) 1 + exp(α 0 + α1 x1 + ... + α k xk ) . (9) Wadą takiego podejścia jest brak oczywistej interpretacji parametrów modelu. Wyniki oszacowania modelu dla transformowanej frakcji prezentuje tabela 11. Tabela 11. Oceny parametrów modelu z transformacją logistyczną zmiennej objaśnianej dla frakcji gospodarstw domowych z wydatkami na turystykę zorganizowaną (model 5) Parametr Wyraz wolny Liczba osób Dochód alfa – 1,016634 0,516812 Błąd standardowy A – –4,29801 0,170405 0,00076 0,170405 0,30186 Błąd standardowy t (37) Poziom p 0,348755 –12,3239 0,000000 0,000250 3,0329 0,004410 0,050597 5,9660 0,000001 R = 0,682; R = 0,519; R = 0,493; F = 20,00 (p < 0,000) 2 2 Źródło: opracowanie własne. Do opisu kształtowania się wydatków na ochronę zdrowia w 2003 r. zastosowano liniowy, potęgowy oraz potęgowo-wykładniczy model regresyjny z zaproponowanymi w punkcie 2 zmiennymi objaśniającymi. Przypomnijmy, że w tej grupie zmiennych znalazły się m.in.: dochód rozporządzalny, wydatki ogółem oraz wydatki konsumpcyjne, jako zmienne określające sytuację materialną gospodarstw domowych. Po zastosowaniu metody regresji krokowej pozostawały w modelach zawsze wydatki konsumpcyjne. W tabeli 12 przedstawiono rezultaty oszacowania parametrów modelu potęgowo-wykładniczego, w którym oprócz wspomnianych już wydatków konsumpcyjnych znalazły się zmienne zero-jedynkowe wskazujące, że poziom wydatków na ochronę zdrowia jest w gospodarstwach rencistów o 68,8%, a w gospodarstwach emerytów o 61,4% wyższy od wydatków w gospodarstwach pracowników, stanowiących postawę porównania (przy założeniu stałości pozostałych zmiennych). Modele regresyjne w analizie wydatków… 23 Na poziom wydatków najsilniej wpływa zmienność wydatków konsumpcyjnych (alfa = 0,847). Zwróćmy także uwagę na wysoką wartość współczynnika elastyczności (większą od 1) przy tej zmiennej. Pozostałe wyniki wskazują, że model dobrze opisuje kształtowanie wydatków na ochronę zdrowia. Tabela 12. Oceny parametrów potęgowo-wykładniczego modelu regresyjnego wydatków na ochronę zdrowia (model 6) Parametr Wyraz wolny alfa – Błąd standardowy – Ln wydkons 0,847104 0,074720 Emeryci 0,294562 0,074751 Renciści 0,322105 0,075793 A –4,32547 1,16231 0,52355 0,47878 Błąd standardowy t (35) Poziom p 0,660898 –6,54483 0,000000 0,123193 4,24981 0,102522 0,121500 11,33711 0,000000 3,94056 0,000371 0,000151 R = 0,901; R = 0,811; R = 0,795; F = 50,0012 (p < 0,000) 2 2 Źródło: opracowanie własne. Analizę dynamiki wydatków na ochronę zdrowia przeprowadzono na podstawie średnich wartości cech charakteryzujących gospodarstwa domowe według liczby osób w gospodarstwie (1, 2, …, 6 i więcej) w latach 1993–2003. Wydatki oraz dochody urealniono, wyrażając je w cenach stałych z 2000 r. Do modeli wprowadzono zmienne zero-jedynkowe charakteryzujące poszczególne lata. Wprowadzono także zmienną T przyjmującą wartości: 1, 2, …, 11. W tabelach 13 i 14 przedstawiono wyniki oszacowania parametrów wybranych modeli wydatków. Tabela 13. Oceny parametrów liniowego modelu regresyjnego wydatków na ochronę zdrowia (model 7) Parametr Wyraz wolny Wydkons Liczba osób Rok 95 Rok 94 Rok 99 alfa – 1,756328 0,822495 0,072245 0,057285 –0,051589 Błąd standardowy – 0,091443 0,090461 0,026218 0,025982 0,024908 A –102,990 Błąd standardowy t (37) Poziom p 8,625242 –11,9405 0,000000 0,950140 9,0923 0,000000 0,171 0,008882 4,955 1,798069 –3,538 1,708256 8,639 3,929 1,781911 19,2067 2,7555 2,2048 –2,0712 0,000000 0,007748 0,031316 0,042653 R = 0,982; R2 = 0,965; R 2 = 0,962; F = 328,31 (p < 0,000) Źródło: opracowanie własne. Tabela 13 zawiera rezultaty uzyskane w wyniku zastosowania modelu liniowego. Zauważmy, jak silnie poziom wydatków na ochronę zdrowia kształtuje się Barbara Podolec, Paweł Ulman 24 pod wpływem zróżnicowania wydatków konsumpcyjnych. Drugą ważną zmienną jest liczba osób w gospodarstwie domowym, która jest ujemnie skorelowana z wydatkami na ochronę zdrowia (r = –0,93). Zauważmy jednak, że ze względu na jej skorelowanie z wydatkami konsumpcyjnymi (r = –0,95) wartość oceny parametru zmieniła znak i jest dodatnia. W modelu znalazły się zmienne zero-jedynkowe, wyróżniające lata 1994, 1995 oraz 1999. Przypomnijmy, że 1 stycznia 1999 r. rozpoczęła się reforma służby zdrowia. Tabela 14. Oceny parametrów potęgowo-wykładniczego modelu regresyjnego wydatków na ochronę zdrowia (model 8) Parametr Wyraz wolny Ln wydkons Czas alfa – 0,960415 0,112462 Błąd standardowy A – –8,36364 0,029170 0,00391 0,029170 1,79799 Błąd standardowy t (37) Poziom p 0,344708 –24,2630 0,000000 0,0011015 3,8554 0,000274 0,054609 32,9246 0,000000 R = 0,973; R = 0,947; R = 0,945; F = 557,79 (p < 0,000) 2 2 Źródło: opracowanie własne. Do modelu potęgowo-wykładniczego zostały wprowadzone dwie zmienne: wydatki konsumpcyjne, których wzrost o 1% powoduje wzrost wydatków na ochronę zdrowia średnio o 1,8%, oraz zmienna czas wskazująca, że przy stałych wydatkach konsumpcyjnych realny poziom wydatków na ochronę zdrowia wzrasta z roku na rok średnio o 0,4%. Wszystkie statystyki wskazują, że model dobrze opisuje badaną grupę wydatków. 6. Zakończenie W artykule przedstawiono wybrane problemy zastosowania modeli regresyjnych w analizie wydatków gospodarstw domowych. Wskazują one na złożoność poruszonej problematyki. Analiza wydatków oparta na indywidualnych danych liczbowych stwarza ogromne możliwości poznawcze, chociaż trudno na ich podstawie uzyskać w pełni zadowalające rezultaty. Współczesna technika obliczeniowa dostarcza wielu narzędzi umożliwiających dobieranie postaci modelu zgodnie z postawionym celem oraz pozwala na weryfikację jego poprawności. Literatura Czerwiński Z. [1984], Matematyka na usługach ekonomii, PWN, Warszawa. Jakubczyc J. [1982], Jednorównaniowe modele ekonometryczne, PWE, Warszawa. Modele regresyjne w analizie wydatków… 25 Johnston J. [1984], Econometric Methods, McGraw-Hill, New York. Kot S.M. [2000], Ekonometryczne modele dobrobytu, PWN, Warszawa–Kraków. Kudrycka I. [1984], Problemy i metody modelowania ekonometrycznego, PWN, Warszawa. Neter J., Wasserman W., Kutner M.H. [1989], Applied Linear Regression Models, Richard D. Irwin, Homewood, Ill. Pawłowski Z. [1971], Modele ekonometryczne równań opisowych, PWN, Warszawa. Podolec B. [1995], Zachowania konsumpcyjne gospodarstw domowych. Analiza ekonometryczna, Wydawnictowo AE w Krakowie, Zeszyty Naukowe, Seria specjalna: Monografie, nr 124, Kraków. Podolec B. [2000], Analiza kształtowania się dochodów i wydatków ludności, PWN, Warszawa–Kraków. Seber G.A.F. [1977], Linear Regression Analisis, John Wiley & Sons, New York. Weisberg S. [1985], Applied Linear Regression, John Wiley & Sons, New York. Zeliaś A. [1970], Uwagi o problemie optymalnego wyboru wektora zmiennych objaśniających, „Przegląd Statystyczny”, nr 2. Regression Models in Analysis of Household Expenditure The aim of the article is to present possibilities of regression modelling of household expenditure, with particular emphasis on interpretation of results obtained. The authors show that the application of various functional forms of models enables those that best describe expenditure (according to statistical criteria) to be selected and also enables assessment of their parameters to be interpreted. They also identify the dangers faced by researchers using regression modelling. Furthermore, the authors also indicate the possibility of carrying out regression analysis for so-called limited variables, illustrated by the example of a model for households incurring expenditure on organised tourism. The authors use real data obtained from the Household Budget Survey carried out by the Central Statistical Office (GUS) in 2003 as the basis for all the above-mentioned regression models.