Zadanie 1. Odpowiedzi Rozpatrujemy zbiór danych - E-SGH

Transkrypt

Zadanie 1. Odpowiedzi Rozpatrujemy zbiór danych - E-SGH
Zadanie 1. Odpowiedzi
Rozpatrujemy zbiór danych cocacola_czy_pepsi.gdt zawierający wyniki badania
skanerowego Uniwersytetu w Chicago na 1140 obserwacjach-klientach sklepu (z bazy
danych ERIM). Polecenia:
a) Oszacuj model w GRETL wyjaśniający wariancję zmiennej coke, a jako regresorów
użyj pozostałych zmiennych w zbiorze.
Jako że objaśniamy w modelu zmienną zero-jedynkową, stosujemy regresję
logistyczną.
Liniowy
model
prawdopodobieństwa
(LMP)
cechuje
heteroskedastyczność składnika losowego (test White’a: χ = 115,7 oraz p-value <
2
0,000001). Wartość minimalna wartości teoretycznych (oszacowanych wg modelu
KMNK) zmiennej zależnej, tj. prawdopodobieństwa, jest równa −9,3%, co pozostaje
wbrew definicji prawdopodobieństwa. Oba aspekty uzasadniają estymację modelu
logitowego zamiast LMP.
b) Zapisz na kartce postać funkcyjną modelu, pamiętając co dokładnie jest po lewej
stronie równania.
𝑝
ln (1−𝑝𝑖 ) = 0,049 + 0,830𝑋1𝑖 + 0,362𝑋2𝑖 − 0,501𝑋3𝑖 + 0,642𝑋4𝑖 − 1,741𝑋5𝑖 + 𝜀𝑖 ,
𝑖
gdzie pi to prawdopodobieństwo wyboru (zakupu) Coca-Coli, X1 – cena Pepsi, X2 –
cena Coca-Coli, X3 – zmienna zero-jedynkowa wyświetlania na displayu w sklepie
nazwy Pepsi, X4 – zmienna zero-jedynkowa wyświetlania na displayu w sklepie nazwy
Coca-Cola, X5 – iloraz ceny Pepsi do ceny Coca-Coli. Indeks „i” oznacza obserwację i
jest równy od 1 do 1140 (liczebność próby eksperymentu).
c) Którą (jedną) zmienną należałoby usunąć z modelu, aby zniwelować problem
współliniowości, w celu oceny współliniowości przeprowadź odpowiedni test.
Przeprowadzamy test współliniowości. VIF (=CIW) przyjmuje bardzo wysokie wartości,
przekraczające 10, dla trzech zmiennych nt. cen. R kwadrat modelu budowanego na
potrzeby VIF jest dla tych zmiennych wyższy niż 90%. Racjonalne będzie odjęcie
zmiennej ilorazu ceny Pepsi do ceny Coca-Coli, jako że jest to zmienna wynikowa z
dwóch innych regresorów. Po usunięciu zmiennej ilorazu cen, współliniowość
przestaje być problemem.
d) Oceń jakość modelu, stosując R2, R2 zliczeniowy, test ilorazu wiarygodności
(hipoteza zerowa: testu ilorazu wiarygodności: wszystkie parametry modelu poza
wyrazem wolnym są równe zeru).
Wszystkie zmienne w modelu są istotne statystycznie już na poziomie istotności 0,01.
Współczynnik determinacji McFaddena przekracza ledwie 10%, aczkolwiek jest to
model mikroekonometryczny. Zliczeniowy R2 wg tablicy klasyfikacji jest równy 67,1%.
Specyficzność (procent prawidłowo prognozowanych zer) jest wyższa niż wrażliwość
(procent prawidłowo prognozowanych jedynek). Skorygowany zliczeniowy R2 (wg
zasady Cramera 1999) powinien zostać wyznaczony w oparciu o średnią arytmetyczną
zmiennej zaleznej, tj. 0,45, choć próba jest po prawdzie bliska zbilansowanej. Na
każdym typowym poziomie istotności należy odrzucić hipotezę zerową testu ilorazu
wiarygodności. Model jest zatem istotnie lepszy niż model, którego jedynym
regresorem jest wyraz wolny.
e) Zinterpretuj współczynniki przy zmiennych disp_coke, disp_pepsi, korzystając z
ilorazów szans.
exp(0,660329)≈1,94
Ukazanie na displayu w sklepie nazwy Coca-Cola zwiększa iloraz szans (szansę)
zakupu Coca-Coli względem Pepsi średnio o ok. 94% ceteris paribus.
exp(-0,529799)≈ 0,59
Ukazanie na displayu w sklepie nazwy Pepsi zmniejsza iloraz szans (szansę) zakupu
Coca-Coli względem Pepsi średnio o ok. 41% ceteris paribus.
f) Oszacuj prawdopodobieństwo kupienia Coca-Coli w sytuacji, gdy dwulitrowa
butelka Pepsi kosztuje 0,99 USD, Coca-Coli 1,19 USD, a na ekranie reklamowym
wyświetlona jest nazwa Pepsi. Użyj MS Excel.
Prawdopodobieństwo zakupu Coca-Coli w danym przypadku jest równe ok. 22%.
g) Oszacuj efekt krańcowy (tj. zmianę prawdopodobieństwa wyboru Coca-Coli)
wyłączenia reklamy Pepsi na displayu w sytuacji opisanej w podpunkcie poprzednim.
Zgaszenie reklamy Pepsi na displayu prowadzi do zwiększenia prawdopodobieństwa
zakupu Coca-Coli o około 0,09 (9 punktów procentowych).

Podobne dokumenty