Zadanie 1. Odpowiedzi Rozpatrujemy zbiór danych - E-SGH
Transkrypt
Zadanie 1. Odpowiedzi Rozpatrujemy zbiór danych - E-SGH
Zadanie 1. Odpowiedzi Rozpatrujemy zbiór danych cocacola_czy_pepsi.gdt zawierający wyniki badania skanerowego Uniwersytetu w Chicago na 1140 obserwacjach-klientach sklepu (z bazy danych ERIM). Polecenia: a) Oszacuj model w GRETL wyjaśniający wariancję zmiennej coke, a jako regresorów użyj pozostałych zmiennych w zbiorze. Jako że objaśniamy w modelu zmienną zero-jedynkową, stosujemy regresję logistyczną. Liniowy model prawdopodobieństwa (LMP) cechuje heteroskedastyczność składnika losowego (test White’a: χ = 115,7 oraz p-value < 2 0,000001). Wartość minimalna wartości teoretycznych (oszacowanych wg modelu KMNK) zmiennej zależnej, tj. prawdopodobieństwa, jest równa −9,3%, co pozostaje wbrew definicji prawdopodobieństwa. Oba aspekty uzasadniają estymację modelu logitowego zamiast LMP. b) Zapisz na kartce postać funkcyjną modelu, pamiętając co dokładnie jest po lewej stronie równania. 𝑝 ln (1−𝑝𝑖 ) = 0,049 + 0,830𝑋1𝑖 + 0,362𝑋2𝑖 − 0,501𝑋3𝑖 + 0,642𝑋4𝑖 − 1,741𝑋5𝑖 + 𝜀𝑖 , 𝑖 gdzie pi to prawdopodobieństwo wyboru (zakupu) Coca-Coli, X1 – cena Pepsi, X2 – cena Coca-Coli, X3 – zmienna zero-jedynkowa wyświetlania na displayu w sklepie nazwy Pepsi, X4 – zmienna zero-jedynkowa wyświetlania na displayu w sklepie nazwy Coca-Cola, X5 – iloraz ceny Pepsi do ceny Coca-Coli. Indeks „i” oznacza obserwację i jest równy od 1 do 1140 (liczebność próby eksperymentu). c) Którą (jedną) zmienną należałoby usunąć z modelu, aby zniwelować problem współliniowości, w celu oceny współliniowości przeprowadź odpowiedni test. Przeprowadzamy test współliniowości. VIF (=CIW) przyjmuje bardzo wysokie wartości, przekraczające 10, dla trzech zmiennych nt. cen. R kwadrat modelu budowanego na potrzeby VIF jest dla tych zmiennych wyższy niż 90%. Racjonalne będzie odjęcie zmiennej ilorazu ceny Pepsi do ceny Coca-Coli, jako że jest to zmienna wynikowa z dwóch innych regresorów. Po usunięciu zmiennej ilorazu cen, współliniowość przestaje być problemem. d) Oceń jakość modelu, stosując R2, R2 zliczeniowy, test ilorazu wiarygodności (hipoteza zerowa: testu ilorazu wiarygodności: wszystkie parametry modelu poza wyrazem wolnym są równe zeru). Wszystkie zmienne w modelu są istotne statystycznie już na poziomie istotności 0,01. Współczynnik determinacji McFaddena przekracza ledwie 10%, aczkolwiek jest to model mikroekonometryczny. Zliczeniowy R2 wg tablicy klasyfikacji jest równy 67,1%. Specyficzność (procent prawidłowo prognozowanych zer) jest wyższa niż wrażliwość (procent prawidłowo prognozowanych jedynek). Skorygowany zliczeniowy R2 (wg zasady Cramera 1999) powinien zostać wyznaczony w oparciu o średnią arytmetyczną zmiennej zaleznej, tj. 0,45, choć próba jest po prawdzie bliska zbilansowanej. Na każdym typowym poziomie istotności należy odrzucić hipotezę zerową testu ilorazu wiarygodności. Model jest zatem istotnie lepszy niż model, którego jedynym regresorem jest wyraz wolny. e) Zinterpretuj współczynniki przy zmiennych disp_coke, disp_pepsi, korzystając z ilorazów szans. exp(0,660329)≈1,94 Ukazanie na displayu w sklepie nazwy Coca-Cola zwiększa iloraz szans (szansę) zakupu Coca-Coli względem Pepsi średnio o ok. 94% ceteris paribus. exp(-0,529799)≈ 0,59 Ukazanie na displayu w sklepie nazwy Pepsi zmniejsza iloraz szans (szansę) zakupu Coca-Coli względem Pepsi średnio o ok. 41% ceteris paribus. f) Oszacuj prawdopodobieństwo kupienia Coca-Coli w sytuacji, gdy dwulitrowa butelka Pepsi kosztuje 0,99 USD, Coca-Coli 1,19 USD, a na ekranie reklamowym wyświetlona jest nazwa Pepsi. Użyj MS Excel. Prawdopodobieństwo zakupu Coca-Coli w danym przypadku jest równe ok. 22%. g) Oszacuj efekt krańcowy (tj. zmianę prawdopodobieństwa wyboru Coca-Coli) wyłączenia reklamy Pepsi na displayu w sytuacji opisanej w podpunkcie poprzednim. Zgaszenie reklamy Pepsi na displayu prowadzi do zwiększenia prawdopodobieństwa zakupu Coca-Coli o około 0,09 (9 punktów procentowych).