Statystyka i eksploracja danych 1. PASW Statistics — przypomnienie

Transkrypt

Statystyka i eksploracja danych 1. PASW Statistics — przypomnienie
Statystyka i eksploracja danych
1. PASW Statistics — przypomnienie
Ćw. 1.1 Plik domy.txt zawiera dane firmy pośredniczącej w sprzedaży domów w stanie
Kalifornia.
Zmienne w tym pliku są rozdzielone tabulatorami, nazwy zmiennych znajdują się
w pierwszym wierszu. Kolejne zmienne to:
• price — cena (w dolarach),
• sqm — wielkość (w metrach kwadratowych),
• bedrooms — liczba sypialni,
• baths — liczba łazienek,
• age — wiek domu,
• occupancy — liczba mieszkańców,
• pool — basen (0 — nie, 1 — tak),
• fireplace — kominek (0 — nie, 1 — tak),
• waterfront — na nabrzeżu (0 — nie, 1 — tak),
• lday — liczba dni w sprzedaży.
Zaimportuj plik do programu PASW Statistics i wyspecyfikuj odpowiednio zmienne.
Przeprowadź analizę danych i sporządź raport zawierający opisane niżej elementy.
Zadbaj o czytelność wykonanej prezentacji i uatrakcyjnij ją graficznie.
Ćw. 1.2 Wykonaj podstawową analizę statystyczną cen domów (statystyki, wykres skrzynkowy, histogram). Jaki jest rozkład tych cen?
Ćw. 1.3 Utwórz zmienną będącą ceną 1 m2 każdego z domów. Jak wygląda rozkład tych
cen?
Ćw. 1.4 Na wykresie słupkowym porównaj średnie ceny domów zlokalizowanych na nabrzeżu i ceny pozostałych. Jaki jest procentowy udział domów stojących na nabrzeżu
w ofercie firmy? Zaprezentuj ten udział na wykresie kołowym.
Ćw. 1.5 Dom jest uważany za luksusowy, jeśli jest położony na nabrzeżu, ma co najmniej
3000 m2 , posiada co najmniej tyle łazienek ile sypialni oraz basen. Ile średnio kosztuje dom uważany za luksusowy? Porównaj ceny domów luksusowych na wykresie
słupkowym.
Ćw. 1.6 Na trójwymiarowym wykresie słupkowym zaprezentuj zależność pomiędzy posiadaniem basenu oraz kominka. Wyróżnij domy stojące na nabrzeżu.
Ćw. 1.7 Eksportuj raport do formatu pdf.