Statystyka i eksploracja danych 1. PASW Statistics — przypomnienie
Transkrypt
Statystyka i eksploracja danych 1. PASW Statistics — przypomnienie
Statystyka i eksploracja danych 1. PASW Statistics — przypomnienie Ćw. 1.1 Plik domy.txt zawiera dane firmy pośredniczącej w sprzedaży domów w stanie Kalifornia. Zmienne w tym pliku są rozdzielone tabulatorami, nazwy zmiennych znajdują się w pierwszym wierszu. Kolejne zmienne to: • price — cena (w dolarach), • sqm — wielkość (w metrach kwadratowych), • bedrooms — liczba sypialni, • baths — liczba łazienek, • age — wiek domu, • occupancy — liczba mieszkańców, • pool — basen (0 — nie, 1 — tak), • fireplace — kominek (0 — nie, 1 — tak), • waterfront — na nabrzeżu (0 — nie, 1 — tak), • lday — liczba dni w sprzedaży. Zaimportuj plik do programu PASW Statistics i wyspecyfikuj odpowiednio zmienne. Przeprowadź analizę danych i sporządź raport zawierający opisane niżej elementy. Zadbaj o czytelność wykonanej prezentacji i uatrakcyjnij ją graficznie. Ćw. 1.2 Wykonaj podstawową analizę statystyczną cen domów (statystyki, wykres skrzynkowy, histogram). Jaki jest rozkład tych cen? Ćw. 1.3 Utwórz zmienną będącą ceną 1 m2 każdego z domów. Jak wygląda rozkład tych cen? Ćw. 1.4 Na wykresie słupkowym porównaj średnie ceny domów zlokalizowanych na nabrzeżu i ceny pozostałych. Jaki jest procentowy udział domów stojących na nabrzeżu w ofercie firmy? Zaprezentuj ten udział na wykresie kołowym. Ćw. 1.5 Dom jest uważany za luksusowy, jeśli jest położony na nabrzeżu, ma co najmniej 3000 m2 , posiada co najmniej tyle łazienek ile sypialni oraz basen. Ile średnio kosztuje dom uważany za luksusowy? Porównaj ceny domów luksusowych na wykresie słupkowym. Ćw. 1.6 Na trójwymiarowym wykresie słupkowym zaprezentuj zależność pomiędzy posiadaniem basenu oraz kominka. Wyróżnij domy stojące na nabrzeżu. Ćw. 1.7 Eksportuj raport do formatu pdf.