Statystyka opisowa w R

Transkrypt

Statystyka opisowa w R
Statystyka opisowa w R
Zajmiemy się zbiorem FAITHFUL.
Old Faithful – gejzer położony w Parku Narodowym Yellowstone w amerykaoskim stanie Wyoming. Old Faithful nie jest ani
największym ani najbardziej regularnie wybuchającym gejzerem w parku, jednak jest jednym z najpopularniejszych, ponieważ
wybucha regularnie i najczęściej z wszystkich dużych gejzerów. Jego nazwa, która dosłownie oznacza „stary wierny”, została nadana
mu przez ekspedycję w 1870 roku i odzwierciedla fakt, że erupcje gejzera są dośd dokładnie przewidywalne.
Gejzer wybucha przeciętnie 17 razy na dobę. Ze względu na trzęsienia ziemi na przestrzeni kilku ostatnich dekad średni odstęp czasu
pomiędzy erupcjami uległ stopniowemu wydłużeniu. W 2004 roku przerwa pomiędzy erupcjami trwała ok. 55–100 minut i była
proporcjonalna do czasu trwania erupcji poprzedniej. Erupcje trwały zazwyczaj od 1,5 do 5 minut. Po erupcji trwającej mniej niż 2,5
minuty następuje przerwa 65 minutowa (±10 min), a po erupcjach dłuższych niż 2,5 minuty, przerwa 92 minutowa (±10 min). Po
trzęsieniu ziemi z 1998 roku najczęściej mają miejsce dłuższe erupcje z długą przerwą.
W czasie erupcji gejzera w powietrze wrzucane jest od 14 do 32 tysięcy litrów wrzącej wody. Wyrzucana woda ma średnią
temperaturę 95 °C, gdyż na wysokości na której położony jest gejzer, 2245 m n.p.m., temperatura wrzenia wody wynosi 93 °C.
Wybuchająca woda tworzy szeroką kolumnę o średniej wysokości 40 metrów, chod może ona mierzyd od 32 do 56 metrów.
Odnośnik do opisu zbioru: http://stat.ethz.ch/R-manual/R-devel/library/datasets/html/faithful.html
Podstawowe statystyki:
Rzut na dane:
Ale po kolei…
Średnia…
Dla n-elementów próby, średnia wynosi:
Podobnie dla N elementów populacji, średnia wynosi:
Ćwiczenie:
Znajdź wartość średnią atrybutu “Waiting” w zbiorze faithful.
Mediana
Ćwiczenie:
Znajdź medianę dla cechy waiting.
Kwartyle
Ćwiczenie:
Znajdź kwartyle dla cechy „waiting”.
Percentyle
Chcemy znaleźć 32, 57 i 98-y percentyl dla cechy “durations”
Ćwiczenie:
Znajdź 17, 43, 67 i 85 percentyl dla cechy waiting.
Range
Ćwiczenie:
Znajdź wartość range dla cechy “waiting”.
Interquartile Range
Ćwiczenie:
Znajdź wartość IQR dla cechy “waiting”.
Wariancja
Dla próby:
Dla populacji N:
Ćwiczenie:
Znajdź wartość wariancji dla cechy “waiting”
Odchylenie standardowe
Ćwiczenie:
Znajdź wartość odchylenia standardowego dla cechy „Waiting”.
Skośność
Najprostszym sposobem oceny skośności rozkładu jest porównanie lokalizacji charakterystyk tendencji centralnej:
- rozkład lewoskośny: mediana < średnia arytmetyczna < moda (dominanta, wartośd dominująca);
- rozkład prawoskośny: mediana > średnia arytmetyczna > moda;
- rozkład symetryczny: mediana = średnia arytmetyczna = moda.
Musimy doinstalować pakiet “moments”
I potem załadowad bibliotekę komendą library(moments).
To oznacza, że rozkład czasu trwania erupcji jest przekrzywiony w lewo.
Ćwiczenie:
Znajdź skośność dla cechy “waiting” I oceń ją.
Kurtoza
Rozkłady prawdopodobieństwa można podzielić ze względu na wartość kurtozy na rozkłady:



mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia
rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0)
leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie
normalnym
platokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie
normalnym
Kurtoza czasu trwania erupcji wynosi -2. histogram nie jest w kształcie dzwonu. Wartości cechy badanej są mniej
skoncentrowane niż przy rozkładzie normalnym
Ćwiczenie:
Znajdź kurtozę dla cechy “waiting” I oceń ją.