Analiza danych - Jakub Wróblewski

Transkrypt

Analiza danych - Jakub Wróblewski
Analiza danych
Wstęp
Jakub Wróblewski
[email protected]
http://zajecia.jakubw.pl/
TEMATYKA PRZEDMIOTU
•
•
•
•
•
•
•
Różne aspekty analizy danych
Reprezentacja graficzna danych
Metody statystyczne: estymacja parametrów modelu
Testowanie hipotez statystycznych
Analiza dyskryminacyjna - przypadek liniowy
Problemy decyzyjne i klasyfikatory, proces KDD
Metody eksploracji danych i reprezentacji wiedzy:
drzewa decyzyjne, reguły, sieci neuronowe
• Grupowanie pojęciowe
1
LITERATURA
Pozycje podstawowe:
• Koronacki, J. Mielniczuk. Statystyka dla studentów kierunków
technicznych i przyrodniczych. WNT, Warszawa 2001.
• P. Cichosz. Systemy uczące się. WNT, Warszawa 2000.
Pozycje dodatkowe:
• A. Webb. Statistical Pattern Recognition. Wiley, 2002.
• S. Osowski. Sieci neuronowe w ujęciu algorytmicznym. WNT,
Warszawa 1997.
• J. Jakubowski, R. Sztencel. Wstęp do teorii prawdopodobieństwa.
SCRIPT, Warszawa 2001.
ANALIZA DANYCH
- RÓŻNE ASPEKTY
Dane opisują pewne aspekty (numeryczne lub jakościowe)
pewnego badanego przez nas zjawiska. Analiza danych
prowadzona jest w celu znalezienia / zweryfikowania /
dostrojenia modelu tego zjawiska. Znajomość modelu
pozwala na:
– opis zjawiska w sposób zrozumiały dla człowieka,
– określenie pewnych cech zjawiska,
– przewidywanie wartości nieznanych (np. przyszłych)
związanych z danym zjawiskiem.
2
PRZYKŁADY
Mamy dane w postaci rekordów w bazie danych CRM
(opisujących naszą wiedzę o klientach hurtowni butów i ich
zakupach).
Analiza danych może mieć na celu m.in.:
– zaprezentowanie raportu o liczbie klientów w różnych
przedziałach obrotów,
– sprawdzenie hipotezy, że miejsce zamieszkania klienta nie
wpływa na tygodniową liczbę wizyt w hurtowni,
– odnalezienie towarów, które są często kupowane jednocześnie,
– przewidywanie, który klient zamierza zrezygnować z naszych
usług.
NARZĘDZIA ANALIZY DANYCH
• Statystyka matematyczna
– metody estymacji
– testowanie hipotez
• Odkrywanie wiedzy w bazach danych
– techniki wstępnej obróbki danych
– tworzenie nowych cech i ich selekcja
• Eksploracja danych
– techniki wykorzystywane w KDD
– metody reprezentacji wiedzy (modelu danych)
3
RÓŻNE PODEJŚCIA
Rachunek prawdopodobieństwa
ja
intuic
k
obie
cze
wiad
i d oś
nie
Model
probabilistyczny
y
wist
y
z
c
t rze
wnioski
W rachunku prawdopodobieństwa wychodzimy od gotowego modelu
probabilistycznego.
RÓŻNE PODEJŚCIA
Statystyka
ru x
amet
r
a
p
acja
estym
dane
k
obie
y
wist
y
z
c
t rze
Rodzina
modeli (x)
Model
probabilistyczny
obserwacja,
pomiar
wnioski
W statystyce zakładamy, że model probabilistyczny należy do
pewnej rodziny (np. sparametryzowanej). Analizujemy dane, by
wybrać najlepszą wartość parametru (najwłaściwszy model).
4
RÓŻNE PODEJŚCIA
Statystyka
testo
Model 1
otez
e hip
wani
Model 3
Model
probabilistyczny
dane
st y
ywi
z
c
e
kt rz
obie
Model 2
obserwacja,
pomiar
wnioski
Można też badać, czy nasza hipoteza odnośnie danych (np. tego, że
dane pochodzą z pewnego rozkładu) jest słuszna.
RÓŻNE PODEJŚCIA
Eksploracja danych (klasyfikacja)
delu
a mo
w
o
d
bu
dane
k
obie
y
wist
y
z
c
t rze
Model
danych
obserwacja,
pomiar
wnioski (klasyfikator)
W metodach eksploracji danych stosujemy znacznie łagodniejsze
założenia. Kształt modelu jest w większym stopniu dopasowany do
danych, przez co jest bardziej skomplikowany.
5
ZAŁOŻENIA
Analiza danych przyjmuje pewne, jawne lub ukryte,
założenia dotyczące danych.
– Znana próbka jest reprezentatywnym podzbiorem całości.
To zakładamy prawie zawsze.
– Istnieje pewien rozkład prawdopodobieństwa (stały w
czasie), z którego pochodzą próbki danych. To umożliwia
stosowanie aparatu statystycznego i probabilistycznego;
niektóre sytuacje zmienne w czasie (np. notowania giełdowe)
też możemy modelować.
– Dane mają pewien konkretny rozkład prawdopodobieństwa
(np. normalny). To silne założenie, często stosowane w
statystyce. Możemy szacować, na ile konkretne dane pasują do
tego założenia, a także estymować parametry tego rozkładu.
ZAŁOŻENIA
Metody eksploracji danych działają bardziej „lokalnie”,
konstruując model bez zakładania globalnego rozkładu
prawdopodobieństwa (por. sieci neuronowe). Zamiast tego
posługują się zwykle zasadą:
– Jeżeli dane mogą być opisane (zamodelowane) na kilka
różnych sposobów, to za najbliższy rzeczywistości (najbardziej
pożądany) uznajemy model najprostszy. (Zasada minimalnego
opisu.)
Czy można całkowicie uniknąć założeń?
6
NO FREE LUNCH
Mamy zbiór obiektów opisanych wektorami danych A
(np.wektorami liczb) i zaklasyfikowanych do dwóch grup.
Chcemy na podstawie tych danych zgadnąć, jaka zasada
kryje się za klasyfikacją.
Formalnie: chcemy znaleźć algorytm, który na podstawie
opisu A przeprowadzi prawidłową klasyfikację
nieoglądanych wcześniej obiektów.
Twierdzenie: Jeżeli w opisanej sytuacji nie przyjmiemy
żadnych założeń odnośnie zasad klasyfikacji, to dowolnie
zaawansowany algorytm klasyfikujący będzie działał
równie (nie)sprawnie, co klasyfikator czysto losowy.
RACHUNEK PRAWDOP.
A STATYSTYKA
Probabilistyka
-
prawdopodobieństwo
wartość oczekiwana
rozkład
dystrybuanta
wariancja, mediana...
Statystyka
-
częstość
średnia z próbki
histogram, szereg rozdzielczy
histogram skumulowany
estymatory wariancji,...
(Warto znać te pojęcia)
7