Elementy modelowania matematycznego

Transkrypt

Elementy modelowania matematycznego
Elementy modelowania
matematycznego
Wstęp
Jakub Wróblewski
[email protected]
http://zajecia.jakubw.pl/
TEMATYKA PRZEDMIOTU
• Modelowanie danych (ilościowe):
– Metody statystyczne: estymacja parametrów modelu,
testowanie hipotez statystycznych
– Analiza dyskryminacyjna
– Problemy decyzyjne i klasyfikatory, eksploracja danych
•
•
•
•
Programowanie liniowe i nieliniowe
Modele kolejkowe
Modele Markowa
Modelowanie metodami teorii gier
1
LITERATURA
Statystyka i eksploracja danych:
• Koronacki, J. Mielniczuk. Statystyka dla studentów kierunków
technicznych i przyrodniczych. WNT, Warszawa 2001.
• P. Cichosz. Systemy uczące się. WNT, Warszawa 2000.
• A. Webb. Statistical Pattern Recognition. Wiley, 2002.
• J. Jakubowski, R. Sztencel. Wstęp do teorii prawdopodobieństwa.
SCRIPT, Warszawa 2001.
MODELOWANIE DANYCH
- RÓŻNE ASPEKTY
Dane opisują pewne aspekty (numeryczne lub jakościowe)
pewnego badanego przez nas zjawiska. Analiza danych
prowadzona jest w celu znalezienia / zweryfikowania /
dostrojenia modelu tego zjawiska. Znajomość modelu
pozwala na:
– opis zjawiska w sposób zrozumiały dla człowieka,
– określenie pewnych cech zjawiska,
– przewidywanie wartości nieznanych (np. przyszłych)
związanych z danym zjawiskiem.
2
PRZYKŁADY
Mamy dane w postaci rekordów w bazie danych CRM
(opisujących naszą wiedzę o klientach hurtowni butów i ich
zakupach).
Budowa modelu danych może mieć na celu m.in.:
– zaprezentowanie raportu o liczbie klientów w różnych
przedziałach obrotów,
– sprawdzenie hipotezy, że miejsce zamieszkania klienta nie
wpływa na tygodniową liczbę wizyt w hurtowni,
– odnalezienie towarów, które są często kupowane jednocześnie,
– przewidywanie, który klient zamierza zrezygnować z naszych
usług.
NARZĘDZIA ANALIZY DANYCH
• Statystyka matematyczna
– metody estymacji
– testowanie hipotez
• Odkrywanie wiedzy w bazach danych
– techniki wstępnej obróbki danych
– tworzenie nowych cech i ich selekcja
• Eksploracja danych
– techniki wykorzystywane w KDD
– metody reprezentacji wiedzy (modelu danych)
3
RÓŻNE PODEJŚCIA
,
etru x
m
a
r
a
p
acja
tez
estym anie hipo
w
o
test
dane
isty
w
y
z
ec
kt rz
e
i
b
o
Statystyka
Rodzina
modeli (x)
Model
probabilistyczny
obserwacja,
pomiar
wnioski
W statystyce zakładamy, że model probabilistyczny należy do
pewnej rodziny (np. sparametryzowanej). Analizujemy dane, by
wybrać najlepszą wartość parametru (najwłaściwszy model).
RÓŻNE PODEJŚCIA
Eksploracja danych (klasyfikacja)
delu
a mo
w
o
d
bu
dane
y
wist
y
z
c
e
kt rz
obie
Model
danych
obserwacja,
pomiar
wnioski (klasyfikator)
W metodach eksploracji danych stosujemy znacznie łagodniejsze
założenia. Kształt modelu jest w większym stopniu dopasowany do
danych, przez co jest bardziej złożony (np. drzewo decyzyjne).
4
ZAŁOŻENIA
Analiza danych przyjmuje pewne, jawne lub ukryte,
założenia dotyczące danych.
– Znana próbka jest reprezentatywnym podzbiorem całości.
To zakładamy prawie zawsze.
– Istnieje pewien rozkład prawdopodobieństwa (stały w
czasie), z którego pochodzą próbki danych. To umożliwia
stosowanie aparatu statystycznego i probabilistycznego;
niektóre sytuacje zmienne w czasie (np. notowania giełdowe)
też możemy modelować.
– Dane mają pewien konkretny rozkład prawdopodobieństwa
(np. normalny). To silne założenie, często stosowane w
statystyce. Możemy szacować, na ile konkretne dane pasują do
tego założenia, a także estymować parametry tego rozkładu.
ZAŁOŻENIA
Metody eksploracji danych konstruują model bez zakładania
globalnego rozkładu prawdopodobieństwa (por. sieci neuronowe).
Zamiast tego posługują się zwykle zasadą:
– Jeżeli dane mogą być opisane (zamodelowane) na kilka
różnych sposobów, to za najbliższy rzeczywistości (najbardziej
pożądany) uznajemy model najprostszy. (Zasada minimalnego
opisu.)
Czy można całkowicie uniknąć założeń?
Twierdzenie „No free lunch”: Chcemy na podstawie danych przykładów zgadnąć, według
jakiej zasady są one klasyfikowane do dwóch klas decyzyjnych, a nastepnie zastosować tę
zasadę do nowych danych.
Wówczas jeżeli nie przyjmiemy żadnych założeń odnośnie zasad klasyfikacji, to dowolnie
zaawansowany algorytm klasyfikujący będzie działał równie (nie)sprawnie, jak klasyfikator
czysto losowy.
5
PODSTAWOWE POJĘCIA
Dane do analizy zwykle będziemy przechowywali w tablicach
danych, w których kolejne wiersze odpowiadają obiektom
(obserwacjom).
Obiekty składają się na próbę (populację, zbiór treningowy).
Obiekty opisane są określonymi z góry cechami (atrybutami),
mogą też dzielić się na pewne kategorie (klasy decyzyjne).
Wartości atrybutów
(cechy obiektów)
o1
o2
o3
...
12.3 AAC 1 -5
6.87 AAA 1 -2
0.12 BBB 0 0
...
1
0
0
...
Decyzje
(kategorie obiektów)
Obiekty
PODSTAWOWE POJĘCIA
Cechy (atrybuty) mogą być:
• ilościowe (numeryczne, ciągłe)
np. waga, wiek klienta, dochód, wynik pomiaru napięcia, ...
• jakościowe (symboliczne, dyskretne)
np. kolor samochodu, płeć, położenie geograficzne (miasto)
Cechy ilościowe można zamienić na jakościowe (i odwrotnie).
6
PRZYKŁAD PROBLEM DECYZYJNY
Analizujemy bazę danych klientów salonu samochodowego.
Mamy dany opis osób, którzy wystąpili o przyznanie karty stałego
klienta. Chcielibyśmy przewidzieć, którzy klienci mogliby być w
przyszłości również zainteresowani.
Zasada działania: badamy, jakie cechy wyróżniają przypadki
„pozytywne” (klienci z kartami) od „negatywnych” (pozostali).
Budujemy model danych.
Wartości atrybutów
(cechy klientów)
o1
o2
o3
...
12.3 AAC 1 -5
6.87 AAA 1 -2
0.12 BBB 0 0
...
1
0
0
...
Decyzje
(klient pozytywny/negatywny)
Obiekty
(klienci)
PRZYKŁAD WYKORZYSTANIE MODELU
Tworzymy model danych (np. statystyczny) i wykorzystujemy go
do przewidywania cechy decyzyjnej dla nowych obiektów.
Dane treningowe (znana decyzja)
o1
o2
o3
...
12.3 AAC 1 -5
6.87 AAA 1 -2
0.12 BBB 0 0
...
1
0
0
...
bud
owa
mo
del
u
Model danych
- dyskryminacja liniowa
- drzewo decyzyjne
- sieć neuronowa
- ...
Dane testowe (nieznana decyzja)
o1
o2
o3
...
25.1 BBA 0 -1
15.8 BBB 1 -2
7.6 BAB 1 -4
...
?
?
?
...
przewidywana decyzja
dla danych testowych
7
PROSTY MODEL DANYCH:
przybliżamy rozkład histogramem
• Modelem danych będzie
pewien rozkład
prawdopodobieństwa.
Przybliżamy jego wykres
histogramem.
• Oś pozioma: wartość atrybutu
podzielona na przedziały.
• Oś pionowa: częstość (liczba
obiektów w danym
przedziale).
• Kształt histogramu zależy od
szerokości przedziałów i
położenia ich granic.
4
4,5
5
5,5
6
6,5
7
7,5
8
35
30
25
20
15
10
5
0
4,5
5
5,5
6
6,5
7
7,5
8
4,8
5,3
5,8
6,3
6,8
7,3
7,8
8,3
40
35
30
25
20
15
10
5
0
20
18
16
14
12
10
8
6
4
2
0
INNE STATYSTYKI PRÓBY
wskaźniki położenia
• Średnia
x=
1 n
∑ xi
n i =1
2
0
0
1
2
3
4
5
6
7
8
• Mediana i kwantyle
Kwantyl rzędu p∈(0,1) to taka wartość qp, że (pn) elementów
próby ma wartość mniejszą od qp.
Kwantyl rzędu 0,5 to mediana.
Kwantyle rzędu 1/4, 2/4 i 3/4 nazywane są kwartylami Q1, Q2, Q3.
Kwartyle mogą posłużyć do wykonania wykresu ramkowego.
8
INNE STATYSTYKI PRÓBY
wskaźniki rozproszenia
• Wariancja
s2 =
1 n
(xi − x )2
∑
n − 1 i =1
• Odchylenie standardowe (pierwiastek z wariancji)
• Odchylenie przeciętne
1 n
d1 =
n
∑ x −x
i
i =1
• Rozstęp międzykwartylowy IQR = Q3 - Q1
2
0
0
1
2
3
4
5
6
7
8
9