Pobierz artykuł PDF

Transkrypt

Pobierz artykuł PDF
ZASTOSOWANIE TEORII ZBIORÓW PRZYBLI
ONYCH DO OCENY PREFERENCJI
KLIENTÓW MARKETINGOWEJ HURTOWNI DANYCH
TOMASZ DUDEK
Politechnika Szczeciska
Wydział Informatyki
Instytut Systemów Informatycznych
Streszczenie
W artykule zaprezentowano przykładowe zastosowania teorii zbiorów
przyblionych w analizie preferencji nabywców produktów firmy i ocenie
potencjalnego klienta. Zastosowania te obejmuj moliwoci przeprowadzenia
klasyfikacji klientów gdy dane o nich s niespójne lub czciowo sprzeczne. W
oparciu o peror zbiorów przyblionych moliwe jest generowanie reguł opisu
zbioru przypadków.
1. Wprowadzenie
Jeszcze do niedawna działalno przedsibiorstw koncentrowała si na produkcie, nie
dostrzegajc koniecznoci identyfikacji nabywcy, jego preferencji, oceny wartoci i korzyci
płyncych z oferowanego przez firm produktu lub usługi. Rozwój konkurencji i gospodarki
rynkowej sprawił jednak, e firmy, aby redukowa koszty i zwiksza udział w rynku zostały
zmuszone do walki o klienta bowiem produkt czy usługa zaspakaja potrzeby klienta, gdy ma dla
niego okrelon warto, przynosi klientowi odpowiednie dla niego szeroko rozumiane korzyci.
Aby móc zabiega o klientów, firmy musiały najpierw ustali kim oni s i pozna ich potrzeby,
preferencje, oceny. W tym celu by zdoby niezbdne dane czsto korzysta si z komputerowego
wsparcia takimi narzdziami jak hurtownie i bazy danych, analityczne przetwarzanie danych
OLAP (ang. On line analitical processing), metody odkrywania informacji (wiedzy) (ang. data
mining) czy narzdzia KDD (ang. knowledge discovery decision), które umoliwiaj odkrywanie
nieznanych wczeniej, a potencjalnie przydatnych prawidłowoci i relacji ukrytych w danych..
Do grupy wanych metod uywanych w procesie odkrywania wiedzy naley klasyfikacja i
rozpoznawanie zjawisk i parametrów badanych preferencji lub zachowa klientów – badanie np.
czy potencjalny klient bdzie chciał naby produkt okrelonej marki, jakimi cechami mona
scharakteryzowa potencjalnego klienta firmy, kto nie bdzie potencjalnym klientem firmy, itp.
Metody klasyfikacji stosowane s zwykle w pierwszej fazie obróbki danych i odkrywania
wiedzy z danych. Poniewa jednak dane, na których wykonuje si analizy zachowa klientów firm
lub ich preferencji zawieraj dane niepełne lub oparte czciowo na sprzecznych przesłankach to
wydaje si, e w tym przypadku naley posłuy si takimi metodami, które eliminuj sztywne
zasady przynalenoci do zbiorów (klas) i wprowadzaj moliwo definiowania przynalenoci
do zbioru w oparciu o tzw przyblienie dolne i górne. W takim bowiem przypadku logika oparta
na teorii zbiorów przyblionych zyskuje nowe właciwoci do rozwizania wielu problemów
wymagajcych inteligentnej analizy danych, poszukiwania zalenoci midzy danymi co w
rezultacie umoliwia i wspomaga podejmowanie decyzji.
80
POLSKIE TOWARZYSTWO ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr2, 2004
W artykule zaprezentowano przykładowe zastosowania teorii zbiorów przyblionych w
analizie preferencji potencjalnych nabywców produktów firmy i ocenie potencjalnego klienta.
2. Charakterystyka danych o klientach firmy
Okrelenie relacji midzy postaw konsumenta (odpowied na pytanie w sprawie zakupu
produktu firmy lub jego preferencji), a odpowiedzi na inne pytania pozwala na odkrycie,
zbadanie, które z tych pyta ma wpływ, znaczenie na zakup i preferencje klienta. Zwykle
głównym celem analizy i w efekcie celem podjcia decyzji marketingowej bywa uzyskanie
odpowiedzi na proste pytanie„Jak wyglda i czym si charakteryzuje typowy nabywca
oferowanego przez firm produktu ?”. Na to pytanie mona uzyska odpowied, analizujc dane
pozyskane z ankiety, które dalej s ródłem do odkrywania wiedzy z tych danych.
Wobec istnienia wielu metod odkrywania wiedzy z danych, podstawowym problemem staje si
wybór odpowiedniej do potrzeb metody lub metod odkrywania wiedzy. Jedn z czciej
stosowanych metod odkrywania wiedzy jest klasyfikacja.
W klasycznych metodach klasyfikacji, opartych na ogólnej teorii zbiorów podstaw
klasyfikacji s silne współzalene owiadczenia (odpowiedzi potencjalnych klientów), które
pomagaj w okreleniu profilu potencjalnego nabywcy oraz zasada, e element (odpowied)
naley albo nie naley do danej klasy. Taka klasyfikacja wymaga jednak okrelenia tzw. błdu
klasyfikacji (odstpstwa od sztywnych zasad). Zwykle do weryfikacji procesu klasyfikacji stosuje
si na podstawie dostpnych danych tzw. macierz pomyłek, z której midzy innymi wynika błd
procentowy klasyfikacji. Te błdy s wówczas podstaw do okrelenia wiarogodnoci klasyfikacji
i wycignitych z tej klasyfikacji poprawnych wniosków.
Ale dane ankietowe mog zawiera sprzecznoci i niespójnoci. Pod pojciem danych
niespójnych rozumie si takie dane (wyniki zamieszczone np. w ankietach), które posiadaj
identyczne lub podobne opisy, lecz zaliczane s do rónych poj. Gdy do analizy takich danych
zastosowano by klasyczne metody klasyfikacji to oznaczałoby, e wród tych danych znajd si
takie, które nie zostan poprawnie zaklasyfikowane i w dalszej analizie zwykle si takie dane
pomija. Takie rozwizania mog jednak prowadzi do utraty wielu cennych aspektów
analizowanych własnoci i cech potencjalnych klientów. Jak zauwaa Stefanowski [1] niespójno
danych nie powinna by traktowana wyłcznie jako wynik błdu czy szumu informacyjnego
poniewa taka niespójno moe by wynikiem waha klienta, niestabilnoci jego preferencji,
niezrozumieniem zapyta ankietowych czy niepoprawnym przygotowaniem i przeprowadzeniem
ankiety (np. niewłaciwy dobór reprezentatywnej grupy osób ankietowanych. Dlatego do analizy
danych ankietowych czsto powinna by zastosowana klasyfikacja uwzgldniajca te niespójnoci
w danych oparta na tzw. zbiorach przyblionych.
3. Zastosowanie teorii zbiorów przyblionych do klasyfikacji klientów
Dane o klientach uzyskane np. w wyniku przeprowadzenia ankietyzacji w reprezentatywnej
grupie respondentów mona scharakteryzowa wieloma atrybutami, które mog przyjmowa
okrelone wartoci (najlepiej gdy s one wyraone liczbowo – np. w okrelonej skali ocen). Kada
ankieta (zawierajca wartoci przypisane badanym atrybutom) jest rozumiana jako obiekt, który
moe przynalee do atomów – klas. Z kad ankiet zwizana jest decyzja ankietowanego (np.
ocena chci zakupu czy preferencji klienta). Dla zgromadzonych w wyniku ankietyzacji danych
mona opracowa tzw. tablic systemu informacyjnego dla procesu klasyfikacji, okrelania reguł
Tomasz Dudek
Zastosowanie teorii zbiorów przyblionych do oceny preferencji klientów marketingowej
hurtowni danych
81
decyzyjnych i odkrywania wiedzy z danych o potencjalnych klientach firmy. Przykładow tablic
systemu informacyjnego zaprezentowano w tabeli 1. Ze wzgldu na pogldowy charakter tej
tablicy umieszczono w niej tylko niektóre dane z rzeczywistego przykładu.
Tabela 1
Nr atomu
(klasy)
Nr obiektu
(ankiety)
Wartoci liczbowe atrybutów
Decyzja
ankietowanego
A1
A2
A3
1
2
2
2
D2
2
2
2
2
D2
3
2
2
2
D2
4
2
2
2
D2
5
2
2
2
D2
6
2
2
2
D1
7
2
2
2
D2
8
2
2
2
D2
9
2
2
2
D3
10
2
2
2
D2
2
11
2
2
3
D1
3
12
2
1
3
D1
13
2
1
3
D2
4
14
3
1
3
D2
5
15
1
2
1
D3
16
1
2
1
D3
17
1
2
1
D3
18
1
2
1
D3
19
1
2
1
D3
1
Przykładowa tablica systemu informacyjnego o klientach firmy (
ródło : opracowanie własne)
W wyniku analizy danych ankietowych mona okreli decyzj jak mona by przypisa
potencjalnemu klientowi firmy. Definiowanie przynalenoci elementów, obiektów, atomów czy
atrybutów do zbioru przyblionego oparte jest na podejciu, w których odrzuca si wymóg
istnienia cile okrelonych granic zbioru. Wykorzystuje si wówczas moliwo zdefiniowania
zbioru przyblionego w oparciu o jego tzw. przyblienie dolne i górne. Pod pojciem przyblienia
82
POLSKIE TOWARZYSTWO ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr2, 2004
dolnego zbioru obiektów Y rozumie si zbiór tych elementów tego zbioru, których wszystkie
obiekty nale na pewno do zbioru Y natomiast pod pojciem dolnego przyblienia zbioru Y
rozumie si taki zbiór elementów, których cho jeden obiekt naley do zbioru Y, czyli zbiór takich
elementów, które „by moe” nale do tego zbioru [3].
Brzegiem zbioru obiektów nazywa si rónic mnogociow midzy górnym i dolnym
przyblieniem tego zbioru obiektów.
Kade przyblienie wie si z koniecznoci okrelenia dokładnoci tego przyblienia.
Najczciej tak dokładno okrela si jako stosunek licznoci dolnego przyblienia zbioru do
jego górnego przyblienia.
W oparciu o zbiory przyblione opracowano algorytmy przy pomocy, których moliwa jest
nie tylko klasyfikacja obiektów, ale równie moliwe jest automatyczne generowanie reguł
decyzyjnych, bdcych podstaw odkrywania wiedzy z danych o klientach firmy.
W teorii zbiorów przyblionych przyjmuje si zwykle, e stopie precyzji atomu jest równy 1.
Jest to przyczyn duych utrudnie w odkrywaniu wiedzy dla takich zbiorów poniewa atomy
wyranie wikszociowe s odrzucane z dolnego przyblienia.
Ciekawe zastosowanie teorii zbiorów przyblionych zaproponował W.Ziarko [2], w którym
rozmiar brzegu zbioru przyblionego został pomniejszony poprzez pozostawienie w nim tylko
tych obiektów, co do których nie jest moliwa klasyfikacja z błdem mniejszym od pewnego
wstpnie zdefiniowanego poziomu. Jest to podejcie szczególnie korzystne dla tych zbiorów
danych, których brzeg zawiera atomy, których obiekty w duej mierze nale do wybranej klasy
decyzyjnej.
Istniej równie takie algorytmy, które pozwalaj zmieni stopie precyzji atomu. Do nich
naley algorytm LEM2 VPM zwany algorytmem zmiennej precyzji.
4. Prezentacja zastosowania algorytmów LEM2 i algorytmu zmiennej precyzji LEM2 VPM
do klasyfikacji i generowania reguł decyzyjnych.
LEM2 to jedna z opcji zaproponowanego przez J. W. Grzymał-Busse’a systemu LERS. Jest
to heurystyczny algorytm ukierunkowany na znalezienie minimalnego opisu dyskryminujcego w
zbiorze przykładów.
Model tzw. zmiennej precyzji (ang. Variable Precision Model – VPM) charakteryzuje si
zmienionymi zasadami
Zastosowanie algorytmu LEM2 do przykładowych danych zawartych w tablicy systemu
informacyjnego o klientach firmy z tabeli 1 pozwala okreli tablic czstoci przykładów w
obrbie atomów (klas), dla poszczególnych klas decyzji zgodn z tabel 2.
Tabela 2
Nr atomu
(klasy)
Liczno przykładów nalecych do
klasy (atomu)
D1
D2
D3
1
1
8
1
2
1
0
0
3
1
1
0
Tomasz Dudek
Zastosowanie teorii zbiorów przyblionych do oceny preferencji klientów marketingowej
hurtowni danych
4
0
1
0
5
1
0
4
83
Czstoci przykładów w obrbie atomów dla poszczególnych klas wyodrbnionych w
przykładowej tablicy systemu informacyjnego (
ródło : opracowanie własne)
Podejcie LEM2 VPM pozwala zmodyfikowa tabel 2 czstoci przykładów w obrbie
powyej przytoczonych atomów do postaci zgodnej z tabel 3.
Tabela 3
Nr atomu
(klasy)
Liczno przykładów nalecych do
klasy (atomu)
D1
D2
D3
1
0
10
0
2
1
0
0
3
1
1
0
4
0
1
0
5
1
0
5
Zmodyfikowane czstoci przykładów w obrbie atomów dla poszczególnych klas
wyodrbnionych w przykładowej tablicy systemu informacyjnego (
ródło : opracowanie własne)
Stosujc teori zbiorów przyblionych mona uzyska brzeg składajcy si z 17 obiektów.
Przyjmujc, e stopie precyzji atomu wynosi 0,8 mona okreli atomy nalece do dolnego
przyblienia VPM. S nimi {1,2,4,5}. Atomy te posiadaj stopie precyzji wikszy bd równy
załoonemu. Atom {3} nie wchodzi do dolnego przyblienia, poniewa posiada zbyt wysoki
stopie zaszumienia.
Oznacza to, e algorytm LEM2 VPM zmniejsz ilo obiektów zawartych w brzegu do dwóch
dziki zmniejszeniu stopnia precyzji atomu z wartoci 1 na warto 0.8.
Jeli po tej modyfikacji wszystkie przykłady wchodzce w skład atomu nie nale do jednej
klasy decyzyjnej to atom taki nie naley do przyblienia dolnego VPM. Naley wówczas
wprowadzi tzw. klas zerow d0, która oznacza brak przynalenoci do dolnego przyblienia
VPM a dla klas z dolnego przyblienia zostaj rozrónione sztucznie wprowadzonymi klasami
decyzyjnymi zgodnymi z tabel 4.
Tabela 4
Nr obiektu
Nr sztucznej decyzji
1
D2
2
D2
3
D2
4
D2
84
POLSKIE TOWARZYSTWO ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr2, 2004
5
D2
6
D2
7
D2
8
D2
9
D2
10
D2
11
D1
12
D0
13
D0
14
D2
15
D3
16
D3
17
D3
18
D3
19
D3
Sztuczna klasa decyzyjna dla przykładowej tablicy systemu informacyjnego (
ródło :
opracowanie własne)
Nastpnie w oparciu o tablic systemu informacyjnego oraz wprowadzone klasy (zerow i
sztuczne) mona zbudowa tabel wsparcia dla warunków elementarnych zgodn tabel 5,
zbudowan dla rozwaanego przykładu.
Tabela 5
Warunek
elementarny
w rachunku
reguł
A1=2
Wsparcie dla klasy decyzyjnej
d0
{12,13}
d1
{11}
A1=3
d2
{1,2,3,…,10}
{14}
A1=1
{15,16,…,19}
A2=2
A2=1
d3
{11}
{12,13}
{1,2,3,…,10}
{14}
{15,16,…,19}
Tomasz Dudek
Zastosowanie teorii zbiorów przyblionych do oceny preferencji klientów marketingowej
hurtowni danych
A3=2
A3=3
85
{1,2,3,…,10}
{12,13}
{11}
{14}
A3=1
{15,16,…,19}
Wsparcie dla warunków elementarnych z podziałem na klasy decyzyjne obrbie atomów dla
poszczególnych klas wyodrbnionych w przykładowej tablicy systemu informacyjnego (
ródło :
opracowanie własne)
Kolejnym etapem zastosowania algorytmów LEM2 i LEM2 VPM jest budowa dolnego
przyblienia VPM oraz proces tworzenia reguł. W wyniku zastosowania algorytmu LEM2 VPM
uzyskuje si reguły zgodne z tabel 6.
Tabela 6
Reguły decyzyjne wyznaczone algorytmem
LEM2 VPM
Reguły decyzyjne wyznaczone w klasycznej
teorii zbiorów przyblionych (LEM2)
(A3=3)and(A2=2)D2
(A3=3) and (a2=2) D1
(A3=2) D2
(A1=3) D2
(a1=3) D2
(A1=1) D3
Reguły uzyskane algorytmem LEM2 VPM i w oparciu o klasyczn teori zbiorów
przyblionych (
ródło : opracowanie własne)
W oparciu o zbiory przyblione wygenerowano dwie reguły powodujc utrat dwóch silnych
reguł, które uzyskano wykorzystujc algorytm ze zmienn decyzj. Dla pełnej analizy
stosowalnoci algorytmów opartych na zbiorach przyblionych,LEM2 i zmiennej precyzji LEM2
VPM moliwe jest okrelenie dokładnoci klasyfikacji. W tabeli 7 zaprezentowano niektóre z
nich.
Tabela 7
Wg algorytmu LEM2
Wg algorytmu LEM@
VPM
Dolne przyblienie klasy
decyzyjnej D1
{11}
{11}
Dolne przyblienie klasy
decyzyjnej D2
{14}
{1,2,3,4,5,6,7,8,9,10,14}
Dolne przyblienie klasy
decyzyjnej D3
zbiór pusty
{15,16,17,18,19}
Górne przyblienie klasy
decyzyjnej D1
{1,2,3,4,5,6,7,8,9,10,11,12,13,15,16,17,18,19
}
{11,12,13}
Górne przyblienie klasy
{1,2,3,4,5,6,7,8,9,10,12,13,15,16,17,18,19}
{1,2,3,4,5,6,7,8,9,10,12,1
86
POLSKIE TOWARZYSTWO ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr2, 2004
decyzyjnej D2
3,14}
Górne przyblienie klasy
decyzyjnej D3
{1,2,3,4,5,6,7,8,9,10,15,16,17,18,19}
{15,16,17,18,19}
Brzeg klasy D1
{1,2,3,4,5,6,7,8,9,10,12,13,15,16,17,18,19}
{12,13}
Brzeg klasy D2
{1,2,3,4,5,6,7,8,9,10,12,13}
{12,13}
Brzeg klasy D3
{1,2,3,4,5,6,7,8,9,10,15,16,17,18,19}
zbiór pusty
Dokładno przyblienia
klasy decyzyjnej D1
0,06
0,33
Dokładno przyblienia
klasy decyzyjnej D2
0,08
0,85
Dokładno przyblienia
klasy decyzyjnej D3
0
1
Dokładno przyblienia
całego systemu
informacyjnego
0,04
0,81
Jako przyblienia
klasyfikacji
0,11
0,89
Porównanie dokładnoci klasyfikacji algorytmem LEM2 i LEM2 VPM dla przykładowej
tablicy informacyjnej (
ródło : opracowanie własne)
5. Podsumowanie
Teoria zbiorów przyblionych jest jedn z najszybciej rozwijajcych si dziedzin sztucznej
inteligencji. S one uogólnieniem klasycznej teorii zbiorów, bdcej podstaw nauk
matematycznych. W teorii zbiorów przyblionych nie zakłada si, e zbiór jest cile okrelony
przez swoje elementy. Przyjmuje si moliwo istnienia nieostrych granic zbiorów. Z tego
powodu zbiory przyblione stanowi solidn podstaw do budowania metod zdolnych do pracy z
danymi zawierajcymi szum i niekonsekwencje - nieodłczny atrybut "rzeczywistych" danych.
Bibliografia
1. Stefanowski J.: Dialogowe wspomaganie decyzji na podstawie wiedzy pozyskanej metod
zbiorów przyblionych. Rozprawa doktorska, Pozna 1994
2. Ziarko W.: Analysis of Uncertain Information in The Framework of Variable Precision Rough
Sets. Foundations of Computing and Decision Sciences. Vol 18, 1993
3. WWW: kpkm.mt.polsl.gliwice.pl
TOMASZ DUDEK
e-mail:[email protected]
Politechnika Szczeciska
Wydział Informatyki
Instytut Systemów Informatycznych, 70-210 Szczecin, ul. ołnierska 49

Podobne dokumenty