pobierz plik referatu

Transkrypt

pobierz plik referatu
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Rozdział 25
w
Zastosowanie metod eksploracji danych do badania
sprzedaży w przedsiębiorstwie produkcyjnym
w
da
.b
w
Streszczenie. W rozdziale przedstawiono przegląd zastosowań metod eksploracji danych (ang. data mining) do analizy baz danych sprzedaży. Następnie
opisano sposób przygotowania bazy danych sprzedaży do analiz. Analizy
objęły badanie czynników wpływających na wartość sprzedaży, predykcję
sprzedaży, znalezienie sposobu zwiększenia wartości sprzedaży, ocenę pracy
menadżerów sprzedaży, grupowanie klientów. Zastosowano następujące metody eksploracji danych: drzewa decyzyjne, reguły asocjacji, grupowanie,
analizę regresji.
1 Zastosowania eksploracji danych
pl
s.
Eksploracja danych (ang. data mining) to termin, który obejmuje szeroki zakres technik
używanych w różnych dziedzinach przemysłu. Zgodnie z definicją The Gartner Group [1]
jest to proces odkrywania nowych, znaczących związków, wzorców i trendów poprzez badanie dużych ilości zgromadzonych danych, zarówno przy użyciu technik wykrywania
wzorców jak i metod statystycznych i matematycznych. Techniki eksploracji można podzielić na trzy podstawowe grupy:
− analiza powiązań, obejmuje znajdowanie reguł asocjacji, odkrywanie wzorców sekwencji, podobnych sekwencji czasowych [3], [11],
− analiza skupień, polega na grupowaniu (ang. clustering) obiektów danych na podstawie zestawu cech określających stopień ich podobieństwa [3], [10], [14],
− klasyfikacja i predykcja, stosują takie narzędzia, jak drzewa decyzyjne, sieci neuronowe, regresja liniowa i nieliniowa, sieci Bayesa, polegają na przewidywaniu przyszłych zachowań na podstawie danych historycznych [3], [10], [11], [12], [14], [15],
[16], [19].
Odkrywanie reguł asocjacji polega na znajdowaniu związków pomiędzy występowaniem
grup atrybutów w bazie danych. Podstawę do oceny reguły stanowią trzy statystyki (zakładamy, że zależność ma postać A=>B): wsparcie (ang. support), czyli procent klientów, którzy zakupili zarówno produkt A i B, ufność (ang. confidence), tj. prawdopodobieństwo, że
klient zakupi produkt B, jeśli wiadomo, że posiada on już produkt A oraz współczynnik
podwyższenia (ang. lift), o który wzrasta prawdopodobieństwo zakupu produktu B, jeśli
wiadomo, że klient posiada produkt A, w porównaniu do sytuacji, gdy nie wiadomo, czy
klient ten produkt posiada. Znajdują one zastosowanie najczęściej do analizy koszyka zakuJustyna Kowalska, Bogdan Trawiński: Politechnika Wrocławska, Instytut Informatyki
Stosowanej, Wybrzeże Wyspiańskiego 27, 50-370 Wrocław, Polska
email: [email protected], [email protected]
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
J. Kowalska, B. Trawiński
w
pów, pozwalają podejmować decyzje dotyczące np. promocji i obniżek cen, reklam i akcji
marketingowych lub rozmieszczenia produktów [1], [5], [17].
Grupowanie znajduje zastosowanie do segmentacji i profilowania klientów, do właściwego adresowania kampanii marketingowych [1], [13], [17], [19], a także do identyfikacji
i grupowania produktów [3], [8], wykrywania odchyleń [4].
Drzewa decyzyjne pozwalają na eksplorację zbioru danych poprzez analizę wartości decydujących o powstaniu węzła i mogą służyć do klasyfikacji klientów lub wyrobów [1],
[5], [17]. Stosowane do predykcji, drzewa decyzyjne umożliwiają oszacowanie wartości
(lub przedziału wartości), jaką z dużym prawdopodobieństwem może przyjąć atrybut analizowanego obiektu [2], [8], [15]. Analiza regresji prowadzi do przewidywania wysokości
sprzedaży, cen, itp. [2], [4], a także do wykrywania odchyleń co pozwala na wykrywanie
oszustw [1].
w
2 Charakterystyka analizowanych danych sprzedaży
w
da
.b
Do badań użyto danych systemu sprzedaży rzeczywistego przedsiębiorstwa produkcyjnego,
które wytwarza produkty konsumpcyjne. Były to dane obejmujące faktury sprzedaży wyrobów za okres pierwszych dziewięciu miesięcy 2005 roku, a ponadto odbiorców i ich lokalizację oraz menedżerów sprzedaży. Odbiorcami wyrobów były hurtownie oraz duże centra
handlowe. Strukturę danych sprzedaży przedstawiono na rys. 1.
pl
s.
Rys. 1. Struktura danych sprzedaży badanego przedsiębiorstwa
Wyroby były opatrzone różnorodnymi atrybutami, takimi jak marka, rodzaj, kategoria,
model, funkcja, sposób użytkowania, wymiar, kolor, oferta itp. Przygotowanie danych
w pierwszej kolejności polegało na dokonaniu ich pełnej anonimizacji, poprzez zastąpienie
wszystkich nazw stosowanych w źródłowym systemie odpowiednimi kodami, np.
Wyrob_1705, GrupaProd_15, FunProd_19, Model_0439, Odbiorca_0920 itp. Strukturę danych o wyrobach przedstawiono na rys. 2. W dalszym ciągu, dane ze źródłowej, struktury
relacyjnej przekształcono do płaskiej struktury, zbudowanej wokół pozycji faktur, zawierających ilości, wartości oraz daty sprzedaży poszczególnych wyrobów. W strukturze tej
zawarto również wartości atrybutów wyrobów oraz atrybutów odbiorców. W czasie tego
etapu przygotowania odrzucono dane niespójne i posiadające zerową wartość sprzedaży.
Łącznie do badań klientów oraz sprzedaży użyto 63471 rekordów. Ze względu na charakter
produkcji oraz sposób prowadzenia bazy danych w badanym przedsiębiorstwie, nie wszystkie wyroby miały określone wartości wszystkich atrybutów. Stąd też wielokrotnie w czasie
analiz pojawiały się puste kategorie danych. Badania przeprowadzono za pomocą narzędzia
SAS Enterprise Miner [7].
242
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym
w
w
w
Rys. 2. Struktura danych o wyrobach badanego przedsiębiorstwa
da
.b
3 Analiza uzyskanych wyników
Analizy objęły badanie czynników wpływających na wartość sprzedaży, predykcję sprzedaży, znalezienie sposobu zwiększenia wartości sprzedaży, ocenę pracy menadżerów sprzedaży, grupowanie klientów. Zastosowano następujące metody eksploracji danych: drzewa decyzyjne, reguły asocjacji, grupowanie, analizę regresji.
3.1 Analiza czynników wpływających na wartość sprzedaży
pl
s.
Analizę czynników wpływających na wartość sprzedaży przeprowadzono za pomocą funkcji Tree w narzędziu SAS Enterprise Miner. Utworzone zostało drzewo decyzyjne, którego
fragment pokazano na rys. 3. Do utworzenia drzewa użyto algorytmu Variance reduction
(przeprowadzono także próby dla algorytmu F test i otrzymano bardzo zbliżone wyniki,
jednak w przypadku algorytmu Variance reduction dokładniej określone zostały grupy
odbiorców). Określono maksymalną liczbę gałęzi wychodzących z węzła na dwa (drzewo
binarne) i maksymalną głębokość drzewa na sześć poziomów. Podział nastąpił tu ze względu na grupy produktów i odbiorców. Widać tu przede wszystkim, że średnia wartość sprzedaży wyrobów z zbioru grup 0 jest bardzo niska (ok. 407 zł). Te wyroby mogą być dołączane w ramach sprzedaży wiązanej lub promocyjnej do wyrobów z grup sprzedających się
bardzo dobrze. Np. do produktów ze zbioru grup wyrobów 1 można dołączyć produkt
z grupy funkcjonalnej 0 i sprzedawać je razem w cenie promocyjnej. Drzewo może także
posłużyć do predykcji wielkości sprzedaży nowych produktów wprowadzanych na rynek.
Na przykład dla wyrobu należącego do zerowego zbioru grup produktów (Group:
GRUPAPRODKOD=0) i dla grup odbiorców 5, 7 lub 8 (Group:ODBIORCAKOD=5...)
średnia przewidywana wartość transakcji zakupu wynosi 543,59 zł.
243
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
J. Kowalska, B. Trawiński
N
Average
Group: GRUPAPRODKOD
0...
N
Average
25522
1282.224
w
Group:
GRUPAPRODKOD
1
0
N
Average
N
Average
4152
466.3995
w
2347
407.0341
0...
5...
N
Average
21370
1440.731
Group: ODBIORCAKOD
Group: ODBIORCAKOD
0...
N
Average
63471
3069.863
1805
543.591
N
Average
10…
21187
1433.356
N
Average
183
2294.675
w
Rys. 3. Badanie czynników wpływających na wartość sprzedaży za pomocą drzewa decyzyjnego
da
.b
Podobne drzewo zostało utworzone dla zmiennej celu ILOSC, która określa liczbę wyrobów zakupionych w pojedynczej transakcji. To badanie pozwoli przewidzieć średnią liczbę
produktów z pewnej grupy produktów kupowanych przez danego odbiorcę. Takie szacunki
mogą być pomocne przy planowaniu wielkości produkcji nowo wprowadzanego wyrobu
z danej grupy produktów. Analogiczne badania przeprowadzono dla różnych poziomów
kategoryzacji wyrobów, począwszy od marki produktu aż do szczegółowego wyróżnienia
modeli.
3.2 Predykcja sprzedaży za pomocą analizy regresji
pl
s.
Analiza regresji w odróżnieniu od drzew decyzyjnych pozwala przewidzieć zakres wartości
transakcji sprzedaży produktów z danej grupy, a nie tylko średnią ich wartość. Dokonuje
ona także predykcji spodziewanej liczby takich transakcji – im większe zagęszczenie punktów dla danej wartości tym większa liczba operacji zakupu (rys. 4).
Rys. 4. Przewidywanie wartości sprzedaży grup wyrobów za pomocą analizy regresji
244
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym
Analizując wykres regresji uzyskany przy użyciu funkcji Regression w narzędziu SAS
Enterprise Miner możemy określić m.in. grupy produktów, których przewidywana sprzedaż
jest bliska zeru. Na rys. 4 są to gp17, gp16 i gp12 i dla nich można podjąć adekwatne działania zapobiegawcze. Wyniki te posłużyły również do pojęcia próby znalezienia sposobu
zwiększenia sprzedaży wyrobów z gp13, którą opisano w następnym punkcie.
w
3.3 Użycie reguł asocjacji do zwiększenia sprzedaży
da
.b
w
w
Analiza wartości sprzedaży przedstawiona na rys. 5 wykazuje, że niektóre grupy produktów
sprzedawane są poza którąkolwiek z ofert sprzedaży (normalna, promocyjna, itp.) a ich
sprzedaż jest bardzo niska. Produkty z tych grup mogą być dołączone do produktów z grup
dobrze się sprzedających. To, do jakich grup można je dołączyć można określić za pomocą
reguł asocjacji. W tabeli 1 przedstawiono reguły asocjacji dla wyrobów z grupy gp13, które
mają niską sprzedaż, wyniki posortowano wg wartości współczynnika podwyższenia (ang.
lift).
pl
s.
Rys. 5. Analiza wartości sprzedaży grup produktów w zależności od oferty
Tabela 1. Reguły asocjacji pozwalające zwiększyć sprzedaż produktów z grupy gp13
Lp.
28
29
30
31
32
33
34
Liczność
3
3
2
3
3
3
3
Podwyższenie
1.63
1.63
1.63
1.63
1.62
1.62
1.6
Poparcie
(%)
27.89
16.56
16.56
30.07
9.37
6.97
9.37
Pewność
(%)
73.14
73.08
73.08
73.02
72.88
72.73
72.73
Liczba
transakcji
128.00
76.00
76.00
138.00
43.00
32.00
43.00
Reguła
gp15 & gp07 ==> gp13
gp16 & gp01 ==> gp13
gp16 ==>gp13
gp11 & gp07 ==> gp13
gp17 & gp05 ==> gp13
gp12 & gp05 ==>gp13
gp17 & gp01 ==> gp13
245
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
J. Kowalska, B. Trawiński
w
Przydatna jest reguła z numerem 31 (Tabela 1), która pokazuje, że sprzedaż można
zwiększyć dołączając produkty z gp13 do produktów z gp11 i gp07. Dzięki temu można
ponad 1,5-krotnie zwiększyć prawdopodobieństwo sprzedaży. Reguła ta ma 30-procentowe
wsparcie i występuje w dużej liczbie transakcji.
W tabeli 2 pokazano reguły jednoelementowe. Liczba transakcji jest tu mniejsza niż w
przypadku poprzednich reguł, ale reguła druga ma największą liczność (76) i najwyższe
wsparcie. Wskazuje ona, że produkty z grupy gp16 pozwolą zwiększyć ponad 1,5-krotnie
prawdopodobieństwo sprzedaży produktów z gp13.
Tabela 2. Dwuelementowe reguły asocjacji
Podwyższenie
w
Lp. Liczność
2
2
3
4
Pewność
(%)
Liczba
transakcji
Reguła
1.65
8.06
74.00
2
1.63
16.56
73.08
76.00 gp16 ==> gp13
2
1.60
9.37
71.67
43.00 gp17 ==>gp13
2
1.55
6.97
69.57
32.00 gp12 ==> gp13
w
1
Poparcie
(%)
37.00 gp14 ==> gp13
3.4 Analiza sprzedaży w układzie terytorialnym
da
.b
Zależność wartości sprzedaży w poszczególnych województwach od czasu pokazano na
rys. 6. Województwa o niskim poziomie sprzedaży odnotowują niewielkie zmiany wartości
sprzedaży w poszczególnych miesiącach. Jednak w przypadku dużych pod względem liczby ludności województw, np. w w07 wyraźny jest spadek sprzedaży w kwietniu i maju, po
którym następuje gwałtowny wzrost w lipcu i sierpniu. Wiedząc z wyprzedzeniem o mającym nastąpić spadku sprzedaży można przedsięwziąć odpowiednie działania zapobiegawcze, jak np. nasilona reklama przy użyciu mediów regionalnych, promocje w lokalnych sięciach i sklepach.
pl
s.
Rys. 6. Analiza zmian wartości sprzedaży w województwach
246
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym
3.5 Analiza wyników pracy menedżerów sprzedaży
Wyniki pracy menedżerów sprzedaży w poszczególnych województwach przedstawiono na
rys. 7. Menedżer KAM_4 osiągnął najgorsze wyniki w praktycznie wszystkich województwach. Można skierować jego wysiłki do współpracy z innymi, pomniejszymi klientami
sprzedającymi mniejsze ilości wyrobów, ale za to droższych co mogłoby wpłynąć na zwiększenie obrotu w transakcjach.
w
da
.b
w
w
Rys. 7. Analiza wartości sprzedaży w transakcjach dokonanych przez menedżerów sprzedaży
3.6 Badanie klientów za pomocą analizy skupień
pl
s.
W celu zróżnicowania klientów dokonano analizy skupień. Użyto funkcji Clustering dostępnej w narzędziu SAS Enterprise Miner. Do pogrupowania klientów wykorzystano algorytm K-means. Liczbę grup ustalono na 4. Przy takiej liczbie wyeliminowana została większość grup, których zawartość w dużej części się pokrywała. Rezultaty grupowania przedstawiono na rys. 8. Wykres kołowy po lewej stronie przedstawia charakterystykę grup:
natężenie koloru obrazuje maksymalną odległość rekordów od centrum grupy, wysokość
wycinka jest proporcjonalna do liczby rekordów w danej grupie, powierzchnia wycinka
odpowiada wartości odchylenia standardowego. Zestawienie wyświetlane po prawej stronie
rysunku charakteryzuje rekordy zawarte w grupie nr 1. Jaśniejszy kwadrat pokazuje średnią
znormalizowaną wartość zmiennej w całym badanym zbiorze danych, natomiast kwadrat
ciemniejszy przedstawia znormalizowaną średnią wartość zmiennej w badanej grupie.
W wyniku działania algorytmu wyróżniono cztery grupy klientów:
− klienci, którzy kupują duże ilości wyrobów o niskiej cenie i średniej marży (procent
marży oznacza upust jaki klient otrzymuje przy danej transakcji, są to wartości
ujemne, więc im mniejsza wartość marży tym większy upust). Ta grupa obejmuje
dużą liczbę transakcji. Klienci, którzy się w niej znajdują generują wysokie zyski,
pomimo że nie dokonują zakupów najdroższego sprzętu (grupa 1);
247
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
J. Kowalska, B. Trawiński
w
− odbiorcy, którzy kupują minimalną liczbę produktów o wysokiej cenie i średniej
marży. Sprzedaż najdroższych wyrobów jest bardzo korzystna dla przedsiębiorstwa,
jednak zdecydowanie należałoby zwiększyć liczbę sprzedawanych produktów z tej
grupy, np. poprzez sprzedaż promocyjną polegającą na dołączaniu niedrogich
wyrobów bez zmiany ceny podstawowej (grupa 2);
− klienci kupujący bardzo małą liczbę produktów o niewysokiej cenie i niskim upuście.
Liczba transakcji jest tu nieduża, jest to więc grupa klientów przynosząca bardzo
małe zyski. W ich przypadku konieczne jest nasilenie działań zmierzających do
zwiększenia wartości dokonywanych zakupów, np. po zbadaniu, które grupy
produktów są najczęściej zakupywane przez tych klientów można im zaoferować
atrakcyjne promocje tych wyrobów (grupa 3);
− klienci, którzy kupują małą liczbę wyrobów o średniej cenie i niskiej marży.
Działania wobec tych klientów powinny być podobne do działań podjętych wobec
klientów z grupy 3 (grupa 4).
da
.b
w
w
4 Podsumowanie
pl
s.
Rys. 8.. Wyniki analizy skupień klientów
W rozdziale przedstawiono wstępne wyniki badań danych z systemu sprzedaży przedsiębiorstwa produkcyjnego, dostarczającego wyroby konsumpcyjne. Osiągnięte rezultaty potwierdzają przydatność zastosowanych metod eksploracji danych. Pozwalają one na sformułowanie wniosków dotyczących poprawy organizacji procesu sprzedaży. Uzyskane wyniki zostaną zweryfikowane przy współpracy ze specjalistami z działu marketingu badanego przedsiębiorstwa. Przewiduje się przeprowadzenie dalszej serii szczegółowych analiz
w ramach poszczególnych modeli oraz grup wyrobów i klientów.
248
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym
Literatura
1.
2.
3.
w
Bauer K.: The power of metrics: Predictive analytics - addressing the business vicissitudes, DM
Review Magazine, January 2006
Bauer K.: The power of metrics: Predictive analytics: Data mining with a twist, DMReview
Magazine, December 2005
Berry M., Linoff G.: Data mining techniques for marketing, sales and customer relationship
management, Wiley Publishing 2004
Berson A., Smith S., Thearling K.: Building data mining applications for CRM, Mc-Graw-Hill
Professional 1999
Blundon W.: Predicting success: using analytics to drive more profitable customer interactions,
DM Direct Newsletter, December 2003
Brand E., Gerritsen R.: Decision trees, DBMS Magazine, February 1998
Data Mining Using SAS Enterprise Miner: A Case Study Approach, Second Edition. SAS
Institute Inc. 2003
Edelstein H.: Mining large databases, Two Crows Corporation
The Gartner Group, www.gartner.com
Han J., Kamber M.: Data mining: concepts and techniques, Morgan Kaufmann Publishers 2000
Hand D., Mannila H., Smith P.: Eksploracja danych, Wydawnictwo Naukowo-Techniczne 2005
Larose D.T.: Discovering knowledge in data. An introduction to data mining, John Wiley &
Sons 2005
Lasek M.: Data mining. Zastosowania w analizach i ocenach klientów bankowych, Oficyna
Wydawnicza „Zarządzanie i Finanse”, Warszawa 2002
Nong Ye (ed.): The handbook of data mining, Lawrence Erlbaum Associates 2003
Pankowski T.: Drzewa decyzyjne, www.put.poznan.pl/~pankowsk
Parr Rud O.: Data mining cookbook. Modeling data for Marketing, Risk and Customer
Relationship Management, John Wiley & Sons 2001
Shearer C.: Anticipating consumer behavior with analytics, CRM Today 2004
Sokołowski A: Metody stosowane w data mining, zeszyt: „Data mining – metody i przykłady”,
Seminarium StatSoft, Warszawa 2002
StatConsulting, www.statconsulting.com.pl
4.
5.
8.
9.
10.
11.
12.
13.
17.
18.
19.
da
.b
14.
15.
16.
w
w
6.
7.
pl
s.
249
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006
w
da
.b
w
w
pl
s.
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006