Rozdział I Zastosowanie metod eksploracji danych do badania

Transkrypt

Rozdział I Zastosowanie metod eksploracji danych do badania
Rozdział I
Zastosowanie metod eksploracji danych do badania
sprzedaży w przedsiębiorstwie produkcyjnym
Streszczenie. W rozdziale przedstawiono przegląd zastosowań metod
eksploracji danych (ang. data mining) do analizy baz danych sprzedaży.
Następnie opisano sposób przygotowania bazy danych sprzedaży do analiz.
Analizy objęły badanie czynników wpływających na wartość sprzedaży,
predykcję sprzedaży, znalezienie sposobu zwiększenia wartości sprzedaży,
ocenę pracy menadżerów sprzedaży, grupowanie klientów. Zastosowano
następujące metody eksploracji danych: drzewa decyzyjne, reguły asocjacji,
grupowanie, analizę regresji.
1 Zastosowania eksploracji danych
Eksploracja danych (ang. data mining) to termin, który obejmuje szeroki zakres technik
używanych w różnych dziedzinach przemysłu. Zgodnie z definicją The Gartner Group [1]
jest to proces odkrywania nowych, znaczących związków, wzorców i trendów poprzez
badanie dużych ilości zgromadzonych danych, zarówno przy użyciu technik wykrywania
wzorców jak i metod statystycznych i matematycznych. Techniki eksploracji można
podzielić na trzy podstawowe grupy:
• analiza powiązań, obejmuje znajdowanie reguł asocjacji, odkrywanie wzorców
sekwencji, podobnych sekwencji czasowych [3], [11],
• analiza skupień, polega na grupowaniu (ang. clustering) obiektów danych na
podstawie zestawu cech określających stopień ich podobieństwa [3], [10], [14],
• klasyfikacja i predykcja, stosują takie narzędzia, jak drzewa decyzyjne, sieci
neuronowe, regresja liniowa i nieliniowa, sieci Bayesa, polegają na
przewidywaniu przyszłych zachowań na podstawie danych historycznych [3],
[10], [11], [12], [14], [15], [16], [19].
Odkrywanie reguł asocjacji polega na znajdowaniu związków pomiędzy występowaniem
grup atrybutów w bazie danych. Podstawę do oceny reguły stanowią trzy statystyki
(zakładamy, że zależność ma postać A=>B): wsparcie (ang. support), czyli procent
klientów, którzy zakupili zarówno produkt A i B, ufność (ang. confidence), tj.
prawdopodobieństwo, że klient zakupi produkt B, jeśli wiadomo, że posiada on już produkt
A oraz współczynnik podwyższenia (ang. lift), o który wzrasta prawdopodobieństwo
zakupu produktu B, jeśli wiadomo, że klient posiada produkt A, w porównaniu do sytuacji,
gdy nie wiadomo, czy klient ten produkt posiada. Znajdują one zastosowanie najczęściej do
Justyna Kowalska, Bogdan Trawiński: Politechnika Wrocławska, Instytut Informatyki
Stosowanej, Wybrzeże Wyspiańskiego 27, 50-370 Wrocław, Polska
email: [email protected], [email protected]
J. Kowalska, B. Trawiński
analizy koszyka zakupów, pozwalają podejmować decyzje dotyczące np. promocji i
obniżek cen, reklam i akcji marketingowych lub rozmieszczenia produktów [1], [5], [17].
Grupowanie znajduje zastosowanie do segmentacji i profilowania klientów, do
właściwego adresowania kampanii marketingowych [1], [13], [17], [19], a także do
identyfikacji i grupowania produktów [3], [8], wykrywania odchyleń [4].
Drzewa decyzyjne pozwalają na eksplorację zbioru danych poprzez analizę wartości
decydujących o powstaniu węzła i mogą służyć do klasyfikacji klientów lub wyrobów [1],
[5], [17]. Stosowane do predykcji, drzewa decyzyjne umożliwiają oszacowanie wartości
(lub przedziału wartości), jaką z dużym prawdopodobieństwem może przyjąć atrybut
analizowanego obiektu [2], [8], [15]. Analiza regresji prowadzi do przewidywania
wysokości sprzedaży, cen, itp. [2], [4], a także do wykrywania odchyleń co pozwala na
wykrywanie oszustw [1].
2 Charakterystyka analizowanych danych sprzedaży
Do badań użyto danych systemu sprzedaży rzeczywistego przedsiębiorstwa produkcyjnego,
które wytwarza produkty konsumpcyjne. Były to dane obejmujące faktury sprzedaży
wyrobów za okres pierwszych dziewięciu miesięcy 2005 roku, a ponadto odbiorców i ich
lokalizację oraz menedżerów sprzedaży. Odbiorcami wyrobów były hurtownie oraz duże
centra handlowe. Strukturę danych sprzedaży przedstawiono na rys. 1.
Rys. 1. Struktura danych sprzedaży badanego przedsiębiorstwa
Wyroby były opatrzone różnorodnymi atrybutami, takimi jak marka, rodzaj, kategoria,
model, funkcja, sposób użytkowania, wymiar, kolor, oferta itp. Przygotowanie danych w
pierwszej kolejności polegało na dokonaniu ich pełnej anonimizacji, poprzez zastąpienie
wszystkich nazw stosowanych w źródłowym systemie odpowiednimi kodami, np.
Wyrob_1705, GrupaProd_15, FunProd_19, Model_0439, Odbiorca_0920 itp. Strukturę
danych o wyrobach przedstawiono na rys. 2. W dalszym ciągu, dane ze źródłowej,
struktury relacyjnej przekształcono do płaskiej struktury, zbudowanej wokół pozycji faktur,
zawierających ilości, wartości oraz daty sprzedaży poszczególnych wyrobów. W strukturze
tej zawarto również wartości atrybutów wyrobów oraz atrybutów odbiorców. W czasie tego
etapu przygotowania odrzucono dane niespójne i posiadające zerową wartość sprzedaży.
Łącznie do badań klientów oraz sprzedaży użyto 63471 rekordów. Ze względu na charakter
produkcji oraz sposób prowadzenia bazy danych w badanym przedsiębiorstwie, nie
wszystkie wyroby miały określone wartości wszystkich atrybutów. Stąd też wielokrotnie w
czasie analiz pojawiały się puste kategorie danych. Badania przeprowadzono za pomocą
narzędzia SAS Enterprise Miner [7].
2
Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym
Rys. 2. Struktura danych o wyrobach badanego przedsiębiorstwa
3 Analiza uzyskanych wyników
Analizy objęły badanie czynników wpływających na wartość sprzedaży, predykcję
sprzedaży, znalezienie sposobu zwiększenia wartości sprzedaży, ocenę pracy menadżerów
sprzedaży, grupowanie klientów. Zastosowano następujące metody eksploracji danych:
drzewa decyzyjne, reguły asocjacji, grupowanie, analizę regresji.
3.1 Analiza czynników wpływających na wartość sprzedaży
Analizę czynników wpływających na wartość sprzedaży przeprowadzono za pomocą
funkcji Tree w narzędziu SAS Enterprise Miner. Utworzone zostało drzewo decyzyjne,
którego fragment pokazano na rys. 3. Do utworzenia drzewa użyto algorytmu Variance
reduction (przeprowadzono także próby dla algorytmu F test i otrzymano bardzo zbliżone
wyniki, jednak w przypadku algorytmu Variance reduction dokładniej określone zostały
grupy odbiorców). Określono maksymalną liczbę gałęzi wychodzących z węzła na dwa
(drzewo binarne) i maksymalną głębokość drzewa na sześć poziomów. Podział nastąpił tu
ze względu na grupy produktów i odbiorców. Widać tu przede wszystkim, że średnia
wartość sprzedaży wyrobów z zbioru grup 0 jest bardzo niska (ok. 407 zł). Te wyroby
mogą być dołączane w ramach sprzedaży wiązanej lub promocyjnej do wyrobów z grup
sprzedających się bardzo dobrze. Np. do produktów ze zbioru grup wyrobów 1 można
dołączyć produkt z grupy funkcjonalnej 0 i sprzedawać je razem w cenie promocyjnej.
Drzewo może także posłużyć do predykcji wielkości sprzedaży nowych produktów
wprowadzanych na rynek. Na przykład dla wyrobu należącego do zerowego zbioru grup
produktów (Group:GRUPAPRODKOD=0) i dla grup odbiorców 5, 7 lub 8
(Group:ODBIORCAKOD=5...) średnia przewidywana wartość transakcji zakupu wynosi
543,59 zł.
3
J. Kowalska, B. Trawiński
N
Average
Group: GRUPAPRODKOD
0...
N
Average
63471
3069.863
25522
1282.224
Group:
GRUPAPRODKOD
1
0
N
Average
4152
466.3995
N
Average
Group: ODBIORCAKOD
0...
N
Average
Group: ODBIORCAKOD
0...
5...
2347
407.0341
N
Average
21370
1440.731
1805
543.591
N
Average
10…
21187
1433.356
N
Average
183
2294.675
Rys. 3. Badanie czynników wpływających na wartość sprzedaży za pomocą drzewa
decyzyjnego
Podobne drzewo zostało utworzone dla zmiennej celu ILOSC, która określa liczbę
wyrobów zakupionych w pojedynczej transakcji. To badanie pozwoli przewidzieć średnią
liczbę produktów z pewnej grupy produktów kupowanych przez danego odbiorcę. Takie
szacunki mogą być pomocne przy planowaniu wielkości produkcji nowo wprowadzanego
wyrobu z danej grupy produktów. Analogiczne badania przeprowadzono dla różnych
poziomów kategoryzacji wyrobów, począwszy od marki produktu aż do szczegółowego
wyróżnienia modeli.
3.2 Predykcja sprzedaży za pomocą analizy regresji
Analiza regresji w odróżnieniu od drzew decyzyjnych pozwala przewidzieć zakres wartości
transakcji sprzedaży produktów z danej grupy, a nie tylko średnią ich wartość. Dokonuje
ona także predykcji spodziewanej liczby takich transakcji – im większe zagęszczenie
punktów dla danej wartości tym większa liczba operacji zakupu (Rys. 4).
Rys. 4. Przewidywanie wartości sprzedaży grup wyrobów za pomocą analizy regresji
4
Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym
Analizując wykres regresji uzyskany przy użyciu funkcji Regression w narzędziu SAS
Enterprise Miner możemy określić m.in. grupy produktów, których przewidywana sprzedaż
jest bliska zeru. Na rys. 4 są to gp17, gp16 i gp12 i dla nich można podjąć adekwatne
działania zapobiegawcze. Wyniki te posłużyły również do pojęcia próby znalezienia
sposobu zwiększenia sprzedaży wyrobów z gr13, którą opisano w następnym punkcie.
3.3 Użycie reguł asocjacji do zwiększenia sprzedaży
Analiza wartości sprzedaży przedstawiona na rys. 5 wykazuje, że niektóre grupy
produktów sprzedawane są poza którąkolwiek z ofert sprzedaży (normalna, promocyjna,
itp.) a ich sprzedaż jest bardzo niska. Produkty z tych grup mogą być dołączone do
produktów z grup dobrze się sprzedających. To, do jakich grup można je dołączyć można
określić za pomocą reguł asocjacji. W tabeli 1 przedstawiono reguły asocjacji dla wyrobów
z grupy gp13, które mają niską sprzedaż, wyniki posortowano wg wartości współczynnika
podwyższenia (ang. lift).
Rys. 5. Analiza wartości sprzedaży grup produktów w zależności od oferty
Tabela 1. Reguły asocjacji pozwalające zwiększyć sprzedaż produktów z grupy gp13
Lp.
28
29
30
31
32
33
34
Liczność
3
3
2
3
3
3
3
Podwyższenie
1.63
1.63
1.63
1.63
1.62
1.62
1.6
Poparcie
(%)
27.89
16.56
16.56
30.07
9.37
6.97
9.37
Pewność
Liczba
(%)
transakcji Reguła
73.14
128.00 gp15 & gp07 ==> gp13
73.08
76.00 gp16 & gp01 ==> gp13
73.08
76.00 gp16 ==>gp13
73.02
138.00 gp11 & gp07 ==> gp13
72.88
43.00 gp17 & gp05 ==> gp13
72.73
32.00 gp12 & gp05 ==>gp13
72.73
43.00 gp17 & gp01 ==> gp13
5
J. Kowalska, B. Trawiński
Przydatna jest reguła z numerem 31 (Tabela 1), która pokazuje, że sprzedaż można
zwiększyć dołączając produkty z gp13 do produktów z gp11 i gp07. Dzięki temu można
ponad 1,5-krotnie zwiększyć prawdopodobieństwo sprzedaży. Reguła ta ma 30-procentowe
wsparcie i występuje w dużej liczbie transakcji.
W tabeli 2 pokazano reguły jednoelementowe. Liczba transakcji jest tu mniejsza niż w
przypadku poprzednich reguł, ale reguła druga ma największą liczność (76) i najwyższe
wsparcie. Wskazuje ona, że produkty z grupy gp16 pozwolą zwiększyć ponad 1,5-krotnie
prawdopodobieństwo sprzedaży produktów z gp13.
Tabela 2. Dwuelementowe reguły asocjacji
Lp. Liczność
Podwyższenie
Poparcie
(%)
Pewność
(%)
Liczba
transakcji Reguła
1
2
1.65
8.06
74.00
37.00 gp14 ==> gp13
2
2
1.63
16.56
73.08
76.00 gp16 ==> gp13
3
2
1.60
9.37
71.67
43.00 gp17 ==>gp13
4
2
1.55
6.97
69.57
32.00 gp12 ==> gp13
3.4 Analiza sprzedaży w układzie terytorialnym
Zależność wartości sprzedaży w poszczególnych województwach od czasu pokazano na
rys. 6. Województwa o niskim poziomie sprzedaży odnotowują niewielkie zmiany wartości
sprzedaży w poszczególnych miesiącach. Jednak w przypadku dużych pod względem
liczby ludności województw, np. w w07 wyraźny jest spadek sprzedaży w kwietniu i maju,
po którym następuje gwałtowny wzrost w lipcu i sierpniu. Wiedząc z wyprzedzeniem
o mającym nastąpić spadku sprzedaży można przedsięwziąć odpowiednie działania
zapobiegawcze, jak np. nasilona reklama przy użyciu mediów regionalnych, promocje w
lokalnych sieciach i sklepach.
Rys. 6. Analiza zmian wartości sprzedaży w województwach
6
Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym
3.5 Analiza wyników pracy menedżerów sprzedaży
Wyniki pracy menedżerów sprzedaży w poszczególnych województwach przedstawiono na
rys. 7. Menedżer KAM_4 osiągnął najgorsze wyniki w praktycznie wszystkich
województwach. Można skierować jego wysiłki do współpracy z innymi, pomniejszymi
klientami sprzedającymi mniejsze ilości wyrobów, ale za to droższych co mogłoby wpłynąć
na zwiększenie obrotu w transakcjach.
Rys. 7. Analiza wartości sprzedaży w transakcjach dokonanych przez menedżerów
sprzedaży
3.6 Badanie klientów za pomocą analizy skupień
W celu zróżnicowania klientów dokonano analizy skupień. Użyto funkcji Clustering
dostępnej w narzędziu SAS Enterprise Miner. Do pogrupowania klientów wykorzystano
algorytm K-means. Liczbę grup ustalono na 4. Przy takiej liczbie wyeliminowana została
większość grup, których zawartość w dużej części się pokrywała. Rezultaty grupowania
przedstawiono na rys. 8. Wykres kołowy po lewej stronie przedstawia charakterystykę
grup: natężenie koloru obrazuje maksymalną odległość rekordów od centrum grupy,
wysokość wycinka jest proporcjonalna do liczby rekordów w danej grupie, powierzchnia
wycinka odpowiada wartości odchylenia standardowego. Zestawienie wyświetlane po
prawej stronie rysunku charakteryzuje rekordy zawarte w grupie nr 1. Jaśniejszy kwadrat
pokazuje średnią znormalizowaną wartość zmiennej w całym badanym zbiorze danych,
natomiast kwadrat ciemniejszy przedstawia znormalizowaną średnią wartość zmiennej w
badanej grupie. W wyniku działania algorytmu wyróżniono cztery grupy klientów:
• klienci, którzy kupują duże ilości wyrobów o niskiej cenie i średniej marży
(procent marży oznacza upust jaki klient otrzymuje przy danej transakcji, są to
wartości ujemne, więc im mniejsza wartość marży tym większy upust). Ta grupa
obejmuje dużą liczbę transakcji. Klienci, którzy się w niej znajdują generują
wysokie zyski, pomimo że nie dokonują zakupów najdroższego sprzętu (grupa 1).
7
J. Kowalska, B. Trawiński
•
•
•
odbiorcy, którzy kupują minimalną liczbę produktów o wysokiej cenie i średniej
marży. Sprzedaż najdroższych wyrobów jest bardzo korzystna dla
przedsiębiorstwa, jednak zdecydowanie należałoby zwiększyć liczbę
sprzedawanych produktów z tej grupy, np. poprzez sprzedaż promocyjną
polegającą na dołączaniu niedrogich wyrobów bez zmiany ceny podstawowej
(grupa 2).
klienci kupujący bardzo małą liczbę produktów o niewysokiej cenie i niskim
upuście. Liczba transakcji jest tu nieduża, jest to więc grupa klientów przynosząca
bardzo małe zyski. W ich przypadku konieczne jest nasilenie działań
zmierzających do zwiększenia wartości dokonywanych zakupów, np. po zbadaniu,
które grupy produktów są najczęściej zakupywane przez tych klientów można im
zaoferować atrakcyjne promocje tych wyrobów (grupa 3).
klienci, którzy kupują małą liczbę wyrobów o średniej cenie i niskiej marży.
Działania wobec tych klientów powinny być podobne do działań podjętych wobec
klientów z grupy 3 (grupa 4).
Rys. 8.. Wyniki analizy skupień klientów
4 Podsumowanie
W rozdziale przedstawiono wstępne wyniki badań danych z systemu sprzedaży
przedsiębiorstwa produkcyjnego, dostarczającego wyroby konsumpcyjne. Osiągnięte
rezultaty potwierdzają przydatność zastosowanych metod eksploracji danych. Pozwalają
one na sformułowanie wniosków dotyczących poprawy organizacji procesu sprzedaży.
Uzyskane wyniki zostaną zweryfikowane przy współpracy ze specjalistami z działu
marketingu badanego przedsiębiorstwa. Przewiduje się przeprowadzenie dalszej serii
szczegółowych analiz w ramach poszczególnych modeli oraz grup wyrobów i klientów.
8
Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym
Literatura
1.
Bauer K.: The power of metrics: Predictive analytics - addressing the business vicissitudes, DM
Review Magazine, January 2006
2. Bauer K.: The power of metrics: Predictive analytics: Data mining with a twist, DMReview
Magazine, December 2005
3. Berry M., Linoff G.: Data mining techniques for marketing, sales and customer relationship
management, Wiley Publishing 2004
4. Berson A., Smith S., Thearling K.: Building data mining applications for CRM, Mc-Graw-Hill
Professional 1999
5. Blundon W.: Predicting success: using analytics to drive more profitable customer interactions,
DM Direct Newsletter, December 2003
6. Brand E., Gerritsen R.: Decision trees, DBMS Magazine, February 1998
7. Data Mining Using SAS Enterprise Miner: A Case Study Approach, Second Edition. SAS
Institute Inc. 2003
8. Edelstein H.: Mining large databases, Two Crows Corporation
9. The Gartner Group, www.gartner.com
10. Han J., Kamber M.: Data mining: concepts and techniques, Morgan Kaufmann Publishers 2000
11. Hand D., Mannila H., Smith P.: Eksploracja danych, Wydawnictwo Naukowo-Techniczne 2005
12. Larose D.T.: Discovering knowledge in data. An introduction to data mining, John
Wiley & Sons 2005
13. Lasek M.: Data mining. Zastosowania w analizach i ocenach klientów bankowych,
Oficyna Wydawnicza „Zarządzanie i Finanse”, Warszawa 2002
14. Nong Ye (ed.): The handbook of data mining, Lawrence Erlbaum Associates 2003
15. Pankowski T.: Drzewa decyzyjne, www.put.poznan.pl/~pankowsk
16. Parr Rud O.: Data mining cookbook. Modeling data for Marketing, Risk and Customer
Relationship Management, John Wiley & Sons 2001
17. Shearer C.: Anticipating consumer behavior with analytics, CRM Today 2004
18. Sokołowski A: Metody stosowane w data mining, zeszyt: „Data mining – metody i przykłady”,
Seminarium StatSoft, Warszawa 2002
19. StatConsulting, www.statconsulting.com.pl
Paper title: Use of data mining methods for the analysis of sale data in a manufacturing
enterprise
Abstract. A review of the use of data mining methods for the analysis of sale
data has been presented. The method of data preparation for the analysis has
been described. The analysis comprised the investigation of factors
influencing sale value, sale prediction, ways of sale increasing, assessment of
sale managers’ work, client clustering, etc. Following data mining methods:
decision trees, association rules, clustering and regression analysis have been
used in the investigation.
Słowa kluczowe: Eksploracja danych, przedsiębiorstwo produkcyjne, analiza
sprzedaży, wyroby konsumpcyjne.
9