Rozdział I Zastosowanie metod eksploracji danych do badania
Transkrypt
Rozdział I Zastosowanie metod eksploracji danych do badania
Rozdział I Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym Streszczenie. W rozdziale przedstawiono przegląd zastosowań metod eksploracji danych (ang. data mining) do analizy baz danych sprzedaży. Następnie opisano sposób przygotowania bazy danych sprzedaży do analiz. Analizy objęły badanie czynników wpływających na wartość sprzedaży, predykcję sprzedaży, znalezienie sposobu zwiększenia wartości sprzedaży, ocenę pracy menadżerów sprzedaży, grupowanie klientów. Zastosowano następujące metody eksploracji danych: drzewa decyzyjne, reguły asocjacji, grupowanie, analizę regresji. 1 Zastosowania eksploracji danych Eksploracja danych (ang. data mining) to termin, który obejmuje szeroki zakres technik używanych w różnych dziedzinach przemysłu. Zgodnie z definicją The Gartner Group [1] jest to proces odkrywania nowych, znaczących związków, wzorców i trendów poprzez badanie dużych ilości zgromadzonych danych, zarówno przy użyciu technik wykrywania wzorców jak i metod statystycznych i matematycznych. Techniki eksploracji można podzielić na trzy podstawowe grupy: • analiza powiązań, obejmuje znajdowanie reguł asocjacji, odkrywanie wzorców sekwencji, podobnych sekwencji czasowych [3], [11], • analiza skupień, polega na grupowaniu (ang. clustering) obiektów danych na podstawie zestawu cech określających stopień ich podobieństwa [3], [10], [14], • klasyfikacja i predykcja, stosują takie narzędzia, jak drzewa decyzyjne, sieci neuronowe, regresja liniowa i nieliniowa, sieci Bayesa, polegają na przewidywaniu przyszłych zachowań na podstawie danych historycznych [3], [10], [11], [12], [14], [15], [16], [19]. Odkrywanie reguł asocjacji polega na znajdowaniu związków pomiędzy występowaniem grup atrybutów w bazie danych. Podstawę do oceny reguły stanowią trzy statystyki (zakładamy, że zależność ma postać A=>B): wsparcie (ang. support), czyli procent klientów, którzy zakupili zarówno produkt A i B, ufność (ang. confidence), tj. prawdopodobieństwo, że klient zakupi produkt B, jeśli wiadomo, że posiada on już produkt A oraz współczynnik podwyższenia (ang. lift), o który wzrasta prawdopodobieństwo zakupu produktu B, jeśli wiadomo, że klient posiada produkt A, w porównaniu do sytuacji, gdy nie wiadomo, czy klient ten produkt posiada. Znajdują one zastosowanie najczęściej do Justyna Kowalska, Bogdan Trawiński: Politechnika Wrocławska, Instytut Informatyki Stosowanej, Wybrzeże Wyspiańskiego 27, 50-370 Wrocław, Polska email: [email protected], [email protected] J. Kowalska, B. Trawiński analizy koszyka zakupów, pozwalają podejmować decyzje dotyczące np. promocji i obniżek cen, reklam i akcji marketingowych lub rozmieszczenia produktów [1], [5], [17]. Grupowanie znajduje zastosowanie do segmentacji i profilowania klientów, do właściwego adresowania kampanii marketingowych [1], [13], [17], [19], a także do identyfikacji i grupowania produktów [3], [8], wykrywania odchyleń [4]. Drzewa decyzyjne pozwalają na eksplorację zbioru danych poprzez analizę wartości decydujących o powstaniu węzła i mogą służyć do klasyfikacji klientów lub wyrobów [1], [5], [17]. Stosowane do predykcji, drzewa decyzyjne umożliwiają oszacowanie wartości (lub przedziału wartości), jaką z dużym prawdopodobieństwem może przyjąć atrybut analizowanego obiektu [2], [8], [15]. Analiza regresji prowadzi do przewidywania wysokości sprzedaży, cen, itp. [2], [4], a także do wykrywania odchyleń co pozwala na wykrywanie oszustw [1]. 2 Charakterystyka analizowanych danych sprzedaży Do badań użyto danych systemu sprzedaży rzeczywistego przedsiębiorstwa produkcyjnego, które wytwarza produkty konsumpcyjne. Były to dane obejmujące faktury sprzedaży wyrobów za okres pierwszych dziewięciu miesięcy 2005 roku, a ponadto odbiorców i ich lokalizację oraz menedżerów sprzedaży. Odbiorcami wyrobów były hurtownie oraz duże centra handlowe. Strukturę danych sprzedaży przedstawiono na rys. 1. Rys. 1. Struktura danych sprzedaży badanego przedsiębiorstwa Wyroby były opatrzone różnorodnymi atrybutami, takimi jak marka, rodzaj, kategoria, model, funkcja, sposób użytkowania, wymiar, kolor, oferta itp. Przygotowanie danych w pierwszej kolejności polegało na dokonaniu ich pełnej anonimizacji, poprzez zastąpienie wszystkich nazw stosowanych w źródłowym systemie odpowiednimi kodami, np. Wyrob_1705, GrupaProd_15, FunProd_19, Model_0439, Odbiorca_0920 itp. Strukturę danych o wyrobach przedstawiono na rys. 2. W dalszym ciągu, dane ze źródłowej, struktury relacyjnej przekształcono do płaskiej struktury, zbudowanej wokół pozycji faktur, zawierających ilości, wartości oraz daty sprzedaży poszczególnych wyrobów. W strukturze tej zawarto również wartości atrybutów wyrobów oraz atrybutów odbiorców. W czasie tego etapu przygotowania odrzucono dane niespójne i posiadające zerową wartość sprzedaży. Łącznie do badań klientów oraz sprzedaży użyto 63471 rekordów. Ze względu na charakter produkcji oraz sposób prowadzenia bazy danych w badanym przedsiębiorstwie, nie wszystkie wyroby miały określone wartości wszystkich atrybutów. Stąd też wielokrotnie w czasie analiz pojawiały się puste kategorie danych. Badania przeprowadzono za pomocą narzędzia SAS Enterprise Miner [7]. 2 Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym Rys. 2. Struktura danych o wyrobach badanego przedsiębiorstwa 3 Analiza uzyskanych wyników Analizy objęły badanie czynników wpływających na wartość sprzedaży, predykcję sprzedaży, znalezienie sposobu zwiększenia wartości sprzedaży, ocenę pracy menadżerów sprzedaży, grupowanie klientów. Zastosowano następujące metody eksploracji danych: drzewa decyzyjne, reguły asocjacji, grupowanie, analizę regresji. 3.1 Analiza czynników wpływających na wartość sprzedaży Analizę czynników wpływających na wartość sprzedaży przeprowadzono za pomocą funkcji Tree w narzędziu SAS Enterprise Miner. Utworzone zostało drzewo decyzyjne, którego fragment pokazano na rys. 3. Do utworzenia drzewa użyto algorytmu Variance reduction (przeprowadzono także próby dla algorytmu F test i otrzymano bardzo zbliżone wyniki, jednak w przypadku algorytmu Variance reduction dokładniej określone zostały grupy odbiorców). Określono maksymalną liczbę gałęzi wychodzących z węzła na dwa (drzewo binarne) i maksymalną głębokość drzewa na sześć poziomów. Podział nastąpił tu ze względu na grupy produktów i odbiorców. Widać tu przede wszystkim, że średnia wartość sprzedaży wyrobów z zbioru grup 0 jest bardzo niska (ok. 407 zł). Te wyroby mogą być dołączane w ramach sprzedaży wiązanej lub promocyjnej do wyrobów z grup sprzedających się bardzo dobrze. Np. do produktów ze zbioru grup wyrobów 1 można dołączyć produkt z grupy funkcjonalnej 0 i sprzedawać je razem w cenie promocyjnej. Drzewo może także posłużyć do predykcji wielkości sprzedaży nowych produktów wprowadzanych na rynek. Na przykład dla wyrobu należącego do zerowego zbioru grup produktów (Group:GRUPAPRODKOD=0) i dla grup odbiorców 5, 7 lub 8 (Group:ODBIORCAKOD=5...) średnia przewidywana wartość transakcji zakupu wynosi 543,59 zł. 3 J. Kowalska, B. Trawiński N Average Group: GRUPAPRODKOD 0... N Average 63471 3069.863 25522 1282.224 Group: GRUPAPRODKOD 1 0 N Average 4152 466.3995 N Average Group: ODBIORCAKOD 0... N Average Group: ODBIORCAKOD 0... 5... 2347 407.0341 N Average 21370 1440.731 1805 543.591 N Average 10… 21187 1433.356 N Average 183 2294.675 Rys. 3. Badanie czynników wpływających na wartość sprzedaży za pomocą drzewa decyzyjnego Podobne drzewo zostało utworzone dla zmiennej celu ILOSC, która określa liczbę wyrobów zakupionych w pojedynczej transakcji. To badanie pozwoli przewidzieć średnią liczbę produktów z pewnej grupy produktów kupowanych przez danego odbiorcę. Takie szacunki mogą być pomocne przy planowaniu wielkości produkcji nowo wprowadzanego wyrobu z danej grupy produktów. Analogiczne badania przeprowadzono dla różnych poziomów kategoryzacji wyrobów, począwszy od marki produktu aż do szczegółowego wyróżnienia modeli. 3.2 Predykcja sprzedaży za pomocą analizy regresji Analiza regresji w odróżnieniu od drzew decyzyjnych pozwala przewidzieć zakres wartości transakcji sprzedaży produktów z danej grupy, a nie tylko średnią ich wartość. Dokonuje ona także predykcji spodziewanej liczby takich transakcji – im większe zagęszczenie punktów dla danej wartości tym większa liczba operacji zakupu (Rys. 4). Rys. 4. Przewidywanie wartości sprzedaży grup wyrobów za pomocą analizy regresji 4 Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym Analizując wykres regresji uzyskany przy użyciu funkcji Regression w narzędziu SAS Enterprise Miner możemy określić m.in. grupy produktów, których przewidywana sprzedaż jest bliska zeru. Na rys. 4 są to gp17, gp16 i gp12 i dla nich można podjąć adekwatne działania zapobiegawcze. Wyniki te posłużyły również do pojęcia próby znalezienia sposobu zwiększenia sprzedaży wyrobów z gr13, którą opisano w następnym punkcie. 3.3 Użycie reguł asocjacji do zwiększenia sprzedaży Analiza wartości sprzedaży przedstawiona na rys. 5 wykazuje, że niektóre grupy produktów sprzedawane są poza którąkolwiek z ofert sprzedaży (normalna, promocyjna, itp.) a ich sprzedaż jest bardzo niska. Produkty z tych grup mogą być dołączone do produktów z grup dobrze się sprzedających. To, do jakich grup można je dołączyć można określić za pomocą reguł asocjacji. W tabeli 1 przedstawiono reguły asocjacji dla wyrobów z grupy gp13, które mają niską sprzedaż, wyniki posortowano wg wartości współczynnika podwyższenia (ang. lift). Rys. 5. Analiza wartości sprzedaży grup produktów w zależności od oferty Tabela 1. Reguły asocjacji pozwalające zwiększyć sprzedaż produktów z grupy gp13 Lp. 28 29 30 31 32 33 34 Liczność 3 3 2 3 3 3 3 Podwyższenie 1.63 1.63 1.63 1.63 1.62 1.62 1.6 Poparcie (%) 27.89 16.56 16.56 30.07 9.37 6.97 9.37 Pewność Liczba (%) transakcji Reguła 73.14 128.00 gp15 & gp07 ==> gp13 73.08 76.00 gp16 & gp01 ==> gp13 73.08 76.00 gp16 ==>gp13 73.02 138.00 gp11 & gp07 ==> gp13 72.88 43.00 gp17 & gp05 ==> gp13 72.73 32.00 gp12 & gp05 ==>gp13 72.73 43.00 gp17 & gp01 ==> gp13 5 J. Kowalska, B. Trawiński Przydatna jest reguła z numerem 31 (Tabela 1), która pokazuje, że sprzedaż można zwiększyć dołączając produkty z gp13 do produktów z gp11 i gp07. Dzięki temu można ponad 1,5-krotnie zwiększyć prawdopodobieństwo sprzedaży. Reguła ta ma 30-procentowe wsparcie i występuje w dużej liczbie transakcji. W tabeli 2 pokazano reguły jednoelementowe. Liczba transakcji jest tu mniejsza niż w przypadku poprzednich reguł, ale reguła druga ma największą liczność (76) i najwyższe wsparcie. Wskazuje ona, że produkty z grupy gp16 pozwolą zwiększyć ponad 1,5-krotnie prawdopodobieństwo sprzedaży produktów z gp13. Tabela 2. Dwuelementowe reguły asocjacji Lp. Liczność Podwyższenie Poparcie (%) Pewność (%) Liczba transakcji Reguła 1 2 1.65 8.06 74.00 37.00 gp14 ==> gp13 2 2 1.63 16.56 73.08 76.00 gp16 ==> gp13 3 2 1.60 9.37 71.67 43.00 gp17 ==>gp13 4 2 1.55 6.97 69.57 32.00 gp12 ==> gp13 3.4 Analiza sprzedaży w układzie terytorialnym Zależność wartości sprzedaży w poszczególnych województwach od czasu pokazano na rys. 6. Województwa o niskim poziomie sprzedaży odnotowują niewielkie zmiany wartości sprzedaży w poszczególnych miesiącach. Jednak w przypadku dużych pod względem liczby ludności województw, np. w w07 wyraźny jest spadek sprzedaży w kwietniu i maju, po którym następuje gwałtowny wzrost w lipcu i sierpniu. Wiedząc z wyprzedzeniem o mającym nastąpić spadku sprzedaży można przedsięwziąć odpowiednie działania zapobiegawcze, jak np. nasilona reklama przy użyciu mediów regionalnych, promocje w lokalnych sieciach i sklepach. Rys. 6. Analiza zmian wartości sprzedaży w województwach 6 Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym 3.5 Analiza wyników pracy menedżerów sprzedaży Wyniki pracy menedżerów sprzedaży w poszczególnych województwach przedstawiono na rys. 7. Menedżer KAM_4 osiągnął najgorsze wyniki w praktycznie wszystkich województwach. Można skierować jego wysiłki do współpracy z innymi, pomniejszymi klientami sprzedającymi mniejsze ilości wyrobów, ale za to droższych co mogłoby wpłynąć na zwiększenie obrotu w transakcjach. Rys. 7. Analiza wartości sprzedaży w transakcjach dokonanych przez menedżerów sprzedaży 3.6 Badanie klientów za pomocą analizy skupień W celu zróżnicowania klientów dokonano analizy skupień. Użyto funkcji Clustering dostępnej w narzędziu SAS Enterprise Miner. Do pogrupowania klientów wykorzystano algorytm K-means. Liczbę grup ustalono na 4. Przy takiej liczbie wyeliminowana została większość grup, których zawartość w dużej części się pokrywała. Rezultaty grupowania przedstawiono na rys. 8. Wykres kołowy po lewej stronie przedstawia charakterystykę grup: natężenie koloru obrazuje maksymalną odległość rekordów od centrum grupy, wysokość wycinka jest proporcjonalna do liczby rekordów w danej grupie, powierzchnia wycinka odpowiada wartości odchylenia standardowego. Zestawienie wyświetlane po prawej stronie rysunku charakteryzuje rekordy zawarte w grupie nr 1. Jaśniejszy kwadrat pokazuje średnią znormalizowaną wartość zmiennej w całym badanym zbiorze danych, natomiast kwadrat ciemniejszy przedstawia znormalizowaną średnią wartość zmiennej w badanej grupie. W wyniku działania algorytmu wyróżniono cztery grupy klientów: • klienci, którzy kupują duże ilości wyrobów o niskiej cenie i średniej marży (procent marży oznacza upust jaki klient otrzymuje przy danej transakcji, są to wartości ujemne, więc im mniejsza wartość marży tym większy upust). Ta grupa obejmuje dużą liczbę transakcji. Klienci, którzy się w niej znajdują generują wysokie zyski, pomimo że nie dokonują zakupów najdroższego sprzętu (grupa 1). 7 J. Kowalska, B. Trawiński • • • odbiorcy, którzy kupują minimalną liczbę produktów o wysokiej cenie i średniej marży. Sprzedaż najdroższych wyrobów jest bardzo korzystna dla przedsiębiorstwa, jednak zdecydowanie należałoby zwiększyć liczbę sprzedawanych produktów z tej grupy, np. poprzez sprzedaż promocyjną polegającą na dołączaniu niedrogich wyrobów bez zmiany ceny podstawowej (grupa 2). klienci kupujący bardzo małą liczbę produktów o niewysokiej cenie i niskim upuście. Liczba transakcji jest tu nieduża, jest to więc grupa klientów przynosząca bardzo małe zyski. W ich przypadku konieczne jest nasilenie działań zmierzających do zwiększenia wartości dokonywanych zakupów, np. po zbadaniu, które grupy produktów są najczęściej zakupywane przez tych klientów można im zaoferować atrakcyjne promocje tych wyrobów (grupa 3). klienci, którzy kupują małą liczbę wyrobów o średniej cenie i niskiej marży. Działania wobec tych klientów powinny być podobne do działań podjętych wobec klientów z grupy 3 (grupa 4). Rys. 8.. Wyniki analizy skupień klientów 4 Podsumowanie W rozdziale przedstawiono wstępne wyniki badań danych z systemu sprzedaży przedsiębiorstwa produkcyjnego, dostarczającego wyroby konsumpcyjne. Osiągnięte rezultaty potwierdzają przydatność zastosowanych metod eksploracji danych. Pozwalają one na sformułowanie wniosków dotyczących poprawy organizacji procesu sprzedaży. Uzyskane wyniki zostaną zweryfikowane przy współpracy ze specjalistami z działu marketingu badanego przedsiębiorstwa. Przewiduje się przeprowadzenie dalszej serii szczegółowych analiz w ramach poszczególnych modeli oraz grup wyrobów i klientów. 8 Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym Literatura 1. Bauer K.: The power of metrics: Predictive analytics - addressing the business vicissitudes, DM Review Magazine, January 2006 2. Bauer K.: The power of metrics: Predictive analytics: Data mining with a twist, DMReview Magazine, December 2005 3. Berry M., Linoff G.: Data mining techniques for marketing, sales and customer relationship management, Wiley Publishing 2004 4. Berson A., Smith S., Thearling K.: Building data mining applications for CRM, Mc-Graw-Hill Professional 1999 5. Blundon W.: Predicting success: using analytics to drive more profitable customer interactions, DM Direct Newsletter, December 2003 6. Brand E., Gerritsen R.: Decision trees, DBMS Magazine, February 1998 7. Data Mining Using SAS Enterprise Miner: A Case Study Approach, Second Edition. SAS Institute Inc. 2003 8. Edelstein H.: Mining large databases, Two Crows Corporation 9. The Gartner Group, www.gartner.com 10. Han J., Kamber M.: Data mining: concepts and techniques, Morgan Kaufmann Publishers 2000 11. Hand D., Mannila H., Smith P.: Eksploracja danych, Wydawnictwo Naukowo-Techniczne 2005 12. Larose D.T.: Discovering knowledge in data. An introduction to data mining, John Wiley & Sons 2005 13. Lasek M.: Data mining. Zastosowania w analizach i ocenach klientów bankowych, Oficyna Wydawnicza „Zarządzanie i Finanse”, Warszawa 2002 14. Nong Ye (ed.): The handbook of data mining, Lawrence Erlbaum Associates 2003 15. Pankowski T.: Drzewa decyzyjne, www.put.poznan.pl/~pankowsk 16. Parr Rud O.: Data mining cookbook. Modeling data for Marketing, Risk and Customer Relationship Management, John Wiley & Sons 2001 17. Shearer C.: Anticipating consumer behavior with analytics, CRM Today 2004 18. Sokołowski A: Metody stosowane w data mining, zeszyt: „Data mining – metody i przykłady”, Seminarium StatSoft, Warszawa 2002 19. StatConsulting, www.statconsulting.com.pl Paper title: Use of data mining methods for the analysis of sale data in a manufacturing enterprise Abstract. A review of the use of data mining methods for the analysis of sale data has been presented. The method of data preparation for the analysis has been described. The analysis comprised the investigation of factors influencing sale value, sale prediction, ways of sale increasing, assessment of sale managers’ work, client clustering, etc. Following data mining methods: decision trees, association rules, clustering and regression analysis have been used in the investigation. Słowa kluczowe: Eksploracja danych, przedsiębiorstwo produkcyjne, analiza sprzedaży, wyroby konsumpcyjne. 9