pobierz plik referatu
Transkrypt
pobierz plik referatu
Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 Rozdział 25 w Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym w da .b w Streszczenie. W rozdziale przedstawiono przegląd zastosowań metod eksploracji danych (ang. data mining) do analizy baz danych sprzedaży. Następnie opisano sposób przygotowania bazy danych sprzedaży do analiz. Analizy objęły badanie czynników wpływających na wartość sprzedaży, predykcję sprzedaży, znalezienie sposobu zwiększenia wartości sprzedaży, ocenę pracy menadżerów sprzedaży, grupowanie klientów. Zastosowano następujące metody eksploracji danych: drzewa decyzyjne, reguły asocjacji, grupowanie, analizę regresji. 1 Zastosowania eksploracji danych pl s. Eksploracja danych (ang. data mining) to termin, który obejmuje szeroki zakres technik używanych w różnych dziedzinach przemysłu. Zgodnie z definicją The Gartner Group [1] jest to proces odkrywania nowych, znaczących związków, wzorców i trendów poprzez badanie dużych ilości zgromadzonych danych, zarówno przy użyciu technik wykrywania wzorców jak i metod statystycznych i matematycznych. Techniki eksploracji można podzielić na trzy podstawowe grupy: − analiza powiązań, obejmuje znajdowanie reguł asocjacji, odkrywanie wzorców sekwencji, podobnych sekwencji czasowych [3], [11], − analiza skupień, polega na grupowaniu (ang. clustering) obiektów danych na podstawie zestawu cech określających stopień ich podobieństwa [3], [10], [14], − klasyfikacja i predykcja, stosują takie narzędzia, jak drzewa decyzyjne, sieci neuronowe, regresja liniowa i nieliniowa, sieci Bayesa, polegają na przewidywaniu przyszłych zachowań na podstawie danych historycznych [3], [10], [11], [12], [14], [15], [16], [19]. Odkrywanie reguł asocjacji polega na znajdowaniu związków pomiędzy występowaniem grup atrybutów w bazie danych. Podstawę do oceny reguły stanowią trzy statystyki (zakładamy, że zależność ma postać A=>B): wsparcie (ang. support), czyli procent klientów, którzy zakupili zarówno produkt A i B, ufność (ang. confidence), tj. prawdopodobieństwo, że klient zakupi produkt B, jeśli wiadomo, że posiada on już produkt A oraz współczynnik podwyższenia (ang. lift), o który wzrasta prawdopodobieństwo zakupu produktu B, jeśli wiadomo, że klient posiada produkt A, w porównaniu do sytuacji, gdy nie wiadomo, czy klient ten produkt posiada. Znajdują one zastosowanie najczęściej do analizy koszyka zakuJustyna Kowalska, Bogdan Trawiński: Politechnika Wrocławska, Instytut Informatyki Stosowanej, Wybrzeże Wyspiańskiego 27, 50-370 Wrocław, Polska email: [email protected], [email protected] (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 J. Kowalska, B. Trawiński w pów, pozwalają podejmować decyzje dotyczące np. promocji i obniżek cen, reklam i akcji marketingowych lub rozmieszczenia produktów [1], [5], [17]. Grupowanie znajduje zastosowanie do segmentacji i profilowania klientów, do właściwego adresowania kampanii marketingowych [1], [13], [17], [19], a także do identyfikacji i grupowania produktów [3], [8], wykrywania odchyleń [4]. Drzewa decyzyjne pozwalają na eksplorację zbioru danych poprzez analizę wartości decydujących o powstaniu węzła i mogą służyć do klasyfikacji klientów lub wyrobów [1], [5], [17]. Stosowane do predykcji, drzewa decyzyjne umożliwiają oszacowanie wartości (lub przedziału wartości), jaką z dużym prawdopodobieństwem może przyjąć atrybut analizowanego obiektu [2], [8], [15]. Analiza regresji prowadzi do przewidywania wysokości sprzedaży, cen, itp. [2], [4], a także do wykrywania odchyleń co pozwala na wykrywanie oszustw [1]. w 2 Charakterystyka analizowanych danych sprzedaży w da .b Do badań użyto danych systemu sprzedaży rzeczywistego przedsiębiorstwa produkcyjnego, które wytwarza produkty konsumpcyjne. Były to dane obejmujące faktury sprzedaży wyrobów za okres pierwszych dziewięciu miesięcy 2005 roku, a ponadto odbiorców i ich lokalizację oraz menedżerów sprzedaży. Odbiorcami wyrobów były hurtownie oraz duże centra handlowe. Strukturę danych sprzedaży przedstawiono na rys. 1. pl s. Rys. 1. Struktura danych sprzedaży badanego przedsiębiorstwa Wyroby były opatrzone różnorodnymi atrybutami, takimi jak marka, rodzaj, kategoria, model, funkcja, sposób użytkowania, wymiar, kolor, oferta itp. Przygotowanie danych w pierwszej kolejności polegało na dokonaniu ich pełnej anonimizacji, poprzez zastąpienie wszystkich nazw stosowanych w źródłowym systemie odpowiednimi kodami, np. Wyrob_1705, GrupaProd_15, FunProd_19, Model_0439, Odbiorca_0920 itp. Strukturę danych o wyrobach przedstawiono na rys. 2. W dalszym ciągu, dane ze źródłowej, struktury relacyjnej przekształcono do płaskiej struktury, zbudowanej wokół pozycji faktur, zawierających ilości, wartości oraz daty sprzedaży poszczególnych wyrobów. W strukturze tej zawarto również wartości atrybutów wyrobów oraz atrybutów odbiorców. W czasie tego etapu przygotowania odrzucono dane niespójne i posiadające zerową wartość sprzedaży. Łącznie do badań klientów oraz sprzedaży użyto 63471 rekordów. Ze względu na charakter produkcji oraz sposób prowadzenia bazy danych w badanym przedsiębiorstwie, nie wszystkie wyroby miały określone wartości wszystkich atrybutów. Stąd też wielokrotnie w czasie analiz pojawiały się puste kategorie danych. Badania przeprowadzono za pomocą narzędzia SAS Enterprise Miner [7]. 242 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym w w w Rys. 2. Struktura danych o wyrobach badanego przedsiębiorstwa da .b 3 Analiza uzyskanych wyników Analizy objęły badanie czynników wpływających na wartość sprzedaży, predykcję sprzedaży, znalezienie sposobu zwiększenia wartości sprzedaży, ocenę pracy menadżerów sprzedaży, grupowanie klientów. Zastosowano następujące metody eksploracji danych: drzewa decyzyjne, reguły asocjacji, grupowanie, analizę regresji. 3.1 Analiza czynników wpływających na wartość sprzedaży pl s. Analizę czynników wpływających na wartość sprzedaży przeprowadzono za pomocą funkcji Tree w narzędziu SAS Enterprise Miner. Utworzone zostało drzewo decyzyjne, którego fragment pokazano na rys. 3. Do utworzenia drzewa użyto algorytmu Variance reduction (przeprowadzono także próby dla algorytmu F test i otrzymano bardzo zbliżone wyniki, jednak w przypadku algorytmu Variance reduction dokładniej określone zostały grupy odbiorców). Określono maksymalną liczbę gałęzi wychodzących z węzła na dwa (drzewo binarne) i maksymalną głębokość drzewa na sześć poziomów. Podział nastąpił tu ze względu na grupy produktów i odbiorców. Widać tu przede wszystkim, że średnia wartość sprzedaży wyrobów z zbioru grup 0 jest bardzo niska (ok. 407 zł). Te wyroby mogą być dołączane w ramach sprzedaży wiązanej lub promocyjnej do wyrobów z grup sprzedających się bardzo dobrze. Np. do produktów ze zbioru grup wyrobów 1 można dołączyć produkt z grupy funkcjonalnej 0 i sprzedawać je razem w cenie promocyjnej. Drzewo może także posłużyć do predykcji wielkości sprzedaży nowych produktów wprowadzanych na rynek. Na przykład dla wyrobu należącego do zerowego zbioru grup produktów (Group: GRUPAPRODKOD=0) i dla grup odbiorców 5, 7 lub 8 (Group:ODBIORCAKOD=5...) średnia przewidywana wartość transakcji zakupu wynosi 543,59 zł. 243 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 J. Kowalska, B. Trawiński N Average Group: GRUPAPRODKOD 0... N Average 25522 1282.224 w Group: GRUPAPRODKOD 1 0 N Average N Average 4152 466.3995 w 2347 407.0341 0... 5... N Average 21370 1440.731 Group: ODBIORCAKOD Group: ODBIORCAKOD 0... N Average 63471 3069.863 1805 543.591 N Average 10… 21187 1433.356 N Average 183 2294.675 w Rys. 3. Badanie czynników wpływających na wartość sprzedaży za pomocą drzewa decyzyjnego da .b Podobne drzewo zostało utworzone dla zmiennej celu ILOSC, która określa liczbę wyrobów zakupionych w pojedynczej transakcji. To badanie pozwoli przewidzieć średnią liczbę produktów z pewnej grupy produktów kupowanych przez danego odbiorcę. Takie szacunki mogą być pomocne przy planowaniu wielkości produkcji nowo wprowadzanego wyrobu z danej grupy produktów. Analogiczne badania przeprowadzono dla różnych poziomów kategoryzacji wyrobów, począwszy od marki produktu aż do szczegółowego wyróżnienia modeli. 3.2 Predykcja sprzedaży za pomocą analizy regresji pl s. Analiza regresji w odróżnieniu od drzew decyzyjnych pozwala przewidzieć zakres wartości transakcji sprzedaży produktów z danej grupy, a nie tylko średnią ich wartość. Dokonuje ona także predykcji spodziewanej liczby takich transakcji – im większe zagęszczenie punktów dla danej wartości tym większa liczba operacji zakupu (rys. 4). Rys. 4. Przewidywanie wartości sprzedaży grup wyrobów za pomocą analizy regresji 244 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym Analizując wykres regresji uzyskany przy użyciu funkcji Regression w narzędziu SAS Enterprise Miner możemy określić m.in. grupy produktów, których przewidywana sprzedaż jest bliska zeru. Na rys. 4 są to gp17, gp16 i gp12 i dla nich można podjąć adekwatne działania zapobiegawcze. Wyniki te posłużyły również do pojęcia próby znalezienia sposobu zwiększenia sprzedaży wyrobów z gp13, którą opisano w następnym punkcie. w 3.3 Użycie reguł asocjacji do zwiększenia sprzedaży da .b w w Analiza wartości sprzedaży przedstawiona na rys. 5 wykazuje, że niektóre grupy produktów sprzedawane są poza którąkolwiek z ofert sprzedaży (normalna, promocyjna, itp.) a ich sprzedaż jest bardzo niska. Produkty z tych grup mogą być dołączone do produktów z grup dobrze się sprzedających. To, do jakich grup można je dołączyć można określić za pomocą reguł asocjacji. W tabeli 1 przedstawiono reguły asocjacji dla wyrobów z grupy gp13, które mają niską sprzedaż, wyniki posortowano wg wartości współczynnika podwyższenia (ang. lift). pl s. Rys. 5. Analiza wartości sprzedaży grup produktów w zależności od oferty Tabela 1. Reguły asocjacji pozwalające zwiększyć sprzedaż produktów z grupy gp13 Lp. 28 29 30 31 32 33 34 Liczność 3 3 2 3 3 3 3 Podwyższenie 1.63 1.63 1.63 1.63 1.62 1.62 1.6 Poparcie (%) 27.89 16.56 16.56 30.07 9.37 6.97 9.37 Pewność (%) 73.14 73.08 73.08 73.02 72.88 72.73 72.73 Liczba transakcji 128.00 76.00 76.00 138.00 43.00 32.00 43.00 Reguła gp15 & gp07 ==> gp13 gp16 & gp01 ==> gp13 gp16 ==>gp13 gp11 & gp07 ==> gp13 gp17 & gp05 ==> gp13 gp12 & gp05 ==>gp13 gp17 & gp01 ==> gp13 245 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 J. Kowalska, B. Trawiński w Przydatna jest reguła z numerem 31 (Tabela 1), która pokazuje, że sprzedaż można zwiększyć dołączając produkty z gp13 do produktów z gp11 i gp07. Dzięki temu można ponad 1,5-krotnie zwiększyć prawdopodobieństwo sprzedaży. Reguła ta ma 30-procentowe wsparcie i występuje w dużej liczbie transakcji. W tabeli 2 pokazano reguły jednoelementowe. Liczba transakcji jest tu mniejsza niż w przypadku poprzednich reguł, ale reguła druga ma największą liczność (76) i najwyższe wsparcie. Wskazuje ona, że produkty z grupy gp16 pozwolą zwiększyć ponad 1,5-krotnie prawdopodobieństwo sprzedaży produktów z gp13. Tabela 2. Dwuelementowe reguły asocjacji Podwyższenie w Lp. Liczność 2 2 3 4 Pewność (%) Liczba transakcji Reguła 1.65 8.06 74.00 2 1.63 16.56 73.08 76.00 gp16 ==> gp13 2 1.60 9.37 71.67 43.00 gp17 ==>gp13 2 1.55 6.97 69.57 32.00 gp12 ==> gp13 w 1 Poparcie (%) 37.00 gp14 ==> gp13 3.4 Analiza sprzedaży w układzie terytorialnym da .b Zależność wartości sprzedaży w poszczególnych województwach od czasu pokazano na rys. 6. Województwa o niskim poziomie sprzedaży odnotowują niewielkie zmiany wartości sprzedaży w poszczególnych miesiącach. Jednak w przypadku dużych pod względem liczby ludności województw, np. w w07 wyraźny jest spadek sprzedaży w kwietniu i maju, po którym następuje gwałtowny wzrost w lipcu i sierpniu. Wiedząc z wyprzedzeniem o mającym nastąpić spadku sprzedaży można przedsięwziąć odpowiednie działania zapobiegawcze, jak np. nasilona reklama przy użyciu mediów regionalnych, promocje w lokalnych sięciach i sklepach. pl s. Rys. 6. Analiza zmian wartości sprzedaży w województwach 246 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym 3.5 Analiza wyników pracy menedżerów sprzedaży Wyniki pracy menedżerów sprzedaży w poszczególnych województwach przedstawiono na rys. 7. Menedżer KAM_4 osiągnął najgorsze wyniki w praktycznie wszystkich województwach. Można skierować jego wysiłki do współpracy z innymi, pomniejszymi klientami sprzedającymi mniejsze ilości wyrobów, ale za to droższych co mogłoby wpłynąć na zwiększenie obrotu w transakcjach. w da .b w w Rys. 7. Analiza wartości sprzedaży w transakcjach dokonanych przez menedżerów sprzedaży 3.6 Badanie klientów za pomocą analizy skupień pl s. W celu zróżnicowania klientów dokonano analizy skupień. Użyto funkcji Clustering dostępnej w narzędziu SAS Enterprise Miner. Do pogrupowania klientów wykorzystano algorytm K-means. Liczbę grup ustalono na 4. Przy takiej liczbie wyeliminowana została większość grup, których zawartość w dużej części się pokrywała. Rezultaty grupowania przedstawiono na rys. 8. Wykres kołowy po lewej stronie przedstawia charakterystykę grup: natężenie koloru obrazuje maksymalną odległość rekordów od centrum grupy, wysokość wycinka jest proporcjonalna do liczby rekordów w danej grupie, powierzchnia wycinka odpowiada wartości odchylenia standardowego. Zestawienie wyświetlane po prawej stronie rysunku charakteryzuje rekordy zawarte w grupie nr 1. Jaśniejszy kwadrat pokazuje średnią znormalizowaną wartość zmiennej w całym badanym zbiorze danych, natomiast kwadrat ciemniejszy przedstawia znormalizowaną średnią wartość zmiennej w badanej grupie. W wyniku działania algorytmu wyróżniono cztery grupy klientów: − klienci, którzy kupują duże ilości wyrobów o niskiej cenie i średniej marży (procent marży oznacza upust jaki klient otrzymuje przy danej transakcji, są to wartości ujemne, więc im mniejsza wartość marży tym większy upust). Ta grupa obejmuje dużą liczbę transakcji. Klienci, którzy się w niej znajdują generują wysokie zyski, pomimo że nie dokonują zakupów najdroższego sprzętu (grupa 1); 247 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 J. Kowalska, B. Trawiński w − odbiorcy, którzy kupują minimalną liczbę produktów o wysokiej cenie i średniej marży. Sprzedaż najdroższych wyrobów jest bardzo korzystna dla przedsiębiorstwa, jednak zdecydowanie należałoby zwiększyć liczbę sprzedawanych produktów z tej grupy, np. poprzez sprzedaż promocyjną polegającą na dołączaniu niedrogich wyrobów bez zmiany ceny podstawowej (grupa 2); − klienci kupujący bardzo małą liczbę produktów o niewysokiej cenie i niskim upuście. Liczba transakcji jest tu nieduża, jest to więc grupa klientów przynosząca bardzo małe zyski. W ich przypadku konieczne jest nasilenie działań zmierzających do zwiększenia wartości dokonywanych zakupów, np. po zbadaniu, które grupy produktów są najczęściej zakupywane przez tych klientów można im zaoferować atrakcyjne promocje tych wyrobów (grupa 3); − klienci, którzy kupują małą liczbę wyrobów o średniej cenie i niskiej marży. Działania wobec tych klientów powinny być podobne do działań podjętych wobec klientów z grupy 3 (grupa 4). da .b w w 4 Podsumowanie pl s. Rys. 8.. Wyniki analizy skupień klientów W rozdziale przedstawiono wstępne wyniki badań danych z systemu sprzedaży przedsiębiorstwa produkcyjnego, dostarczającego wyroby konsumpcyjne. Osiągnięte rezultaty potwierdzają przydatność zastosowanych metod eksploracji danych. Pozwalają one na sformułowanie wniosków dotyczących poprawy organizacji procesu sprzedaży. Uzyskane wyniki zostaną zweryfikowane przy współpracy ze specjalistami z działu marketingu badanego przedsiębiorstwa. Przewiduje się przeprowadzenie dalszej serii szczegółowych analiz w ramach poszczególnych modeli oraz grup wyrobów i klientów. 248 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym Literatura 1. 2. 3. w Bauer K.: The power of metrics: Predictive analytics - addressing the business vicissitudes, DM Review Magazine, January 2006 Bauer K.: The power of metrics: Predictive analytics: Data mining with a twist, DMReview Magazine, December 2005 Berry M., Linoff G.: Data mining techniques for marketing, sales and customer relationship management, Wiley Publishing 2004 Berson A., Smith S., Thearling K.: Building data mining applications for CRM, Mc-Graw-Hill Professional 1999 Blundon W.: Predicting success: using analytics to drive more profitable customer interactions, DM Direct Newsletter, December 2003 Brand E., Gerritsen R.: Decision trees, DBMS Magazine, February 1998 Data Mining Using SAS Enterprise Miner: A Case Study Approach, Second Edition. SAS Institute Inc. 2003 Edelstein H.: Mining large databases, Two Crows Corporation The Gartner Group, www.gartner.com Han J., Kamber M.: Data mining: concepts and techniques, Morgan Kaufmann Publishers 2000 Hand D., Mannila H., Smith P.: Eksploracja danych, Wydawnictwo Naukowo-Techniczne 2005 Larose D.T.: Discovering knowledge in data. An introduction to data mining, John Wiley & Sons 2005 Lasek M.: Data mining. Zastosowania w analizach i ocenach klientów bankowych, Oficyna Wydawnicza „Zarządzanie i Finanse”, Warszawa 2002 Nong Ye (ed.): The handbook of data mining, Lawrence Erlbaum Associates 2003 Pankowski T.: Drzewa decyzyjne, www.put.poznan.pl/~pankowsk Parr Rud O.: Data mining cookbook. Modeling data for Marketing, Risk and Customer Relationship Management, John Wiley & Sons 2001 Shearer C.: Anticipating consumer behavior with analytics, CRM Today 2004 Sokołowski A: Metody stosowane w data mining, zeszyt: „Data mining – metody i przykłady”, Seminarium StatSoft, Warszawa 2002 StatConsulting, www.statconsulting.com.pl 4. 5. 8. 9. 10. 11. 12. 13. 17. 18. 19. da .b 14. 15. 16. w w 6. 7. pl s. 249 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006 Rozdział monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2006 w da .b w w pl s. (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2006