Leszek Misztal - Zachodniopomorski Uniwersytet Technologiczny w
Transkrypt
Leszek Misztal - Zachodniopomorski Uniwersytet Technologiczny w
ZACHODNIPOMORSKI UNIWERSYTET TECHNOLOGICZNY WYDZIAŁ INFORMATYKI AUTOREFERAT ROZPRAWY DOKTORSKIEJ Model systemu ekspertowego do klasyfikacji regułowej podatników w urzędach skarbowych AUTOR mgr inż. Leszek Misztal PROMOTOR prof. dr hab. inż. Ryszard Budziński RECENZENCI prof. dr hab. Bolesław Borkowski dr hab. Bożena Śmiałkowska Wydział Zastosowań Informatyki i Matematyki Wydział Informatyki Szkoła Główna Gospodarstwa Wiejskiego Zachodniopomorski Uniwersytet Technologiczny w Warszawie w Szczecinie SZCZECIN 2011 S P I S T R E Ś C I 1. WSTĘP .......................................................................................... 1 2 OPIS SYSTEMÓW PODATKOWYCH I ANALIZA DOSTĘPNYCH DANYCH........................................................... 4 2.1. CHARAKTERYSTYKA I ORGANIZACJA SYSTEMÓW PODATKOWYCH................................. 5 2.2. PRZEDSTAWIENIE I ANALIZA DANYCH ............................................................................. 5 3. SYSTEMY WNIOSKUJĄCE DLA WYZNACZANIA PODATNIKÓW I METODY EKSPLORACJI DANYCH .......... 7 4. KONCEPCJA MODELU HYBRYDOWEGO SYSTEMU ......... 9 4.1. CZĘŚĆ PRZYGOTOWAWCZA ............................................................................................ 12 4.2. WYZNACZENIE GRUP PODATNIKÓW O PODOBNYCH CECHACH ...................................... 13 4.3 OCENA ISTOTNOŚCI ATRYBUTÓW I EKSTRAKCJA REGUŁ DLA PODATNIKÓW .................. 16 4.4 RANKING PODATNIKÓW W GRUPACH .............................................................................. 19 4.5 CZĘŚĆ WERYFIKACYJNA .................................................................................................. 23 4.6 PROJEKT I IMPLEMENTACJA METODY .............................................................................. 24 5 WYNIKI BADAŃ TESTOWYCH ............................................. 26 6 ZAKOŃCZENIE ......................................................................... 32 ZAŁĄCZNIK A. LITERATURA .................................................... 36 i i 1. WSTĘP Rozwój systemów baz danych oraz hurtowni danych praktycznie w każdej dziedzinie życia gospodarczego, administracyjnego, naukowego oraz w wielu innych obszarach działalności ludzkiej doprowadził do zebrania bardzo dużej ilości informacji. Przetwarzanie, analiza oraz pozyskiwanie wiedzy na podstawie tych danych stało się konieczne dla uzyskania przewagi konkurencyjnej w dziedzinie gospodarczej, sprawniejszego zarządzania administracją i budżetem na poziomie państwowym, czy też osiągnięcia postępów oraz kolejnych odkryć w badaniach naukowych. Jednakże wraz ze znaczącym przyrostem istniejących informacji człowiek ze względu na swoje naturalne ograniczenia nie był w stanie wyciągnąć wniosków na podstawie tak dużej ilości danych [22]. Dlatego też rozwinęła się wyspecjalizowana dziedzina z zakresu baz danych zwana eksploracją danych, która umożliwia odnalezienie ukrytych wzorców, regularności, sekwencji, reguł oraz wiedzy w różnej postaci za pomocą różnorakich technik drążenia danych [25]. Jest jednym z kroków procesu odkrywania wiedzy [56]. Techniki eksploracji danych oraz cały proces odkrywania wiedzy mają zastosowanie w wielu dziedzinach i branżach takich jak medycyna, biologia, biotechnologia, produkcja, telekomunikacja, ekonomia, finanse, handel oraz wielu innych sferach życia [5]. Zgodnie z pozycją [7] odmienna specyfika problemów występujących w różnych branżach powoduje, że proponowane modele rozwiązań są mocno dopasowane do konkretnego zastosowania. Dlatego też zostało zaproponowane dedykowane rozwiązanie dla dziedziny podatkowej. Jest to model klasyfikacji regułowej podatników w urzędach skarbowych, którzy potencjalnie mogą posiadać problemy podatkowe. Zaproponowany model odpowiada specyfice występującej w obszarze podatków oraz umożliwia zwiększenie skuteczności kontroli podatkowych. Zadanie jest istotne z punktu widzenia uzyskiwanych dochodów do budżetu, ponieważ odpowiednia kwota pieniędzy, która zasila państwowe konta umożliwia wykonanie zadań zgodnie z założeniami rządu. Jednym z ważnych filarów mających wpływ na realizację wpływów budżetowych jest skuteczna kontrola podatkowa. Jest zgodna z założeniami dyscypliny podatkowej, której celem jest osiągnięcie wysokiego poziomu dobrowolności i jakości wypełniania obowiązków podatkowych poprzez wykorzystanie działań urzędów skarbowych w zakresie kontroli podatkowej. Jako jednym z punktów umożliwiającym realizację tego przedsięwzięcia rozumie się „… wzrost efektywności kontroli, w tym między innymi poprzez poprawę typowania podmiotów do kontroli” [57]. Potwierdzeniem istotności jakości wskazywania właściwych podmiotów jest określenie współczynników opisujących jakość pracy dotyczącą różnych obszarów działalności izb skarbowych i urzędów skarbowych. Znajdują się tam parametry opisujące różne warianty związane z efektywnością kontroli podatkowej, m.in. pod kątem trafności jak i skuteczności finansowej [58]. Kolejnym istotnym elementem w zakresie zapewnienia odpowiednich dochodów z zakresu podatku VAT jest kontrola działalności szczególnie narażonej na dokonywanie przestępstw podatkowych związanych z wyłudzaniem zwrotu podatku od towarów i usług, która dotyczy zarówno samego zwrotu podatku jak i nadwyżki podatku naliczonego nad należnym. Istotnym jest więc dokonywanie czynności analitycznych w urzędach administracji podatkowej przed dokonaniem zwrotu podatku na konto podatnika, ponieważ w przypadku zaistnienia podejrzenia oszustwa należy przeprowadzić kontrolę podatkową. Oznacza to wykonanie wspomnianych wcześniej 1 Wstęp czynności analitycznych z wykorzystaniem odpowiednich narzędzi informatycznych [59], które umożliwiłyby wybór właściwego podmiotu. Związane jest to bezpośrednio z ważnym elementem, który ma za zadanie określenie charakteru przychodów nieznajdujących pokrycia w ujawnionych źródłach lub pochodzących ze źródeł nieujawnionych [51], które dotyczą między innymi zaniżania przychodów z działalności gospodarczej, przedsiębiorców stale ponoszących stratę z prowadzonej działalności lub wykazujący niskie dochody. Obecnie występują w praktyce systemy identyfikacji podatników stosowane w administracji podatkowej, które za pomocą własnych modeli rozwiązują postawiony problem. Zaliczają się do nich systemy KONTROLA, DWP, WBD, ISKOS. Tworzą modele bazujące na regułach zbudowanych w oparciu o kryteria związane z atrybutami opisującymi dane podatników [15][16][17][18], selekcje oparte na atrybutach związanych z dochodami i wydatkami połączone z filtrami opisującymi podatników [19][20], oceny podatników oparte na bazie informacji o podmiotach o niskim zaufaniu [21] oraz modelu zbudowanym na podstawie podziału podatników oraz klasyfikacji za pomocą drzew decyzyjnych [52][53]. Posiadają wiele słabości związanych z wpływem subiektywnych ocen ludzkich, ograniczonym zakresem informacyjnym oraz rodzajem podatników objętych modelem, jak również częściowym lub całkowitym brakiem weryfikacji dokładności identyfikacji. Do rozwiązania problemu badawczego nadają się również metody z zakresu technik nadzorowanych zaliczających się do klasyfikatorów. Należą do nich maszyna wektorów wspierających [6][46], zbiory przybliżone [3][27][28][29][30][31][32][33], drzewa decyzyjne [2][22][24][25][26] oraz naiwny algorytm Bayes’a [3][4][22][23][24]. Ich działanie opiera się odpowiednio na rozwiązaniu problemu w przestrzeni wielowymiarowej, rozszerzeniu teorii zbiorów związanej z definicją pojęć górnego i dolnego przybliżenia, budowie struktury w postaci drzewa z wykorzystaniem funkcji oceniających oraz prawdopodobieństwie opartym na teorii Bayes’a. Posiadają liczne słabości, które dotyczą wybranych metod i związane są z brakiem tworzenia reguł, założeniem niezależności atrybutów zależnych, problemów w tworzeniu modelu przy wielu atrybutach o podobnym wysokim wpływie na zmienną decyzyjną oraz przede wszystkim niewystarczającej dokładności. Dlatego też w celu eliminacji występujących problemów w istniejących rozwiązaniach autor przyjął za cel opracowanie hybrydowej metody dla modelu systemu ekspertowego bazującej na rozmytym algorytmie klastrującym, teorii zbiorów przybliżonych oraz hierarchicznej metodzie AHP, która umożliwi wskazanie podatników mogących posiadać problemy z prawem podatkowym. Wynikiem badań będzie przedstawienie podatników za pomocą reguł składających się z atrybutów i ich wartości, które opisują cechy i własności klientów w wyznaczonych grupach, którzy powinni zostać poddani kontroli podatkowej. W końcowej fazie wyznaczony ranking podatników będzie umożliwiał wybór najbardziej pasujących osób i przedsiębiorstw do wyznaczonych kryteriów. Przedstawione w pracy badania mają na celu potwierdzenie prawdziwości następującej hipotezy naukowej: Zaproponowana hybrydowa metoda dla modelu systemu ekspertowego oparta na rozmytym algorytmie klastrującym, teorii zbiorów przybliżonych i algorytmie AHP umożliwi wykonanie klasyfikacji regułowej podatników z większą dokładnością od występujących w praktyce metod identyfikacji. Poprzez identyfikację należy rozumieć wyznaczenie podatników posiadających lub nie posiadających problemy podatkowe. Uzyskane wyniki zostaną ocenione za pomocą współczynników jakościowych powszechnie stosowanych do wyznaczania precyzji w badaniach klasyfikacji. Pod pojęciem dokładności należy rozumieć 2 Wstęp porównanie wspomnianych współczynników uzyskanych za pomocą zaproponowanego modelu z takimi samymi współczynnikami uzyskanymi na podstawie wyników otrzymanych z opisanych i powszechnie znanych metod i systemów wnioskujących. Faktycznym problemem rozprawy jest identyfikacja podatników na podstawie cech i właściwości, które wskazują na większą możliwość występowania problemów z przestrzeganiem prawa podatkowego oraz utworzenie modelu opisującego zachowania podatników. Wspomniane cechy i właściwości mogą zostać ustalone na podstawie wartości atrybutów przetrzymywanych w systemach informatycznych administracji podatkowej. Do atrybutów tych należą wartości kwot wykazywanych w deklaracjach podatkowych, danych rejestracyjnych, egzekucji podatkowej, kontroli podatkowej i innych. Model wykonuje klasyfikację regułową podatników w urzędach skarbowych. Eliminuje opisane wcześniej słabości poprzez odzwierciedlenie zachowań podatników, które jest zrealizowane za pomocą opracowanej procedury badawczej polegającej na podzieleniu zbioru podatników za pomocą rozmytego algorytmu grupującego, na podstawie atrybutów wpływających na ich zachowanie. Podział taki umożliwia wyznaczenie grup podatników charakteryzujących się wysokim podobieństwem w podejmowanych działaniach. Natomiast odmienne prawidłowości w zachowaniach płatników zostają wyznaczone przez granice klas, które są przedmiotem badań drugiego etapu. Przy wykorzystaniu teorii zbiorów przybliżonych, dla każdej grupy wygenerowane zostają reguły, które wskazują na zachowania podatników, jak również zostaje wyznaczona istotność wpływu poszczególnych atrybutów na podział klas. Na tej podstawie w ostatniej części dla każdej z grup zostaje zbudowany model oparty na wielokryterialnej metodzie analitycznej hierarchizacji problemu – AHP [35][36][37][38][39][48], który umożliwi wykonanie rankingu podatników i ulokuje najbardziej interesujących klientów na początku listy. Prezentowane modele i wyniki badań mają charakter metodologiczno-empiryczny, natomiast praca jest z zakresu informatyki stosowanej. Klasyfikacja zakresu pracy w dziedzinie informatyki zgodnie z podziałem przedstawionym przez organizację ACM (ang. Association for Computing Machinery) znajduje się w gałęzi aplikacje bazodanowe - eksploracja danych [60] (H. Systemy informacyjne, H.2 Systemy zarządzania bazami danych, H.2.8 Aplikacje bazodanowe). Dla osiągnięcia celu pracy zostało opracowane autorskie oprogramowanie na potrzeby przeprowadzenia eksperymentów, które umożliwiło uzyskanie wyników. Jest to wkład, mający na celu implementację metody w zakresie, w którym niemożliwe było wykorzystanie istniejących narzędzi, ze względu na ich brak lub ograniczenia. Programy wytworzone zostały w językach SQL i PL/SQL i zostały zgrupowane w trzech pakietach. Pierwszy z nich umożliwia podział na klastry oraz wyznaczenie dokładności podziału. Drugi umożliwia wyznaczenie względnej istotności atrybutów oraz wyznaczenie pełnej tablicy decyzyjnej zgodnej z teorią zbiorów przybliżonych. Ostatni wyznacza ranking podatników zgodny z zaproponowanym modelem metody AHP. 3 2 Opis systemów podatkowych i analiza dostępnych danych Identyfikacja podatników ze względu na możliwe problemy dotyczące nieprzestrzegania prawa podatkowego związana jest z dostępnością danych opisujących cechy i zachowania podatników, które zawarte są w aplikacjach administracji podatkowej. Zgodnie z procesem odkrywania wiedzy według standardu CRISP-DM [30][56] w pierwszych dwóch etapach następuje poznanie i zrozumienie dziedziny zastosowań oraz wybór i selekcja odpowiednich danych. Przedstawienie w monografii najważniejszych zachowań podmiotów i osób w dziedzinie podatkowej miało na celu zrozumienie występujących zjawisk, co umożliwiło identyfikację potencjalnych danych oraz konstrukcję modelu systemu. Sama identyfikacja potencjalnych danych jest zadaniem niebanalnym, ponieważ wymaga dokładnego poznania dziedziny oraz wyboru odpowiednich atrybutów z długiej listy dość rozbudowanych systemów używanych w administracji podatkowej. Początkowe próby rozwiązania problemu z wykorzystaniem atrybutów opisujących wartości różnych podatków oraz danych dodatkowych zawierających informacje rejestracyjne okazały się niewystarczające. Dopiero dokładniejsze rozpoznanie dziedziny umożliwiło po dłuższych poszukiwaniach wyznaczenie wirtualnych parametrów, które charakteryzowały dynamiczne zachowanie się podmiotów. Dotyczyło to na przykład powiększania kosztów działalności gospodarczej poprzez sztuczne zawyżanie kosztów, co zostało uwzględnione w dwóch atrybutach opisujących wzrosty zakupów z jednego okresu na kolejny. Długie badania związane z tym rodzajem parametrów przyniosło wprowadzenie w sumie 44 wirtualnych atrybutów, które miały bardzo poważny wpływ na wysoką dokładność zaproponowanego modelu. Dodatkowe poszukiwania przyniosły jeszcze kolejne atrybuty z innych dziedzin takich jak egzekucja, mandaty i inne, które również okazały się mieć znaczący wpływ na końcowe wyniki. Praca nad modelem wymagała rozpoznania istniejących w praktyce rozwiązań z dziedziny systemów identyfikacji podatników. Dlatego też rozpoznane i opisane zostały istniejące systemy użyte w administracji podatkowej, takie jak KONTROLA, ISKOS, DWP, WBD. Na podstawie zebranych doświadczeń i wiedzy został zaproponowany hybrydowy model, który wyeliminował istniejące słabości dla dziedziny identyfikacji podatników. Umożliwia takie przetwarzanie i przekształcanie danych, które realizuje klasyfikację regułową z większą dokładnością od istniejących w praktyce i wymienionych wcześniej metod. W ramach przeprowadzonych badań i prac koniecznym było rozpoznanie modelu relacyjnego bazy danych POLTAX, co było procesem czasochłonnym, gdyż system ten posiada w sumie ponad siedemset tablic. Zaistniała również konieczność wykorzystania wiedzy i umiejętności z dziedziny projektowania i tworzenia systemów oprogramowania i baz danych. Do prac z tej dziedziny należało zaprojektowanie i oprogramowanie procedur w języku PL/SQL związanych z poborem danych z systemów POLTAX (dwadzieścia lokalizacji), projektem i utworzeniem tablic hurtowni na potrzeby systemu ekspertowego, ładowaniem danych do hurtowni, agregacją i przygotowaniem modelu danych na potrzeby metody – również procedury PL/SQL. Została również zaprojektowana i zaprogramowana w postaci pakietów języka PL/SQL przedstawiona hybrydowa metoda, która umożliwiła uzyskanie końcowych wyników pracy. Utworzone zostało również środowisko systemowe dla realizacji wyników 4 Opis systemów podatkowych i analiza dostępnych danych uzyskanych w pracy, które wymagało przygotowania i utworzenia bazy danych i hurtowni opartej na serwerze Oracle10gXE. Pozwoliło to zainstalować utworzone oprogramowanie, hurtownię danych oraz przeprowadzić wszystkie opisane eksperymenty. Badania z wykorzystaniem procesu odkrywania wiedzy oraz technik eksploracji danych są interdyscyplinarne [7], [8], ponieważ łączą ze sobą wiele dziedzin oraz dotyczą szerokiego kręgu zastosowań. Również prace przeprowadzone na potrzeby tej rozprawy łączą ze sobą wiele dyscyplin jak techniki eksploracji danych, systemy ekspertowe, pozyskiwanie wiedzy, problemy decyzyjne, projektowanie i programowanie systemów, pomiar dokładności, przetwarzanie danych i bazy danych, poznanie istniejących aplikacji, dziedzinowa wiedza dotyczące podatków i zachowań podatników. Dlatego też uzyskanie przedstawionych wyników w rozprawie wymagało dużego nakładu pracy oraz umiejętności połączenia wiedzy z wielu dziedzin w jeden funkcjonujący model systemu. 2.1. Charakterystyka i organizacja systemów podatkowych Systemy informatyczne w administracji skarbowej wspomagają i automatyzują pracę w wielu obszarach obowiązkowych działań, które zdefiniowane są jako zadania nałożone na urzędy na podstawie aktów prawnych będącymi ustawami, rozporządzeniami oraz regulacjami wydawanymi wewnątrz poszczególnych jednostek organizacyjnych. Do zakresu funkcjonalnego istniejącego oprogramowania należy wspomaganie obowiązków w ramach prowadzenia ewidencji i identyfikacji podatników oraz składanych przez nich deklaracji podatkowych i innych dokumentów zawartych w ustawach, obsługa spraw i dokumentów związanych z mandatami oraz wykroczeniami karno skarbowymi, obsługa procesów związanych z przeprowadzaniem postępowań kontrolnych z zakresu kontroli podatkowych, wspomaganie zadań dotyczących automatyzacji typowania podmiotów do kontroli (w bardzo podstawowym zakresie, bez zastosowania ugruntowanej metody), wspomaganie ewidencji i prowadzonych czynności związanych z egzekucją administracyjną należności pieniężnych, obsługa zadań obejmujących rachunkowość podatkową oraz należności budżetowe oraz wspomaganie obiegu dokumentów bazujących na instrukcji kancelaryjnej. Do istniejących systemów zaliczają się aplikacje POLTAX, EGZEKUCJA, MANDATY, POLTAX2B, KONTROLA oraz inne. 2.2. Przedstawienie i analiza danych Dane dostępne w poszczególnych systemach, opisanych w poprzednich podrozdziałach zawierają zakres informacyjny dotyczący składanych deklaracji podatkowych, zarówno przez przedsiębiorstwa jak i podatników indywidualnych, dane rejestracyjne dotyczące na przykład adresu czy też formy prawnej, informacje związane z przeprowadzonymi postępowaniami kontrolnymi, egzekucyjnymi, mandatowymi oraz istniejącymi zaległościami podatkowymi. Wszystkie wymienione kategorie informacyjne są istotne dla zaproponowanego hybrydowego modelu systemu ekspertowego, ponieważ mogą mieć wpływ na rezultat kontroli podatkowej. 5 Opis systemów podatkowych i analiza dostępnych danych Dane identyfikujące podatników zostały zebrane w dziesięciu tablicach, które zostały zaprojektowane w modelu relacyjnym w schemacie gwiazdy. Występuje jedna tablica faktów zawierająca informację na temat danych podatnika oraz wyników kontroli, dziewięć dodatkowych tablic wymiaru, w których znajdują się szczegółowe informacje na temat składanych deklaracji podatkowych, opłacanych mandatów, istniejących zaległości podatkowych, wartości kwot dla czynności egzekucyjnych oraz innych danych dotyczących konkretnego podatnika opisanego w głównej tablicy faktów. Pełne informacje związane z modelem tablic znajdują się w monografii, natomiast opis tablic znajduje się w tabeli nr 2-1. Dane dotyczące podatników pochodzą z dwudziestu aplikacji podatkowych urzędów administracji podatkowej województwa zachodniopomorskiego tzn. z urzędów skarbowych w Białogardzie, Choszcznie, Drawsku Pomorskim, Goleniowie, Gryficach, Gryfinie, Kamieniu Pomorskim, Kołobrzegu, dwóch urzędów w Koszalinie, Myśliborzu, Pyrzycach, Stargardzie Szczecińskim, Szczecinku, czterech urzędów w Szczecinie, Świnoujścia i Wałcza. Dotyczą ponad dwudziestu tysięcy kontroli podatkowych oraz zawierają informacje o deklaracjach i pozostałym zakresie dla okresu pięciu lat począwszy od 1 stycznia 2005 roku. Znajdują się tam dane z deklaracji podatkowych dotyczących podatku dochodowego od osób fizycznych i prawnych, podatku dochodowego w formie ryczałtu ewidencjonowanego, podatku od towarów i usług, podatku od czynności cywilno prawnych oraz ulg podatkowych oraz zawarte są w 16 różnych rodzajach deklaracji. Ilość zebranych deklaracji przekracza jeden milion sto tysięcy, natomiast ilość najczęściej występującej deklaracji VAT-7 oscyluje w pobliżu dziewięćset tysięcy. Poza przedstawionymi informacjami związanymi z deklaracjami ilościowo ujęte dane dotyczące pozostałych obszarów tematycznych to ilość przeprowadzonych egzekucji administracyjnych w wysokości prawie dwustu dwudziestu tysięcy, ilość wystawionych mandatów karnych w wysokości prawie sześć tysięcy oraz ilość różnych zaległości podatkowych, których jest ponad trzydzieści trzy tysiące. Nazwa tablicy DANEGL PIT PPE PPL CIT PCC VZM VAT PIT4R POZOSTALE Opis Podstawowe dane dotyczące podatnika Informacje pochodzące z deklaracji PIT-36,PIT-37, PIT-38, PIT/D, PIT/O Informacje pochodzące z deklaracji PIT-28, PIT/O związane z ryczałtem ewidencjonowanym Informacje pochodzące z deklaracji PIT-36L, podatek dochodowy liniowy Informacje pochodzące z deklaracji CIT-2, CIT-8, podatek dochodowy od osób prawnych Informacje pochodzące z deklaracji PCC-3, PCC-1, podatek od czynności cywilno prawnych Informacje pochodzące z deklaracji VZM-1, odliczenia z tytułu niektórych wydatków budowlanych Informacje pochodzące z deklaracji VAT-7, VAT-7K, VAT7D Informacje pochodzące z deklaracji PIT-4R, dotycząca pobranych zaliczek na podatek dochodowy (ilość zatrudnionych osób) Informacje pochodzące z pozostałych zakresów związanych z egzekucją administracyjną, mandatami, oraz zaległościami podatkowymi Tabela 2-1. Zawartość informacyjna relacyjnych tablic dotyczących podatnika Źródło: opracowanie własne 6 3. Systemy wnioskujące dla wyznaczania podatników i metody eksploracji danych Proces odkrywania wiedzy w bazach danych (ang. knowledge discovery in databases) standaryzuje sposób pozyskiwania wiedzy ukrytej w hurtowniach danych. Powstało kilka propozycji zbliżonych do siebie rozwiązań [8], jednak powszechnie uznawanym ze względu na swoją uniwersalność oraz uzgodnienia pomiędzy uznanymi firmami i organizacjami stał się proces CRISP-DM (ang. Cross Industry Standard Process for Data Mining) [56]. Posiada sześć wyraźnie rozróżnialnych kroków takich jak zrozumienie dziedziny, zrozumienie danych, przygotowanie danych, modelowanie, ewaluacja, wdrożenie oraz umożliwia zastosowanie sprzężeń zwrotnych. Został przedstawiony rysunku 3-1. Rysunek 3-1. Proces odkrywania wiedzy według standardu CRISP-DM Źródło : [56] Bardzo ważnym krokiem we wspomnianym procesie jest modelowanie, w którym ma zastosowanie szereg metod eksploracji danych. Taksonomia wskazuje na wielorakość występujących technik oraz ich podział [25]. Metody dzielą się na kategorie zorientowane na weryfikację oraz odkrywanie. Te pierwsze ukierunkowane są na ocenę hipotezy zaproponowanej przez źródło zewnętrzne, na przykład eksperta. Metody odkrywcze służą do automatycznej identyfikacji pewnych wzorców i prawidłowości zawartych w danych. Dzielą się na kategorie predykcyjne oraz deskrypcyjne. Podział został przedstawiony na rysunku nr 3-2. 7 Opis systemów podatkowych i analiza dostępnych danych Rysunek 3-2. Taksonomia technik eksploracji danych Źródło : [25] Kolejnym sposobem usystematyzowania rodzajów technik [9][25] jest podział na metody nadzorowane (ang. supervised learning) oraz metody nienadzorowane (ang. supervised learning). Szczególnie ważne dla prowadzonych badań w zakresie identyfikacji podatników należą metody klasyfikujące zaliczane do pierwszej wymienionej grupy, ponieważ umożliwiają rozwiązania polegające na zakwalifikowaniu podatników na mogących lub nie mogących posiadać problemy podatkowe. Dlatego też w dalszej części rozdziału przedstawiono algorytmy z tej kategorii takie jak maszyna wektorów wspierających (ang. SVM) [14][46], zbiory przybliżone [27][28][29][30][31][32][33], drzewa decyzyjne [2][22][24][25][26], naiwny algorytm Bayes’a [3][4][22][23][24]. Kolejnymi ważnymi metodami są techniki grupujące zawierające się w metodach nienadzorowanych. Zaliczają się do nich metoda środków wewnętrznych [7], metoda rozmytych c-środków [1][2][10] oraz rozmyta metoda c-modów [11][12][13]. Są istotne ze względu na właściwości, które umożliwiają podział podatników na grupy o podobnych cechach. Jest to ważny początkowy etap zaproponowanej hybrydowej metody, który w kolejnych krokach umożliwia uzyskanie większej dokładności wyników. Obecnie istnieją również metody identyfikacyjne podatników wykorzystywane w praktyce jako rozwiązania informatyczne w administracji. Umożliwiają selekcję i wybór podmiotów mogących posiadać określone problemy. Należą do nich systemy KONTROLA [15][16][17][18], DWP [19][20], WBD[21], ISKOS [52][53]. Są szczególnie istotne w kontekście poprawy dokładności uzyskanych rezultatów przez zaproponowaną metodę hybrydową. 8 4. Koncepcja modelu hybrydowego systemu Do istniejących w praktyce systemów identyfikacji podatników stosowanych w administracji podatkowej zaliczają się KONTROLA, DWP, WBD oraz ISKOS, które umożliwiają wybór podmiotów mogących mieć problemy podatkowe. W systemie KONTROLA [15][16][17][18] budowa modelu polega na wyborze kryteriów oraz tworzeniu selekcji na podstawie subiektywnej oceny osoby merytorycznej. Utworzone w ten sposób reguły nie przedstawiają obiektywnej oceny, ponieważ model jest w dużym stopniu uzależniony od preferencji użytkownika. Sam system nie posiada również oceny dokładności typowań. System DWP [19][20] identyfikuje podatników tylko dla wybranej grupy – osób fizycznych. Budowa modelu opiera się wyłącznie na atrybutach związanych z dochodami i wydatkami, nie uwzględniając wielu innych informacji mogących mieć wpływ na wynik końcowe. Nie posiada również opcji wyznaczenia dokładności. Powoduje to ograniczenia zakresu zastosowań i brak pewności uzyskanych typowań. Aplikacja WBD [21] identyfikuje potencjalne problemy tylko na podstawie istniejących danych o podmiotach o niskim zaufaniu, co daje jej bardzo ograniczony zakres zastosowania. Nie posiada również możliwości wyznaczenia dokładności. Kolejnym systemem identyfikacyjnym jest ISKOS [52][53], który tworzy model na podstawie zwykłego podziału podatników oraz klasyfikacji z wykorzystaniem drzew decyzyjnych. Zwykły podział nie umożliwia dokładnego wyodrębnienia podobnych do siebie grup, co może negatywnie wpływać na końcową dokładność wyników. Natomiast drzewa decyzyjne zastosowane w dziedzinie podatkowej, zgodnie z przeprowadzonymi badaniami [47][49] wykazują się niższą dokładnością uzyskiwanych wyników w porównaniu z teorią zbiorów przybliżonych. Do rozwiązania problemu identyfikacji podatników nadają się również metody z zakresu technik nadzorowanych zaliczających się do klasyfikatorów. Należą do nich maszyna wektorów wspierających [6][46], zbiory przybliżone [3][27][28][29][30][31][32][33], drzewa decyzyjne [2][22][24][25][26] oraz użyty w rozwiązaniu zadania naiwny algorytm Bayes’a [3][4][22][23][24]. Algorytm SVM opiera się na matematycznym modelu przekształcającym atrybuty wejściowe do wielowymiarowej przestrzeni, a następnie na podziale tej przestrzeni według wartości atrybutu decyzyjnego. Podział dokonywany jest za pomocą hiperprzestrzeni w przypadku zastosowania liniowej funkcji jądra lub też z wykorzystaniem nieliniowego separatora dla nieliniowej funkcji jądra. Zbiory przybliżone posiadają ugruntowaną teorię, bazującą na rozszerzeniu teorii zbiorów i definiują dolne i górne przybliżenie. Umożliwia to utworzenie tabeli decyzyjnej na podstawie zebranych danych, atrybutów decyzyjnych oraz zdefiniowanych przybliżeń, które przypisują każdy z przypadków do określonej klasy wraz z określeniem siły przynależności. Taka tabela może zostać przekształcona w łatwo interpretowalne reguły, jak również może zostać zapisana w formie lingwistycznej. Algorytm drzew decyzyjnych tworzy strukturę przypominającą drzewo, które w efekcie końcowym w każdym liściu zawiera wszystkie bądź większość danych przynależnych do jednej klasy. Podział każdej z komórek drzewa odbywa się według wybranego atrybutu wejściowego, w sposób iteracyjny, aż do osiągnięcia progu, na podstawie funkcji oceniającej, która wyznacza najlepszy atrybut oraz podział. Zaletą jest możliwość utworzenia łatwych do zrozumienia reguł, które mogą być utworzone na podstawie drzewa. Naiwny algorytm Bayes’a ma na celu oszacowanie prawdopodobieństwa przynależności danych wejściowych w postaci wektorów do 9 Koncepcja modelu hybrydowego systemu odpowiednich klas z wykorzystaniem teorii Bayes’a, która bazuje na warunkowym prawdopodobieństwie. W wyniku otrzymujemy prawdopodobieństwo przynależności konkretnego wektora danych do danej klasy (przedstawiany jest ten wynik, dla którego prawdopodobieństwo przynależności wektora danych do klasy jest największe). Dzięki temu możemy przypisać atrybuty opisujące konkretnego podatnika do jednej z klas, która oznacza pozytywny lub negatywy wynik kontroli. Maszyna wektorów wspierających charakteryzuje się wysoką dokładnością wyników, jednak ze względu na brak tworzenia reguł [14] nie nadaje się do rozwiązania klasyfikacji regułowej. Podobny brak wyników końcowych w postaci reguł dyskwalifikuje Naiwny algorytm Bayes’a, który dodatkowo posiada słabość, ponieważ zakłada całkowitą niezależność atrybutów wejściowych [4][23]. Brak tworzenia reguł jest dyskryminujący, ponieważ uniemożliwia pozyskanie wiedzy z otrzymanych wyników, tym samym niemożliwe staje się zrozumienie mechanizmów kierujących działaniem podatników. Takiej wady nie posiadają drzewa decyzyjne oraz teoria zbiorów przybliżonych. W przypadku pierwszej techniki występują problemy przy tworzeniu niektórych gałęzi ze względu na wysokie wartości atrybutów zależnych [7]. Dodatkowo w przypadku występowania wielu atrybutów o podobnym wysokim wpływie na zmienną decyzyjną ich znaczenie może zostać pomniejszone, gdyż ulokowanie danego atrybutu w jednej części drzewa może eliminować jego występowanie w wielu regułach [22][23]. W praktyce może to oznaczać mniejszą dokładność klasyfikacji. Potwierdzają to badania przedstawione w [47][49], które wykazują zdecydowanie większą dokładność reguł klasyfikacji wykonanej za pomocą zbiorów przybliżonych. Dodatkowo zbiory umożliwiają przedstawienie wielu dodatkowych parametrów jakościowych takich jak współczynnik pewności lub siła reguły [27][31]. Dlatego też zbiory przybliżone zostały wybrane jako część klasyfikująca zaproponowanej hybrydowej metody. Na potrzeby realizacji pełnego procesu odkrywania wiedzy zawartej w danych umieszczonych w aplikacjach skarbowych został zaprojektowany model systemu ekspertowego. Uwzględnia on lokalizację systemu w infrastrukturze informatycznej administracji skarbowej oraz zawiera rozwiązania technologiczne zastosowane do przeprowadzenia klasyfikacji regułowej podatników. Został przedstawiony na rysunku 4-1. Przedstawiona architektura uwzględnia wykorzystanie bazy danych Oracle 10gXE zainstalowanej i skonfigurowanej na systemie operacyjnym Windows 2003 Server jako systemu do przechowywania danych w hurtowni danych w modelu gwiazdy oraz zapisywania wyników eksploracji danych w postaci wyznaczonych reguł oraz wyników modelu rankingu w obiektach bazodanowych. Do realizacji poboru i ładowania danych zostały utworzone i zaprogramowane procedury języka PL/SQL, które pobierają dane w postaci relacyjnej z systemu źródłowego POLTAX opartego o bazę danych Oracle 8.1.7 i system operacyjny Unixware 7.1.1 oraz zapisują je w docelowej bazie hurtowni w modelu gwiazdy. Kolejne przekształcenia danych do struktury płaskiej oraz dyskretyzacja zostają również przeprowadzone z użyciem procedur języka PL/SQL. Kolejne kroki związane z podziałem przestrzeni opisującej podatników z wykorzystaniem rozmytej analizy skupień, wyznaczeniem względnej istotności atrybutów przy użyciu zbiorów przybliżonych oraz utworzeniem ostatecznego rankingu podatników zostały wykonane wewnątrz bazy danych Oracle przy użyciu zaprogramowanych przez autora pracy pakietów języka PL/SQL, odpowiednio: CAKLASTER, RS oraz AHP. Samo wyznaczenie reguł opisujących podatników oraz macierzy niepewności zostało zrealizowane w zewnętrznym systemie RSES, do którego zostały zaimportowane dane wyznaczonych grup podatników w wymaganej postaci 10 Koncepcja modelu hybrydowego systemu tekstowej za pomocą procedur PL/SQL. Wyniki w postaci reguł zostały wyeksportowane i zapisane w postaci tabel w systemie ekspertowym. W wersji docelowej systemu planowane jest utworzenie interfejsu graficznego w jednej z technologii web, który umożliwi wygodne korzystanie z wytworzonej funkcjonalności. Rysunek 4-1. Model systemu ekspertowego do klasyfikacji regułowej podatników Źródło: opracowanie własne Hybrydowa metoda dla systemu ekspertowego ma na celu eliminację słabości związanych z ograniczeniem zakresu podatników objętych modelem jak ma to miejsce w systemie DWP,WBD, eliminację wpływu subiektywnych ocen jak w przypadku KONTROLA, wykorzystanie w modelu większego zakresu informacyjnego dostępnego w aplikacjach, zastosowanie metod umożliwiających weryfikację dokładności, co dotyczy wszystkich wymienionych systemów włącznie z ISKOS. Wszystkie te czynności miały na celu utworzenie klasyfikacji regułowej i rankingu z większą dokładnością od wszystkich wymienionych i funkcjonujących w praktyce systemów jak również przedstawionych technik klasyfikacyjnych. Proponowany model w ramach metody ma być również zgodny z przyjętymi założeniami CRISP-DM [30][56], który dzieli proces odkrywania wiedzy na sześć etapów: zrozumienie dziedziny, zrozumienie danych, przygotowanie danych, modelowanie, ewaluacja, wdrożenie oraz zastosowanie sprzężeń zwrotnych. Dlatego też została zaproponowana hybrydowa metoda dla modelu systemu ekspertowego, która jest autorskim dziełem i ma na celu realizację klasyfikacji regułowej oraz ranking podatników ze względu na możliwe problemy związane z nieprzestrzeganiem prawa podatkowego. Metoda składa się z trzech głównych etapów [50], w której wynik zakończenia poprzedniego kroku jest wejściem do kolejnego oraz części przygotowawczej i weryfikacyjnej. Natomiast końcowym rezultatem po zakończeniu ostatniego etapu jest ranking podatników ze względu na podatność na problemy z prawem podatkowym. W części przygotowawczej następuje pobranie, agregacja oraz dyskretyzacja danych. Pierwszy etap polega na łączeniu podatników ze względu na ich cechy grupowe opisane przez atrybuty, które wskazują na podobieństwa w zachowaniu podatników ze względu na formy prawne, płacone typy podatków, funkcjonowanie w różnych branżach oraz różny zasięg terytorialny. Opisane wcześniej 11 Koncepcja modelu hybrydowego systemu Rysunek 4-2. Hybrydowa metoda dla modelu systemu ekspertowego do klasyfikacji regułowej Źródło: opracowanie własne atrybuty zostaną wykorzystane jako wejście dla rozmytego algorytmu klastrującego bazującego na metodzie c-modów, który formuje zbiory danych w grupy podatników o podobnych właściwościach na podstawie wartości funkcji przynależności wskazującej na stopień dopasowania do określonego klastra. Dla walidacji jakości klastrów oraz prawidłowej ich ilości użyta jest metoda oparta na indeksie spójności klastra dla wyznaczonej różnej liczby klastrów oraz różnych współczynników rozmytości uwzględniająca poziom separacji oraz koherentność, która ma zastosowanie w przypadku pomiaru jakości dla grupowania rozmytego [40]. Kolejnym krokiem jest klasyfikacja podatników na podstawie wyników kontroli podatkowych oraz zebranych atrybutów z wykorzystaniem teorii zbiorów przybliżonych. Operacja ta jest przeprowadzona dla każdej grupy oddzielnie. Po zredukowaniu występujących atrybutów do takich, które posiadają wpływ na zmienną decyzyjną jest przeprowadzona ekstrakcja reguł na podstawie utworzonej tablicy decyzyjnej. W ten sposób mogą zostać rozpoznane różne cechy i zachowania podatników oddzielnie dla każdej grupy. Wynik w postaci reguł wskazujących na pozytywną kontrolę jest wejściem dla ostatniego etapu, czyli rankingu podatników na podstawie modelu decyzyjnego opartego na metodzie AHP, która dla wyznaczonych reguł występujących w danym klastrze przy uwzględnieniu względnej istotności atrybutów występujących w regule uporządkuje podatników rozpoczynając od tych najbardziej interesujących ze względu na pozytywny wynik możliwej do przeprowadzania kontroli. Wyliczenie dokładności metody następuje w części weryfikacyjnej. Polega na sprawdzeniu jakości metody na podstawie macierzy pomyłek (ang. confusion matrix) na bazie której zostanie określona dokładność wyników poprzez wyznaczenie takich parametrów jak pozytywny współczynnik predykcji, negatywny współczynnik predykcji, czułość, specyficzność, całkowita dokładność, całkowity poziom błędu, współczynnik dokładności F, współczynnik jakości przewidywań. Ogólna postać całościowej metody została przedstawiona na rysunku numer 4-2. Szczegółowy opis kroków wykonywanych w poszczególnych etapach został ujęty w kolejnych podrozdziałach. 4.1. Część przygotowawcza Część ta ma na celu wykonanie czynności przyogotowujących dane na potrzeby hybrydowej metody. Polega na pobraniu, agregacji oraz kodowaniu zidentyfikowanych danych opisujących cechy grupowe podatników, które wskazują na podobieństwa w 12 Koncepcja modelu hybrydowego systemu zachowaniach podatkowych. przygotowawcza. Na rysunku 4-3 została przedstawiona część Rysunek 4-3. Cześć przygotowawcza – pobór, agregacja oraz kodowanie danych Źródło: opracowanie własne Opis poszczególnych kroków procedury przedstawia się następująco: 1. Pobranie danych zostało zrealizowane z wykorzystaniem języków SQL oraz PL/SQL dla bazy danych Oracle8i [45], w której informacje źródłowe zapisane zostały w postaci relacyjnych tablic danych i zostały zapisane w plikach zewnętrznych. Załadowanie danych zostało zrealizowane z wykorzystaniem narzędzia sqlldr [44] w bazie docelowej Oracle 10g XE. Dane przyjęły formę schematu gwiazdy z jedną tablicą faktów oraz dziewięcioma wymiarami. Zakres informacyjny danych obejmuje atrybuty opisujące cechy grupowe podatników, które wpływają na ich różne zachowania podatkowe. 2. Agregacja danych jest krokiem niezbędnym dla przekształcenia wielotablicowej struktury w postaci gwiazdy do jednej płaskiej tablicy, która umożliwia wykonanie dalszych badań z wykorzystaniem zarówno rozmytego algorytmu analizy skupień, jak również klasyfikacji regułowej z użyciem teorii zbiorów przybliżonych. Do tej operacji zostały wykorzystane języki SQL i PL/SQL zawarte w bazie danych Oracle 10g XE [42],[43]. 3. Kodowanie danych polega na nadaniu wartości liczbowych odpowiednim słownym opisom związanym z wartością atrybutów. Jest to niezbędny krok ze względu na fakt, że algorytm klastrujący pracuje na wartościach numerycznych. Ponieważ atrybuty należą do grupy kategorycznych, nie jest istotnym kolejność nadawania poszczególnych wartości kodów. Przykładową wartością kodu dla spółki cywilnej w atrybucie szczególnej formy prawnej to cztery. 4.2. Wyznaczenie grup podatników o podobnych cechach Procedura badawcza opiera się na opisanej w rozdziale trzecim rozmytej metodzie analizy skupień zwanej algorytmem rozmytych c-modów. Wykonane zostają eksperymenty z użyciem wspomnianego rozmytego algorytmu c-modów. Wyznaczona zostaje ilość klastrów na podstawie metody opartej na klastrowaniu bazującym na entropii [41]. Walidacja modelu zostaje wykonana na podstawie indeksu spójności [40]. Sprawdzanie spójności zostaje powtórzone dla wielu wartości współczynnika m oraz różnych ilości wyznaczonych klastrów. Ostateczne wyniki przypisania przynależności każdego rekordu danych do określonego klastra zostają przeprowadzone dla ilości klastrów, które posiadają największą spójność. Na rysunku 4-4 została przedstawiona cała procedura badawcza. 13 Koncepcja modelu hybrydowego systemu Rysunek 4-4. Procedura badawcza wyznaczania klastrów – I etap metody Źródło: opracowanie własne Opis poszczególnych kroków procedury przedstawia się następująco: 1. Wyznaczenie ilości klastrów do podziału opiera się na klastrowaniu bazującym na entropii [41], gdzie nie zakłada się początkowej liczby klastrów, tylko wynika ona z przeprowadzenia eksperymentów opartych na entropii. Wskazuje ona na większe skupienie obiektów wokół wyznaczonych środków dla najniższej osiągniętej wartości tego parametru. Dzięki temu możliwe staje się określenie ilość klastrów na podstawie rozkładu danych wejściowych. Wyznaczanie odbywa się z wykorzystaniem tak zwanego pomiaru podobieństwa (ang. similarity measure) oraz wartości entropii. Realizacja algorytmu według przedstawionych założeń umożliwia naturalne wyznaczenie ilości klastrów bez zakładania ich początkowej ilości. Poniżej znajdują się sposoby wyznaczenia opisanych parametrów. E kl = exp(− a ⋅ D( x k , xl )) (4.1) n H k = ∑ [ E kl ⋅ log 2 ( E kl ) − (1 − E kl ) ⋅ log 2 (1 − E kl )] (4.2) l =1 l ≠k gdzie: Hk jest wartością entropii wektora danych k, Ekl jest wartością pomiaru podobieństwa, xk i xl są to wartości dwóch wektorów danych opisujących różnych podatników, D pomiar niedopasowania przedstawiony w kolejnym punkcie, a – współczynnik projektowy (ang. design parametr), n – ilość wszystkich wektorów danych. 2. Obliczenie funkcji przynależności µ zostaje przeprowadzone dla całej matrycy danych cxn, gdzie c jest wyznaczoną ilością klastrów, natomiast n jest ilością wierszy z dyskretnej tablicy informacyjnej. Obliczenia zostają wykonane na podstawie pomiaru niedopasowania pomiędzy tymczasowymi wartościami środków klastrów v, danymi wejściowymi x oraz parametrem rozmytości m. Sposób wyznaczenia pomiaru niedopadowania D oraz funkcji przynależności µ jest następujący: 14 Koncepcja modelu hybrydowego systemu p D( xk , xl ) = ∑ δ ( xkj , xlj ) j =1 (4.3) (1 ≤ k ≤ n,1 ≤ l ≤ n, k ≠ l ) gdzie w przypadku, gdy xkj=xlj to δ (xkj,xlj)=0, w przeciwnym przypadku δ (xkj,xlj)=1, p jest liczbą atrybutów, n – ilość wierszy danych. µik = 1 1 c (4.4) D ( xk , vi ) ( m −1) ( ) ∑ j =1 D ( xk , v j ) gdzie: 1 ≤ i ≤ c, 1 ≤ k ≤ n, c – ilość klastrów, n – ilość wierszy danych, m – parametr rozmytości, v – wektor bieżących środków klastrów. 3. Obliczenie środków klastrów v bazuje na matrycy funkcji przynależności wyznaczonej w kroku poprzednim, parametrze m oraz wartościach atrybutów wejściowych. Środki klastra zostają wyliczne dla matrycy o wymiarze dxc, gdzie d jest ilością atrybutów, c jest ilością klastrów w danym eksperymencie. Sposób wyznaczenia wspomnianych środków v jest następujący: vij = a rj , ∑ (µ k , x kj = a rj ik ∑ (µ )m ≥ ik )m , (4.5) k , x kj = a tj (1 ≤ t ≤ q j , r ≠ t ) gdzie: qj to ilość kategorii przypisana do j-tego atrybutu, a – wartość atrybutu, µ,i,k – znaczenie jak w poprzednim punkcie. 3a. Decyzja o precyzji wyliczonych tymczasowych środków klastrów następuje na podstawie współczynnika dokładności ustalonego przed rozpoczęciem algorytmu. W przypadku, gdy wartość bezwględna różnicy pomiędzy wartościami funkcji celu poprzedniej Jmpoprz oraz bieżącej iteracji Jm jest równa lub większa od zakładanego pułapu błędu ε, wówczas następuje powrót do kroku piątego i wyliczenia zostają przeprowadzane ponownie. W przypadku błędu mniejszego od ε następuje przejście do następnego kroku, ponieważ osiągnięta dokładność jest powyżej założonej granicy. Sposób wyznaczenia funkcji celu Jm jest następujący: n c J m (U ,V ) = ∑∑ ( µik ) m D( xk , vi ) (4.6) k =1 i =1 gdzie: µ – wartość funkcji przynależnośći, D – wartość pomiaru niedopasowania, m – współczynnik rozmytości, i – oznacza numer klastra, k – oznacza numer wektora danych. Spełnienie poniższego warunku powoduje zakończenie obliczeń i przejście do kolejnego punktu. Brak spełnienia powoduje koniecznośc ponowienia operacji począwszy od punktu 5. | Jm – Jmpoprz | < ε (4.7) 15 Koncepcja modelu hybrydowego systemu gdzie: Jm – aktualna funkcja celu, Jmpoprz – poprzednia funkcja celu, ε – zakładany poziom błędu. 4. Wyznaczenie spójności klastra bazuje na obliczeniu indeksu spójności, który jest wyliczany w celu zapewnienia odpowiedniej jakości klastra, o jak największym skupieniu obiektów wokół wyznaczonych punktów centralnych. Im mniejsza wartość wspomnianego indeksu, tym lepszy efekt działąnia całego algorytmu klastrującego. Wielkość indeksu uzależniona jest od współczynnika ogólnej zwartości (ang. global compactness) znajdującej się w liczniku oraz współczynnika rozmytego podziału (ang. fuzzy separation), który znajduje się w mianowniku równania: n c S= ∑ ∑ (µ k =1 ik ni i =1 c ∑∑ (u i =1 j =1 j ≠i ) m D( xk , vi ) (4.8) m ij ) D(vi , v j ) gdzie: S – indeks spójności, licznik (π) – współczynnik ogólnej zwartości, mianownik (s) – współczynnik rozmytego podziału. 4a. Powtórzenie eksperymentu dla różnych wartości parametru m oraz ilości klastrów wyznaczonych w punkcie 4. Ze względu na konieczność osiągnięcia jak największej separacji danych w każdym klastrze oraz skupienie ich wokół wyznaczonych środków konieczne jest powtórzenie procedury dla różnych wartości dwóch wymienionych parameterów w celu osiągnięcia jak najkorzystniejszej czyli najniższej wartości indeksu spójności klastra. 5. Określenie przynależności każdego rekordu danych do wyznaczonego klastra bazuje na podstawie wartości funkcji przynależności µ wyznaczonej w punkcie piątym. Po wykonaniu tej operacji możliwe będzie wskazanie każdego podatnika opisanego za pomocą atrybutów do odpowiedniego klastra z wyznaczoną siłą przynależności. Krok ten jest wykonywany jednorazowo dla najniższej wartości indeksu spójności wyznaczonej na podstawie wielu eksperymentów z różnymi wartościami parametru m oraz różnymi ilościami wyznaczonych klastrów. 4.3 Ocena istotności atrybutów i ekstrakcja reguł dla podatników W drugim etapie przedstawionej metody zostanie przeprowadzona klasyfikacja regułowa podatników. Wykonywany eksperyment będzie polegał na ekstrakcji wiedzy zawartej w zgromadzonych atrybutach zależnych do postaci reguł decyzyjnych na podstawie wyników przeprowadzonych postępowań kontrolnych zapisanych w atrybucie decyzyjnym. Przed przeprowadzeniem właściwego procesu zgromadzone dane należy poddać procesowi dyskretyzacji, który zamieni atrybuty kategoryczne na wartości liczbowe oraz atrybuty ciągłe również na wartości liczbowe, ale odpowiadające określonym zakresom wartości. Istnieje również konieczność uzupełnienia brakujących wartości atrybutów [33]. Kolejnym krokiem wstępnym jest przeprowadzenie pomiarów względnej istotności atrybutów σ, który umożliwi redukcję wymiaru poprzez odrzucenie atrybutów nieistotnych lub o bardzo małym znaczeniu. Sam proces klasyfikacji z wykorzystaniem teorii zbiorów przybliżonych opiera się na definicji dolnego oraz górnego przybliżenia [5]. Na bazie wspomnianych przybliżeń, dostępnej tablicy informacyjnej wraz z zdyskretyzowanymi danymi występuje zdolność 16 Koncepcja modelu hybrydowego systemu do scharakteryzowania wszystkich klas poprzez utworzenie tablicy decyzyjnej, w której przypisany zostaje każdy z przypadków do określonej klasy wraz z określeniem siły przynależności. Wynikiem końcowym takiej operacji jest zbiór reguł decyzyjnych, które klasyfikują podatników dla każdej z wyznaczonych grup utworzonych w etapie pierwszym. Procedura badawcza zastosowana w tym etapie została przedstawiona na rysunku nr 4-5. Rysunek 4-5. Procedura badawcza dla ekstrakcji reguł decyzyjnych – II etap metody Źródło: opracowanie własne Opis poszczególnych kroków procedury etapu drugiego przedstawia się następująco: 1. Proces dyskretyzacji jest ważnym krokiem wstępnym, który ma na celu zamianę wartości ciągłych na wartości liczbowe określające przedziały wartości oraz zakodowanie opisów symbolicznych wartościami liczbowymi. Istotnym jest również podmiana wartości brakujących. Operacja ta jest istotna ze względu na możliwy wpływ na ilość reguł decyzyjnych, szybkość całego procesu obliczeniowego oraz deformację końcowych rezultatów ze względu na brakujące wartości. Ale najistotniejszym jest zniwelowanie możliwego wpływu na dokładność otrzymanych wyników, które zostają uzyskane za pomocą macierzy pomyłek. Różne metody dyskretyzacji zrealizowane w tym kroku na zasadzie eksperymentów empirycznych zostaną zweryfikowane w części weryfikacyjnej. Wynik końcowy zostanie przedstawiony dla najniższych wartości błędów. Do najbardziej popularnych technik należą podział na zakresy o równych przedziałach lub zakresy z podobną ilością danych w przedziale, nie spadającą poniżej określonego progu [54]. 2. Obliczenie istotności atrybutów bazuje na teorii zbiorów przybliżonych i definicjach pozytywnego regionu oraz współczynnika względnej istotności danego atrybutu σ. Wartość tego parametru zamyka się w przedziale zamkniętym od zero do jeden. Zerowa lub bardzo niska jego wartość bezwzględna lub względna w stosunku do pozostałych atrybutów oznacza, że nie posiada wpływu lub wpływ ten jest znikomy na zmienną decyzyjną, czyli w naszym przypadku pozytywny lub negatywny wynik kontroli 17 Koncepcja modelu hybrydowego systemu podatkowej. Oznacza to, że dany atrybut można usunąć ze zbioru tablicy informacyjnej, ponieważ można potraktować go tylko jako zbędny szum informacyjny nie mający znaczenia dla procesu klasyfikacji regułowej. Ma to również znaczenie ze względu na zwiększenie szybkości obliczeń numerycznych dla modelu oraz uzyskanie mniej skomplikowanych reguł decyzyjnych bez zbędnych atrybutów. Dla wykonania tego kroku niezbędne jest wyznaczenie współczynnika jakości przybliżenia konceptów decyzyjnych k, który jest definiowany w następujący sposób: k = γ (C , D) = card ( POS c ( D) card (U ) (4.9) gdzie: POSc(D) jest pozytywnym regionem dla partycji U/D w zakresie atrybutów C, card jest kardynalnością, czyli ilością elementów w danym zbiorze, U – uniwersum czyli skończony zbiór wszystkich obiektów, C – zbiór atrybutów warunkowych, D – zbiór atrybutów decyzyjnych Wyznaczenie względnej istotności atrybutu warunkowego σ(a) dla atrybutu a, gdzie a ∈ C zostaje wykonane przez następujące równanie: σ ( C , D ) (a) = (γ (C , D) − γ (C − {a}, D)) γ (C − {a}, D) = 1− γ (C , D) γ (C , D) (4.10) gdzie: γ(C,D) jest współczynnikiem jakości przybliżenia zdefiniowanym w równaniu (4.9), natomiast γ(C-{a},D) jest również opisanym wcześniej współczynnikiem, ale w zbiorze atrybutów C bez atrybutu a. 3. oraz 3a. W krokach tych zostaną utworzone dwie tablice na podstawie dyskretyzowanej tablicy informacyjnej. Pierwsza z nich będzie służyła jako wejście do algorytmu zbioru przybliżonych, który umożliwi ekstrakcję reguł decyzyjnych opisujących podatników. Druga jest utworzona w celach testowych, aby możliwa stała się weryfikacja dokładności uzyskanych wyników klasyfikacji z wykorzystaniem macierzy pomyłek. 4. Na podstawie teorii zbiorów przybliżonych zostanie przeprowadzona ekstrakcja reguł opisujących podatników ze względu na pozytywny lub negatywny wynik kontroli podatkowej. Wynik jest zapisywany w tabeli decyzyjnej, która powstała w wyniku przeprowadzonych obliczeń bazujących na dolnym i górnym przybliżeniu, uniwersum oraz sumie zdyskretyzowanych atrybutów decyzyjnych i zależnych. Na tej podstawie zostają przedstawione reguły, które mogą posiadać dodatkowe atrybuty jakościowe w postaci siły, ilości i innych opisanych w rozdziale trzecim. Postać tablicy decyzyjnej DT na podstawie której wyznaczone zostaną reguły przyjmuje następującą postać: DT = <U, C ∪ D, V, f> (4.11) gdzie: U – skończony zbiór wszystkich obiektów zwany uniwersum, C jest zbiorem atrybutów warunkowych, D jest atrybutem decyzyjnym, takim, że C ∪ D = Q i C ∩ D = <ZBIÓR PUSTY>, V = U q∈C ∪ DVq , gdzie Vq jest zbiorem dyskretnych wartości atrybutów q∈Q, f: U x (C ∪ D) → V jest opisem funkcji definiowanej jako f(x,q)∈Vq dla każdego q∈Q i x∈U. 5. Wyliczenie macierzy pomyłek jest ważnym krokiem weryfikującym dokładność uzyskanych wyników [61] klasyfikacji regułowej dla określonego typu dyskretyzacji przeprowadzonej w punkcie 1. Uzyskana macierz opiera się na zbiorze reguł 18 Koncepcja modelu hybrydowego systemu uzyskanych w punkcie 4. oraz dyskretyzowanej tablicy informacyjnej otrzymanej w punkcie 3a. 6. Wynik końcowy jest zestawem reguł opisujących wpływ wartości poszczególnych atrybutów na zachowania podatkowe badanych podmiotów i osób w każdej wyznaczonej grupie w etapie pierwszym. Rezultaty będą przedstawione dla najniższego poziomu błędów uzyskanego w części weryfikacyjnej. Reguły zostaną wyznaczone na postawie tabeli decyzyjnej uzyskanej w punkcie 4. Będą wskazywać wartości atrybutów wpływających na wynik kontroli. Postać reguły przyjmuje następującą postać: a1=D(A1) i a2=D(A2) … i an=D(An) => d = D(D) (4.12) gdzie: a1, an – przynajmniej jednoelementowy zbiór atrybutów warunkowych połączonych operatorem koniunkcji, d – atrybut decyzyjny, D(A) – liczba z domeny wartości atrybutu warunkowego, D(D) – liczba z domeny wartości atrybutu decyzyjnego. Dla określenia jakości każdej reguły zostaną wyznaczone: współczynnik zaufania (pewności) oraz siła reguły: π s (Ψ | Φ ) = card (|| Φ ∧ Ψ || s ) card (|| Φ || s ) (4.13) gdzie: πs jest współczynnikiem pewności, który oznacza częstość występowania obiektów w systemie informacyjnym S mających konkluzję Ψ w zbiorze obiektów mających przesłankę Φ , Ψ oznacza konkluzję reguły, Φ to przesłanka reguły, || Ψ || s to zbiór znaczeniowy konkluzji Φ w systemie informacyjnym S, || Φ || s to zbiór znaczeniowy przesłanki Φ w systemie informacyjnym S, || Φ ∧ Ψ || s jest to zbiór znaczeniowy reguły decyzyjnej Φ → Ψ w systemie informacyjnym S. σ s (Φ, Ψ ) = sup p s (Φ, Ψ ) card (|| Φ ∧ Ψ || s ) = card (U ) card (U ) (4.14) gdzie: σs - siła reguły oznaczająca stosunek liczebności danej reguły decyzyjnej w systemie informacyjnym S do liczebności całego uniwersum U, supps – wsparcie reguły czyli liczebność danej reguły decyzyjnej w systemie informacyjnym S. 4.4 Ranking podatników w grupach Trzecim i końcowym wynikiem realizowanym w trzecim etapie metody jest ranking podatników, który zostaje wyznaczony za pomocą wielokryterialnej, hierarchicznej metody wspomagania decyzji, jaką jest AHP. W wyniku działania metody uzyskujemy uporządkowaną listę podatników z uwzględnieniem każdego kryterium dla każdej wyznaczonej grupy oddzielnie. Uporządkowanie następuje według najistotniejszych podmiotów, które znajdują się na początku. Są najbardziej podatne na negatywne zachowania podatkowe. Jest to istotny krok, ponieważ do jednej reguły w grupie może być przyporządkowanych od kilkaset do wielu tysięcy podatników. W praktyce uniemożliwiłoby to wybór najbardziej interesujących podatników ze względu na kryterium poszukiwania. Dzięki zastosowaniu porządku malejącego możliwy jest 19 Koncepcja modelu hybrydowego systemu szybki i niezawodny wybór najciekawszych przypadków. Decyzja o pozycji danego podatnika w rankingu zostaje wykonana poprzez dekompozycję przyjętego problemu na wiele pojedynczych kryteriów, które każdy oddzielnie będą wpływały na uzyskanie końcowego rezultatu. Możliwa jest ocena zarówno jakościowa jak i ilościowa. Dla modelu zastosowano ocenę ilościową kryteriów, która jest możliwa do zrealizowania na podstawie atrybutów opisujących podatników o największej istotności dla klasyfikacji regułowej uzyskanych jako wynik końcowy etapu drugiego. Faktycznie więc ilościowa metoda przekłada się na uporządkowanie jakościowe, ponieważ wielkości liczbowe przyporządkowane do kryteriów odzwierciedlają w istocie jakościowy wpływ istotności danego atrybutu czyli kryterium na wynik końcowy. Na rysunku 4-6 został przedstawiony ogólny model struktury decyzyjnej, który ma zastosowanie do każdej wyznaczonej grupy na poziomie etapu pierwszego oraz reguł na końcu etapu drugiego. Rysunek 4-6. Model struktury decyzyjnej kryteriów w rankingu podatników (W1, .. Wn) – wagi dla odpowiednio kryterium 1-szego, n-tego Źródło: opracowanie własne Należy również zwrócić uwagę, że użyty ilościowy model jest w praktyce jedynym możliwym do zastosowania, ponieważ w przypadku chęci korzystania z ocen eksperta porównującego jedno kryterium z drugim i zapisującego wyniki w postaci macierzy porównań, w najlepszym przypadku zmusiłoby osobę merytoryczną do porównywania ze sobą prawie dziesięciu, w najgorszym przypadku kilkudziesięciu różnych kryteriów. Zgodnie z dostępną wiedzą porównanie przez człowieka większej ilości kryteriów niż od pięciu do dziewięciu zgodnie ze współczesną wiedzą nie jest możliwe [34]. Ponadto porównywanie wielu kryteriów o dosyć podobnym znaczeniu, na przykład paru różnych rodzajów przychodu czy też kilka typów sprzedaży stwarzałoby również duże trudności i zaistniała by możliwość zniekształcenia wyniku. Dlatego też oparcie rankingu na obiektywnie obliczonych istotnościach atrybutów jest w tym przypadku właściwe. Procedura badawcza zastosowana w etapie trzecim została przedstawiona na rysunku 4-7. 20 Koncepcja modelu hybrydowego systemu Rysunek 4-7. Schemat blokowy procedury badawczej wyznaczania rankingu Źródło: opracowanie własne Opis poszczególnych kroków procedury etapu trzeciego przedstawia się następująco: 1. Wyznaczenie listy kryteriów jest krokiem, w którym zostanie sporządzona pełna lista kryteriów dla każdej grupy uzyskanej na koniec etapu pierwszego. W każdej grupie ilość kryteriów zostanie wyznaczona na podstawie listy atrybutów o największej względnej istotności uzyskanych w etapie drugiej procedury, które uzyskały wynik o największej dokładności obliczonej za pomocą macierzy pomyłek. W praktyce ilość atrybutów będzie wahać się od kilkunastu do kilkudziesięciu. Każde pojedyncze kryterium będzie odpowiadać pojedynczemu atrybutowi opisującemu informację związaną z podatnikiem np. jego wartość całkowitą przychodu. 2. Bazą do nadania odpowiedniej wartości wagi dla kryterium będzie względna istotność atrybutu odpowiadająca temu kryterium, uzyskana w drugim etapie procedury. Następnie dla wszystkich dostępnych kryteriów wartości istotności zostaną znormalizowane. Wartości te będą wagami dla poszczególnych kryteriów, wskazujących na znaczenie poszczególnych atrybutów na wynik końcowy rankingu. Ważnym aspektem tej operacji jest fakt, że faktycznie mimo zastosowania metody ilościowej algorytmu, przypisane wartości wag mają w praktyce charakter jakościowy, ponieważ zostały uzyskane na podstawie obiektywnych wyników obliczeń bazujących na teorii zbiorów przybliżonych i pokazują faktyczny wpływ kryteriów na wynik klasyfikacji. Sposób wyznaczenia macierzy wag W jest następujący: wrs1C w1C wrs w 2C −1 Wc = ⋅ sum( wrs c ) = 2C . . wrs nc wnc (4.15) gdzie: Wc – macierz znormalizowanych wag dla klastra c, wrsnc – wartość wagi kryterium dla n-tego atrybutu oraz klastra nr c, wnc – wartość znormalizowanej wagi dla n-tego atrybutu oraz klastra nr c 21 Koncepcja modelu hybrydowego systemu 3. Nadanie wag dla każdego wystąpienia atrybutu zostaje przeprowadzone w tym kroku. Operacja sprowadza się do wyznaczenia znormalizowanej wagi każdego atrybutu w oparciu o jego wartość dla całego zbioru danych podatników mieszczących się w ramach jednej reguły w konkretnym klastrze. Jest to istotny krok, ze względu na obiektywność uzyskanego wyniku końcowego. Ze względu na fakt, że niektóre atrybuty np. przychód mają wielkości na przykład kilkadziesiąt tysięcy do wielu milionów, natomiast niektóre posiadają niewielkie wartości mieszczące się najczęściej poniżej dziesięciu np. wirtualny atrybut mierzący stosunek dochodu do przychodu, brak takiej operacji całkowicie zniekształciłby wynik, ponieważ niezależnie od faktycznej wagi atrybutów wyznaczonych w punkcie 2., atrybuty o dużych wartościach związane na przykład z przychodem miałby całkowity wpływ na końcowy ranking, natomiast te o niskiej wartości byłby bez znaczenia. Po przeprowadzeniu tej operacji każdy atrybut będzie miał wpływ na wynik końcowy, zależny od wagi nadanej mu w punkcie 2. oraz jego wagi wyznaczonej w tym punkcie bazującej na wielkości atrybutu dla każdego rekordu. Sposób wyznaczania macierzy wag WKc dla każdego atrybutu został przedstawiony poniżej. Uprzednio należy jednak należy zdefiniować macierz Kc, która zawiera wartości poszczególnych kryteriów (atrybutów). k11 k K C = 21 . k P1 k12 k 22 . k P2 . k1 N . k 2 N . . . k PN (4.16) gdzie: kPN – wartość atrybutu dla p-tego podatnika oraz n-tego kryterium k11 sum(a ) 1 k 21 WK C = sum(a 2 ) . k P1 sum (a n ) k12 sum(a 2 ) k 22 sum(a 2 ) . k P2 sum(a 2 ) k1 N sum(a N ) wk11C k 2 N wk . 21C sum(a N ) = . . . k PN wk P1C . sum(a N ) . wk12C wk 22C . wk P 2C . wk1NC . wk 2 NC . . . wk PNC (4.17) gdzie: sum(an) – suma wartości atrybutów dla n-tego kryterium, wkPNC - wyznaczona wartość wagi kryterium dla n-tego kryterium i p-tego podatnika oraz klastra numer c. 4. Wyznaczenie wagi końcowej następuje na podstawie wag wyznaczonych w punktach drugim i trzecim. Polega na obliczeniu sumy iloczynów wag przypisanych do wartości każdego atrybutu i wag przypisanych do kryterium. W efekcie uzyskana liczba zawiera się w przedziale <0 ; 1>. Większa wartość wskazuje na większe możliwe problemy występowania nieprawidłowości podatkowych. Sposób wyznaczenia macierzy wag końcowych WCALc jest następujący: wk11 wk WCALC = 21 . wk P1 wk12 wk 22 . wk P 2 . wk1N w1c wcal1c . wk 2 N w2c wcal 2c ⋅ = . . . . . wk PN wnc wcal pc (4.18) 22 Koncepcja modelu hybrydowego systemu gdzie: wkPN - wyznaczona wartość wagi kryterium dla n-tego kryterium, p-tego podatnika w c-tym klastrze, wcalpc – wartość wagi kryterium całkowitego dla p-tego podatnika w klastrze numer c. 5. Na podstawie uzyskanych końcowych zagregowanych wag zostaje sporządzony ranking podatników uporządkowanych według malejącej wartości wag, czyli takich, których należy poddać kontroli w pierwszej kolejności. W przedstawionych podsumowaniach będą przedstawione wpływy poszczególnych kryteriów na wagę końcową. Dzięki temu stanie się możliwa interpretacja wpływu zakresów wartości poszczególnych atrybutów na wynik końcowy rankingu. 4.5 Część weryfikacyjna Część weryfikacyjna ma na celu określenie precyzji metody na podstawie współczynników prawdziwych pozytywnych, prawdziwych negatywnych, fałszywych pozytywnych, fałszywych negatywnych na podstawie macierzy pomyłek uzyskanej w II Etapie. Bazujące na wymienionych czterech parametrach takie współczynniki jakościowe jak pozytywny współczynnik predykcji (ang. positive predictive value), negatywny współczynnik predykcji (ang. negative predictive values), czułość (ang. sensitivity), specyficzność (ang. specificity), całkowita dokładność (ang. accuracy), całkowity poziom błędu (ang. error rate level), współczynnik F (ang. F-Measure), współczynnik jakości przewidywań FOM [22][55][61] informują o dokładności wyekstraktowanych reguł, zarówno w kontekście odnajdywania pozytywnych i negatywnych przypadków zachowań podatkowych, jak również uwzględniają ewentualny nierównomierny rozkład wyników kontroli w wykorzystanych danych (co w przypadku zastosowanych prób danych nie występuje). Część weryfikacyjna została przedstawiona na rysunku 4-8. Rysunek 4-8. Cześć przygotowawcza – wyznaczenie dokładności metody Źródło: opracowanie własne Opis tej części przedstawia się przedstawia się następująco: 1. Wyznaczone zostaje osiem współczynników jakościowych. Sposób wyznaczania wspomnianych współczynników jakościowych jest następujący: PPV = TP TP + FP (4.19) gdzie: PPV – pozytywny współczynnik predykcji, TP – współczynnik prawdziwy pozytywny, FP – współczynnik fałszywy pozytywny. NPV = TN TN + FN (4.20) 23 Koncepcja modelu hybrydowego systemu gdzie: NPV - negatywny współczynnik predykcji, TN – współczynnik prawdziwy negatywny, FN – współczynnik prawdziwy pozytywny. SE = TP TP + FN (4.21) TN TN + FP (4.22) gdzie: SE – współczynnik czułości. SP = gdzie: SP – współczynnik specyficzności. TP + TN TP + TN + FP + FN ACC = (4.23) gdzie: ACC współczynnik całkowitej dokładności. ERR = FP + FN FP + FN + TP + TN (4.24) gdzie: ERR – współczynnik całkowitego poziomu błędu. ( β 2 + 1) ⋅ P ⋅ TP F= ( β 2 ⋅ P ) + TP β= FN TP + FN (4.25) (4.26) gdzie: F – współczynnik F (ang. F-Measure), β = FN / (TP+FN) – wskaźnik fałszywy pozytywny beta, P – współczynnik czułości. FOM = LPN W ⋅ LPP + (W + 1) ⋅ LWP (W + 1) ⋅ LWN (4.27) gdzie: FOM – współczynnik jakości przewidywań, W – współczynnik stosunku kosztu przewidywań błędnych do kosztu przewidywań pozytywnych, LPP – liczba poprawnych przewidywań pozytywnych, LWP – liczba wszystkich przewidywań pozytywnych, LPN – liczba poprawnych przewidywań negatywnych, LWN – liczba wszystkich przewidywań negatywnych. 4.6 Projekt i implementacja metody Zakres funkcjonalny hybrydowej metody został zaprezentowany w postaci diagramu przypadków użycia na rysunku 4-9. Zostały tam uwzględnione wszystkie trzy etapy wytworzonej metody wraz z etapem przygotowania danych. W ramach 24 Koncepcja modelu hybrydowego systemu implementacji zostały oprogramowane dla przypadku przygotowania danych – pobór i ładowanie danych, agregacja danych, dyskretyzacja danych, dla przypadku rozmytej analizy skupień – inicjalizacja środków, wyznaczenie środków rozmytą metodą cmodów, indeks spójności klastra, dla teorii zbiorów przybliżonych – wyznaczenie względnej istotności atrybutów , dla metody AHP – obliczania wag kryteriów i utworzenie rankingu. Szczegóły implementacyjne znajdują się w poniższych paragrafach. Rysunek 4-9.Diagram przypadków użycia hybrydowej metody Źródło: opracowanie własne Metoda została wytworzona w postaci pakietów języka PL/SQL. Pozostałe elementy programowe jak pobór danych, przygotowanie danych, podział danych i inne zostały wytworzone w postaci procedur języka PL/SQL. Szczegółowe informacje dotyczące specyfikacji wytworzonego oprogramowania znajdują się w monografii. 25 5 Wyniki badań testowych Porównanie dokładności autorskiej metody z istniejącymi metodami oraz systemami zostało przeprowadzone z wykorzystaniem parametrów PPV, NPV, SE, SP, ACC, ERR, F, FOM uzyskanych na podstawie macierzy pomyłek zgodnie z przedstawioną wcześniej częścią weryfikacyjną. Obliczenia dokładności poszczególnych metod i systemów bazują na tych samych danych, które zostały użyte do uzyskania wyników zaproponowanej hybrydowej metody. Przy czym dla algorytmu drzew decyzyjnych, naiwnego algorytmu Bayes-a, metody SVM oraz zbiorów przybliżonych uzyskane dokładności bazują na klasyfikacji przeprowadzonej na całym zbiorze danych, natomiast w przypadku symulowanego działania systemu ISKOS, zbiór danych został podzielony na dwie części. Pierwsza opisująca osoby fizyczne, natomiast druga przedsiębiorstwa. Oznacza to porównanie wyników grupy danych osób z wynikami autorskiej metody dla klastrów 1,5,6 (osoby fizyczne), natomiast danych przedsiębiorstw z rezultatami klastrów 2,3,4 (przedsiębiorstwa). W przypadku pozostałych metod uzyskane wyniki zostały porównane z dokładnością uzyskaną we wszystkich klastrach. Dla symulacji dokładności systemu KONTROLA zostały przedstawione średnie wyniki dla ośmiu najbardziej typowych selekcji. Sposób porównania bazuje na różnicy dokładności pomiędzy rezultatami uzyskanymi za pomocą proponowanej metody, a istniejącymi metodami. Został opisany poniżej: ∆KRYT = KRYTn – KRYTmet (5.1) gdzie: ∆KRYT – wynik porównania danego kryterium, KRYTn – wartości kryteriów metody autorskiej: PPV (pozytywny współczynnik predykcji), NPV (negatywny współczynnik predykcji), SE (czułość), SP (specyficzność), ACC (całkowita dokładność), F (współczynnik dokładności), FOM (współczynnik jakości przewidywań), natomiast n = 1 .. 6 - oznacza numer klastra, KRYTmet – wartości kryteriów istniejących metod i systemów, natomiast met oznacza rodzaj metody lub systemu: drzewa decyzyjne, algorytm Naive Bayes, SVM, zbiory przybliżone, system ISKOS, system KONTROLA. Dla kryterium całkowity poziom błędu (ERR), zastosowane następujące równanie: ∆KRYT = KRYTmet - KRYTn (5.2) gdzie oznaczenia mają takie same znaczenie jak powyżej, natomiast KRYT dotyczy tylko kryterium całkowitego poziomu błędu. W tabelach 5-1, 5-2, 5-3, 5-4, 5-5, 5-6 zostały zamieszone uzyskane wyniki. Przy czym dodatni wynik oznacza o ile dokładniejsza jest zaproponowana metoda, natomiast w przypadku ujemnych wartości oznacza to, o ile mniej dokładna jest metoda według znaczenia danego kryterium. W każdym przypadku porównania ogólnych wskaźników dokładności ∆ACC, ∆FOM i ∆F oraz wskaźnika błędu ∆ERR autorska metoda wykazuje się większą dokładnością dla każdej z grup dla każdego porównania. W przypadku wskaźników bardziej szczegółowo wskazujących na dokładność dla jednej z przewidywanych klas tzn. ∆PPV, ∆NPV, ∆SE, ∆SP na 180 porównań tylko siedmiokrotnie metoda wykazuje tylko niewiele mniejszą dokładność, natomiast w pozostałych 173 przypadkach dokładność proponowanej metody jest większa. Oznacza 26 Wyniki badań testowych to, że metoda oprócz osiągnięcia wysokiej dokładności wykazuje się również wyraźnie większą dokładnością od istniejących systemów i metod. Numer ∆PPV ∆NPV ∆SE ∆SP ∆ACC ∆ERR ∆F ∆FOM klastra [%] [%] [%] [%] [%] [%] [%] [%] 1 32,5 11,7 17,2 29,5 28,4 28.4 32,3 23,3 2 45,6 -0,3 8.8 35,7 27,8 27.8 32,8 22,2 3 29,3 15,5 17,5 29,8 26,9 26,9 27,3 23,6 4 24,9 5,7 2,6 29,1 20,8 20,8 18,8 15,8 5 13,3 15,6 16,2 18,3 17,4 17,4 11,2 17,2 6 36.7 8,7 15,0 27.8 26,5 26,5 30,9 21,3 Tabela 5-1. Porównanie wyników metody z algorytmem drzew decyzyjnych Źródło: opracowanie własne Numer ∆PPV ∆NPV ∆SE ∆SP ∆ACC ∆ERR ∆F ∆FOM klastra [%] [%] [%] [%] [%] [%] [%] [%] 1 23,8 32,5 24,2 31,2 27,8 27,8 24,2 27,6 2 31,9 20,5 15,8 37,2 27,2 27,2 24,7 26,5 3 15,6 36,3 24,5 31,5 26,3 26,3 19,2 27,9 4 11,2 26,5 9,6 30,8 20,2 20,2 10,7 20,1 5 -0,4 36,4 23,2 20,0 16,8 16,8 3,1 21,5 6 23,0 29,5 22,0 29,5 25,9 25,9 22,8 25,7 Tabela 5-2.. Porównanie wyników metody z naiwnym algorytmem Bayes-a Źródło: opracowanie własne Numer ∆PPV ∆NPV ∆SE ∆SP ∆ACC ∆ERR ∆F ∆FOM klastra [%] [%] [%] [%] [%] [%] [%] [%] 1 25,9 23,0 19,8 28,4 25,5 25,5 24,0 24,1 2 34,0 11,0 11,4 34,6 24,9 24,9 24,5 23,0 3 17,7 26,8 20,1 28,7 24,0 24,0 19,0 24,3 4 13,3 17,0 5,2 28,0 17,9 17,9 10,5 16,6 5 1,7 26,9 18,8 17,2 14,5 14,5 2,9 17,9 6 25,1 20,0 17,6 26,7 23,6 23,6 22,6 22,1 Tabela 5-3. Porównanie wyników metody z algorytmem SVM Źródło: opracowanie własne Numer ∆PPV ∆NPV ∆SE ∆SP ∆ACC ∆ERR ∆F ∆FOM klastra [%] [%] [%] [%] [%] [%] [%] [%] 1 23,4 22,8 39,6 6,8 21,2 21,2 30,9 23,1 2 31,5 10,8 31,2 13,0 20,6 20,6 31,4 22,0 3 15,2 26,6 39,9 7,1 19,7 19,7 25,9 23,3 4 10,8 16,8 25,0 6,4 13,6 13,6 17,4 15,6 5 -0,8 26,7 38,6 -4,4 10,2 10,2 9,8 16,9 6 22,6 19,8 37,4 5,1 19,3 19,3 29,5 21,1 Tabela 5-4. Porównanie wyników metody z teorią zbiorów przybliżonych Źródło: opracowanie własne 27 Wyniki badań testowych Numer ∆PPV ∆NPV ∆SE ∆SP ∆ACC ∆ERR ∆F ∆FOM klastra [%] [%] [%] [%] [%] [%] [%] [%] 1 34,9 13,8 15,3 32,0 28,5 28,5 29,6 23,6 2 16,0 30,5 22,5 23,8 22,9 22,9 19,5 23,0 3 -0,3 46,3 31,2 17,9 22,0 22,0 14,0 24,4 4 -4,7 36,5 16,3 17,2 15,9 15,9 5,5 16,6 5 10,7 17,7 14,3 20,8 17,5 17,5 8,5 17,5 6 34,1 10,8 13,1 30,3 26,6 26,6 28,2 21,6 Tabela 5-5. Porównanie wyników metody z symulowanym rezultatem aplikacji ISKOS Źródło: opracowanie własne Numer ∆PPV ∆NPV ∆SE ∆SP ∆ACC ∆ERR ∆F ∆FOM klastra [%] [%] [%] [%] [%] [%] [%] [%] 1 13,1 50,2 47,0 14,1 30,7 30,7 34,5 30,3 2 21,2 38,2 38,6 20,3 30,1 30,1 35,0 29,1 3 4,9 54,0 47,3 14,4 29,2 29,2 29,5 30,5 4 0,5 44,2 32,4 13,7 23,1 23,1 21,0 22,7 5 -11,1 54,1 46,0 2,9 19,7 19,7 13,4 24,1 6 12,3 47,2 44,8 12,4 28,8 28,8 33,1 28,3 Tabela 5-6. Porównanie wyników metody z symulowanym rezultatem aplikacji KONTROLA Źródło: opracowanie własne W tabeli 5-7 zostały przedstawione sumaryczne wyniki dokładności uzyskanej za pomocą zaproponowanej metody w porównaniu do istniejących metod. Sposób porównania został wykonany w następujący sposób: ∆KRYTsum = KRYTśred – KRYTmet (5.3) gdzie: ∆KRYTsum – wynik kryterium sumarycznego KRYTśred – średnia wartość kryterium hybrydowej metody dla wszystkich klastrów, dotyczy kryteriów PPV, NPV, SE. SP, ACC, F,FOM, KRYTmet – wartość kryteriów istniejących metod i systemów. Dla kryterium ERR sposób wyliczenia jest następujący: ∆KRYTsum = KRYTmet - KRYTśred (5.4) gdzie: oznaczenia mają takie same znaczenie jak powyżej, natomiast KRYT dotyczy tylko kryterium całkowitego poziomu błędu. 28 Wyniki badań testowych ∆PPVsum ∆NPVsum ∆SEsum ∆SPsum ∆ACCsum ∆ERRsum ∆Fsum ∆FOMsum [%] [%] [%] [%] [%] [%] [%] [%] 31,2 9,5 12,9 28,4 24,6 24,6 25,5 20,6 Naive Bayes 17,5 30,3 19,9 30,1 24,0 24,0 17,4 24,9 SVM 19,6 20,8 15,5 27,3 21,7 21,7 17,2 21,3 17,1 20,6 35,3 5,7 17,4 17,4 24,1 20,3 15,1 25,9 18,8 23,7 22,2 22,2 17,5 21,1 6,9 48,0 42,7 13,0 27,0 27,0 27,8 27,5 Numer klastra Drzewa decyzyjne Zbiory przybliżone System ISKOS* System KONTROLA* Tabela 5-7. Sumaryczne porównanie wyników metody z dokładnością istniejących metod (* - symulowane wyniki) Źródło: opracowanie własne Uzyskane sumaryczne wyniki porównania dokładności zaproponowanej autorskiej metody w porównaniu z istniejącymi metodami są lepsze we wszystkich mierzonych parametrach. Oznacza to, że zaproponowana metoda wykazuje większą dokładność, zarówno w parametrach mierzących ogólną precyzję przewidywania takich współczynników jak całkowita dokładność ACC, współczynnik dokładności F, współczynnik jakości przewidywań FOM, jak również posiada mniejszy poziom błędów niż każda z istniejących metod. Również w przypadku współczynników, które mierzą dokładność przewidywania jednej z klas tzn. NPV i PPV jak również podobne im współczynniki czułości i specyficzności wykazują również większą precyzję uzyskanych wyników proponowanej metody. Oznacza to, że udowodniona zostaje teza o propozycji hybrydowej metody dla modelu systemu ekspertowego opartej na rozmytym algorytmie klastrującym, teorii zbiorów przybliżonych i algorytmie AHP umożliwiającej wykonanie klasyfikacji regułowej podatników z większą dokładnością od występujących w praktyce metod identyfikacji. Opis i interpretacja uzyskanych wyników (wszystkie informacje szczegółowe zostały zawarte w monografii) ma na celu przedstawienie najważniejszych wniosków dotyczących zachowań podatkowych organizacji i osób, które zostały uzyskane na podstawie wyekstraktowanych reguł oraz rankingów podatników dla każdej z uzyskanych sześciu grup. Został zamieszczony poniżej. Na podstawie uzyskanych reguł oraz rankingu dla pierwszej grupy podatników, można stwierdzić, że największe problemy podatkowe posiadają osoby charakteryzujące się wysokimi przychodami lub dochodami lub posiadające względnie niskie ich wartości. Jednocześnie w wielu przypadkach istnieje powiązanie z problemami związanymi z zaległościami egzekucyjnymi oraz ewentualnie ze zbyt niską wartością stosunku dochodu do przychodu. Może to sugerować, że osoby, które posiadają wysokie dochody wykazują chęć obniżenia obciążeń poprzez zawyżanie kosztów uzyskania przychodów. W przypadku osób z zaniżoną wartością dochodów może to oznaczać problemy związane z ukrywaniem części przychodu. Równoczesne występowanie wcześniejszych problemów związanych z długami lub niezapłaconymi 29 Wyniki badań testowych podatkami na które wskazują zaległości egzekucyjne zwiększają możliwość występowania problemów. Podobnie jest z zaniżeniem dochodów w stosunku do przychodu, których występowanie równocześnie z wcześniej wymienionymi czynnikami zwiększa podatność na problemy. W grupie drugiej znajdują się przedsiębiorstwa bez osobowości prawnej, gdzie wielkość obrotu firmy identyfikowana za pomocą wartości sprzedaży sama w sobie ma mniejsze znaczenie. Natomiast wirtualne atrybuty dotyczące spadków płaconych podatków VAT z miesiąca na miesiąc w dwóch różnych wariantach wskazują na możliwe większe problemy. Większość firm funkcjonujących na rynku charakteryzuje się występowaniem określonych obrotów przez cały rok, poza występującymi wyjątkami działającymi w branżach uzależnionych od sezonu. Dlatego też skokowe spadki mogą wskazywać na celową chęć pomniejszania płaconego podatku VAT poprzez zawyżanie kosztów działalności lub zaniżanie i ukrywanie występujących obrotów. Kolejnymi ważnymi atrybutami powodującymi zwiększenie nieprawidłowości są występujące już w poprzedniej grupie problemy z zaległościami podatkowymi na które wskazuje ilość zaległości egzekucyjnych oraz zbyt niski lub zbyt wysoki poziom sprzedaży na jednego pracownika. Pierwszy wymieniony argument wskazuje na zwiększone ryzyko dla podmiotów posiadające zaległości wobec partnerów gospodarczych lub innych podmiotów. Wymieniony drugi parametr w pierwszej kolejności może oznaczać występowanie zaniżenia obrotów firmy, ponieważ występuje nieuzasadniona duża ilość pracowników w stosunku do wartości sprzedaży na jedną osobę. Innym przypadkiem jest zbyt mała ilość pracowników oraz występowanie wysokiej sprzedaży (nie ma komu wykonać wykazanej pracy), co może oznaczać działalność tylko częściowo nakierowaną na faktyczne zadania, natomiast w rzeczywistości może być działaniem służącym generowaniu fikcyjnych kosztów zaniżających podatki innych podmiotów poprzez wystawanie nieprawdziwych faktur. W grupie trzeciej znajdują się przedsiębiorstwa charakteryzujące się podobnie jak w poprzedniej grupie mniejszym znaczeniem wartości obrotu na wynik kontroli. Dopiero występowanie skokowych spadków płaconego podatku VAT pomiędzy kolejnymi okresami rozliczeniowymi wskazuje na możliwe problemy podatkowe, które identyfikują zawyżanie kosztów lub obniżanie sprzedaży mających na celu obniżenie wartości płaconych podatków. Występowanie sprzedaży eksportowej oraz wirtualnego atrybutu oznaczającego ilość wzrostów zwrotu podatku VAT z okresu na okres mogą oznaczać wykorzystanie nadużyć związanych dokonywaniem transakcji wewnątrzwspólnotowych. Polegają one na wykazywaniu fikcyjnych dostaw wewnątrzwspólnotowych opodatkowanych stawką podatkową 0%, gdzie przysługuje uzyskanie zwrotu podatku naliczonego, które faktycznie nie zostały wysłane i mogą zostać wprowadzone do obrotu krajowego bez podatku. Może to również oznaczać uczestnictwo w mechanizmie oszustwa karuzelowego, gdzie wytypowany podmiot dokonuje nieprawdziwych dostaw w celu odzyskania podatku. Wzrosty zwrotów podatków mogą również oznaczać zwiększenie kosztów poprzez dokonywanie fikcyjnych zakupów lub inwestycji. W grupie czwartej znajdują się przedsiębiorstwa z osobowością prawną, które charakteryzują się występowaniem czynników mających wpływ na negatywne zachowania podatkowe takich jak: występowanie spadków płaconych podatków VAT z jednego okresu rozliczeniowego na kolejny, występowanie nadwyżki podatku VAT naliczonego nad należnym do przesunięcia na następny miesiąc, występowanie zaległości egzekucyjnych, określone wartości dochodów całościowych z podatku CIT oraz sprzedaż zwolnionej od podatku VAT. Nadwyżki podatków naliczonych nad należnym mogą oznaczać niewykazywanie całości sprzedaży, generowanie 30 Wyniki badań testowych nieprawdziwych kosztów związanych z zakupami czy inwestycjami czy też uczestnictwo w mechanizmach oszust karuzelowych. Podobne przesłanki związane są z występowaniem skokowych spadków płaconych podatków VAT, które powinny być w miarę stabilne dla większości dużych firm przez cały rok. W przypadku występowania sprzedaży zwolnionej z VAT może to oznaczać chęć ominięcia podatku poprzez świadome lub nieświadome błędne oznaczenie towarów stawką 0%, które nie powinny być zwalnianie z podatku. Całościowe dochody z podatku CIT dotyczą zwiększonej czułości na problemy dla podmiotów wykazujących wysokie lub niskie wartości podatku, co może oznaczać chęć nieujawniania części podatku i jest odstępstwem od pewnych wartości występujących dla większości podmiotów. Dodatkowym czynnikiem zwiększającym możliwość występowania problemów są istniejące już zaległości egzekucyjne, które oznaczają, że wcześniej firma miała już problemy z regulowaniem zaległych płatności. Grupa piąta dotyczy osób fizycznych prowadzących działalność gospodarczą. Problemy podatkowe posiadają osoby, które wykazują się skokowymi spadkami płaconego podatku VAT lub posiadają zbyt niski stosunek płaconego podatku VAT do sprzedaży, co oznacza zawyżanie kosztów lub niewykazywanie odpowiedniej sprzedaży. Do tej grupy zaliczają się również osoby wykazujące bardzo niską wartość przychodów z tytułu ryczałtu ewidencjonowanego, ponieważ może to oznaczać ukrywanie dochodów ze względu na minimalne wymogi sprawozdawcze, tym samym łatwe ukrywanie wpływów do opodatkowania. Również występowanie zaległości egzekucyjnych oraz zaległości podatkowych wskazuje na możliwe problemy, co generalnie związane jest z brakiem przestrzegania przepisów oraz brakiem uczciwości wobec kontrahentów, na przykład brakiem płatności za towary i usługi co skutkuje późniejszymi egzekucjami administracyjnymi. Również osoby płacące mandaty w ruchu drogowym wykazują większą podatność na problemy podatkowe. Wspólnie z wymienionymi czynnikami w uzyskanych regułach znaczenie mają również określone wartości przychodów, podatków i innych atrybutów dla końcowego wyniku kontroli podatkowej. W przypadku ostatniej grupy podatników znaczenie mają również skokowe spadki płaconych podatków z jednego okresu rozliczeniowego na kolejny, co może oznaczać zaniżanie sprzedaży, zawyżanie kosztów lub też uczestnictwo w mechanizmie oszustwa karuzelowego, gdyż podatnicy mają zasięg działalności również poza granicami kraju. Znaczący wpływ na negatywne zachowania podatkowe mają również wysokość całościowego podatku należnego VAT oraz średni dochód w roku podatkowym, których zaniżenie poprzez ukrycie dochodu może znacząco obniżyć zobowiązania podatkowe. 31 6 Zakończenie Zgodnie z zawartą tezą została przedstawiona hybrydowa metoda dla modelu systemu ekspertowego umożliwiająca wykonanie klasyfikacji regułowej podatników z większą dokładnością od występujących w praktyce metod. Realizacja postawionej tezy była możliwa poprzez eliminację słabości i ograniczeń występujących w istniejących metodach i technikach. Istotne było również poznanie i zrozumienie dziedziny badań, co umożliwiło wybór i przygotowanie odpowiednich danych. W wyniku powstała procedura, która składa się z trzech głównych etapów: rozmytej analizy skupień, klasyfikacji regułowej w poszczególnych grupach oraz rankingu podatników. Dla wyznaczenia dokładności została zaproponowana część weryfikacyjna. Efektem końcowym jest osiągnięcie większej precyzji selekcji podatników od istniejących rozwiązań. Realizacja podjętych badań jest istotna z punktu widzenia pracy administracji skarbowej, która działa w interesie i na rzecz całego społeczeństwa. Wykorzystanie modelu umożliwi bowiem między innymi niwelowanie działań w tak zwanej „szarej strefie” i gwarancję wpływów do budżetu na określonym poziomie. Z punktu widzenia praktyki gospodarczej będzie zapobiegać występowaniu nieuczciwej konkurencji pomiędzy przedsiębiorcami tej samej branży. Identyfikacja podatników mających określone problemy podatkowe jest możliwa na podstawie istniejących informacji zawartych w systemach użytkowanych przez administrację podatkową. Z istniejących aplikacji podatkowych zostały wyłonione atrybuty mogące mieć wpływ na wynik kontroli podatkowej. Dotyczy to informacji pochodzących z deklaracji podatkowych związanych z podatkiem dochodowym od osób fizycznych i prawnych, podatkiem od wartości dodanej, podatkiem od czynności cywilno prawnych oraz innych. Przy zbieraniu danych uwzględniono występowanie wielu różnych wariantów dokumentów podatkowych dla jednego typu podatku/deklaracji począwszy od roku 2005. Do nich zostały dodane tak zwane atrybuty wirtualne bazujące na zebranych danych i mogące mieć również duże znaczenie na wynik końcowy, a określające przykładowo niski stosunek dochodu do przychodu. Poza danymi z deklaracji uwzględnione zostały również informacje rejestracyjne dotyczące osób i podmiotów, dane na temat egzekucji administracyjnych, mandatów, wyników kontroli oraz istniejących zaległości podatkowych na podstawie zapisanych informacji w postaci relacyjnych tablic w aplikacjach administracji skarbowej. Dane zostały zebrane w dziesięciu tablicach w modelu gwiazdy, które ze względu na potrzeby zastosowanej metody zostały zagregowane do jednej relacyjnej tablicy zawierające w sumie 127 atrybutów. Zebrane dane pochodziły z dwudziestu urzędów skarbowych na terenie województwa zachodniopomorskiego. Ilość zebranych deklaracji z okresu pięciu lat od 1 stycznia 2005 wynosi ponad jeden milion sto tysięcy, ilość danych dotyczących egzekucji to prawie dwieście dwadzieścia tysięcy. W sumie zebrane informacje dotyczyły ponad dwudziestu tysięcy postępowań kontrolnych. Istniejące metody klasyfikacji umożliwiają wyłonienie określonych podmiotów na podstawie danych wejściowych. Należą do nich drzewa decyzyjne, naiwny algorytm Bayes’a, algorytm wektorów wspierających oraz teoria zbiorów przybliżonych. W praktyce istnieją również rozwiązania identyfikacji podatników takie jak system KONTROLA, ISKOS, WBD oraz DWP. Jednak zarówno systemy jak również techniki eksploracji nie umożliwiają wykonania nałożonych przez nie zadań z odpowiednio wysoką dokładnością, ponieważ tworzą model o niewystarczającej jakości, który nie 32 Zakończenie jest wsparty weryfikacją dokładności uzyskanych wyników, ograniczony jest zakres rodzajów podatników lub posiada inne opisane słabości. Dlatego też koniecznym było zaproponowanie autorskiej metody, która rozwiązałaby istniejące mankamenty oraz zwiększyła dokładność uzyskanych rezultatów. Dlatego też w Rozdziale 4. została przedstawiona autorska koncepcja hybrydowej metody dla modelu systemu ekspertowego do klasyfikacji regułowej podatników. Metoda składa się z trzech etapów. Wynik każdego z nich jest wejściem do kolejnego. W pierwszym etapie podatnicy zostają podzieleni za grupy opisane przez atrybuty, które wskazują na możliwe różnice w zachowaniu podatników związane z przestrzeganiem prawa podatkowego. Do takich atrybutów należą odmienne formy prawne, rodzaje płaconych podatków, różny zasięg funkcjonowania oraz inne. Rozdział 4.1 opisuje szczegółowy sposób przeprowadzenia klastrowania, który bazuje na metodzie c-modów. Algorytm formuje zbiory danych w grupy o podobnych właściwościach na podstawie wartości funkcji przynależności, wskazującej stopień dopasowania do określonego klastra. Dla każdej z wyznaczonych grup zostaje przeprowadzona ekstrakcja reguł bazująca na teorii zbiorów przybliżonych. Reguły zostają uzyskane na podstawie informacji zawartych w atrybutach wejściowych oraz atrybucie decyzyjnym wskazującym na wynik kontroli podatkowej. W trakcie procesu zostaje przeprowadzona dyskretyzacja danych oraz wyznaczona jest względna istotność atrybutów, umożliwiająca redukcję wymiaru tablicy informacyjnej dla każdej z grup podatników. W wyniku zostaje uzyskany zbiór reguł dla każdego klastra, który umożliwi wskazania podatników będących wejściem do ostatniego etapu opisanego w Rozdziale 4.3. Jest to model decyzyjny oparty na metodzie AHP, który dla każdej z istniejących grup utworzy oddzielny model, bazujący na istotności atrybutów wyznaczonych w drugim etapie. Końcowy wynik to uporządkowany ranking podatników rozpoczynający się od tych najbardziej interesujących ze względu na możliwy pozytywny wynik kontroli podatkowej. Ten ostatni etap jest niezbędny, ponieważ bez wyznaczenia uporządkowanej listy podatników, trudno byłoby zadecydować o wyborze jednego lub kilku z nich do kontroli, gdyby uzyskane reguły w grupie zwróciły wiele tysięcy osób i przedsiębiorstw. Uniemożliwiłoby to osobie merytorycznej właściwy wybór, oparty na obiektywnych kryteriach. Sprawdzenie dokładności zaproponowanej metody znajduje się w części weryfikacyjnej. Kontrola dokładności metody jest zrealizowana na podstawie wyznaczonej macierzy pomyłek dla każdej z uzyskanych grup. Do parametrów wyznaczających precyzję metody zalicza się: pozytywny współczynnik predykcji (PPV), negatywny współczynnik predykcji (NPV), całkowita dokładność (ACC), całkowity poziom błędów (ERR), współczynnik dokładności (F), współczynnik jakości przewidywania (FOM), czułość (SE), specyficzność (SP) . Reguły dla etapu trzeciego zostają wybrane na podstawie najkorzystniejszych wartości parametrów dokładności uzyskanych dla jednego z zastosowanych różnych metod dyskretyzacji. W ten sposób zostaną wyselekcjonowane reguły o największej dokładności. Uzyskane wyniki jakościowe będą również podstawą do porównań zaproponowanej metody z innymi istniejącymi metodami i systemami. Szczegółowe wyniki porównujące dokładność zaproponowanej metody zostały przedstawione w Rozdziale 5. Zostały tam porównane wyniki dla siedmiu parametrów dokładności opisanych w akapicie powyżej, na podstawie przedstawionych równań porównujących ∆KRYT i ∆KRYTsum wyznaczających różnicę dokładności. Precyzja została skonfrontowana z wynikami drzew decyzyjnych, naiwnym algorytmem Bayes’a, algorytmem wektorów wspierających, teorią zbiorów przybliżonych i symulowanymi wynikami systemów KONTROLA i ISKOS. Dla sumarycznego zestawienia porównania, dla wszystkich 48 wartości zaproponowana metoda 33 Zakończenie wykazywała się większą dokładnością, gdzie przykładowo całkowita dokładność była większa o 27.0% dla największej różnicy, natomiast o 17,4% dla najmniejszej. Oznacza to udowodnienie postawionej tezy, w której stwierdzono, że zaproponowana metoda będzie umożliwiała wykonanie klasyfikacji regułowej podatników z większą dokładnością od występujących w praktyce metod identyfikacji. W wyniku przeprowadzenia eksperymentów na danych rzeczywistych uzyskano sześć grup podatników. W jednej z grup znajdują się osoby fizyczne, w dwóch następnych osoby fizyczne prowadzące działalność gospodarczą, dwie kolejne to przedsiębiorstwa bez osobowości prawnej oraz jedna to tak zwane osoby prawne. Dla każdej z grup przeprowadzono ekstrakcję reguł z opisaną wcześniej wysoką dokładnością oraz wyznaczono rankingi podatników najbardziej podatnych na problemy. Warto zwrócić uwagę, że w uzyskanych regułach prawie dla wszystkich grup znaczącą rolę odgrywają zaproponowane tak zwane atrybuty wirtualne, co świadczy o właściwej identyfikacji potencjalnych danych mających wpływ na wynik końcowy. Podsumowując uzyskane wyniki można stwierdzić, że w przypadku osób fizycznych najważniejsze są parametry zbyt wysokich lub zbyt niskich dochodów powiązane z istniejącymi zaległościami, co może oznaczać ukrywanie lub niewykazywanie dochodów, przy jednocześnie występujących problemach z różnego rodzaju zaległościami. W przypadku osób fizycznych prowadzących działalność znaczący jest zbyt niski stosunek płaconego podatku VAT do sprzedaży, co może oznaczać zawyżanie kosztów, niewykazywanie sprzedaży czy uczestnictwo w mechanizmie karuzelowym. W przypadku przedsiębiorstw bez osobowości prawnej duże znaczenie mają skoki i spadki płaconych podatków VAT z miesiąca na miesiąc. Ponieważ nie są to małe firmy, więc ich obroty dla zdecydowanej większości branż powinny charakteryzować się względną stabilnością przez okres całego roku. Dlatego też skoki takie wskazują na te podmioty, które próbują zawyżyć koszty działalności, zaniżyć lub ukrywać występujące obroty. W połączeniu ze wskaźnikiem oznaczającym wzrost zwrotu podatku VAT dla firm operujących również poza terytorium Polski może to oznaczać nadużycia związane z dokonywaniem transakcji wewnątrzwspólnotowych. Dla tak zwanych osób prawnych do najważniejszych cech wskazujących na problemy to występowanie spadków płaconych podatków VAT z okresu na okres, występowanie nadwyżki podatku VAT naliczonego nad należnym do przesunięcia na następny miesiąc czy występowanie zaległości egzekucyjnych. Może to oznaczać próby generowania nieprawdziwych kosztów związanych z zakupami, inwestycjami lub uczestnictwo w mechanizmie karuzelowym. Czynnikiem zwiększającym ryzyko jest występowanie zaległości, które wskazują na wcześniejsze problemy z prawem oraz brak rzetelności wobec partnerów gospodarczych. Na potrzeby przeprowadzenia eksperymentów oraz uzyskania wyników zostało wytworzone oprogramowanie. Jest to autorski wkład, mający na celu implementację metody w zakresie, w którym niemożliwe było wykorzystanie istniejących narzędzi ze względu na ich brak lub ograniczenia. Oprogramowanie jest wytworzone w języku SQL i PL/SQL dla baz danych Oracle10g, Oracle10gXE (darmowa wersja bazy danych Oracle), Oracle11g, logicznie grupujących określoną funkcjonalność w pakiety. Pakiet RS służy do obliczeń dolnego i górnego przybliżenia, względnej istotności atrybutów oraz pełnej tablicy decyzyjnej bazujących na teorii zbiorów przybliżonych. Pakiet CAKLASTER ma za zadanie wyznaczenie funkcji przynależności, podziału na klastry oraz wyznaczenie indeksu spójności użytych w pierwszym etapie. Natomiast ostateczne wyniki rankingu podatników na podstawie modeli AHP zostały uzyskane za pomocą pakietu AHP. Dalsze prace badawcze związane z podjętym tematem mogą dotyczyć rozwoju 34 Zakończenie modelu, który będzie polegał na rozszerzeniu zaproponowanej metody o możliwość tworzenia i modyfikacji reguł decyzyjnych w czasie rzeczywistym na podstawie wpływających na bieżąco nowych danych z deklaracji, wyników kontroli oraz pozostałych informacji. Umożliwi to płynne dopasowanie się modelu do zmieniających się strategii omijania przepisów podatkowych w szybko zmieniającej się rzeczywistości gospodarczej. Kolejne badania mogą dotyczyć metod umożliwiających konwersję reguł bazujących na wartościach liczbowych w reguły lingwistyczne umożliwiające łatwiejszą interpretację i zrozumienie istniejącej rzeczywistości. Jest to szczególnie istotne w przypadku rozwiązania problemu dla danych rzeczywistych, gdzie liczba reguł oraz warunków w regule może być bardzo duża, w praktyce trudna lub niemożliwa do zrozumienia. Kolejnym zagadnieniem jest prowadzenie dalszych prac nad uszczegółowieniem reguł dotyczących odmiennych zachowań dla różnych rodzajów działalności, zwłaszcza tych traktowanych jako branże podwyższonego ryzyka. Umożliwi to lepsze zrozumienie istniejących zachowań, tym samym zwiększy się możliwość lepszej egzekucji prawa. 35 ZAŁĄCZNIK A. LITERATURA [1] Berry W. M.. Survey of text mining, clustering, classification and retrieval. Springer 2004 [2] Miyamoto S.,Ichihashi H., Honda K. Algorithms for fuzzy clustering, Springer 2008 [3] Jain K.A., Dubes C.R. Algorithms for clustering data, Prentice Hall 1988 [4] David Hand, Heikki Mannila, Padhraic Smith, Principles of Data Mining, Massachusetts Institute of Technology, 2001 [5] Triantaphyllou E., Felici G.: Data Mining & Knowledge Discovery based in Rule Induction, Springer Science, 2006r. [6] Bezdek J.C., Dubois D., Prade H. Fuzzy sets In apprioximate resoning and information systems, Kluwer Academic 1999 [7] S.Bandyopadhyay, U.Maulik, L.B.Holder, D.J.Cook Advanced Methods for Knowledge Discovery from Complex Data, Springer, 2005 [8] A.Ghosh, S.Dehuri, S.Ghosh Multi-Objective Evolutionary Algorithms for Knowledge Discovery from Databases, Springer, 2008 [9] Fayyad U.M., Piatetsky-Shapiro G. Advances in Knowledge Discovery and Data Mining, MIT Press, 1996 [10] Josien K, Wang G, An evaluation of sampling methods for data mining with fuzzy c-means, Louisiana State University 2000 [11] Z.Huang, Extensions of the k-means algorithm for clustering large data sets with categorical values, Data Mining Knowledge Discovery 2, 1998, [12] Z.Huang, M.K.Ng, A fuzzy k-modes algorithm for clustering categorical data, IEEE Transactions on Fuzzy Systems, 1998, [13] Ohn Mar San, Van-Nam Huynh, Y.Nakamori, An alternative extension of the k-means algorithm for clustering categorical data, International Journal of Applied Mathemat-ics and Computer Science, 2004 [14] Bernhard Schoelkopf, Alexander J.Smola: Learning with kernels, Support Vector Machines, Regularization, Optimization, and Beyond, The MIT Press, 2002 [15] “Podręcznik użytkownika aplikacji POLTAX KONTROLA”, Zespół projektowy KONTROLA IS Wrocław, 2009. [16] „Poradnik użytkownika aplikacji KONTROLA”, Katarzyna Zabicka IS Wrocław OZ Bielsko-Biała, 2003. [17] „Typowanie podmiotów do kontroli w podsystemie KONTROLA ”, Wiesława Goch, Białobrzegi, 2006. [18] „Opis tabel podsystemu KONTROLA wydanie 1.6.1”, Ewa Rogacka, Tomasz Janicki, IS Wrocław, 2009. [19] „Aplikacja dochdy i wydatki podatników – zasady działania w kontekście proponowanych rozwiązań organizacyjnych i prawnych – wersja 2.0”, Rafał Selin, Puck, 2008. [20] „Aktualizacja aplikacji DWP wersja 2.12”, Rafał Selin, 2009. [21] Podręcznik użytkownika – Wojewódzkie bazy danych, Łódź, 2009 [22] Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques second edition, Morgan Kaufmann Publishers, 2006 [23] Ian H.Witten, Eibe Frank: Data Mining Practical Machine Learning Tools and Techniques, Morgan Kaufmann, 2005 [24] Evangelos Trantaphyllou, Giovanni Felici, Data Mining and Knowledge Discovery approaches based on rule induction techniques, Springer Science Business Media 2006 [25] Oded Maimon, Lior Rokach, Data Mining and Knowledge Discovery Handbook, Springer Science Business Media 2005 [26] Michael W.Berry, Matu Castellanos, Survey of text mining II clustering, classification and retrival, Springer 2008 [27] Piegat A., Zbiory przybliżone – wykłady, Szczecin, 2006r. [28] INUIGUCHI M., Generalizations of Rough Sets and Rule Extraction, Springer, 2005. [29] PAWLAK Z., Rough Sets – Theoretical Aspects of Reasoning about Data, Kluwer Academic Publishers, 1991. [30] OLSON D., DELEN D., Advanced Data Mining Techniques, Springer, 2008. [31] DUNTSCH I., GEDIGA G., Rough set data analysis, Methodos Publisher, 2000. [32] BAZAN J., SYNAK P., WROBLESKI J., Rough Set Algorithms in Classification Problem, Springer, 36 Literatura 2000. [33] DRZYMALA-BUSSE J., Rough Set Strategies to Data with Missing Attribute Values, Springer, 2006. [34] Saaty T.L., Fundamentals of Decision Making and Priority Theory with the analytic hierarchy process, Pittsburgh, PA RWS Publications, 1994. [35] Downarowicz O., Krause J., Sikorski M., Stachowski Wł., Zastosowanie metody AHP do oceny i sterowania poziomem bezpieczeństwa złożonego obiektu technicznego, w: Downarowicz O. (red.), Wybrane metody ergonomii i nauki o eksploatacji, Wyd. Politechnika Gdańska, Gdańsk 2000. [36] Saaty T.L., How to make a decision, The analytic hierarchy process, European Journal of Operational Research 48, 1990. [37] Guitouni A., Martel J.M., Tentative guideline to help choosing an appropriate MCDA method, European Journal of Operational Research 109, 1998. [38] Trzaskalik T. (red.): Metody wielokryterialne na polskim rynku finansowym, PWE, Warszawa 2006 [39] Navneet Bhushan, Kanwal Rai, Strategic Decision Making – Applying the Analytic Hierarchy Process, Springer, Londyn, 2004. [40] L.X.Xie, G.Beni, A validity measure for fuzzy clustering, IEEE Transactions, 1991r. [41] J. Yao, M.Dash, S.T. Tan, H. Liu, Entropy-based fuzzy clustering and fuzzy modeling, Fuzzy Sets and Systems, 2000r. [42] Oracle Database10g: SQL Reference Oracle Corp., 2004r. [43] Oracle Database 10g: PL/SQL User’s Guide and Reference, Oracle Corp., 2004r. [44] Oracle Database 10g: Utilities, Oracle Corp., 2004r. [45] Oracle Database 8i: SQL and PL/SQL Reference, Oracle Corp., 1998r. [46] Budziński R., Misztal L., Zastosowanie algorytmu maszyny wektorów wspierających do klasyfikacji podatników z wykorzystaniem bazy danch oracle 11g, Polskie Stowarzyszenie Zarządzania Wiedzą, Bydgoszcz 2009r. [47] Budziński R., Misztal L., Wykorzystanie drzew decyzyjnych oraz ekstrakcji reguł w zadaniu klasyfikacji podatników, Polskie Stowarzyszenie Zarządzania Wiedzą, Bydgoszcz, 2009r. [48] Becker J., Misztal L., Wielokryterialny model oceny podatników indywidualnych, Seria: Studia i Materiały Polskiego Stowarzyszenia Zarządzania Wiedzą nr 28, Bydgoszcz 2010r. [49] Misztal L., Applying Rough Sets for the Task of Rule Classification of Tax Payers, Advanced Computer Systems (PAK), Szczecin (Gliwice), 2009r. [50] Budziński R., Misztal L., “Hybrydowy model system ekspertowego do oceny podatników”, Metody Ilościowe w Badaniach Ekonomicznych, Warszawa, 2011r. [51] Wytyczne dla urzędów kontroli skarbowej i urzędów skarbowych dotyczące postępowania w sprawie przychodów nieznajdujących pokrycia w ujawnionych źródłach lub pochodzące ze źródeł nieujawnionych, Ministerstwo Finansów, 2009r. [52] Wizja systemu ISKOS, COMARCH, 2004r. [53] Clementine Data Mining Project, SPSS 2004r. [54] Oracle Data Mining Concepts 11g Release 1 (11.1), Oracle Corp., 2005-2007. [55] D. Lewis W.Gale Training text classifiers by uncertainty sampling, ACM SIGIR Conference, 1994 [56] Cross Industry Standard Process for Data Mining, http://www.crisp-dm.org [57] Zadania dla dyrektorów izb skarbowych i naczelników urzędów skarbowych w zakresie realizacji polityki finansowej państwa w 2010r. oraz wytyczne do ich realizacji, Ministerstwo Finansów, 2010r. [58] Podstawowe mierniki oceny wykonania zadań przez dyrektorów izb skarbowych i naczelników urzędów skarbowych w zakresie realizacji polityki finansowej państwa w 2010r., Ministerstwo Finansów, 2010r. [59] Wytyczne do organizacji prac urzędów skarbowych w zakresie podatku od towarów i usług, Ministerstwo Finansów, styczeń 2010r. [60] The ACM Computing Classification System, http://www.acm.org [61] C.Vercellis Business intelligence – data mining and optimization for decision making, Wiley, 2009 37