Leszek Misztal - Zachodniopomorski Uniwersytet Technologiczny w

Transkrypt

Leszek Misztal - Zachodniopomorski Uniwersytet Technologiczny w
ZACHODNIPOMORSKI
UNIWERSYTET TECHNOLOGICZNY
WYDZIAŁ INFORMATYKI
AUTOREFERAT
ROZPRAWY DOKTORSKIEJ
Model systemu ekspertowego do
klasyfikacji regułowej
podatników w urzędach
skarbowych
AUTOR
mgr inż. Leszek Misztal
PROMOTOR
prof. dr hab. inż. Ryszard Budziński
RECENZENCI
prof. dr hab. Bolesław Borkowski
dr hab. Bożena Śmiałkowska
Wydział Zastosowań Informatyki i Matematyki
Wydział Informatyki
Szkoła Główna Gospodarstwa Wiejskiego
Zachodniopomorski Uniwersytet Technologiczny
w Warszawie
w Szczecinie
SZCZECIN 2011
S P I S
T R E Ś C I
1.
WSTĘP .......................................................................................... 1
2
OPIS SYSTEMÓW PODATKOWYCH I ANALIZA
DOSTĘPNYCH DANYCH........................................................... 4
2.1. CHARAKTERYSTYKA I ORGANIZACJA SYSTEMÓW PODATKOWYCH................................. 5
2.2. PRZEDSTAWIENIE I ANALIZA DANYCH ............................................................................. 5
3.
SYSTEMY WNIOSKUJĄCE DLA WYZNACZANIA
PODATNIKÓW I METODY EKSPLORACJI DANYCH .......... 7
4.
KONCEPCJA MODELU HYBRYDOWEGO SYSTEMU ......... 9
4.1. CZĘŚĆ PRZYGOTOWAWCZA ............................................................................................ 12
4.2. WYZNACZENIE GRUP PODATNIKÓW O PODOBNYCH CECHACH ...................................... 13
4.3 OCENA ISTOTNOŚCI ATRYBUTÓW I EKSTRAKCJA REGUŁ DLA PODATNIKÓW .................. 16
4.4 RANKING PODATNIKÓW W GRUPACH .............................................................................. 19
4.5 CZĘŚĆ WERYFIKACYJNA .................................................................................................. 23
4.6 PROJEKT I IMPLEMENTACJA METODY .............................................................................. 24
5
WYNIKI BADAŃ TESTOWYCH ............................................. 26
6
ZAKOŃCZENIE ......................................................................... 32
ZAŁĄCZNIK A. LITERATURA .................................................... 36
i
i
1. WSTĘP
Rozwój systemów baz danych oraz hurtowni danych praktycznie w każdej
dziedzinie życia gospodarczego, administracyjnego, naukowego oraz w wielu innych
obszarach działalności ludzkiej doprowadził do zebrania bardzo dużej ilości informacji.
Przetwarzanie, analiza oraz pozyskiwanie wiedzy na podstawie tych danych stało się
konieczne dla uzyskania przewagi konkurencyjnej w dziedzinie gospodarczej,
sprawniejszego zarządzania administracją i budżetem na poziomie państwowym, czy
też osiągnięcia postępów oraz kolejnych odkryć w badaniach naukowych. Jednakże
wraz ze znaczącym przyrostem istniejących informacji człowiek ze względu na swoje
naturalne ograniczenia nie był w stanie wyciągnąć wniosków na podstawie tak dużej
ilości danych [22]. Dlatego też rozwinęła się wyspecjalizowana dziedzina z zakresu baz
danych zwana eksploracją danych, która umożliwia odnalezienie ukrytych wzorców,
regularności, sekwencji, reguł oraz wiedzy w różnej postaci za pomocą różnorakich
technik drążenia danych [25]. Jest jednym z kroków procesu odkrywania wiedzy [56].
Techniki eksploracji danych oraz cały proces odkrywania wiedzy mają
zastosowanie w wielu dziedzinach i branżach takich jak medycyna, biologia,
biotechnologia, produkcja, telekomunikacja, ekonomia, finanse, handel oraz wielu
innych sferach życia [5]. Zgodnie z pozycją [7] odmienna specyfika problemów
występujących w różnych branżach powoduje, że proponowane modele rozwiązań są
mocno dopasowane do konkretnego zastosowania.
Dlatego też zostało zaproponowane dedykowane rozwiązanie dla dziedziny
podatkowej. Jest to model klasyfikacji regułowej podatników w urzędach skarbowych,
którzy potencjalnie mogą posiadać problemy podatkowe. Zaproponowany model
odpowiada specyfice występującej w obszarze podatków oraz umożliwia zwiększenie
skuteczności kontroli podatkowych. Zadanie jest istotne z punktu widzenia
uzyskiwanych dochodów do budżetu, ponieważ odpowiednia kwota pieniędzy, która
zasila państwowe konta umożliwia wykonanie zadań zgodnie z założeniami rządu.
Jednym z ważnych filarów mających wpływ na realizację wpływów budżetowych jest
skuteczna kontrola podatkowa. Jest zgodna z założeniami dyscypliny podatkowej,
której celem jest osiągnięcie wysokiego poziomu dobrowolności i jakości wypełniania
obowiązków podatkowych poprzez wykorzystanie działań urzędów skarbowych w
zakresie kontroli podatkowej. Jako jednym z punktów umożliwiającym realizację tego
przedsięwzięcia rozumie się „… wzrost efektywności kontroli, w tym między innymi
poprzez poprawę typowania podmiotów do kontroli” [57]. Potwierdzeniem istotności
jakości wskazywania właściwych podmiotów jest określenie współczynników
opisujących jakość pracy dotyczącą różnych obszarów działalności izb skarbowych i
urzędów skarbowych. Znajdują się tam parametry opisujące różne warianty związane z
efektywnością kontroli podatkowej, m.in. pod kątem trafności jak i skuteczności
finansowej [58]. Kolejnym istotnym elementem w zakresie zapewnienia odpowiednich
dochodów z zakresu podatku VAT jest kontrola działalności szczególnie narażonej na
dokonywanie przestępstw podatkowych związanych z wyłudzaniem zwrotu podatku od
towarów i usług, która dotyczy zarówno samego zwrotu podatku jak i nadwyżki
podatku naliczonego nad należnym. Istotnym jest więc dokonywanie czynności
analitycznych w urzędach administracji podatkowej przed dokonaniem zwrotu podatku
na konto podatnika, ponieważ w przypadku zaistnienia podejrzenia oszustwa należy
przeprowadzić kontrolę podatkową. Oznacza to wykonanie wspomnianych wcześniej
1
Wstęp
czynności analitycznych z wykorzystaniem odpowiednich narzędzi informatycznych
[59], które umożliwiłyby wybór właściwego podmiotu. Związane jest to bezpośrednio z
ważnym elementem, który ma za zadanie określenie charakteru przychodów
nieznajdujących pokrycia w ujawnionych źródłach lub pochodzących ze źródeł
nieujawnionych [51], które dotyczą między innymi zaniżania przychodów z
działalności gospodarczej, przedsiębiorców stale ponoszących stratę z prowadzonej
działalności lub wykazujący niskie dochody.
Obecnie występują w praktyce systemy identyfikacji podatników stosowane w
administracji podatkowej, które za pomocą własnych modeli rozwiązują postawiony
problem. Zaliczają się do nich systemy KONTROLA, DWP, WBD, ISKOS. Tworzą
modele bazujące na regułach zbudowanych w oparciu o kryteria związane z atrybutami
opisującymi dane podatników [15][16][17][18], selekcje oparte na atrybutach
związanych z dochodami i wydatkami połączone z filtrami opisującymi podatników
[19][20], oceny podatników oparte na bazie informacji o podmiotach o niskim zaufaniu
[21] oraz modelu zbudowanym na podstawie podziału podatników oraz klasyfikacji za
pomocą drzew decyzyjnych [52][53]. Posiadają wiele słabości związanych z wpływem
subiektywnych ocen ludzkich, ograniczonym zakresem informacyjnym oraz rodzajem
podatników objętych modelem, jak również częściowym lub całkowitym brakiem
weryfikacji dokładności identyfikacji. Do rozwiązania problemu badawczego nadają się
również metody z zakresu technik nadzorowanych zaliczających się do klasyfikatorów.
Należą do nich maszyna wektorów wspierających [6][46], zbiory przybliżone
[3][27][28][29][30][31][32][33], drzewa decyzyjne [2][22][24][25][26] oraz naiwny
algorytm Bayes’a [3][4][22][23][24]. Ich działanie opiera się odpowiednio na
rozwiązaniu problemu w przestrzeni wielowymiarowej, rozszerzeniu teorii zbiorów
związanej z definicją pojęć górnego i dolnego przybliżenia, budowie struktury w
postaci drzewa z wykorzystaniem funkcji oceniających oraz prawdopodobieństwie
opartym na teorii Bayes’a. Posiadają liczne słabości, które dotyczą wybranych metod i
związane są z brakiem tworzenia reguł, założeniem niezależności atrybutów zależnych,
problemów w tworzeniu modelu przy wielu atrybutach o podobnym wysokim wpływie
na zmienną decyzyjną oraz przede wszystkim niewystarczającej dokładności.
Dlatego też w celu eliminacji występujących problemów w istniejących
rozwiązaniach autor przyjął za cel opracowanie hybrydowej metody dla modelu
systemu ekspertowego bazującej na rozmytym algorytmie klastrującym, teorii zbiorów
przybliżonych oraz hierarchicznej metodzie AHP, która umożliwi wskazanie
podatników mogących posiadać problemy z prawem podatkowym.
Wynikiem badań będzie przedstawienie podatników za pomocą reguł
składających się z atrybutów i ich wartości, które opisują cechy i własności klientów w
wyznaczonych grupach, którzy powinni zostać poddani kontroli podatkowej.
W końcowej fazie wyznaczony ranking podatników będzie umożliwiał wybór
najbardziej pasujących osób i przedsiębiorstw do wyznaczonych kryteriów.
Przedstawione w pracy badania mają na celu potwierdzenie prawdziwości
następującej hipotezy naukowej:
Zaproponowana hybrydowa metoda dla modelu systemu ekspertowego oparta na
rozmytym algorytmie klastrującym, teorii zbiorów przybliżonych i algorytmie AHP
umożliwi wykonanie klasyfikacji regułowej podatników z większą dokładnością od
występujących w praktyce metod identyfikacji.
Poprzez identyfikację należy rozumieć wyznaczenie podatników posiadających
lub nie posiadających problemy podatkowe. Uzyskane wyniki zostaną ocenione za
pomocą współczynników jakościowych powszechnie stosowanych do wyznaczania
precyzji w badaniach klasyfikacji. Pod pojęciem dokładności należy rozumieć
2
Wstęp
porównanie wspomnianych współczynników uzyskanych za pomocą zaproponowanego
modelu z takimi samymi współczynnikami uzyskanymi na podstawie wyników
otrzymanych z opisanych i powszechnie znanych metod i systemów wnioskujących.
Faktycznym problemem rozprawy jest identyfikacja podatników na podstawie
cech i właściwości, które wskazują na większą możliwość występowania problemów z
przestrzeganiem prawa podatkowego oraz utworzenie modelu opisującego zachowania
podatników. Wspomniane cechy i właściwości mogą zostać ustalone na podstawie
wartości atrybutów przetrzymywanych w systemach informatycznych administracji
podatkowej. Do atrybutów tych należą wartości kwot wykazywanych w deklaracjach
podatkowych, danych rejestracyjnych, egzekucji podatkowej, kontroli podatkowej i
innych. Model wykonuje klasyfikację regułową podatników w urzędach skarbowych.
Eliminuje opisane wcześniej słabości poprzez odzwierciedlenie zachowań podatników,
które jest zrealizowane za pomocą opracowanej procedury badawczej polegającej na
podzieleniu zbioru podatników za pomocą rozmytego algorytmu grupującego, na
podstawie atrybutów wpływających na ich zachowanie. Podział taki umożliwia
wyznaczenie grup podatników charakteryzujących się wysokim podobieństwem w
podejmowanych działaniach. Natomiast odmienne prawidłowości w zachowaniach
płatników zostają wyznaczone przez granice klas, które są przedmiotem badań drugiego
etapu. Przy wykorzystaniu teorii zbiorów przybliżonych, dla każdej grupy
wygenerowane zostają reguły, które wskazują na zachowania podatników, jak również
zostaje wyznaczona istotność wpływu poszczególnych atrybutów na podział klas. Na tej
podstawie w ostatniej części dla każdej z grup zostaje zbudowany model oparty na
wielokryterialnej metodzie analitycznej hierarchizacji problemu – AHP
[35][36][37][38][39][48], który umożliwi wykonanie rankingu podatników i ulokuje
najbardziej interesujących klientów na początku listy.
Prezentowane modele i wyniki badań mają charakter metodologiczno-empiryczny,
natomiast praca jest z zakresu informatyki stosowanej. Klasyfikacja zakresu pracy w
dziedzinie informatyki zgodnie z podziałem przedstawionym przez organizację ACM
(ang. Association for Computing Machinery) znajduje się w gałęzi aplikacje
bazodanowe - eksploracja danych [60] (H. Systemy informacyjne, H.2 Systemy
zarządzania bazami danych, H.2.8 Aplikacje bazodanowe).
Dla osiągnięcia celu pracy zostało opracowane autorskie oprogramowanie na
potrzeby przeprowadzenia eksperymentów, które umożliwiło uzyskanie wyników. Jest
to wkład, mający na celu implementację metody w zakresie, w którym niemożliwe było
wykorzystanie istniejących narzędzi, ze względu na ich brak lub ograniczenia.
Programy wytworzone zostały w językach SQL i PL/SQL i zostały zgrupowane w
trzech pakietach. Pierwszy z nich umożliwia podział na klastry oraz wyznaczenie
dokładności podziału. Drugi umożliwia wyznaczenie względnej istotności atrybutów
oraz wyznaczenie pełnej tablicy decyzyjnej zgodnej z teorią zbiorów przybliżonych.
Ostatni wyznacza ranking podatników zgodny z zaproponowanym modelem metody
AHP.
3
2 Opis systemów podatkowych i analiza dostępnych danych
Identyfikacja podatników ze względu na możliwe problemy dotyczące
nieprzestrzegania prawa podatkowego związana jest z dostępnością danych opisujących
cechy i zachowania podatników, które zawarte są w aplikacjach administracji
podatkowej. Zgodnie z procesem odkrywania wiedzy według standardu CRISP-DM
[30][56] w pierwszych dwóch etapach następuje poznanie i zrozumienie dziedziny
zastosowań oraz wybór i selekcja odpowiednich danych. Przedstawienie w monografii
najważniejszych zachowań podmiotów i osób w dziedzinie podatkowej miało na celu
zrozumienie występujących zjawisk, co umożliwiło identyfikację potencjalnych danych
oraz konstrukcję modelu systemu.
Sama identyfikacja potencjalnych danych jest zadaniem niebanalnym, ponieważ
wymaga dokładnego poznania dziedziny oraz wyboru odpowiednich atrybutów z
długiej listy dość rozbudowanych systemów używanych w administracji podatkowej.
Początkowe próby rozwiązania problemu z wykorzystaniem atrybutów opisujących
wartości różnych podatków oraz danych dodatkowych zawierających informacje
rejestracyjne okazały się niewystarczające. Dopiero dokładniejsze rozpoznanie
dziedziny umożliwiło po dłuższych poszukiwaniach wyznaczenie wirtualnych
parametrów, które charakteryzowały dynamiczne zachowanie się podmiotów.
Dotyczyło to na przykład powiększania kosztów działalności gospodarczej poprzez
sztuczne zawyżanie kosztów, co zostało uwzględnione w dwóch atrybutach opisujących
wzrosty zakupów z jednego okresu na kolejny. Długie badania związane z tym
rodzajem parametrów przyniosło wprowadzenie w sumie 44 wirtualnych atrybutów,
które miały bardzo poważny wpływ na wysoką dokładność zaproponowanego modelu.
Dodatkowe poszukiwania przyniosły jeszcze kolejne atrybuty z innych dziedzin takich
jak egzekucja, mandaty i inne, które również okazały się mieć znaczący wpływ na
końcowe wyniki.
Praca nad modelem wymagała rozpoznania istniejących w praktyce rozwiązań z
dziedziny systemów identyfikacji podatników. Dlatego też rozpoznane i opisane zostały
istniejące systemy użyte w administracji podatkowej, takie jak KONTROLA, ISKOS,
DWP, WBD. Na podstawie zebranych doświadczeń i wiedzy został zaproponowany
hybrydowy model, który wyeliminował istniejące słabości dla dziedziny identyfikacji
podatników. Umożliwia takie przetwarzanie i przekształcanie danych, które realizuje
klasyfikację regułową z większą dokładnością od istniejących w praktyce i
wymienionych wcześniej metod.
W ramach przeprowadzonych badań i prac koniecznym było rozpoznanie modelu
relacyjnego bazy danych POLTAX, co było procesem czasochłonnym, gdyż system ten
posiada w sumie ponad siedemset tablic. Zaistniała również konieczność wykorzystania
wiedzy i umiejętności z dziedziny projektowania i tworzenia systemów
oprogramowania i baz danych. Do prac z tej dziedziny należało zaprojektowanie i
oprogramowanie procedur w języku PL/SQL związanych z poborem danych z
systemów POLTAX (dwadzieścia lokalizacji), projektem i utworzeniem tablic hurtowni
na potrzeby systemu ekspertowego, ładowaniem danych do hurtowni, agregacją i
przygotowaniem modelu danych na potrzeby metody – również procedury PL/SQL.
Została również zaprojektowana i zaprogramowana w postaci pakietów języka PL/SQL
przedstawiona hybrydowa metoda, która umożliwiła uzyskanie końcowych wyników
pracy. Utworzone zostało również środowisko systemowe dla realizacji wyników
4
Opis systemów podatkowych i analiza dostępnych danych
uzyskanych w pracy, które wymagało przygotowania i utworzenia bazy danych i
hurtowni opartej na serwerze Oracle10gXE. Pozwoliło to zainstalować utworzone
oprogramowanie, hurtownię danych oraz przeprowadzić wszystkie opisane
eksperymenty.
Badania z wykorzystaniem procesu odkrywania wiedzy oraz technik eksploracji
danych są interdyscyplinarne [7], [8], ponieważ łączą ze sobą wiele dziedzin oraz
dotyczą szerokiego kręgu zastosowań. Również prace przeprowadzone na potrzeby tej
rozprawy łączą ze sobą wiele dyscyplin jak techniki eksploracji danych, systemy
ekspertowe, pozyskiwanie wiedzy, problemy decyzyjne, projektowanie i
programowanie systemów, pomiar dokładności, przetwarzanie danych i bazy danych,
poznanie istniejących aplikacji, dziedzinowa wiedza dotyczące podatków i zachowań
podatników. Dlatego też uzyskanie przedstawionych wyników w rozprawie wymagało
dużego nakładu pracy oraz umiejętności połączenia wiedzy z wielu dziedzin w jeden
funkcjonujący model systemu.
2.1.
Charakterystyka i organizacja systemów podatkowych
Systemy informatyczne w administracji skarbowej wspomagają i automatyzują
pracę w wielu obszarach obowiązkowych działań, które zdefiniowane są jako zadania
nałożone na urzędy na podstawie aktów prawnych będącymi ustawami,
rozporządzeniami oraz regulacjami wydawanymi wewnątrz poszczególnych jednostek
organizacyjnych. Do zakresu funkcjonalnego istniejącego oprogramowania należy
wspomaganie obowiązków w ramach prowadzenia ewidencji i identyfikacji podatników
oraz składanych przez nich deklaracji podatkowych i innych dokumentów zawartych w
ustawach, obsługa spraw i dokumentów związanych z mandatami oraz wykroczeniami
karno skarbowymi, obsługa procesów związanych z przeprowadzaniem postępowań
kontrolnych z zakresu kontroli podatkowych, wspomaganie zadań dotyczących
automatyzacji typowania podmiotów do kontroli (w bardzo podstawowym zakresie, bez
zastosowania ugruntowanej metody), wspomaganie ewidencji i prowadzonych
czynności związanych z egzekucją administracyjną należności pieniężnych, obsługa
zadań obejmujących rachunkowość podatkową oraz należności budżetowe oraz
wspomaganie obiegu dokumentów bazujących na instrukcji kancelaryjnej. Do
istniejących systemów zaliczają się aplikacje POLTAX, EGZEKUCJA, MANDATY,
POLTAX2B, KONTROLA oraz inne.
2.2.
Przedstawienie i analiza danych
Dane dostępne w poszczególnych systemach, opisanych w poprzednich
podrozdziałach zawierają zakres informacyjny dotyczący składanych deklaracji
podatkowych, zarówno przez przedsiębiorstwa jak i podatników indywidualnych, dane
rejestracyjne dotyczące na przykład adresu czy też formy prawnej, informacje związane
z przeprowadzonymi postępowaniami kontrolnymi, egzekucyjnymi, mandatowymi oraz
istniejącymi zaległościami podatkowymi. Wszystkie wymienione kategorie
informacyjne są istotne dla zaproponowanego hybrydowego modelu systemu
ekspertowego, ponieważ mogą mieć wpływ na rezultat kontroli podatkowej.
5
Opis systemów podatkowych i analiza dostępnych danych
Dane identyfikujące podatników zostały zebrane w dziesięciu tablicach, które
zostały zaprojektowane w modelu relacyjnym w schemacie gwiazdy. Występuje jedna
tablica faktów zawierająca informację na temat danych podatnika oraz wyników
kontroli, dziewięć dodatkowych tablic wymiaru, w których znajdują się szczegółowe
informacje na temat składanych deklaracji podatkowych, opłacanych mandatów,
istniejących zaległości podatkowych, wartości kwot dla czynności egzekucyjnych oraz
innych danych dotyczących konkretnego podatnika opisanego w głównej tablicy
faktów. Pełne informacje związane z modelem tablic znajdują się w monografii,
natomiast opis tablic znajduje się w tabeli nr 2-1.
Dane dotyczące podatników pochodzą z dwudziestu aplikacji podatkowych
urzędów administracji podatkowej województwa zachodniopomorskiego tzn. z urzędów
skarbowych w Białogardzie, Choszcznie, Drawsku Pomorskim, Goleniowie, Gryficach,
Gryfinie, Kamieniu Pomorskim, Kołobrzegu, dwóch urzędów w Koszalinie,
Myśliborzu, Pyrzycach, Stargardzie Szczecińskim, Szczecinku, czterech urzędów w
Szczecinie, Świnoujścia i Wałcza. Dotyczą ponad dwudziestu tysięcy kontroli
podatkowych oraz zawierają informacje o deklaracjach i pozostałym zakresie dla okresu
pięciu lat począwszy od 1 stycznia 2005 roku. Znajdują się tam dane z deklaracji
podatkowych dotyczących podatku dochodowego od osób fizycznych i prawnych,
podatku dochodowego w formie ryczałtu ewidencjonowanego, podatku od towarów i
usług, podatku od czynności cywilno prawnych oraz ulg podatkowych oraz zawarte są
w 16 różnych rodzajach deklaracji. Ilość zebranych deklaracji przekracza jeden milion
sto tysięcy, natomiast ilość najczęściej występującej deklaracji VAT-7 oscyluje w
pobliżu dziewięćset tysięcy. Poza przedstawionymi informacjami związanymi z
deklaracjami ilościowo ujęte dane dotyczące pozostałych obszarów tematycznych to
ilość przeprowadzonych egzekucji administracyjnych w wysokości prawie dwustu
dwudziestu tysięcy, ilość wystawionych mandatów karnych w wysokości prawie sześć
tysięcy oraz ilość różnych zaległości podatkowych, których jest ponad trzydzieści trzy
tysiące.
Nazwa tablicy
DANEGL
PIT
PPE
PPL
CIT
PCC
VZM
VAT
PIT4R
POZOSTALE
Opis
Podstawowe dane dotyczące podatnika
Informacje pochodzące z deklaracji PIT-36,PIT-37, PIT-38,
PIT/D, PIT/O
Informacje pochodzące z deklaracji PIT-28, PIT/O związane z
ryczałtem ewidencjonowanym
Informacje pochodzące z deklaracji PIT-36L, podatek
dochodowy liniowy
Informacje pochodzące z deklaracji CIT-2, CIT-8, podatek
dochodowy od osób prawnych
Informacje pochodzące z deklaracji PCC-3, PCC-1, podatek od
czynności cywilno prawnych
Informacje pochodzące z deklaracji VZM-1, odliczenia z
tytułu niektórych wydatków budowlanych
Informacje pochodzące z deklaracji VAT-7, VAT-7K, VAT7D
Informacje pochodzące z deklaracji PIT-4R, dotycząca
pobranych zaliczek na podatek dochodowy (ilość
zatrudnionych osób)
Informacje pochodzące z pozostałych zakresów związanych z
egzekucją administracyjną, mandatami, oraz zaległościami
podatkowymi
Tabela 2-1. Zawartość informacyjna relacyjnych tablic dotyczących podatnika
Źródło: opracowanie własne
6
3. Systemy wnioskujące dla wyznaczania podatników i
metody eksploracji danych
Proces odkrywania wiedzy w bazach danych (ang. knowledge discovery in
databases) standaryzuje sposób pozyskiwania wiedzy ukrytej w hurtowniach danych.
Powstało kilka propozycji zbliżonych do siebie rozwiązań [8], jednak powszechnie
uznawanym ze względu na swoją uniwersalność oraz uzgodnienia pomiędzy uznanymi
firmami i organizacjami stał się proces CRISP-DM (ang. Cross Industry Standard
Process for Data Mining) [56]. Posiada sześć wyraźnie rozróżnialnych kroków takich
jak zrozumienie dziedziny, zrozumienie danych, przygotowanie danych, modelowanie,
ewaluacja, wdrożenie oraz umożliwia zastosowanie sprzężeń zwrotnych. Został
przedstawiony rysunku 3-1.
Rysunek 3-1. Proces odkrywania wiedzy według standardu CRISP-DM
Źródło : [56]
Bardzo ważnym krokiem we wspomnianym procesie jest modelowanie, w którym
ma zastosowanie szereg metod eksploracji danych. Taksonomia wskazuje na
wielorakość występujących technik oraz ich podział [25]. Metody dzielą się na
kategorie zorientowane na weryfikację oraz odkrywanie. Te pierwsze ukierunkowane są
na ocenę hipotezy zaproponowanej przez źródło zewnętrzne, na przykład eksperta.
Metody odkrywcze służą do automatycznej identyfikacji pewnych wzorców i
prawidłowości zawartych w danych. Dzielą się na kategorie predykcyjne oraz
deskrypcyjne. Podział został przedstawiony na rysunku nr 3-2.
7
Opis systemów podatkowych i analiza dostępnych danych
Rysunek 3-2. Taksonomia technik eksploracji danych
Źródło : [25]
Kolejnym sposobem usystematyzowania rodzajów technik [9][25] jest podział na
metody nadzorowane (ang. supervised learning) oraz metody nienadzorowane (ang.
supervised learning). Szczególnie ważne dla prowadzonych badań w zakresie
identyfikacji podatników należą metody klasyfikujące zaliczane do pierwszej
wymienionej grupy, ponieważ umożliwiają rozwiązania polegające na
zakwalifikowaniu podatników na mogących lub nie mogących posiadać problemy
podatkowe. Dlatego też w dalszej części rozdziału przedstawiono algorytmy z tej
kategorii takie jak maszyna wektorów wspierających (ang. SVM) [14][46], zbiory
przybliżone [27][28][29][30][31][32][33], drzewa decyzyjne [2][22][24][25][26],
naiwny algorytm Bayes’a [3][4][22][23][24]. Kolejnymi ważnymi metodami są techniki
grupujące zawierające się w metodach nienadzorowanych. Zaliczają się do nich metoda
środków wewnętrznych [7], metoda rozmytych c-środków [1][2][10] oraz rozmyta
metoda c-modów [11][12][13]. Są istotne ze względu na właściwości, które
umożliwiają podział podatników na grupy o podobnych cechach. Jest to ważny
początkowy etap zaproponowanej hybrydowej metody, który w kolejnych krokach
umożliwia uzyskanie większej dokładności wyników.
Obecnie istnieją również metody identyfikacyjne podatników wykorzystywane w
praktyce jako rozwiązania informatyczne w administracji. Umożliwiają selekcję i
wybór podmiotów mogących posiadać określone problemy. Należą do nich systemy
KONTROLA [15][16][17][18], DWP [19][20], WBD[21], ISKOS [52][53]. Są
szczególnie istotne w kontekście poprawy dokładności uzyskanych rezultatów przez
zaproponowaną metodę hybrydową.
8
4. Koncepcja modelu hybrydowego systemu
Do istniejących w praktyce systemów identyfikacji podatników stosowanych w
administracji podatkowej zaliczają się KONTROLA, DWP, WBD oraz ISKOS, które
umożliwiają wybór podmiotów mogących mieć problemy podatkowe. W systemie
KONTROLA [15][16][17][18] budowa modelu polega na wyborze kryteriów oraz
tworzeniu selekcji na podstawie subiektywnej oceny osoby merytorycznej. Utworzone
w ten sposób reguły nie przedstawiają obiektywnej oceny, ponieważ model jest w
dużym stopniu uzależniony od preferencji użytkownika. Sam system nie posiada
również oceny dokładności typowań. System DWP [19][20] identyfikuje podatników
tylko dla wybranej grupy – osób fizycznych. Budowa modelu opiera się wyłącznie na
atrybutach związanych z dochodami i wydatkami, nie uwzględniając wielu innych
informacji mogących mieć wpływ na wynik końcowe. Nie posiada również opcji
wyznaczenia dokładności. Powoduje to ograniczenia zakresu zastosowań i brak
pewności uzyskanych typowań. Aplikacja WBD [21] identyfikuje potencjalne problemy
tylko na podstawie istniejących danych o podmiotach o niskim zaufaniu, co daje jej
bardzo ograniczony zakres zastosowania. Nie posiada również możliwości wyznaczenia
dokładności. Kolejnym systemem identyfikacyjnym jest ISKOS [52][53], który tworzy
model na podstawie zwykłego podziału podatników oraz klasyfikacji z wykorzystaniem
drzew decyzyjnych. Zwykły podział nie umożliwia dokładnego wyodrębnienia
podobnych do siebie grup, co może negatywnie wpływać na końcową dokładność
wyników. Natomiast drzewa decyzyjne zastosowane w dziedzinie podatkowej, zgodnie
z przeprowadzonymi badaniami [47][49] wykazują się niższą dokładnością
uzyskiwanych wyników w porównaniu z teorią zbiorów przybliżonych.
Do rozwiązania problemu identyfikacji podatników nadają się również metody z
zakresu technik nadzorowanych zaliczających się do klasyfikatorów. Należą do nich
maszyna
wektorów
wspierających
[6][46],
zbiory
przybliżone
[3][27][28][29][30][31][32][33], drzewa decyzyjne [2][22][24][25][26] oraz użyty w
rozwiązaniu zadania naiwny algorytm Bayes’a [3][4][22][23][24]. Algorytm SVM
opiera się na matematycznym modelu przekształcającym atrybuty wejściowe do
wielowymiarowej przestrzeni, a następnie na podziale tej przestrzeni według wartości
atrybutu decyzyjnego. Podział dokonywany jest za pomocą hiperprzestrzeni w
przypadku zastosowania liniowej funkcji jądra lub też z wykorzystaniem nieliniowego
separatora dla nieliniowej funkcji jądra. Zbiory przybliżone posiadają ugruntowaną
teorię, bazującą na rozszerzeniu teorii zbiorów i definiują dolne i górne przybliżenie.
Umożliwia to utworzenie tabeli decyzyjnej na podstawie zebranych danych, atrybutów
decyzyjnych oraz zdefiniowanych przybliżeń, które przypisują każdy z przypadków do
określonej klasy wraz z określeniem siły przynależności. Taka tabela może zostać
przekształcona w łatwo interpretowalne reguły, jak również może zostać zapisana w
formie lingwistycznej. Algorytm drzew decyzyjnych tworzy strukturę przypominającą
drzewo, które w efekcie końcowym w każdym liściu zawiera wszystkie bądź większość
danych przynależnych do jednej klasy. Podział każdej z komórek drzewa odbywa się
według wybranego atrybutu wejściowego, w sposób iteracyjny, aż do osiągnięcia progu,
na podstawie funkcji oceniającej, która wyznacza najlepszy atrybut oraz podział. Zaletą
jest możliwość utworzenia łatwych do zrozumienia reguł, które mogą być utworzone na
podstawie drzewa. Naiwny algorytm Bayes’a ma na celu oszacowanie
prawdopodobieństwa przynależności danych wejściowych w postaci wektorów do
9
Koncepcja modelu hybrydowego systemu
odpowiednich klas z wykorzystaniem teorii Bayes’a, która bazuje na warunkowym
prawdopodobieństwie. W wyniku otrzymujemy prawdopodobieństwo przynależności
konkretnego wektora danych do danej klasy (przedstawiany jest ten wynik, dla którego
prawdopodobieństwo przynależności wektora danych do klasy jest największe). Dzięki
temu możemy przypisać atrybuty opisujące konkretnego podatnika do jednej z klas,
która oznacza pozytywny lub negatywy wynik kontroli.
Maszyna wektorów wspierających charakteryzuje się wysoką dokładnością wyników,
jednak ze względu na brak tworzenia reguł [14] nie nadaje się do rozwiązania
klasyfikacji regułowej. Podobny brak wyników końcowych w postaci reguł
dyskwalifikuje Naiwny algorytm Bayes’a, który dodatkowo posiada słabość, ponieważ
zakłada całkowitą niezależność atrybutów wejściowych [4][23]. Brak tworzenia reguł
jest dyskryminujący, ponieważ uniemożliwia pozyskanie wiedzy z otrzymanych
wyników, tym samym niemożliwe staje się zrozumienie mechanizmów kierujących
działaniem podatników. Takiej wady nie posiadają drzewa decyzyjne oraz teoria
zbiorów przybliżonych. W przypadku pierwszej techniki występują problemy przy
tworzeniu niektórych gałęzi ze względu na wysokie wartości atrybutów zależnych [7].
Dodatkowo w przypadku występowania wielu atrybutów o podobnym wysokim
wpływie na zmienną decyzyjną ich znaczenie może zostać pomniejszone, gdyż
ulokowanie danego atrybutu w jednej części drzewa może eliminować jego
występowanie w wielu regułach [22][23]. W praktyce może to oznaczać mniejszą
dokładność klasyfikacji. Potwierdzają to badania przedstawione w [47][49], które
wykazują zdecydowanie większą dokładność reguł klasyfikacji wykonanej za pomocą
zbiorów przybliżonych. Dodatkowo zbiory umożliwiają przedstawienie wielu
dodatkowych parametrów jakościowych takich jak współczynnik pewności lub siła
reguły [27][31]. Dlatego też zbiory przybliżone zostały wybrane jako część
klasyfikująca zaproponowanej hybrydowej metody.
Na potrzeby realizacji pełnego procesu odkrywania wiedzy zawartej w danych
umieszczonych w aplikacjach skarbowych został zaprojektowany model systemu
ekspertowego. Uwzględnia on lokalizację systemu w infrastrukturze informatycznej
administracji skarbowej oraz zawiera rozwiązania technologiczne zastosowane do
przeprowadzenia klasyfikacji regułowej podatników. Został przedstawiony na rysunku
4-1.
Przedstawiona architektura uwzględnia wykorzystanie bazy danych Oracle 10gXE
zainstalowanej i skonfigurowanej na systemie operacyjnym Windows 2003 Server jako
systemu do przechowywania danych w hurtowni danych w modelu gwiazdy oraz
zapisywania wyników eksploracji danych w postaci wyznaczonych reguł oraz wyników
modelu rankingu w obiektach bazodanowych. Do realizacji poboru i ładowania danych
zostały utworzone i zaprogramowane procedury języka PL/SQL, które pobierają dane w
postaci relacyjnej z systemu źródłowego POLTAX opartego o bazę danych Oracle 8.1.7
i system operacyjny Unixware 7.1.1 oraz zapisują je w docelowej bazie hurtowni w
modelu gwiazdy. Kolejne przekształcenia danych do struktury płaskiej oraz
dyskretyzacja zostają również przeprowadzone z użyciem procedur języka PL/SQL.
Kolejne kroki związane z podziałem przestrzeni opisującej podatników z
wykorzystaniem rozmytej analizy skupień, wyznaczeniem względnej istotności
atrybutów przy użyciu zbiorów przybliżonych oraz utworzeniem ostatecznego rankingu
podatników zostały wykonane wewnątrz bazy danych Oracle przy użyciu
zaprogramowanych przez autora pracy pakietów języka PL/SQL, odpowiednio:
CAKLASTER, RS oraz AHP. Samo wyznaczenie reguł opisujących podatników oraz
macierzy niepewności zostało zrealizowane w zewnętrznym systemie RSES, do którego
zostały zaimportowane dane wyznaczonych grup podatników w wymaganej postaci
10
Koncepcja modelu hybrydowego systemu
tekstowej za pomocą procedur PL/SQL. Wyniki w postaci reguł zostały
wyeksportowane i zapisane w postaci tabel w systemie ekspertowym. W wersji
docelowej systemu planowane jest utworzenie interfejsu graficznego w jednej z
technologii web, który umożliwi wygodne korzystanie z wytworzonej funkcjonalności.
Rysunek 4-1. Model systemu ekspertowego do klasyfikacji regułowej podatników
Źródło: opracowanie własne
Hybrydowa metoda dla systemu ekspertowego ma na celu eliminację słabości
związanych z ograniczeniem zakresu podatników objętych modelem jak ma to miejsce
w systemie DWP,WBD, eliminację wpływu subiektywnych ocen jak w przypadku
KONTROLA, wykorzystanie w modelu większego zakresu informacyjnego dostępnego
w aplikacjach, zastosowanie metod umożliwiających weryfikację dokładności, co
dotyczy wszystkich wymienionych systemów włącznie z ISKOS. Wszystkie te
czynności miały na celu utworzenie klasyfikacji regułowej i rankingu z większą
dokładnością od wszystkich wymienionych i funkcjonujących w praktyce systemów jak
również przedstawionych technik klasyfikacyjnych. Proponowany model w ramach
metody ma być również zgodny z przyjętymi założeniami CRISP-DM [30][56], który
dzieli proces odkrywania wiedzy na sześć etapów: zrozumienie dziedziny, zrozumienie
danych, przygotowanie danych, modelowanie, ewaluacja, wdrożenie oraz zastosowanie
sprzężeń zwrotnych. Dlatego też została zaproponowana hybrydowa metoda dla modelu
systemu ekspertowego, która jest autorskim dziełem i ma na celu realizację klasyfikacji
regułowej oraz ranking podatników ze względu na możliwe problemy związane z
nieprzestrzeganiem prawa podatkowego. Metoda składa się z trzech głównych etapów
[50], w której wynik zakończenia poprzedniego kroku jest wejściem do kolejnego oraz
części przygotowawczej i weryfikacyjnej. Natomiast końcowym rezultatem po
zakończeniu ostatniego etapu jest ranking podatników ze względu na podatność na
problemy z prawem podatkowym. W części przygotowawczej następuje pobranie,
agregacja oraz dyskretyzacja danych. Pierwszy etap polega na łączeniu podatników ze
względu na ich cechy grupowe opisane przez atrybuty, które wskazują na podobieństwa
w zachowaniu podatników ze względu na formy prawne, płacone typy podatków,
funkcjonowanie w różnych branżach oraz różny zasięg terytorialny. Opisane wcześniej
11
Koncepcja modelu hybrydowego systemu
Rysunek 4-2. Hybrydowa metoda dla modelu systemu ekspertowego do
klasyfikacji regułowej
Źródło: opracowanie własne
atrybuty zostaną wykorzystane jako wejście dla rozmytego algorytmu klastrującego
bazującego na metodzie c-modów, który formuje zbiory danych w grupy podatników o
podobnych właściwościach na podstawie wartości funkcji przynależności wskazującej
na stopień dopasowania do określonego klastra. Dla walidacji jakości klastrów oraz
prawidłowej ich ilości użyta jest metoda oparta na indeksie spójności klastra dla
wyznaczonej różnej liczby klastrów oraz różnych współczynników rozmytości
uwzględniająca poziom separacji oraz koherentność, która ma zastosowanie w
przypadku pomiaru jakości dla grupowania rozmytego [40]. Kolejnym krokiem jest
klasyfikacja podatników na podstawie wyników kontroli podatkowych oraz zebranych
atrybutów z wykorzystaniem teorii zbiorów przybliżonych. Operacja ta jest
przeprowadzona dla każdej grupy oddzielnie. Po zredukowaniu występujących
atrybutów do takich, które posiadają wpływ na zmienną decyzyjną jest przeprowadzona
ekstrakcja reguł na podstawie utworzonej tablicy decyzyjnej. W ten sposób mogą zostać
rozpoznane różne cechy i zachowania podatników oddzielnie dla każdej grupy. Wynik
w postaci reguł wskazujących na pozytywną kontrolę jest wejściem dla ostatniego
etapu, czyli rankingu podatników na podstawie modelu decyzyjnego opartego na
metodzie AHP, która dla wyznaczonych reguł występujących w danym klastrze przy
uwzględnieniu względnej istotności atrybutów występujących w regule uporządkuje
podatników rozpoczynając od tych najbardziej interesujących ze względu na pozytywny
wynik możliwej do przeprowadzania kontroli. Wyliczenie dokładności metody
następuje w części weryfikacyjnej. Polega na sprawdzeniu jakości metody na podstawie
macierzy pomyłek (ang. confusion matrix) na bazie której zostanie określona
dokładność wyników poprzez wyznaczenie takich parametrów jak pozytywny
współczynnik predykcji, negatywny współczynnik predykcji, czułość, specyficzność,
całkowita dokładność, całkowity poziom błędu, współczynnik dokładności F,
współczynnik jakości przewidywań. Ogólna postać całościowej metody została
przedstawiona na rysunku numer 4-2. Szczegółowy opis kroków wykonywanych w
poszczególnych etapach został ujęty w kolejnych podrozdziałach.
4.1. Część przygotowawcza
Część ta ma na celu wykonanie czynności przyogotowujących dane na potrzeby
hybrydowej metody. Polega na pobraniu, agregacji oraz kodowaniu zidentyfikowanych
danych opisujących cechy grupowe podatników, które wskazują na podobieństwa w
12
Koncepcja modelu hybrydowego systemu
zachowaniach podatkowych.
przygotowawcza.
Na
rysunku
4-3
została
przedstawiona
część
Rysunek 4-3. Cześć przygotowawcza – pobór, agregacja oraz kodowanie danych
Źródło: opracowanie własne
Opis poszczególnych kroków procedury przedstawia się następująco:
1. Pobranie danych zostało zrealizowane z wykorzystaniem języków SQL oraz
PL/SQL dla bazy danych Oracle8i [45], w której informacje źródłowe zapisane zostały
w postaci relacyjnych tablic danych i zostały zapisane w plikach zewnętrznych.
Załadowanie danych zostało zrealizowane z wykorzystaniem narzędzia sqlldr [44] w
bazie docelowej Oracle 10g XE. Dane przyjęły formę schematu gwiazdy z jedną tablicą
faktów oraz dziewięcioma wymiarami. Zakres informacyjny danych obejmuje atrybuty
opisujące cechy grupowe podatników, które wpływają na ich różne zachowania
podatkowe.
2. Agregacja danych jest krokiem niezbędnym dla przekształcenia wielotablicowej
struktury w postaci gwiazdy do jednej płaskiej tablicy, która umożliwia wykonanie
dalszych badań z wykorzystaniem zarówno rozmytego algorytmu analizy skupień, jak
również klasyfikacji regułowej z użyciem teorii zbiorów przybliżonych. Do tej operacji
zostały wykorzystane języki SQL i PL/SQL zawarte w bazie danych Oracle 10g XE
[42],[43].
3. Kodowanie danych polega na nadaniu wartości liczbowych odpowiednim słownym
opisom związanym z wartością atrybutów. Jest to niezbędny krok ze względu na fakt,
że algorytm klastrujący pracuje na wartościach numerycznych. Ponieważ atrybuty
należą do grupy kategorycznych, nie jest istotnym kolejność nadawania poszczególnych
wartości kodów. Przykładową wartością kodu dla spółki cywilnej w atrybucie
szczególnej formy prawnej to cztery.
4.2. Wyznaczenie grup podatników o podobnych cechach
Procedura badawcza opiera się na opisanej w rozdziale trzecim rozmytej metodzie
analizy skupień zwanej algorytmem rozmytych c-modów. Wykonane zostają
eksperymenty z użyciem wspomnianego rozmytego algorytmu c-modów. Wyznaczona
zostaje ilość klastrów na podstawie metody opartej na klastrowaniu bazującym na
entropii [41]. Walidacja modelu zostaje wykonana na podstawie indeksu spójności [40].
Sprawdzanie spójności zostaje powtórzone dla wielu wartości współczynnika m oraz
różnych ilości wyznaczonych klastrów. Ostateczne wyniki przypisania przynależności
każdego rekordu danych do określonego klastra zostają przeprowadzone dla ilości
klastrów, które posiadają największą spójność. Na rysunku 4-4 została przedstawiona
cała procedura badawcza.
13
Koncepcja modelu hybrydowego systemu
Rysunek 4-4. Procedura badawcza wyznaczania klastrów – I etap metody
Źródło: opracowanie własne
Opis poszczególnych kroków procedury przedstawia się następująco:
1. Wyznaczenie ilości klastrów do podziału opiera się na klastrowaniu bazującym na
entropii [41], gdzie nie zakłada się początkowej liczby klastrów, tylko wynika ona z
przeprowadzenia eksperymentów opartych na entropii. Wskazuje ona na większe
skupienie obiektów wokół wyznaczonych środków dla najniższej osiągniętej wartości
tego parametru. Dzięki temu możliwe staje się określenie ilość klastrów na podstawie
rozkładu danych wejściowych. Wyznaczanie odbywa się z wykorzystaniem tak
zwanego pomiaru podobieństwa (ang. similarity measure) oraz wartości entropii.
Realizacja algorytmu według przedstawionych założeń umożliwia naturalne
wyznaczenie ilości klastrów bez zakładania ich początkowej ilości. Poniżej znajdują się
sposoby wyznaczenia opisanych parametrów.
E kl = exp(− a ⋅ D( x k , xl ))
(4.1)
n
H k = ∑ [ E kl ⋅ log 2 ( E kl ) − (1 − E kl ) ⋅ log 2 (1 − E kl )]
(4.2)
l =1
l ≠k
gdzie: Hk jest wartością entropii wektora danych k, Ekl jest wartością pomiaru
podobieństwa, xk i xl są to wartości dwóch wektorów danych opisujących różnych
podatników, D pomiar niedopasowania przedstawiony w kolejnym punkcie, a –
współczynnik projektowy (ang. design parametr), n – ilość wszystkich wektorów
danych.
2. Obliczenie funkcji przynależności µ zostaje przeprowadzone dla całej matrycy
danych cxn, gdzie c jest wyznaczoną ilością klastrów, natomiast n jest ilością wierszy z
dyskretnej tablicy informacyjnej. Obliczenia zostają wykonane na podstawie pomiaru
niedopasowania pomiędzy tymczasowymi wartościami środków klastrów v, danymi
wejściowymi x oraz parametrem rozmytości m. Sposób wyznaczenia pomiaru
niedopadowania D oraz funkcji przynależności µ jest następujący:
14
Koncepcja modelu hybrydowego systemu
p
D( xk , xl ) = ∑ δ ( xkj , xlj )
j =1
(4.3)
(1 ≤ k ≤ n,1 ≤ l ≤ n, k ≠ l )
gdzie w przypadku, gdy xkj=xlj to δ (xkj,xlj)=0, w przeciwnym przypadku δ (xkj,xlj)=1, p
jest liczbą atrybutów, n – ilość wierszy danych.
µik =
1
1
c
(4.4)
D ( xk , vi ) ( m −1)
(
)
∑
j =1 D ( xk , v j )
gdzie: 1 ≤ i ≤ c, 1 ≤ k ≤ n, c – ilość klastrów, n – ilość wierszy danych, m – parametr
rozmytości, v – wektor bieżących środków klastrów.
3. Obliczenie środków klastrów v bazuje na matrycy funkcji przynależności
wyznaczonej w kroku poprzednim, parametrze m oraz wartościach atrybutów
wejściowych. Środki klastra zostają wyliczne dla matrycy o wymiarze dxc, gdzie d jest
ilością atrybutów, c jest ilością klastrów w danym eksperymencie. Sposób wyznaczenia
wspomnianych środków v jest następujący:
vij = a rj ,
∑ (µ
k , x kj = a rj
ik
∑ (µ
)m ≥
ik
)m ,
(4.5)
k , x kj = a tj
(1 ≤ t ≤ q j , r ≠ t )
gdzie: qj to ilość kategorii przypisana do j-tego atrybutu, a – wartość atrybutu, µ,i,k –
znaczenie jak w poprzednim punkcie.
3a. Decyzja o precyzji wyliczonych tymczasowych środków klastrów następuje na
podstawie współczynnika dokładności ustalonego przed rozpoczęciem algorytmu. W
przypadku, gdy wartość bezwględna różnicy pomiędzy wartościami funkcji celu
poprzedniej Jmpoprz oraz bieżącej iteracji Jm jest równa lub większa od zakładanego
pułapu błędu ε, wówczas następuje powrót do kroku piątego i wyliczenia zostają
przeprowadzane ponownie. W przypadku błędu mniejszego od ε następuje przejście do
następnego kroku, ponieważ osiągnięta dokładność jest powyżej założonej granicy.
Sposób wyznaczenia funkcji celu Jm jest następujący:
n
c
J m (U ,V ) = ∑∑ ( µik ) m D( xk , vi )
(4.6)
k =1 i =1
gdzie: µ – wartość funkcji przynależnośći, D – wartość pomiaru niedopasowania, m –
współczynnik rozmytości, i – oznacza numer klastra, k – oznacza numer wektora
danych.
Spełnienie poniższego warunku powoduje zakończenie obliczeń i przejście do
kolejnego punktu. Brak spełnienia powoduje koniecznośc ponowienia operacji
począwszy od punktu 5.
| Jm – Jmpoprz | < ε
(4.7)
15
Koncepcja modelu hybrydowego systemu
gdzie: Jm – aktualna funkcja celu, Jmpoprz – poprzednia funkcja celu, ε – zakładany
poziom błędu.
4. Wyznaczenie spójności klastra bazuje na obliczeniu indeksu spójności, który jest
wyliczany w celu zapewnienia odpowiedniej jakości klastra, o jak największym
skupieniu obiektów wokół wyznaczonych punktów centralnych. Im mniejsza wartość
wspomnianego indeksu, tym lepszy efekt działąnia całego algorytmu klastrującego.
Wielkość indeksu uzależniona jest od współczynnika ogólnej zwartości (ang. global
compactness) znajdującej się w liczniku oraz współczynnika rozmytego podziału (ang.
fuzzy separation), który znajduje się w mianowniku równania:
n
c
S=
∑
∑ (µ
k =1
ik
ni
i =1
c
∑∑ (u
i =1 j =1
j ≠i
) m D( xk , vi )
(4.8)
m
ij
) D(vi , v j )
gdzie: S – indeks spójności, licznik (π) – współczynnik ogólnej zwartości, mianownik
(s) – współczynnik rozmytego podziału.
4a. Powtórzenie eksperymentu dla różnych wartości parametru m oraz ilości klastrów
wyznaczonych w punkcie 4. Ze względu na konieczność osiągnięcia jak największej
separacji danych w każdym klastrze oraz skupienie ich wokół wyznaczonych środków
konieczne jest powtórzenie procedury dla różnych wartości dwóch wymienionych
parameterów w celu osiągnięcia jak najkorzystniejszej czyli najniższej wartości indeksu
spójności klastra.
5. Określenie przynależności każdego rekordu danych do wyznaczonego klastra bazuje
na podstawie wartości funkcji przynależności µ wyznaczonej w punkcie piątym. Po
wykonaniu tej operacji możliwe będzie wskazanie każdego podatnika opisanego za
pomocą atrybutów do odpowiedniego klastra z wyznaczoną siłą przynależności. Krok
ten jest wykonywany jednorazowo dla najniższej wartości indeksu spójności
wyznaczonej na podstawie wielu eksperymentów z różnymi wartościami parametru m
oraz różnymi ilościami wyznaczonych klastrów.
4.3 Ocena istotności atrybutów i ekstrakcja reguł dla podatników
W drugim etapie przedstawionej metody zostanie przeprowadzona klasyfikacja
regułowa podatników. Wykonywany eksperyment będzie polegał na ekstrakcji wiedzy
zawartej w zgromadzonych atrybutach zależnych do postaci reguł decyzyjnych na
podstawie wyników przeprowadzonych postępowań kontrolnych zapisanych w
atrybucie decyzyjnym. Przed przeprowadzeniem właściwego procesu zgromadzone
dane należy poddać procesowi dyskretyzacji, który zamieni atrybuty kategoryczne na
wartości liczbowe oraz atrybuty ciągłe również na wartości liczbowe, ale
odpowiadające określonym zakresom wartości. Istnieje również konieczność
uzupełnienia brakujących wartości atrybutów [33]. Kolejnym krokiem wstępnym jest
przeprowadzenie pomiarów względnej istotności atrybutów σ, który umożliwi redukcję
wymiaru poprzez odrzucenie atrybutów nieistotnych lub o bardzo małym znaczeniu.
Sam proces klasyfikacji z wykorzystaniem teorii zbiorów przybliżonych opiera się na
definicji dolnego oraz górnego przybliżenia [5]. Na bazie wspomnianych przybliżeń,
dostępnej tablicy informacyjnej wraz z zdyskretyzowanymi danymi występuje zdolność
16
Koncepcja modelu hybrydowego systemu
do scharakteryzowania wszystkich klas poprzez utworzenie tablicy decyzyjnej, w której
przypisany zostaje każdy z przypadków do określonej klasy wraz z określeniem siły
przynależności. Wynikiem końcowym takiej operacji jest zbiór reguł decyzyjnych,
które klasyfikują podatników dla każdej z wyznaczonych grup utworzonych w etapie
pierwszym. Procedura badawcza zastosowana w tym etapie została przedstawiona na
rysunku nr 4-5.
Rysunek 4-5. Procedura badawcza dla ekstrakcji reguł decyzyjnych – II etap metody
Źródło: opracowanie własne
Opis poszczególnych kroków procedury etapu drugiego przedstawia się
następująco:
1. Proces dyskretyzacji jest ważnym krokiem wstępnym, który ma na celu zamianę
wartości ciągłych na wartości liczbowe określające przedziały wartości oraz
zakodowanie opisów symbolicznych wartościami liczbowymi. Istotnym jest również
podmiana wartości brakujących. Operacja ta jest istotna ze względu na możliwy wpływ
na ilość reguł decyzyjnych, szybkość całego procesu obliczeniowego oraz deformację
końcowych rezultatów ze względu na brakujące wartości. Ale najistotniejszym jest
zniwelowanie możliwego wpływu na dokładność otrzymanych wyników, które zostają
uzyskane za pomocą macierzy pomyłek. Różne metody dyskretyzacji zrealizowane w
tym kroku na zasadzie eksperymentów empirycznych zostaną zweryfikowane w części
weryfikacyjnej. Wynik końcowy zostanie przedstawiony dla najniższych wartości
błędów. Do najbardziej popularnych technik należą podział na zakresy o równych
przedziałach lub zakresy z podobną ilością danych w przedziale, nie spadającą poniżej
określonego progu [54].
2. Obliczenie istotności atrybutów bazuje na teorii zbiorów przybliżonych i definicjach
pozytywnego regionu oraz współczynnika względnej istotności danego atrybutu σ.
Wartość tego parametru zamyka się w przedziale zamkniętym od zero do jeden. Zerowa
lub bardzo niska jego wartość bezwzględna lub względna w stosunku do pozostałych
atrybutów oznacza, że nie posiada wpływu lub wpływ ten jest znikomy na zmienną
decyzyjną, czyli w naszym przypadku pozytywny lub negatywny wynik kontroli
17
Koncepcja modelu hybrydowego systemu
podatkowej. Oznacza to, że dany atrybut można usunąć ze zbioru tablicy informacyjnej,
ponieważ można potraktować go tylko jako zbędny szum informacyjny nie mający
znaczenia dla procesu klasyfikacji regułowej. Ma to również znaczenie ze względu na
zwiększenie szybkości obliczeń numerycznych dla modelu oraz uzyskanie mniej
skomplikowanych reguł decyzyjnych bez zbędnych atrybutów. Dla wykonania tego
kroku niezbędne jest wyznaczenie współczynnika jakości przybliżenia konceptów
decyzyjnych k, który jest definiowany w następujący sposób:
k = γ (C , D) =
card ( POS c ( D)
card (U )
(4.9)
gdzie: POSc(D) jest pozytywnym regionem dla partycji U/D w zakresie atrybutów C,
card jest kardynalnością, czyli ilością elementów w danym zbiorze, U – uniwersum
czyli skończony zbiór wszystkich obiektów, C – zbiór atrybutów warunkowych, D –
zbiór atrybutów decyzyjnych
Wyznaczenie względnej istotności atrybutu warunkowego σ(a) dla atrybutu a, gdzie
a ∈ C zostaje wykonane przez następujące równanie:
σ ( C , D ) (a) =
(γ (C , D) − γ (C − {a}, D))
γ (C − {a}, D)
= 1−
γ (C , D)
γ (C , D)
(4.10)
gdzie: γ(C,D) jest współczynnikiem jakości przybliżenia zdefiniowanym w równaniu
(4.9), natomiast γ(C-{a},D) jest również opisanym wcześniej współczynnikiem, ale w
zbiorze atrybutów C bez atrybutu a.
3. oraz 3a. W krokach tych zostaną utworzone dwie tablice na podstawie
dyskretyzowanej tablicy informacyjnej. Pierwsza z nich będzie służyła jako wejście do
algorytmu zbioru przybliżonych, który umożliwi ekstrakcję reguł decyzyjnych
opisujących podatników. Druga jest utworzona w celach testowych, aby możliwa stała
się weryfikacja dokładności uzyskanych wyników klasyfikacji z wykorzystaniem
macierzy pomyłek.
4. Na podstawie teorii zbiorów przybliżonych zostanie przeprowadzona ekstrakcja reguł
opisujących podatników ze względu na pozytywny lub negatywny wynik kontroli
podatkowej. Wynik jest zapisywany w tabeli decyzyjnej, która powstała w wyniku
przeprowadzonych obliczeń bazujących na dolnym i górnym przybliżeniu, uniwersum
oraz sumie zdyskretyzowanych atrybutów decyzyjnych i zależnych. Na tej podstawie
zostają przedstawione reguły, które mogą posiadać dodatkowe atrybuty jakościowe w
postaci siły, ilości i innych opisanych w rozdziale trzecim. Postać tablicy decyzyjnej DT
na podstawie której wyznaczone zostaną reguły przyjmuje następującą postać:
DT = <U, C ∪ D, V, f>
(4.11)
gdzie: U – skończony zbiór wszystkich obiektów zwany uniwersum, C jest zbiorem
atrybutów warunkowych, D jest atrybutem decyzyjnym, takim, że C ∪ D = Q i
C ∩ D = <ZBIÓR PUSTY>, V = U q∈C ∪ DVq , gdzie Vq jest zbiorem dyskretnych
wartości atrybutów q∈Q, f: U x (C ∪ D) → V jest opisem funkcji definiowanej jako
f(x,q)∈Vq dla każdego q∈Q i x∈U.
5. Wyliczenie macierzy pomyłek jest ważnym krokiem weryfikującym dokładność
uzyskanych wyników [61] klasyfikacji regułowej dla określonego typu dyskretyzacji
przeprowadzonej w punkcie 1. Uzyskana macierz opiera się na zbiorze reguł
18
Koncepcja modelu hybrydowego systemu
uzyskanych w punkcie 4. oraz dyskretyzowanej tablicy informacyjnej otrzymanej w
punkcie 3a.
6. Wynik końcowy jest zestawem reguł opisujących wpływ wartości poszczególnych
atrybutów na zachowania podatkowe badanych podmiotów i osób w każdej
wyznaczonej grupie w etapie pierwszym. Rezultaty będą przedstawione dla najniższego
poziomu błędów uzyskanego w części weryfikacyjnej. Reguły zostaną wyznaczone na
postawie tabeli decyzyjnej uzyskanej w punkcie 4. Będą wskazywać wartości atrybutów
wpływających na wynik kontroli. Postać reguły przyjmuje następującą postać:
a1=D(A1) i a2=D(A2) … i an=D(An) => d = D(D)
(4.12)
gdzie: a1, an – przynajmniej jednoelementowy zbiór atrybutów warunkowych
połączonych operatorem koniunkcji, d – atrybut decyzyjny, D(A) – liczba z domeny
wartości atrybutu warunkowego, D(D) – liczba z domeny wartości atrybutu
decyzyjnego.
Dla określenia jakości każdej reguły zostaną wyznaczone: współczynnik zaufania
(pewności) oraz siła reguły:
π s (Ψ | Φ ) =
card (|| Φ ∧ Ψ || s )
card (|| Φ || s )
(4.13)
gdzie: πs jest współczynnikiem pewności, który oznacza częstość występowania
obiektów w systemie informacyjnym S mających konkluzję Ψ w zbiorze obiektów
mających przesłankę Φ , Ψ oznacza konkluzję reguły, Φ to przesłanka reguły, || Ψ || s
to zbiór znaczeniowy konkluzji Φ w systemie informacyjnym S, || Φ || s to zbiór
znaczeniowy przesłanki Φ w systemie informacyjnym S, || Φ ∧ Ψ || s jest to zbiór
znaczeniowy reguły decyzyjnej Φ → Ψ w systemie informacyjnym S.
σ s (Φ, Ψ ) =
sup p s (Φ, Ψ ) card (|| Φ ∧ Ψ || s )
=
card (U )
card (U )
(4.14)
gdzie: σs - siła reguły oznaczająca stosunek liczebności danej reguły decyzyjnej w
systemie informacyjnym S do liczebności całego uniwersum U, supps – wsparcie
reguły czyli liczebność danej reguły decyzyjnej w systemie informacyjnym S.
4.4 Ranking podatników w grupach
Trzecim i końcowym wynikiem realizowanym w trzecim etapie metody jest
ranking podatników, który zostaje wyznaczony za pomocą wielokryterialnej,
hierarchicznej metody wspomagania decyzji, jaką jest AHP. W wyniku działania
metody uzyskujemy uporządkowaną listę podatników z uwzględnieniem każdego
kryterium dla każdej wyznaczonej grupy oddzielnie. Uporządkowanie następuje według
najistotniejszych podmiotów, które znajdują się na początku. Są najbardziej podatne na
negatywne zachowania podatkowe. Jest to istotny krok, ponieważ do jednej reguły w
grupie może być przyporządkowanych od kilkaset do wielu tysięcy podatników. W
praktyce uniemożliwiłoby to wybór najbardziej interesujących podatników ze względu
na kryterium poszukiwania. Dzięki zastosowaniu porządku malejącego możliwy jest
19
Koncepcja modelu hybrydowego systemu
szybki i niezawodny wybór najciekawszych przypadków. Decyzja o pozycji danego
podatnika w rankingu zostaje wykonana poprzez dekompozycję przyjętego problemu na
wiele pojedynczych kryteriów, które każdy oddzielnie będą wpływały na uzyskanie
końcowego rezultatu. Możliwa jest ocena zarówno jakościowa jak i ilościowa. Dla
modelu zastosowano ocenę ilościową kryteriów, która jest możliwa do zrealizowania na
podstawie atrybutów opisujących podatników o największej istotności dla klasyfikacji
regułowej uzyskanych jako wynik końcowy etapu drugiego. Faktycznie więc ilościowa
metoda przekłada się na uporządkowanie jakościowe, ponieważ wielkości liczbowe
przyporządkowane do kryteriów odzwierciedlają w istocie jakościowy wpływ istotności
danego atrybutu czyli kryterium na wynik końcowy. Na rysunku 4-6 został
przedstawiony ogólny model struktury decyzyjnej, który ma zastosowanie do każdej
wyznaczonej grupy na poziomie etapu pierwszego oraz reguł na końcu etapu drugiego.
Rysunek 4-6. Model struktury decyzyjnej kryteriów w rankingu podatników
(W1, .. Wn) – wagi dla odpowiednio kryterium 1-szego, n-tego
Źródło: opracowanie własne
Należy również zwrócić uwagę, że użyty ilościowy model jest w praktyce
jedynym możliwym do zastosowania, ponieważ w przypadku chęci korzystania z ocen
eksperta porównującego jedno kryterium z drugim i zapisującego wyniki w postaci
macierzy porównań, w najlepszym przypadku zmusiłoby osobę merytoryczną do
porównywania ze sobą prawie dziesięciu, w najgorszym przypadku kilkudziesięciu
różnych kryteriów. Zgodnie z dostępną wiedzą porównanie przez człowieka większej
ilości kryteriów niż od pięciu do dziewięciu zgodnie ze współczesną wiedzą nie jest
możliwe [34]. Ponadto porównywanie wielu kryteriów o dosyć podobnym znaczeniu,
na przykład paru różnych rodzajów przychodu czy też kilka typów sprzedaży
stwarzałoby również duże trudności i zaistniała by możliwość zniekształcenia wyniku.
Dlatego też oparcie rankingu na obiektywnie obliczonych istotnościach atrybutów jest
w tym przypadku właściwe. Procedura badawcza zastosowana w etapie trzecim została
przedstawiona na rysunku 4-7.
20
Koncepcja modelu hybrydowego systemu
Rysunek 4-7. Schemat blokowy procedury badawczej wyznaczania rankingu
Źródło: opracowanie własne
Opis poszczególnych kroków procedury etapu trzeciego przedstawia się
następująco:
1. Wyznaczenie listy kryteriów jest krokiem, w którym zostanie sporządzona pełna lista
kryteriów dla każdej grupy uzyskanej na koniec etapu pierwszego. W każdej grupie
ilość kryteriów zostanie wyznaczona na podstawie listy atrybutów o największej
względnej istotności uzyskanych w etapie drugiej procedury, które uzyskały wynik o
największej dokładności obliczonej za pomocą macierzy pomyłek. W praktyce ilość
atrybutów będzie wahać się od kilkunastu do kilkudziesięciu. Każde pojedyncze
kryterium będzie odpowiadać pojedynczemu atrybutowi opisującemu informację
związaną z podatnikiem np. jego wartość całkowitą przychodu.
2. Bazą do nadania odpowiedniej wartości wagi dla kryterium będzie względna
istotność atrybutu odpowiadająca temu kryterium, uzyskana w drugim etapie procedury.
Następnie dla wszystkich dostępnych kryteriów wartości istotności zostaną
znormalizowane. Wartości te będą wagami dla poszczególnych kryteriów,
wskazujących na znaczenie poszczególnych atrybutów na wynik końcowy rankingu.
Ważnym aspektem tej operacji jest fakt, że faktycznie mimo zastosowania metody
ilościowej algorytmu, przypisane wartości wag mają w praktyce charakter jakościowy,
ponieważ zostały uzyskane na podstawie obiektywnych wyników obliczeń bazujących
na teorii zbiorów przybliżonych i pokazują faktyczny wpływ kryteriów na wynik
klasyfikacji. Sposób wyznaczenia macierzy wag W jest następujący:
 wrs1C 
 w1C 
 wrs 
w 
2C 
−1

Wc =
⋅ sum( wrs c ) =  2C 
 . 
 . 




 wrs nc 
 wnc 
(4.15)
gdzie: Wc – macierz znormalizowanych wag dla klastra c, wrsnc – wartość wagi
kryterium dla n-tego atrybutu oraz klastra nr c, wnc – wartość znormalizowanej wagi dla
n-tego atrybutu oraz klastra nr c
21
Koncepcja modelu hybrydowego systemu
3. Nadanie wag dla każdego wystąpienia atrybutu zostaje przeprowadzone w tym kroku.
Operacja sprowadza się do wyznaczenia znormalizowanej wagi każdego atrybutu w
oparciu o jego wartość dla całego zbioru danych podatników mieszczących się w
ramach jednej reguły w konkretnym klastrze. Jest to istotny krok, ze względu na
obiektywność uzyskanego wyniku końcowego. Ze względu na fakt, że niektóre atrybuty
np. przychód mają wielkości na przykład kilkadziesiąt tysięcy do wielu milionów,
natomiast niektóre posiadają niewielkie wartości mieszczące się najczęściej poniżej
dziesięciu np. wirtualny atrybut mierzący stosunek dochodu do przychodu, brak takiej
operacji całkowicie zniekształciłby wynik, ponieważ niezależnie od faktycznej wagi
atrybutów wyznaczonych w punkcie 2., atrybuty o dużych wartościach związane na
przykład z przychodem miałby całkowity wpływ na końcowy ranking, natomiast te o
niskiej wartości byłby bez znaczenia. Po przeprowadzeniu tej operacji każdy atrybut
będzie miał wpływ na wynik końcowy, zależny od wagi nadanej mu w punkcie 2. oraz
jego wagi wyznaczonej w tym punkcie bazującej na wielkości atrybutu dla każdego
rekordu. Sposób wyznaczania macierzy wag WKc dla każdego atrybutu został
przedstawiony poniżej. Uprzednio należy jednak należy zdefiniować macierz Kc, która
zawiera wartości poszczególnych kryteriów (atrybutów).
 k11
k
K C =  21
 .

k P1
k12
k 22
.
k P2
. k1 N 
. k 2 N 
. . 

. k PN 
(4.16)
gdzie: kPN – wartość atrybutu dla p-tego podatnika oraz n-tego kryterium
 k11
 sum(a )
1

 k 21
WK C =  sum(a 2 )

.
 k
P1

sum
(a n )

k12
sum(a 2 )
k 22
sum(a 2 )
.
k P2
sum(a 2 )
k1 N 
sum(a N )   wk11C

k 2 N   wk
.
 21C
sum(a N )  =  .

.
.

k PN   wk P1C

.
sum(a N ) 
.
wk12C
wk 22C
.
wk P 2C
. wk1NC 
. wk 2 NC 
.
. 

. wk PNC 
(4.17)
gdzie: sum(an) – suma wartości atrybutów dla n-tego kryterium, wkPNC - wyznaczona
wartość wagi kryterium dla n-tego kryterium i p-tego podatnika oraz klastra numer c.
4. Wyznaczenie wagi końcowej następuje na podstawie wag wyznaczonych w punktach
drugim i trzecim. Polega na obliczeniu sumy iloczynów wag przypisanych do wartości
każdego atrybutu i wag przypisanych do kryterium. W efekcie uzyskana liczba zawiera
się w przedziale <0 ; 1>. Większa wartość wskazuje na większe możliwe problemy
występowania nieprawidłowości podatkowych. Sposób wyznaczenia macierzy wag
końcowych WCALc jest następujący:
 wk11
 wk
WCALC =  21
 .

 wk P1
wk12
wk 22
.
wk P 2
. wk1N   w1c   wcal1c 


. wk 2 N   w2c   wcal 2c 
⋅
=
.
.   .   . 

   
. wk PN   wnc   wcal pc 
(4.18)
22
Koncepcja modelu hybrydowego systemu
gdzie: wkPN - wyznaczona wartość wagi kryterium dla n-tego kryterium, p-tego
podatnika w c-tym klastrze, wcalpc – wartość wagi kryterium całkowitego dla p-tego
podatnika w klastrze numer c.
5. Na podstawie uzyskanych końcowych zagregowanych wag zostaje sporządzony
ranking podatników uporządkowanych według malejącej wartości wag, czyli takich,
których należy poddać kontroli w pierwszej kolejności. W przedstawionych
podsumowaniach będą przedstawione wpływy poszczególnych kryteriów na wagę
końcową. Dzięki temu stanie się możliwa interpretacja wpływu zakresów wartości
poszczególnych atrybutów na wynik końcowy rankingu.
4.5 Część weryfikacyjna
Część weryfikacyjna ma na celu określenie precyzji metody na podstawie
współczynników prawdziwych pozytywnych, prawdziwych negatywnych, fałszywych
pozytywnych, fałszywych negatywnych na podstawie macierzy pomyłek uzyskanej w II
Etapie. Bazujące na wymienionych czterech parametrach takie współczynniki
jakościowe jak pozytywny współczynnik predykcji (ang. positive predictive value),
negatywny współczynnik predykcji (ang. negative predictive values), czułość (ang.
sensitivity), specyficzność (ang. specificity), całkowita dokładność (ang. accuracy),
całkowity poziom błędu (ang. error rate level), współczynnik F (ang. F-Measure),
współczynnik jakości przewidywań FOM [22][55][61] informują o dokładności
wyekstraktowanych reguł, zarówno w kontekście odnajdywania pozytywnych i
negatywnych przypadków zachowań podatkowych, jak również uwzględniają
ewentualny nierównomierny rozkład wyników kontroli w wykorzystanych danych (co
w przypadku zastosowanych prób danych nie występuje). Część weryfikacyjna została
przedstawiona na rysunku 4-8.
Rysunek 4-8. Cześć przygotowawcza – wyznaczenie dokładności metody
Źródło: opracowanie własne
Opis tej części przedstawia się przedstawia się następująco:
1. Wyznaczone zostaje osiem współczynników jakościowych. Sposób wyznaczania
wspomnianych współczynników jakościowych jest następujący:
PPV =
TP
TP + FP
(4.19)
gdzie: PPV – pozytywny współczynnik predykcji, TP – współczynnik prawdziwy
pozytywny, FP – współczynnik fałszywy pozytywny.
NPV =
TN
TN + FN
(4.20)
23
Koncepcja modelu hybrydowego systemu
gdzie: NPV - negatywny współczynnik predykcji, TN – współczynnik prawdziwy
negatywny, FN – współczynnik prawdziwy pozytywny.
SE =
TP
TP + FN
(4.21)
TN
TN + FP
(4.22)
gdzie: SE – współczynnik czułości.
SP =
gdzie: SP – współczynnik specyficzności.
TP + TN
TP + TN + FP + FN
ACC =
(4.23)
gdzie: ACC współczynnik całkowitej dokładności.
ERR =
FP + FN
FP + FN + TP + TN
(4.24)
gdzie: ERR – współczynnik całkowitego poziomu błędu.
( β 2 + 1) ⋅ P ⋅ TP
F=
( β 2 ⋅ P ) + TP
β=
FN
TP + FN
(4.25)
(4.26)
gdzie: F – współczynnik F (ang. F-Measure), β = FN / (TP+FN) – wskaźnik fałszywy
pozytywny beta, P – współczynnik czułości.
FOM =
LPN
W ⋅ LPP
+
(W + 1) ⋅ LWP (W + 1) ⋅ LWN
(4.27)
gdzie: FOM – współczynnik jakości przewidywań, W – współczynnik stosunku kosztu
przewidywań błędnych do kosztu przewidywań pozytywnych, LPP – liczba poprawnych
przewidywań pozytywnych, LWP – liczba wszystkich przewidywań pozytywnych, LPN –
liczba poprawnych przewidywań negatywnych, LWN – liczba wszystkich przewidywań
negatywnych.
4.6 Projekt i implementacja metody
Zakres funkcjonalny hybrydowej metody został zaprezentowany w postaci
diagramu przypadków użycia na rysunku 4-9. Zostały tam uwzględnione wszystkie trzy
etapy wytworzonej metody wraz z etapem przygotowania danych. W ramach
24
Koncepcja modelu hybrydowego systemu
implementacji zostały oprogramowane dla przypadku przygotowania danych – pobór i
ładowanie danych, agregacja danych, dyskretyzacja danych, dla przypadku rozmytej
analizy skupień – inicjalizacja środków, wyznaczenie środków rozmytą metodą cmodów, indeks spójności klastra, dla teorii zbiorów przybliżonych – wyznaczenie
względnej istotności atrybutów , dla metody AHP – obliczania wag kryteriów i
utworzenie rankingu. Szczegóły implementacyjne znajdują się w poniższych
paragrafach.
Rysunek 4-9.Diagram przypadków użycia hybrydowej metody
Źródło: opracowanie własne
Metoda została wytworzona w postaci pakietów języka PL/SQL. Pozostałe elementy
programowe jak pobór danych, przygotowanie danych, podział danych i inne zostały
wytworzone w postaci procedur języka PL/SQL. Szczegółowe informacje dotyczące
specyfikacji wytworzonego oprogramowania znajdują się w monografii.
25
5 Wyniki badań testowych
Porównanie dokładności autorskiej metody z istniejącymi metodami oraz
systemami zostało przeprowadzone z wykorzystaniem parametrów PPV, NPV, SE, SP,
ACC, ERR, F, FOM uzyskanych na podstawie macierzy pomyłek zgodnie z
przedstawioną
wcześniej
częścią
weryfikacyjną.
Obliczenia
dokładności
poszczególnych metod i systemów bazują na tych samych danych, które zostały użyte
do uzyskania wyników zaproponowanej hybrydowej metody. Przy czym dla algorytmu
drzew decyzyjnych, naiwnego algorytmu Bayes-a, metody SVM oraz zbiorów
przybliżonych uzyskane dokładności bazują na klasyfikacji przeprowadzonej na całym
zbiorze danych, natomiast w przypadku symulowanego działania systemu ISKOS, zbiór
danych został podzielony na dwie części. Pierwsza opisująca osoby fizyczne, natomiast
druga przedsiębiorstwa. Oznacza to porównanie wyników grupy danych osób z
wynikami autorskiej metody dla klastrów 1,5,6 (osoby fizyczne), natomiast danych
przedsiębiorstw z rezultatami klastrów 2,3,4 (przedsiębiorstwa). W przypadku
pozostałych metod uzyskane wyniki zostały porównane z dokładnością uzyskaną we
wszystkich klastrach. Dla symulacji dokładności systemu KONTROLA zostały
przedstawione średnie wyniki dla ośmiu najbardziej typowych selekcji. Sposób
porównania bazuje na różnicy dokładności pomiędzy rezultatami uzyskanymi za
pomocą proponowanej metody, a istniejącymi metodami. Został opisany poniżej:
∆KRYT = KRYTn – KRYTmet
(5.1)
gdzie: ∆KRYT – wynik porównania danego kryterium,
KRYTn – wartości kryteriów metody autorskiej: PPV (pozytywny współczynnik
predykcji), NPV (negatywny współczynnik predykcji), SE (czułość), SP
(specyficzność), ACC (całkowita dokładność), F (współczynnik dokładności), FOM
(współczynnik jakości przewidywań), natomiast n = 1 .. 6 - oznacza numer klastra,
KRYTmet – wartości kryteriów istniejących metod i systemów, natomiast met
oznacza rodzaj metody lub systemu: drzewa decyzyjne, algorytm Naive Bayes, SVM,
zbiory przybliżone, system ISKOS, system KONTROLA.
Dla kryterium całkowity poziom błędu (ERR), zastosowane następujące równanie:
∆KRYT = KRYTmet - KRYTn
(5.2)
gdzie oznaczenia mają takie same znaczenie jak powyżej, natomiast KRYT
dotyczy tylko kryterium całkowitego poziomu błędu.
W tabelach 5-1, 5-2, 5-3, 5-4, 5-5, 5-6 zostały zamieszone uzyskane wyniki. Przy
czym dodatni wynik oznacza o ile dokładniejsza jest zaproponowana metoda, natomiast
w przypadku ujemnych wartości oznacza to, o ile mniej dokładna jest metoda według
znaczenia danego kryterium. W każdym przypadku porównania ogólnych wskaźników
dokładności ∆ACC, ∆FOM i ∆F oraz wskaźnika błędu ∆ERR autorska metoda
wykazuje się większą dokładnością dla każdej z grup dla każdego porównania. W
przypadku wskaźników bardziej szczegółowo wskazujących na dokładność dla jednej z
przewidywanych klas tzn. ∆PPV, ∆NPV, ∆SE, ∆SP na 180 porównań tylko
siedmiokrotnie metoda wykazuje tylko niewiele mniejszą dokładność, natomiast w
pozostałych 173 przypadkach dokładność proponowanej metody jest większa. Oznacza
26
Wyniki badań testowych
to, że metoda oprócz osiągnięcia wysokiej dokładności wykazuje się również wyraźnie
większą dokładnością od istniejących systemów i metod.
Numer
∆PPV
∆NPV
∆SE
∆SP
∆ACC
∆ERR
∆F
∆FOM
klastra
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
1
32,5
11,7
17,2
29,5
28,4
28.4
32,3
23,3
2
45,6
-0,3
8.8
35,7
27,8
27.8
32,8
22,2
3
29,3
15,5
17,5
29,8
26,9
26,9
27,3
23,6
4
24,9
5,7
2,6
29,1
20,8
20,8
18,8
15,8
5
13,3
15,6
16,2
18,3
17,4
17,4
11,2
17,2
6
36.7
8,7
15,0
27.8
26,5
26,5
30,9
21,3
Tabela 5-1. Porównanie wyników metody z algorytmem drzew decyzyjnych
Źródło: opracowanie własne
Numer
∆PPV
∆NPV
∆SE
∆SP
∆ACC
∆ERR
∆F
∆FOM
klastra
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
1
23,8
32,5
24,2
31,2
27,8
27,8
24,2
27,6
2
31,9
20,5
15,8
37,2
27,2
27,2
24,7
26,5
3
15,6
36,3
24,5
31,5
26,3
26,3
19,2
27,9
4
11,2
26,5
9,6
30,8
20,2
20,2
10,7
20,1
5
-0,4
36,4
23,2
20,0
16,8
16,8
3,1
21,5
6
23,0
29,5
22,0
29,5
25,9
25,9
22,8
25,7
Tabela 5-2.. Porównanie wyników metody z naiwnym algorytmem Bayes-a
Źródło: opracowanie własne
Numer
∆PPV
∆NPV
∆SE
∆SP
∆ACC
∆ERR
∆F
∆FOM
klastra
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
1
25,9
23,0
19,8
28,4
25,5
25,5
24,0
24,1
2
34,0
11,0
11,4
34,6
24,9
24,9
24,5
23,0
3
17,7
26,8
20,1
28,7
24,0
24,0
19,0
24,3
4
13,3
17,0
5,2
28,0
17,9
17,9
10,5
16,6
5
1,7
26,9
18,8
17,2
14,5
14,5
2,9
17,9
6
25,1
20,0
17,6
26,7
23,6
23,6
22,6
22,1
Tabela 5-3. Porównanie wyników metody z algorytmem SVM
Źródło: opracowanie własne
Numer
∆PPV
∆NPV
∆SE
∆SP
∆ACC
∆ERR
∆F
∆FOM
klastra
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
1
23,4
22,8
39,6
6,8
21,2
21,2
30,9
23,1
2
31,5
10,8
31,2
13,0
20,6
20,6
31,4
22,0
3
15,2
26,6
39,9
7,1
19,7
19,7
25,9
23,3
4
10,8
16,8
25,0
6,4
13,6
13,6
17,4
15,6
5
-0,8
26,7
38,6
-4,4
10,2
10,2
9,8
16,9
6
22,6
19,8
37,4
5,1
19,3
19,3
29,5
21,1
Tabela 5-4. Porównanie wyników metody z teorią zbiorów przybliżonych
Źródło: opracowanie własne
27
Wyniki badań testowych
Numer
∆PPV
∆NPV
∆SE
∆SP
∆ACC
∆ERR
∆F
∆FOM
klastra
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
1
34,9
13,8
15,3
32,0
28,5
28,5
29,6
23,6
2
16,0
30,5
22,5
23,8
22,9
22,9
19,5
23,0
3
-0,3
46,3
31,2
17,9
22,0
22,0
14,0
24,4
4
-4,7
36,5
16,3
17,2
15,9
15,9
5,5
16,6
5
10,7
17,7
14,3
20,8
17,5
17,5
8,5
17,5
6
34,1
10,8
13,1
30,3
26,6
26,6
28,2
21,6
Tabela 5-5. Porównanie wyników metody z symulowanym rezultatem aplikacji ISKOS
Źródło: opracowanie własne
Numer
∆PPV
∆NPV
∆SE
∆SP
∆ACC
∆ERR
∆F
∆FOM
klastra
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
1
13,1
50,2
47,0
14,1
30,7
30,7
34,5
30,3
2
21,2
38,2
38,6
20,3
30,1
30,1
35,0
29,1
3
4,9
54,0
47,3
14,4
29,2
29,2
29,5
30,5
4
0,5
44,2
32,4
13,7
23,1
23,1
21,0
22,7
5
-11,1
54,1
46,0
2,9
19,7
19,7
13,4
24,1
6
12,3
47,2
44,8
12,4
28,8
28,8
33,1
28,3
Tabela 5-6. Porównanie wyników metody z symulowanym rezultatem aplikacji
KONTROLA
Źródło: opracowanie własne
W tabeli 5-7 zostały przedstawione sumaryczne wyniki dokładności uzyskanej za
pomocą zaproponowanej metody w porównaniu do istniejących metod. Sposób porównania
został wykonany w następujący sposób:
∆KRYTsum = KRYTśred – KRYTmet
(5.3)
gdzie: ∆KRYTsum – wynik kryterium sumarycznego
KRYTśred – średnia wartość kryterium hybrydowej metody dla wszystkich
klastrów, dotyczy kryteriów PPV, NPV, SE. SP, ACC, F,FOM,
KRYTmet – wartość kryteriów istniejących metod i systemów.
Dla kryterium ERR sposób wyliczenia jest następujący:
∆KRYTsum = KRYTmet - KRYTśred
(5.4)
gdzie: oznaczenia mają takie same znaczenie jak powyżej, natomiast KRYT
dotyczy tylko kryterium całkowitego poziomu błędu.
28
Wyniki badań testowych
∆PPVsum
∆NPVsum
∆SEsum
∆SPsum
∆ACCsum
∆ERRsum
∆Fsum
∆FOMsum
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
31,2
9,5
12,9
28,4
24,6
24,6
25,5
20,6
Naive Bayes
17,5
30,3
19,9
30,1
24,0
24,0
17,4
24,9
SVM
19,6
20,8
15,5
27,3
21,7
21,7
17,2
21,3
17,1
20,6
35,3
5,7
17,4
17,4
24,1
20,3
15,1
25,9
18,8
23,7
22,2
22,2
17,5
21,1
6,9
48,0
42,7
13,0
27,0
27,0
27,8
27,5
Numer klastra
Drzewa
decyzyjne
Zbiory
przybliżone
System
ISKOS*
System
KONTROLA*
Tabela 5-7. Sumaryczne porównanie wyników metody z dokładnością istniejących
metod (* - symulowane wyniki)
Źródło: opracowanie własne
Uzyskane sumaryczne wyniki porównania dokładności zaproponowanej
autorskiej metody w porównaniu z istniejącymi metodami są lepsze we wszystkich
mierzonych parametrach. Oznacza to, że zaproponowana metoda wykazuje większą
dokładność, zarówno w parametrach mierzących ogólną precyzję przewidywania takich
współczynników jak całkowita dokładność ACC, współczynnik dokładności F,
współczynnik jakości przewidywań FOM, jak również posiada mniejszy poziom
błędów niż każda z istniejących metod. Również w przypadku współczynników, które
mierzą dokładność przewidywania jednej z klas tzn. NPV i PPV jak również podobne
im współczynniki czułości i specyficzności wykazują również większą precyzję
uzyskanych wyników proponowanej metody.
Oznacza to, że udowodniona zostaje teza o propozycji hybrydowej metody dla
modelu systemu ekspertowego opartej na rozmytym algorytmie klastrującym, teorii
zbiorów przybliżonych i algorytmie AHP umożliwiającej wykonanie klasyfikacji
regułowej podatników z większą dokładnością od występujących w praktyce metod
identyfikacji.
Opis i interpretacja uzyskanych wyników (wszystkie informacje szczegółowe
zostały zawarte w monografii) ma na celu przedstawienie najważniejszych wniosków
dotyczących zachowań podatkowych organizacji i osób, które zostały uzyskane na
podstawie wyekstraktowanych reguł oraz rankingów podatników dla każdej z
uzyskanych sześciu grup. Został zamieszczony poniżej.
Na podstawie uzyskanych reguł oraz rankingu dla pierwszej grupy podatników,
można stwierdzić, że największe problemy podatkowe posiadają osoby
charakteryzujące się wysokimi przychodami lub dochodami lub posiadające względnie
niskie ich wartości. Jednocześnie w wielu przypadkach istnieje powiązanie z
problemami związanymi z zaległościami egzekucyjnymi oraz ewentualnie ze zbyt niską
wartością stosunku dochodu do przychodu. Może to sugerować, że osoby, które
posiadają wysokie dochody wykazują chęć obniżenia obciążeń poprzez zawyżanie
kosztów uzyskania przychodów. W przypadku osób z zaniżoną wartością dochodów
może to oznaczać problemy związane z ukrywaniem części przychodu. Równoczesne
występowanie wcześniejszych problemów związanych z długami lub niezapłaconymi
29
Wyniki badań testowych
podatkami na które wskazują zaległości egzekucyjne zwiększają możliwość
występowania problemów. Podobnie jest z zaniżeniem dochodów w stosunku do
przychodu, których występowanie równocześnie z wcześniej wymienionymi
czynnikami zwiększa podatność na problemy.
W grupie drugiej znajdują się przedsiębiorstwa bez osobowości prawnej, gdzie
wielkość obrotu firmy identyfikowana za pomocą wartości sprzedaży sama w sobie ma
mniejsze znaczenie. Natomiast wirtualne atrybuty dotyczące spadków płaconych
podatków VAT z miesiąca na miesiąc w dwóch różnych wariantach wskazują na
możliwe większe problemy. Większość firm funkcjonujących na rynku charakteryzuje
się występowaniem określonych obrotów przez cały rok, poza występującymi
wyjątkami działającymi w branżach uzależnionych od sezonu. Dlatego też skokowe
spadki mogą wskazywać na celową chęć pomniejszania płaconego podatku VAT
poprzez zawyżanie kosztów działalności lub zaniżanie i ukrywanie występujących
obrotów. Kolejnymi ważnymi atrybutami powodującymi zwiększenie nieprawidłowości
są występujące już w poprzedniej grupie problemy z zaległościami podatkowymi na
które wskazuje ilość zaległości egzekucyjnych oraz zbyt niski lub zbyt wysoki poziom
sprzedaży na jednego pracownika. Pierwszy wymieniony argument wskazuje na
zwiększone ryzyko dla podmiotów posiadające zaległości wobec partnerów
gospodarczych lub innych podmiotów. Wymieniony drugi parametr w pierwszej
kolejności może oznaczać występowanie zaniżenia obrotów firmy, ponieważ występuje
nieuzasadniona duża ilość pracowników w stosunku do wartości sprzedaży na jedną
osobę. Innym przypadkiem jest zbyt mała ilość pracowników oraz występowanie
wysokiej sprzedaży (nie ma komu wykonać wykazanej pracy), co może oznaczać
działalność tylko częściowo nakierowaną na faktyczne zadania, natomiast w
rzeczywistości może być działaniem służącym generowaniu fikcyjnych kosztów
zaniżających podatki innych podmiotów poprzez wystawanie nieprawdziwych faktur.
W grupie trzeciej znajdują się przedsiębiorstwa charakteryzujące się podobnie
jak w poprzedniej grupie mniejszym znaczeniem wartości obrotu na wynik kontroli.
Dopiero występowanie skokowych spadków płaconego podatku VAT pomiędzy
kolejnymi okresami rozliczeniowymi wskazuje na możliwe problemy podatkowe, które
identyfikują zawyżanie kosztów lub obniżanie sprzedaży mających na celu obniżenie
wartości płaconych podatków. Występowanie sprzedaży eksportowej oraz wirtualnego
atrybutu oznaczającego ilość wzrostów zwrotu podatku VAT z okresu na okres mogą
oznaczać
wykorzystanie
nadużyć
związanych
dokonywaniem
transakcji
wewnątrzwspólnotowych. Polegają one na wykazywaniu fikcyjnych dostaw
wewnątrzwspólnotowych opodatkowanych stawką podatkową 0%, gdzie przysługuje
uzyskanie zwrotu podatku naliczonego, które faktycznie nie zostały wysłane i mogą
zostać wprowadzone do obrotu krajowego bez podatku. Może to również oznaczać
uczestnictwo w mechanizmie oszustwa karuzelowego, gdzie wytypowany podmiot
dokonuje nieprawdziwych dostaw w celu odzyskania podatku. Wzrosty zwrotów
podatków mogą również oznaczać zwiększenie kosztów poprzez dokonywanie
fikcyjnych zakupów lub inwestycji.
W grupie czwartej znajdują się przedsiębiorstwa z osobowością prawną, które
charakteryzują się występowaniem czynników mających wpływ na negatywne
zachowania podatkowe takich jak: występowanie spadków płaconych podatków VAT z
jednego okresu rozliczeniowego na kolejny, występowanie nadwyżki podatku VAT
naliczonego nad należnym do przesunięcia na następny miesiąc, występowanie
zaległości egzekucyjnych, określone wartości dochodów całościowych z podatku CIT
oraz sprzedaż zwolnionej od podatku VAT. Nadwyżki podatków naliczonych nad
należnym mogą oznaczać niewykazywanie całości sprzedaży, generowanie
30
Wyniki badań testowych
nieprawdziwych kosztów związanych z zakupami czy inwestycjami czy też
uczestnictwo w mechanizmach oszust karuzelowych. Podobne przesłanki związane są z
występowaniem skokowych spadków płaconych podatków VAT, które powinny być w
miarę stabilne dla większości dużych firm przez cały rok. W przypadku występowania
sprzedaży zwolnionej z VAT może to oznaczać chęć ominięcia podatku poprzez
świadome lub nieświadome błędne oznaczenie towarów stawką 0%, które nie powinny
być zwalnianie z podatku. Całościowe dochody z podatku CIT dotyczą zwiększonej
czułości na problemy dla podmiotów wykazujących wysokie lub niskie wartości
podatku, co może oznaczać chęć nieujawniania części podatku i jest odstępstwem od
pewnych wartości występujących dla większości podmiotów. Dodatkowym czynnikiem
zwiększającym możliwość występowania problemów są istniejące już zaległości
egzekucyjne, które oznaczają, że wcześniej firma miała już problemy z regulowaniem
zaległych płatności.
Grupa piąta dotyczy osób fizycznych prowadzących działalność gospodarczą.
Problemy podatkowe posiadają osoby, które wykazują się skokowymi spadkami
płaconego podatku VAT lub posiadają zbyt niski stosunek płaconego podatku VAT do
sprzedaży, co oznacza zawyżanie kosztów lub niewykazywanie odpowiedniej
sprzedaży. Do tej grupy zaliczają się również osoby wykazujące bardzo niską wartość
przychodów z tytułu ryczałtu ewidencjonowanego, ponieważ może to oznaczać
ukrywanie dochodów ze względu na minimalne wymogi sprawozdawcze, tym samym
łatwe ukrywanie wpływów do opodatkowania. Również występowanie zaległości
egzekucyjnych oraz zaległości podatkowych wskazuje na możliwe problemy, co
generalnie związane jest z brakiem przestrzegania przepisów oraz brakiem uczciwości
wobec kontrahentów, na przykład brakiem płatności za towary i usługi co skutkuje
późniejszymi egzekucjami administracyjnymi. Również osoby płacące mandaty w
ruchu drogowym wykazują większą podatność na problemy podatkowe. Wspólnie z
wymienionymi czynnikami w uzyskanych regułach znaczenie mają również określone
wartości przychodów, podatków i innych atrybutów dla końcowego wyniku kontroli
podatkowej.
W przypadku ostatniej grupy podatników znaczenie mają również skokowe
spadki płaconych podatków z jednego okresu rozliczeniowego na kolejny, co może
oznaczać zaniżanie sprzedaży, zawyżanie kosztów lub też uczestnictwo w mechanizmie
oszustwa karuzelowego, gdyż podatnicy mają zasięg działalności również poza
granicami kraju. Znaczący wpływ na negatywne zachowania podatkowe mają również
wysokość całościowego podatku należnego VAT oraz średni dochód w roku
podatkowym, których zaniżenie poprzez ukrycie dochodu może znacząco obniżyć
zobowiązania podatkowe.
31
6 Zakończenie
Zgodnie z zawartą tezą została przedstawiona hybrydowa metoda dla modelu
systemu ekspertowego umożliwiająca wykonanie klasyfikacji regułowej podatników z
większą dokładnością od występujących w praktyce metod. Realizacja postawionej tezy
była możliwa poprzez eliminację słabości i ograniczeń występujących w istniejących
metodach i technikach. Istotne było również poznanie i zrozumienie dziedziny badań,
co umożliwiło wybór i przygotowanie odpowiednich danych. W wyniku powstała
procedura, która składa się z trzech głównych etapów: rozmytej analizy skupień,
klasyfikacji regułowej w poszczególnych grupach oraz rankingu podatników. Dla
wyznaczenia dokładności została zaproponowana część weryfikacyjna. Efektem
końcowym jest osiągnięcie większej precyzji selekcji podatników od istniejących
rozwiązań. Realizacja podjętych badań jest istotna z punktu widzenia pracy
administracji skarbowej, która działa w interesie i na rzecz całego społeczeństwa.
Wykorzystanie modelu umożliwi bowiem między innymi niwelowanie działań w tak
zwanej „szarej strefie” i gwarancję wpływów do budżetu na określonym poziomie. Z
punktu widzenia praktyki gospodarczej będzie zapobiegać występowaniu nieuczciwej
konkurencji pomiędzy przedsiębiorcami tej samej branży.
Identyfikacja podatników mających określone problemy podatkowe jest możliwa
na podstawie istniejących informacji zawartych w systemach użytkowanych przez
administrację podatkową. Z istniejących aplikacji podatkowych zostały wyłonione
atrybuty mogące mieć wpływ na wynik kontroli podatkowej. Dotyczy to informacji
pochodzących z deklaracji podatkowych związanych z podatkiem dochodowym od
osób fizycznych i prawnych, podatkiem od wartości dodanej, podatkiem od czynności
cywilno prawnych oraz innych. Przy zbieraniu danych uwzględniono występowanie
wielu różnych wariantów dokumentów podatkowych dla jednego typu
podatku/deklaracji począwszy od roku 2005. Do nich zostały dodane tak zwane
atrybuty wirtualne bazujące na zebranych danych i mogące mieć również duże
znaczenie na wynik końcowy, a określające przykładowo niski stosunek dochodu do
przychodu. Poza danymi z deklaracji uwzględnione zostały również informacje
rejestracyjne dotyczące osób i podmiotów, dane na temat egzekucji administracyjnych,
mandatów, wyników kontroli oraz istniejących zaległości podatkowych na podstawie
zapisanych informacji w postaci relacyjnych tablic w aplikacjach administracji
skarbowej. Dane zostały zebrane w dziesięciu tablicach w modelu gwiazdy, które ze
względu na potrzeby zastosowanej metody zostały zagregowane do jednej relacyjnej
tablicy zawierające w sumie 127 atrybutów. Zebrane dane pochodziły z dwudziestu
urzędów skarbowych na terenie województwa zachodniopomorskiego. Ilość zebranych
deklaracji z okresu pięciu lat od 1 stycznia 2005 wynosi ponad jeden milion sto tysięcy,
ilość danych dotyczących egzekucji to prawie dwieście dwadzieścia tysięcy. W sumie
zebrane informacje dotyczyły ponad dwudziestu tysięcy postępowań kontrolnych.
Istniejące metody klasyfikacji umożliwiają wyłonienie określonych podmiotów na
podstawie danych wejściowych. Należą do nich drzewa decyzyjne, naiwny algorytm
Bayes’a, algorytm wektorów wspierających oraz teoria zbiorów przybliżonych. W
praktyce istnieją również rozwiązania identyfikacji podatników takie jak system
KONTROLA, ISKOS, WBD oraz DWP. Jednak zarówno systemy jak również techniki
eksploracji nie umożliwiają wykonania nałożonych przez nie zadań z odpowiednio
wysoką dokładnością, ponieważ tworzą model o niewystarczającej jakości, który nie
32
Zakończenie
jest wsparty weryfikacją dokładności uzyskanych wyników, ograniczony jest zakres
rodzajów podatników lub posiada inne opisane słabości. Dlatego też koniecznym było
zaproponowanie autorskiej metody, która rozwiązałaby istniejące mankamenty oraz
zwiększyła dokładność uzyskanych rezultatów.
Dlatego też w Rozdziale 4. została przedstawiona autorska koncepcja hybrydowej
metody dla modelu systemu ekspertowego do klasyfikacji regułowej podatników.
Metoda składa się z trzech etapów. Wynik każdego z nich jest wejściem do kolejnego.
W pierwszym etapie podatnicy zostają podzieleni za grupy opisane przez atrybuty,
które wskazują na możliwe różnice w zachowaniu podatników związane z
przestrzeganiem prawa podatkowego. Do takich atrybutów należą odmienne formy
prawne, rodzaje płaconych podatków, różny zasięg funkcjonowania oraz inne. Rozdział
4.1 opisuje szczegółowy sposób przeprowadzenia klastrowania, który bazuje na
metodzie c-modów. Algorytm formuje zbiory danych w grupy o podobnych
właściwościach na podstawie wartości funkcji przynależności, wskazującej stopień
dopasowania do określonego klastra. Dla każdej z wyznaczonych grup zostaje
przeprowadzona ekstrakcja reguł bazująca na teorii zbiorów przybliżonych. Reguły
zostają uzyskane na podstawie informacji zawartych w atrybutach wejściowych oraz
atrybucie decyzyjnym wskazującym na wynik kontroli podatkowej. W trakcie procesu
zostaje przeprowadzona dyskretyzacja danych oraz wyznaczona jest względna istotność
atrybutów, umożliwiająca redukcję wymiaru tablicy informacyjnej dla każdej z grup
podatników. W wyniku zostaje uzyskany zbiór reguł dla każdego klastra, który
umożliwi wskazania podatników będących wejściem do ostatniego etapu opisanego w
Rozdziale 4.3. Jest to model decyzyjny oparty na metodzie AHP, który dla każdej z
istniejących grup utworzy oddzielny model, bazujący na istotności atrybutów
wyznaczonych w drugim etapie. Końcowy wynik to uporządkowany ranking
podatników rozpoczynający się od tych najbardziej interesujących ze względu na
możliwy pozytywny wynik kontroli podatkowej. Ten ostatni etap jest niezbędny,
ponieważ bez wyznaczenia uporządkowanej listy podatników, trudno byłoby
zadecydować o wyborze jednego lub kilku z nich do kontroli, gdyby uzyskane reguły w
grupie zwróciły wiele tysięcy osób i przedsiębiorstw. Uniemożliwiłoby to osobie
merytorycznej właściwy wybór, oparty na obiektywnych kryteriach. Sprawdzenie
dokładności zaproponowanej metody znajduje się w części weryfikacyjnej. Kontrola
dokładności metody jest zrealizowana na podstawie wyznaczonej macierzy pomyłek dla
każdej z uzyskanych grup. Do parametrów wyznaczających precyzję metody zalicza
się: pozytywny współczynnik predykcji (PPV), negatywny współczynnik predykcji
(NPV), całkowita dokładność (ACC), całkowity poziom błędów (ERR), współczynnik
dokładności (F), współczynnik jakości przewidywania (FOM), czułość (SE),
specyficzność (SP) . Reguły dla etapu trzeciego zostają wybrane na podstawie
najkorzystniejszych wartości parametrów dokładności uzyskanych dla jednego z
zastosowanych różnych metod dyskretyzacji. W ten sposób zostaną wyselekcjonowane
reguły o największej dokładności. Uzyskane wyniki jakościowe będą również podstawą
do porównań zaproponowanej metody z innymi istniejącymi metodami i systemami.
Szczegółowe wyniki porównujące dokładność zaproponowanej metody zostały
przedstawione w Rozdziale 5. Zostały tam porównane wyniki dla siedmiu parametrów
dokładności opisanych w akapicie powyżej, na podstawie przedstawionych równań
porównujących ∆KRYT i ∆KRYTsum wyznaczających różnicę dokładności. Precyzja
została skonfrontowana z wynikami drzew decyzyjnych, naiwnym algorytmem
Bayes’a, algorytmem wektorów wspierających, teorią zbiorów przybliżonych i
symulowanymi wynikami systemów KONTROLA i ISKOS. Dla sumarycznego
zestawienia porównania, dla wszystkich 48 wartości zaproponowana metoda
33
Zakończenie
wykazywała się większą dokładnością, gdzie przykładowo całkowita dokładność była
większa o 27.0% dla największej różnicy, natomiast o 17,4% dla najmniejszej. Oznacza
to udowodnienie postawionej tezy, w której stwierdzono, że zaproponowana metoda
będzie umożliwiała wykonanie klasyfikacji regułowej podatników z większą
dokładnością od występujących w praktyce metod identyfikacji.
W wyniku przeprowadzenia eksperymentów na danych rzeczywistych uzyskano
sześć grup podatników. W jednej z grup znajdują się osoby fizyczne, w dwóch
następnych osoby fizyczne prowadzące działalność gospodarczą, dwie kolejne to
przedsiębiorstwa bez osobowości prawnej oraz jedna to tak zwane osoby prawne. Dla
każdej z grup przeprowadzono ekstrakcję reguł z opisaną wcześniej wysoką
dokładnością oraz wyznaczono rankingi podatników najbardziej podatnych na
problemy. Warto zwrócić uwagę, że w uzyskanych regułach prawie dla wszystkich grup
znaczącą rolę odgrywają zaproponowane tak zwane atrybuty wirtualne, co świadczy o
właściwej identyfikacji potencjalnych danych mających wpływ na wynik końcowy.
Podsumowując uzyskane wyniki można stwierdzić, że w przypadku osób fizycznych
najważniejsze są parametry zbyt wysokich lub zbyt niskich dochodów powiązane z
istniejącymi zaległościami, co może oznaczać ukrywanie lub niewykazywanie
dochodów, przy jednocześnie występujących problemach z różnego rodzaju
zaległościami. W przypadku osób fizycznych prowadzących działalność znaczący jest
zbyt niski stosunek płaconego podatku VAT do sprzedaży, co może oznaczać
zawyżanie kosztów, niewykazywanie sprzedaży czy uczestnictwo w mechanizmie
karuzelowym. W przypadku przedsiębiorstw bez osobowości prawnej duże znaczenie
mają skoki i spadki płaconych podatków VAT z miesiąca na miesiąc. Ponieważ nie są
to małe firmy, więc ich obroty dla zdecydowanej większości branż powinny
charakteryzować się względną stabilnością przez okres całego roku. Dlatego też skoki
takie wskazują na te podmioty, które próbują zawyżyć koszty działalności, zaniżyć lub
ukrywać występujące obroty. W połączeniu ze wskaźnikiem oznaczającym wzrost
zwrotu podatku VAT dla firm operujących również poza terytorium Polski może to
oznaczać nadużycia związane z dokonywaniem transakcji wewnątrzwspólnotowych.
Dla tak zwanych osób prawnych do najważniejszych cech wskazujących na problemy to
występowanie spadków płaconych podatków VAT z okresu na okres, występowanie
nadwyżki podatku VAT naliczonego nad należnym do przesunięcia na następny miesiąc
czy występowanie zaległości egzekucyjnych. Może to oznaczać próby generowania
nieprawdziwych kosztów związanych z zakupami, inwestycjami lub uczestnictwo w
mechanizmie karuzelowym. Czynnikiem zwiększającym ryzyko jest występowanie
zaległości, które wskazują na wcześniejsze problemy z prawem oraz brak rzetelności
wobec partnerów gospodarczych.
Na potrzeby przeprowadzenia eksperymentów oraz uzyskania wyników zostało
wytworzone oprogramowanie. Jest to autorski wkład, mający na celu implementację
metody w zakresie, w którym niemożliwe było wykorzystanie istniejących narzędzi ze
względu na ich brak lub ograniczenia. Oprogramowanie jest wytworzone w języku SQL
i PL/SQL dla baz danych Oracle10g, Oracle10gXE (darmowa wersja bazy danych
Oracle), Oracle11g, logicznie grupujących określoną funkcjonalność w pakiety. Pakiet
RS służy do obliczeń dolnego i górnego przybliżenia, względnej istotności atrybutów
oraz pełnej tablicy decyzyjnej bazujących na teorii zbiorów przybliżonych. Pakiet
CAKLASTER ma za zadanie wyznaczenie funkcji przynależności, podziału na klastry
oraz wyznaczenie indeksu spójności użytych w pierwszym etapie. Natomiast ostateczne
wyniki rankingu podatników na podstawie modeli AHP zostały uzyskane za pomocą
pakietu AHP.
Dalsze prace badawcze związane z podjętym tematem mogą dotyczyć rozwoju
34
Zakończenie
modelu, który będzie polegał na rozszerzeniu zaproponowanej metody o możliwość
tworzenia i modyfikacji reguł decyzyjnych w czasie rzeczywistym na podstawie
wpływających na bieżąco nowych danych z deklaracji, wyników kontroli oraz
pozostałych informacji. Umożliwi to płynne dopasowanie się modelu do zmieniających
się strategii omijania przepisów podatkowych w szybko zmieniającej się rzeczywistości
gospodarczej. Kolejne badania mogą dotyczyć metod umożliwiających konwersję reguł
bazujących na wartościach liczbowych w reguły lingwistyczne umożliwiające
łatwiejszą interpretację i zrozumienie istniejącej rzeczywistości. Jest to szczególnie
istotne w przypadku rozwiązania problemu dla danych rzeczywistych, gdzie liczba
reguł oraz warunków w regule może być bardzo duża, w praktyce trudna lub
niemożliwa do zrozumienia. Kolejnym zagadnieniem jest prowadzenie dalszych prac
nad uszczegółowieniem reguł dotyczących odmiennych zachowań dla różnych
rodzajów działalności, zwłaszcza tych traktowanych jako branże podwyższonego
ryzyka. Umożliwi to lepsze zrozumienie istniejących zachowań, tym samym zwiększy
się możliwość lepszej egzekucji prawa.
35
ZAŁĄCZNIK A. LITERATURA
[1] Berry W. M.. Survey of text mining, clustering, classification and retrieval. Springer 2004
[2] Miyamoto S.,Ichihashi H., Honda K. Algorithms for fuzzy clustering, Springer 2008
[3] Jain K.A., Dubes C.R. Algorithms for clustering data, Prentice Hall 1988
[4] David Hand, Heikki Mannila, Padhraic Smith, Principles of Data Mining, Massachusetts Institute of
Technology, 2001
[5] Triantaphyllou E., Felici G.: Data Mining & Knowledge Discovery based in Rule Induction, Springer
Science, 2006r.
[6] Bezdek J.C., Dubois D., Prade H. Fuzzy sets In apprioximate resoning and information systems,
Kluwer Academic 1999
[7] S.Bandyopadhyay, U.Maulik, L.B.Holder, D.J.Cook Advanced Methods for Knowledge Discovery
from Complex Data, Springer, 2005
[8] A.Ghosh, S.Dehuri, S.Ghosh Multi-Objective Evolutionary Algorithms for Knowledge Discovery from
Databases, Springer, 2008
[9] Fayyad U.M., Piatetsky-Shapiro G. Advances in Knowledge Discovery and Data Mining, MIT Press,
1996
[10] Josien K, Wang G, An evaluation of sampling methods for data mining with fuzzy c-means,
Louisiana State University 2000
[11] Z.Huang, Extensions of the k-means algorithm for clustering large data sets with categorical values,
Data Mining Knowledge Discovery 2, 1998,
[12] Z.Huang, M.K.Ng, A fuzzy k-modes algorithm for clustering categorical data, IEEE Transactions on
Fuzzy Systems, 1998,
[13] Ohn Mar San, Van-Nam Huynh, Y.Nakamori, An alternative extension of the k-means algorithm for
clustering categorical data, International Journal of Applied Mathemat-ics and Computer Science, 2004
[14] Bernhard Schoelkopf, Alexander J.Smola: Learning with kernels, Support Vector Machines,
Regularization, Optimization, and Beyond, The MIT Press, 2002
[15] “Podręcznik użytkownika aplikacji POLTAX KONTROLA”, Zespół projektowy KONTROLA IS
Wrocław, 2009.
[16] „Poradnik użytkownika aplikacji KONTROLA”, Katarzyna Zabicka IS Wrocław OZ Bielsko-Biała,
2003.
[17] „Typowanie podmiotów do kontroli w podsystemie KONTROLA ”, Wiesława Goch, Białobrzegi,
2006.
[18] „Opis tabel podsystemu KONTROLA wydanie 1.6.1”, Ewa Rogacka, Tomasz Janicki, IS Wrocław,
2009.
[19] „Aplikacja dochdy i wydatki podatników – zasady działania w kontekście proponowanych rozwiązań
organizacyjnych i prawnych – wersja 2.0”, Rafał Selin, Puck, 2008.
[20] „Aktualizacja aplikacji DWP wersja 2.12”, Rafał Selin, 2009.
[21] Podręcznik użytkownika – Wojewódzkie bazy danych, Łódź, 2009
[22] Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques second edition, Morgan
Kaufmann Publishers, 2006
[23] Ian H.Witten, Eibe Frank: Data Mining Practical Machine Learning Tools and Techniques, Morgan
Kaufmann, 2005
[24] Evangelos Trantaphyllou, Giovanni Felici, Data Mining and Knowledge Discovery approaches
based on rule induction techniques, Springer Science Business Media 2006
[25] Oded Maimon, Lior Rokach, Data Mining and Knowledge Discovery Handbook, Springer Science
Business Media 2005
[26] Michael W.Berry, Matu Castellanos, Survey of text mining II clustering, classification and retrival,
Springer 2008
[27] Piegat A., Zbiory przybliżone – wykłady, Szczecin, 2006r.
[28] INUIGUCHI M., Generalizations of Rough Sets and Rule Extraction, Springer, 2005.
[29] PAWLAK Z., Rough Sets – Theoretical Aspects of Reasoning about Data, Kluwer Academic
Publishers, 1991.
[30] OLSON D., DELEN D., Advanced Data Mining Techniques, Springer, 2008.
[31] DUNTSCH I., GEDIGA G., Rough set data analysis, Methodos Publisher, 2000.
[32] BAZAN J., SYNAK P., WROBLESKI J., Rough Set Algorithms in Classification Problem, Springer,
36
Literatura
2000.
[33] DRZYMALA-BUSSE J., Rough Set Strategies to Data with Missing Attribute Values, Springer,
2006.
[34] Saaty T.L., Fundamentals of Decision Making and Priority Theory with the analytic hierarchy
process, Pittsburgh, PA RWS Publications, 1994.
[35] Downarowicz O., Krause J., Sikorski M., Stachowski Wł., Zastosowanie metody AHP do oceny i
sterowania poziomem bezpieczeństwa złożonego obiektu technicznego, w: Downarowicz O. (red.),
Wybrane metody ergonomii i nauki o eksploatacji, Wyd. Politechnika Gdańska, Gdańsk 2000.
[36] Saaty T.L., How to make a decision, The analytic hierarchy process, European Journal of
Operational Research 48, 1990.
[37] Guitouni A., Martel J.M., Tentative guideline to help choosing an appropriate MCDA method,
European Journal of Operational Research 109, 1998.
[38] Trzaskalik T. (red.): Metody wielokryterialne na polskim rynku finansowym, PWE, Warszawa 2006
[39] Navneet Bhushan, Kanwal Rai, Strategic Decision Making – Applying the Analytic Hierarchy
Process, Springer, Londyn, 2004.
[40] L.X.Xie, G.Beni, A validity measure for fuzzy clustering, IEEE Transactions, 1991r.
[41] J. Yao, M.Dash, S.T. Tan, H. Liu, Entropy-based fuzzy clustering and fuzzy modeling, Fuzzy Sets
and Systems, 2000r.
[42] Oracle Database10g: SQL Reference Oracle Corp., 2004r.
[43] Oracle Database 10g: PL/SQL User’s Guide and Reference, Oracle Corp., 2004r.
[44] Oracle Database 10g: Utilities, Oracle Corp., 2004r.
[45] Oracle Database 8i: SQL and PL/SQL Reference, Oracle Corp., 1998r.
[46] Budziński R., Misztal L., Zastosowanie algorytmu maszyny wektorów wspierających do klasyfikacji
podatników z wykorzystaniem bazy danch oracle 11g, Polskie Stowarzyszenie Zarządzania Wiedzą,
Bydgoszcz 2009r.
[47] Budziński R., Misztal L., Wykorzystanie drzew decyzyjnych oraz ekstrakcji reguł w zadaniu
klasyfikacji podatników, Polskie Stowarzyszenie Zarządzania Wiedzą, Bydgoszcz, 2009r.
[48] Becker J., Misztal L., Wielokryterialny model oceny podatników indywidualnych, Seria: Studia i
Materiały Polskiego Stowarzyszenia Zarządzania Wiedzą nr 28, Bydgoszcz 2010r.
[49] Misztal L., Applying Rough Sets for the Task of Rule Classification of Tax Payers, Advanced
Computer Systems (PAK), Szczecin (Gliwice), 2009r.
[50] Budziński R., Misztal L., “Hybrydowy model system ekspertowego do oceny podatników”, Metody
Ilościowe w Badaniach Ekonomicznych, Warszawa, 2011r.
[51] Wytyczne dla urzędów kontroli skarbowej i urzędów skarbowych dotyczące postępowania w sprawie
przychodów nieznajdujących pokrycia w ujawnionych źródłach lub pochodzące ze źródeł
nieujawnionych, Ministerstwo Finansów, 2009r.
[52] Wizja systemu ISKOS, COMARCH, 2004r.
[53] Clementine Data Mining Project, SPSS 2004r.
[54] Oracle Data Mining Concepts 11g Release 1 (11.1), Oracle Corp., 2005-2007.
[55] D. Lewis W.Gale Training text classifiers by uncertainty sampling, ACM SIGIR Conference, 1994
[56] Cross Industry Standard Process for Data Mining, http://www.crisp-dm.org
[57] Zadania dla dyrektorów izb skarbowych i naczelników urzędów skarbowych w zakresie realizacji
polityki finansowej państwa w 2010r. oraz wytyczne do ich realizacji, Ministerstwo Finansów, 2010r.
[58] Podstawowe mierniki oceny wykonania zadań przez dyrektorów izb skarbowych i naczelników
urzędów skarbowych w zakresie realizacji polityki finansowej państwa w 2010r., Ministerstwo Finansów,
2010r.
[59] Wytyczne do organizacji prac urzędów skarbowych w zakresie podatku od towarów i usług,
Ministerstwo Finansów, styczeń 2010r.
[60] The ACM Computing Classification System, http://www.acm.org
[61] C.Vercellis Business intelligence – data mining and optimization for decision making, Wiley, 2009
37

Podobne dokumenty