FOLIA UNIVERSITATIS AGRICULTURAE STETINENSIS Aneta

Transkrypt

FOLIA UNIVERSITATIS AGRICULTURAE STETINENSIS Aneta
FOLIA UNIVERSITATIS AGRICULTURAE STETINENSIS
Folia Univ. Agric. Stetin. 2007, Oeconomica 256 (48), 39–44
Aneta BECKER
OCENA STABILNOŚCI KLASYFIKACJI ROZMYTEJ WYKORZYSTANIA
USŁUG INTERNETOWYCH W PRZEDSIĘBIORSTWACH
JUDGING OF THE STABILITY OF FUZZY CLASSIFICATION IN USAGE
OF INTERNET SERVICES IN ENTERPRISES
Katedra Statystyki Matematycznej, Akademia Rolnicza
ul. Monte Cassino 16, 70-466 Szczecin
Abstract. In the fuzzy classification the most often we deal with partial static solutions. In this
situation doing the overview of the methods of the stability evaluation of the grouping in time
results is intended using them is certain research and comparing of the results from particular
years. The literature of this subject defines stability as sedateness, consistency, and ability
to return to the balanced state. In this article there are shown the propositions of the methods
of the stability evaluation in fuzzy classification, which are used in research about the level
of using Internet services in Polish enterprises in years 1999–2002.
Słowa kluczowe: miernik rozmytości stabilność, środek ciężkości klas rozmytych.
Key words: fuzziness gauge, stability, balances of the fuzzy classes.
WSTĘP
Ważnym etapem badań taksonomicznych jest ocena stabilności otrzymanych klasyfikacji, które pochodzą z różnych jednostek czasu. Hellwig (1995) podkreśla szczególne znaczenie akceptowalności wyników przeprowadzonego grupowania. Uwypukla przy tym znaczenie dwóch pojęć (zależności) – odporności i stabilności. Odporne struktury taksonometryczne to takie struktury, w których nieistotna zmiana parametrów wejścia nie prowadzi do istotnych zmian w klasyfikacji. Natomiast z pojęciem stabilności związane są cechy: stateczność, stałość, zdolność powracania do stanu równowagi. Im większy jest potencjał agregatu (zbioru zmiennych diagnostycznych), tym bardziej stabilne są struktury taksonometryczne uzyskane w badaniach klasyfikacyjnych. Można przy tym wyróżnić dwie grupy
zmian zachodzących w czasie. Różnią się one przyczynami powstawania oraz intensywnością przebiegu. Mogą wynikać z ogólnej tendencji lub być wahaniami losowymi. Pierwsza grupa dotyczy procesów ciągłych, w których wszelkie zmiany są powiązane ze sobą
w czasie i następują stopniowo. Druga grupa związana jest z działaniem czynników przypadkowych, szczególnie intensywnych w przypadku występowania warunków przyrodniczych.
Celem artykułu było zastosowanie miar służących do badania stabilności klasyfikacji
rozmytej w czasie do weryfikacji wyników grupowania województw Polski pod względem
wykorzystania usług internetowych w przedsiębiorstwach.
MATERIAŁ I METODY
Ocena stabilności klasyfikacji jest ważnym elementem dynamicznych badań taksonomicznych. Przeprowadzana jest w celu porównania wyników grupowania pochodzących
A. Becker
40
z różnych okresów. Ma to związek z fluktuacją zjawisk ekonomicznych w czasie, która może mieć wpływ na zmianę relacji pomiędzy obiektami oraz skład grup typologicznych.
Propozycje metod oceny stabilności klasyfikacji rozmytej zastosowano w badaniach poziomu posiadania (lub wykorzystania) usług internetowych w przedsiębiorstwach w latach
1999–2002. Do obliczeń użyto materiału statystycznego, opisującego sytuację ekonomiczną województw i stan usług internetowych w przedsiębiorstwach. Informacje statystyczne, na podstawie których dokonano podziału Polski na względnie jednolite rejony, pochodziły z GUS (Roczników Statystycznych według województw oraz formularzy PNT-02).
Uzyskane w ten sposób dane uzupełniono informacjami zaczerpniętymi z raportów Polskiej
Agencji Rozwoju Przedsiębiorczości. Końcowy zbiór cech, stanowiący podstawę badań
klasyfikacyjnych, otrzymano w wyniku zastosowania metody regresji krokowej postępującej. Badania taksonomiczne przeprowadzono metodą klasyfikacji rozmytej, wykorzystującej
pojęcie rozmytego środka ciężkości. Jako klasyfikacje początkowe przyjęto rezultaty uzyskane za pomocą klasycznej metody klasyfikacji, czyli k-średnich. Tabela 1 przedstawia
podział województw Polski z lat 1999–2002 oraz wartości stopni przynależności poszczególnych obiektów do klas rozmytych (Becker 2006).
Klasyfikacja obiektów może zmieniać się w czasie, a tym samym być mniej lub bardziej
„rozmyta”. Do badania stabilności wyników klasyfikacyjnych tego samego zbioru obiektów
w wyróżnionym przedziale czasu, w przypadku podejścia rozmytego, można zastosować
miernik rozmytości klasyfikacji, miernik różnic w stopniach przynależności do klas lub wykorzystać ważony środek ciężkości. Miary te opisuje w artykule dotyczącym stabilności klasyfikacji rozmytej Jajuga (1986).
Miernik rozmytości klasyfikacji
Miernik ten można zapisać w postaci:
r′ = −
n K
K
K
2
(∑∑ f ij ) +
n( K − 1) i =1 j =1
K −1
(1)
gdzie:
f ij − wartość stopnia przynależności i-tego obiektu do j-tej klasy rozmytej,
n – liczba obiektów,
K – liczba klas rozmytych.
Miernik ten powinien zwiększać się w miarę wzrostu rozmytości klasyfikacji i zawierać
się w przedziale [0,1]. Duże różnice w wartości miernika dla sąsiednich okresów wskazują
na momenty niestabilności klasyfikacji.
Miernik różnic w stopniach przynależności do klas
Oceniając klasyfikacje rozmyte dla dwóch okresów t1 oraz t 2 , należy porównać dwie
macierze różnic w stopniach przynależności. W tym celu można wykorzystać normę kwadratową różnicy:
st1t2 =
n
n
∑∑ (l
i =1 j =1
1
ij
− l ij2 ) 2
(2)
gdzie:
st1t2 – miernik podobieństwa macierzy różnic dla okresów t1 i t 2 ,
l ij1 – element macierzy różnic w stopniach przynależności wyznaczonej dla okresu t1 ,
l ij2 – element macierzy różnic w stopniach przynależności wyznaczonej dla okresu t 2 .
Ocena stabilności klasyfikacji rozmytej...
41
Tabela 1. Klasyfikacja województw pod względem wykorzystania usług internetowych w przedsiębiorstwach
1999 r.
Grupa 1.
i
województwo
1 śląskie
2 mazowieckie
3 wielkopolskie
Grupa 2.
fi1
i
0,6760
0,5453
0,3262
1
2
3
4
5
6
7
województwo
łódzkie
małopolskie
pomorskie
dolnośląskie
kujawsko-pomorskie
wielkopolskie
podkarpackie
Grupa 3.
fi2
i
0,6942
0,6249
0,5805
0,5240
0,5157
0,4608
0,3287
1
2
3
4
5
6
7
8
9
województwo
warmińsko-mazurskie
lubuskie
Świętokrzyskie
opolskie
podlaskie
lubelskie
zachodniopomorskie
podkarpackie
kujawsko-pomorskie
fi3
0,8047
0,8001
0,7514
0,7291
0,7081
0,6629
0,6132
0,5589
0,3658
2000 r.
Grupa 1.
i
województwo
1 śląskie
2 mazowieckie
3 wielkopolskie
Grupa 2.
fi1
i
0,6724
0,5362
0,3280
1
2
3
4
5
6
7
województwo
łódzkie
małopolskie
pomorskie
kujawsko-pomorskie
dolnośląskie
wielkopolskie
podkarpackie
Grupa 3.
fi2
i
0,7238
0,6679
0,5840
0,5569
0,5119
0,4670
0,3135
1
2
3
4
5
6
7
8
9
Województwo
warmińsko-mazurskie
lubuskie
opolskie
podlaskie
świętokrzyskie
lubelskie
zachodniopomorskie
podkarpackie
kujawsko-pomorskie
fi3
0,8539
0,8372
0,7685
0,7420
0,7162
0,6957
0,6098
0,5774
0,3262
2001 r.
Grupa 1.
i
województwo
1 śląskie
2 mazowieckie
3 wielkopolskie
Grupa 2.
fi1
i
0,6895
0,6555
0,3934
1
2
3
4
5
6
7
8
województwo
łódzkie
małopolskie
kujawsko-pomorskie
pomorskie
dolnośląskie
wielkopolskie
podkarpackie
zachodniopomorskie
Grupa 3.
fi2
i
0,7946
0,6599
0,5868
0,5656
0,5220
0,4185
0,3571
0,3159
1
2
3
4
5
6
7
8
fi2
i
0,7707
0,7364
0,6186
0,5943
0,5881
0,4045
0,3885
1
2
3
4
5
6
7
8
województwo
warmińsko-mazurskie
lubuskie
opolskie
podlaskie
lubelskie
świętokrzyskie
zachodniopomorskie
podkarpackie
fi3
0,8131
0,8060
0,7685
0,7680
0,7399
0,6959
0,5616
0,5210
2002 r.
Grupa 1.
i
województwo
1 śląskie
2 mazowieckie
3 wielkopolskie
Grupa 2.
fi1
i
0,6854
0,5731
0,3985
1
2
3
4
5
6
7
województwo
łódzkie
kujawsko-pomorskie
pomorskie
małopolskie
dolnośląskie
wielkopolskie
podkarpackie
Grupa 3.
województwo
warmińsko-mazurskie
lubuskie
lubelskie
opolskie
zachodniopomorskie
świętokrzyskie
podlaskie
podkarpackie
Pogrubioną czcionką oznaczono województwa leżące na pograniczu grup rozmytych.
fi3
0,8274
0,7695
0,7564
0,7330
0,7077
0,6900
0,6707
0,4762
42
A. Becker
Jako miernik różnic w stopniach przynależności do klas można wykorzystać odległość
Euklidesową:
l ij =
K
∑( f
k =1
ik
− f jk ) 2 , (i, j = 1,2,..., n)
(3)
gdzie:
f ik − wartość stopnia przynależności i-tego obiektu do k-tej klasy rozmytej,
f jk − wartość stopnia przynależności j-tego obiektu do k-tej klasy rozmytej.
Jeżeli macierze różnic w stopniach przynależności dla analizowanych okresów znacznie
się różnią, oznacza to, że klasyfikacje w tych okresach są mało podobne, co wskazuje
na niestabilność klasyfikacji w okresie [t1 , t 2 ] . W sytuacji, gdy rozpatrywanych jest N różnych
okresów, czyli N klasyfikacji rozmytych, można wyznaczyć N 2 mierników podobieństwa
dla każdej pary okresów (wliczając podobieństwo danego okresu do tego samego okresu).
Można je przy tym zgrupować w postaci macierzy S (o wymiarach [ N × N ]), która będzie
odzwierciedlała podobieństwa poszczególnych par obiektów ze względu na klasyfikację rozmytą. Duże wartości elementów tej macierzy będą wskazywać na okresy niestabilności.
Ważony środek ciężkości
W klasyfikacji rozmytej każdą klasę może charakteryzować jej środek ciężkości, który
jako abstrakcyjny obiekt jest typowym reprezentantem klas. Oznacza to, że jego współrzędne mogą służyć do interpretacji grup. W metodzie rozmytego środka ciężkości, który
można wyznaczyć, korzystając ze wzoru:
n
gk =
∑f
i =1
n
2
ik i
∑f
i =1
z
(k = 1,..., K )
(4)
2
ik
gdzie:
gk – środek ciężkości k-tej klasy rozmytej,
zi = [zi1,...,zim] – m-wymiarowy wektor zestandaryzowanych obserwacji, odpowiadający i-temu obiektowi (i-ty wiersz macierzy zestandaryzowanych obserwacji),
Z = {zij} i = 1,2,...,n, j = 1,2,...,m, przy czym n – liczba obiektów,
m – liczba zmiennych opisujących badane zjawisko,
K – liczba klas rozmytych,
f ik – wartość stopnia przynależności i-tego obiektu do k-tej klasy rozmytej.
Dynamiczna analiza środków ciężkości klas rozmytych umożliwia określenie zmian
w czasie poszczególnych grup rozmytych. Zmiany te można określić, wyznaczając odległości Euklidesowe między środkami ciężkości klas należących do klasyfikacji rozmytych,
które dotyczą różnych okresów. Porównując liczące odpowiednio K 1 i K 2 grup klasyfikacje rozmyte dla dwóch okresów t1 i t 2 , uzyskane odległości Euklidesowe między środkami
ciężkości tworzą macierz S1 o wymiarach [K 1 × K 2 ] . Element sij1 tej macierzy oznacza od-
ległość między środkiem ciężkości i-tej klasy rozmytej z klasyfikacji wyznaczonej dla okresu t1 oraz środkiem ciężkości j-tej klasy rozmytej z klasyfikacji wyznaczonej dla okresu t 2 .
Minimalne wartości w wierszu (lub kolumnie) macierzy S1 wskazują klasy najbardziej po-
Ocena stabilności klasyfikacji rozmytej...
43
dobne pod względem wartości zmiennych w dwóch okresach. Rozpatrując N różnych okresów, czyli N klasyfikacji rozmytych, można wyznaczyć N ( N − 1) / 2 macierzy S1 dla każdej
pary okresów.
WYNIKI I DYSKUSJA
Pierwszą propozycją oceny stabilności klasyfikacji rozmytej jest porównanie mierników
rozmytości klasyfikacji. W tym celu dla każdego z czterech badanych okresów wyznaczono
klasyfikacje rozmyte – metodą rozmytego środka ciężkości. Wyniki rozmytych klasyfikacji
z wartościami funkcji przynależności do trzech skupień ( K = 3 ) stanowiły podstawę wyznaczenia miernika rozmytości klasyfikacji. Dla kolejnych okresów (z lat 1999–2002)
wskaźnik ten wyniósł odpowiednio: 0,752, 0,725, 0,724, 0,718. Uzyskane rezultaty wskazują, że wartości omawianego miernika są zbliżone. Klasyfikacja w rozpatrywanym przedziale
czasowym kształtowała się na podobnym poziomie, czyli można stwierdzić, że występuje
stabilność klasyfikacji.
Kolejnym sposobem badania stabilności klasyfikacji rozmytej jest zastosowanie miernika
różnic w stopniach przynależności obiektów do klas rozmytych. Wykorzystując N = 4 klasyfikacje rozmyte wyznaczono 16 mierników podobieństwa dla każdej pary okresów (wliczając podobieństwo danego okresu do tego samego okresu). Następnie zgrupowano
je w postaci macierzy S różnic w stopniach przynależności, która odzwierciedla podobieństwa poszczególnych par obiektów ze względu na klasyfikację rozmytą:
⎡0,000
⎢0,784
S=⎢
⎢1,542
⎢
⎣ 2,862
0,784
0,000
1,172
2,763
1,542
1,172
0,000
2,565
2,862⎤
2,763⎥⎥
.
2,565⎥
⎥
0,000⎦
Analizując macierz S, można zauważyć, że wartości elementów macierzy rosną w miarę
oddalania się od głównej przekątnej. Nie odnotowano wyraźnego podziału badanego przedziału czasowego, z czego wynika, że klasyfikacje rozmyte otrzymane dla omawianego
okresu nie wykazują istotnych różnic. Małe wartości elementów tej macierzy wskazują
na stabilność klasyfikacji rozmytej.
Trzecią propozycją oceny stabilności klasyfikacji rozmytej jest dynamiczna analiza środków ciężkości klas rozmytych, umożliwiająca określenie zmian w czasie poszczególnych
klasyfikacji. W tym celu wyznaczono odległości Euklidesowe między środkami ciężkości
klas należących do klasyfikacji rozmytych i otrzymano macierze S1 o wymiarach [3 x 3].
Ponieważ rozpatrywano cztery różne okresy, czyli N = 4 klasyfikacje rozmyte, wyznaczono
sześć macierzy S1 dla każdej pary okresów:
S 199/00
⎡0,470 3,556 6,354⎤
= ⎢⎢3,466 0,192 2,968⎥⎥
⎢⎣6,287 3,050 0,118 ⎥⎦
S 199/01
⎡0,514 3,377 6,194 ⎤
= ⎢⎢3,655 0,336 2,774⎥⎥
⎢⎣6,376 3,129 0,194 ⎥⎦
44
A. Becker
1
99/02
⎡0,558 3,585 6,375⎤
= ⎢⎢ 3,988 0,661 2,366⎥⎥
⎢⎣6,246 2,971 0,283⎥⎦
S 100/02
⎡0,450 3,571 6,439⎤
= ⎢⎢ 4,091 0,624 2,425⎥⎥
⎢⎣6,365 2,962 0,271⎥⎦
S
S
1
00/01
S 101/02
⎡0,376 3,374 6,254⎤
= ⎢⎢3,745 0,261 2,838⎥⎥
⎢⎣6,504 3,113 0,123 ⎥⎦
⎡0,518 3,766 6,526 ⎤
= ⎢⎢3,917 0,468 2,509 ⎥⎥ .
⎢⎣ 6,199 2,771 0,277 ⎥⎦
Elementy na głównej przekątnej, które odpowiadają odległościom między środkami ciężkości klas o tych samych numerach, mają mniejsze wartości niż pozostałe elementy.
Nie zauważono wyraźnych dysproporcji pomiędzy klasyfikacjami rozmytymi (macierzami)
a stosunkowo małe wartości elementów tych macierzy wskazują na stabilność klasyfikacji
rozmytej w czasie.
PODSUMOWANIE
W latach 1999–2002 zastosowanie klasyfikacji rozmytej dało zbliżone wyniki. W grupie
pierwszej (w poszczególnych latach) znaczącymi stopniami przynależności charakteryzowały się trzy województwa śląskie, mazowieckie i wielkopolskie. Grupa druga została zdominowana przez województwa centralne i południowo-wschodnie. W klasie trzeciej przewagę stanowiły województwa: zachodnie, wschodnie i północno-wschodnie.
Porównanie mierników rozmytości, wyznaczenie mierników podobieństwa, które zgrupowano w postaci macierzy różnic, w stopniach przynależności, i dynamiczna analiza środków ciężkości klas rozmytych pozwoliła stwierdzić, że klasyfikacje (przeprowadzone na stałych zmiennych ekonomiczno-informatycznych) w rozpatrywanym przedziale czasowym
kształtowały się na podobnym poziomie, czyli otrzymane grupy rozmyte były stabilne. Stanowi to ważną cechę informacyjną w kreowaniu ugruntowanej (stabilnej) polityki regionalnej stosowania Internetu w rozwoju przedsiębiorczości.
PIŚMIENNICTWO
Becker A. 2006. Zastosowanie taksonomii rozmytej do oceny poziomu usług internetowych w działalności gospodarczej przedsiębiorstw. Rozprawa doktorska. SGGW, Warszawa (maszynopis).
Hellwig Z. 1995. Stabilność i odporność struktur taksonometrycznych [w: Klasyfikacja i analiza
danych. Problemy teoretyczne]. Red. K. Jajuga, M. Walesiak. Taksonomia (2), 7–30.
Jajuga K. 1986. O stabilności klasyfikacji rozmytych. Prz. Statyst. (3), 232–234.