FOLIA UNIVERSITATIS AGRICULTURAE STETINENSIS Aneta
Transkrypt
FOLIA UNIVERSITATIS AGRICULTURAE STETINENSIS Aneta
FOLIA UNIVERSITATIS AGRICULTURAE STETINENSIS Folia Univ. Agric. Stetin. 2007, Oeconomica 256 (48), 39–44 Aneta BECKER OCENA STABILNOŚCI KLASYFIKACJI ROZMYTEJ WYKORZYSTANIA USŁUG INTERNETOWYCH W PRZEDSIĘBIORSTWACH JUDGING OF THE STABILITY OF FUZZY CLASSIFICATION IN USAGE OF INTERNET SERVICES IN ENTERPRISES Katedra Statystyki Matematycznej, Akademia Rolnicza ul. Monte Cassino 16, 70-466 Szczecin Abstract. In the fuzzy classification the most often we deal with partial static solutions. In this situation doing the overview of the methods of the stability evaluation of the grouping in time results is intended using them is certain research and comparing of the results from particular years. The literature of this subject defines stability as sedateness, consistency, and ability to return to the balanced state. In this article there are shown the propositions of the methods of the stability evaluation in fuzzy classification, which are used in research about the level of using Internet services in Polish enterprises in years 1999–2002. Słowa kluczowe: miernik rozmytości stabilność, środek ciężkości klas rozmytych. Key words: fuzziness gauge, stability, balances of the fuzzy classes. WSTĘP Ważnym etapem badań taksonomicznych jest ocena stabilności otrzymanych klasyfikacji, które pochodzą z różnych jednostek czasu. Hellwig (1995) podkreśla szczególne znaczenie akceptowalności wyników przeprowadzonego grupowania. Uwypukla przy tym znaczenie dwóch pojęć (zależności) – odporności i stabilności. Odporne struktury taksonometryczne to takie struktury, w których nieistotna zmiana parametrów wejścia nie prowadzi do istotnych zmian w klasyfikacji. Natomiast z pojęciem stabilności związane są cechy: stateczność, stałość, zdolność powracania do stanu równowagi. Im większy jest potencjał agregatu (zbioru zmiennych diagnostycznych), tym bardziej stabilne są struktury taksonometryczne uzyskane w badaniach klasyfikacyjnych. Można przy tym wyróżnić dwie grupy zmian zachodzących w czasie. Różnią się one przyczynami powstawania oraz intensywnością przebiegu. Mogą wynikać z ogólnej tendencji lub być wahaniami losowymi. Pierwsza grupa dotyczy procesów ciągłych, w których wszelkie zmiany są powiązane ze sobą w czasie i następują stopniowo. Druga grupa związana jest z działaniem czynników przypadkowych, szczególnie intensywnych w przypadku występowania warunków przyrodniczych. Celem artykułu było zastosowanie miar służących do badania stabilności klasyfikacji rozmytej w czasie do weryfikacji wyników grupowania województw Polski pod względem wykorzystania usług internetowych w przedsiębiorstwach. MATERIAŁ I METODY Ocena stabilności klasyfikacji jest ważnym elementem dynamicznych badań taksonomicznych. Przeprowadzana jest w celu porównania wyników grupowania pochodzących A. Becker 40 z różnych okresów. Ma to związek z fluktuacją zjawisk ekonomicznych w czasie, która może mieć wpływ na zmianę relacji pomiędzy obiektami oraz skład grup typologicznych. Propozycje metod oceny stabilności klasyfikacji rozmytej zastosowano w badaniach poziomu posiadania (lub wykorzystania) usług internetowych w przedsiębiorstwach w latach 1999–2002. Do obliczeń użyto materiału statystycznego, opisującego sytuację ekonomiczną województw i stan usług internetowych w przedsiębiorstwach. Informacje statystyczne, na podstawie których dokonano podziału Polski na względnie jednolite rejony, pochodziły z GUS (Roczników Statystycznych według województw oraz formularzy PNT-02). Uzyskane w ten sposób dane uzupełniono informacjami zaczerpniętymi z raportów Polskiej Agencji Rozwoju Przedsiębiorczości. Końcowy zbiór cech, stanowiący podstawę badań klasyfikacyjnych, otrzymano w wyniku zastosowania metody regresji krokowej postępującej. Badania taksonomiczne przeprowadzono metodą klasyfikacji rozmytej, wykorzystującej pojęcie rozmytego środka ciężkości. Jako klasyfikacje początkowe przyjęto rezultaty uzyskane za pomocą klasycznej metody klasyfikacji, czyli k-średnich. Tabela 1 przedstawia podział województw Polski z lat 1999–2002 oraz wartości stopni przynależności poszczególnych obiektów do klas rozmytych (Becker 2006). Klasyfikacja obiektów może zmieniać się w czasie, a tym samym być mniej lub bardziej „rozmyta”. Do badania stabilności wyników klasyfikacyjnych tego samego zbioru obiektów w wyróżnionym przedziale czasu, w przypadku podejścia rozmytego, można zastosować miernik rozmytości klasyfikacji, miernik różnic w stopniach przynależności do klas lub wykorzystać ważony środek ciężkości. Miary te opisuje w artykule dotyczącym stabilności klasyfikacji rozmytej Jajuga (1986). Miernik rozmytości klasyfikacji Miernik ten można zapisać w postaci: r′ = − n K K K 2 (∑∑ f ij ) + n( K − 1) i =1 j =1 K −1 (1) gdzie: f ij − wartość stopnia przynależności i-tego obiektu do j-tej klasy rozmytej, n – liczba obiektów, K – liczba klas rozmytych. Miernik ten powinien zwiększać się w miarę wzrostu rozmytości klasyfikacji i zawierać się w przedziale [0,1]. Duże różnice w wartości miernika dla sąsiednich okresów wskazują na momenty niestabilności klasyfikacji. Miernik różnic w stopniach przynależności do klas Oceniając klasyfikacje rozmyte dla dwóch okresów t1 oraz t 2 , należy porównać dwie macierze różnic w stopniach przynależności. W tym celu można wykorzystać normę kwadratową różnicy: st1t2 = n n ∑∑ (l i =1 j =1 1 ij − l ij2 ) 2 (2) gdzie: st1t2 – miernik podobieństwa macierzy różnic dla okresów t1 i t 2 , l ij1 – element macierzy różnic w stopniach przynależności wyznaczonej dla okresu t1 , l ij2 – element macierzy różnic w stopniach przynależności wyznaczonej dla okresu t 2 . Ocena stabilności klasyfikacji rozmytej... 41 Tabela 1. Klasyfikacja województw pod względem wykorzystania usług internetowych w przedsiębiorstwach 1999 r. Grupa 1. i województwo 1 śląskie 2 mazowieckie 3 wielkopolskie Grupa 2. fi1 i 0,6760 0,5453 0,3262 1 2 3 4 5 6 7 województwo łódzkie małopolskie pomorskie dolnośląskie kujawsko-pomorskie wielkopolskie podkarpackie Grupa 3. fi2 i 0,6942 0,6249 0,5805 0,5240 0,5157 0,4608 0,3287 1 2 3 4 5 6 7 8 9 województwo warmińsko-mazurskie lubuskie Świętokrzyskie opolskie podlaskie lubelskie zachodniopomorskie podkarpackie kujawsko-pomorskie fi3 0,8047 0,8001 0,7514 0,7291 0,7081 0,6629 0,6132 0,5589 0,3658 2000 r. Grupa 1. i województwo 1 śląskie 2 mazowieckie 3 wielkopolskie Grupa 2. fi1 i 0,6724 0,5362 0,3280 1 2 3 4 5 6 7 województwo łódzkie małopolskie pomorskie kujawsko-pomorskie dolnośląskie wielkopolskie podkarpackie Grupa 3. fi2 i 0,7238 0,6679 0,5840 0,5569 0,5119 0,4670 0,3135 1 2 3 4 5 6 7 8 9 Województwo warmińsko-mazurskie lubuskie opolskie podlaskie świętokrzyskie lubelskie zachodniopomorskie podkarpackie kujawsko-pomorskie fi3 0,8539 0,8372 0,7685 0,7420 0,7162 0,6957 0,6098 0,5774 0,3262 2001 r. Grupa 1. i województwo 1 śląskie 2 mazowieckie 3 wielkopolskie Grupa 2. fi1 i 0,6895 0,6555 0,3934 1 2 3 4 5 6 7 8 województwo łódzkie małopolskie kujawsko-pomorskie pomorskie dolnośląskie wielkopolskie podkarpackie zachodniopomorskie Grupa 3. fi2 i 0,7946 0,6599 0,5868 0,5656 0,5220 0,4185 0,3571 0,3159 1 2 3 4 5 6 7 8 fi2 i 0,7707 0,7364 0,6186 0,5943 0,5881 0,4045 0,3885 1 2 3 4 5 6 7 8 województwo warmińsko-mazurskie lubuskie opolskie podlaskie lubelskie świętokrzyskie zachodniopomorskie podkarpackie fi3 0,8131 0,8060 0,7685 0,7680 0,7399 0,6959 0,5616 0,5210 2002 r. Grupa 1. i województwo 1 śląskie 2 mazowieckie 3 wielkopolskie Grupa 2. fi1 i 0,6854 0,5731 0,3985 1 2 3 4 5 6 7 województwo łódzkie kujawsko-pomorskie pomorskie małopolskie dolnośląskie wielkopolskie podkarpackie Grupa 3. województwo warmińsko-mazurskie lubuskie lubelskie opolskie zachodniopomorskie świętokrzyskie podlaskie podkarpackie Pogrubioną czcionką oznaczono województwa leżące na pograniczu grup rozmytych. fi3 0,8274 0,7695 0,7564 0,7330 0,7077 0,6900 0,6707 0,4762 42 A. Becker Jako miernik różnic w stopniach przynależności do klas można wykorzystać odległość Euklidesową: l ij = K ∑( f k =1 ik − f jk ) 2 , (i, j = 1,2,..., n) (3) gdzie: f ik − wartość stopnia przynależności i-tego obiektu do k-tej klasy rozmytej, f jk − wartość stopnia przynależności j-tego obiektu do k-tej klasy rozmytej. Jeżeli macierze różnic w stopniach przynależności dla analizowanych okresów znacznie się różnią, oznacza to, że klasyfikacje w tych okresach są mało podobne, co wskazuje na niestabilność klasyfikacji w okresie [t1 , t 2 ] . W sytuacji, gdy rozpatrywanych jest N różnych okresów, czyli N klasyfikacji rozmytych, można wyznaczyć N 2 mierników podobieństwa dla każdej pary okresów (wliczając podobieństwo danego okresu do tego samego okresu). Można je przy tym zgrupować w postaci macierzy S (o wymiarach [ N × N ]), która będzie odzwierciedlała podobieństwa poszczególnych par obiektów ze względu na klasyfikację rozmytą. Duże wartości elementów tej macierzy będą wskazywać na okresy niestabilności. Ważony środek ciężkości W klasyfikacji rozmytej każdą klasę może charakteryzować jej środek ciężkości, który jako abstrakcyjny obiekt jest typowym reprezentantem klas. Oznacza to, że jego współrzędne mogą służyć do interpretacji grup. W metodzie rozmytego środka ciężkości, który można wyznaczyć, korzystając ze wzoru: n gk = ∑f i =1 n 2 ik i ∑f i =1 z (k = 1,..., K ) (4) 2 ik gdzie: gk – środek ciężkości k-tej klasy rozmytej, zi = [zi1,...,zim] – m-wymiarowy wektor zestandaryzowanych obserwacji, odpowiadający i-temu obiektowi (i-ty wiersz macierzy zestandaryzowanych obserwacji), Z = {zij} i = 1,2,...,n, j = 1,2,...,m, przy czym n – liczba obiektów, m – liczba zmiennych opisujących badane zjawisko, K – liczba klas rozmytych, f ik – wartość stopnia przynależności i-tego obiektu do k-tej klasy rozmytej. Dynamiczna analiza środków ciężkości klas rozmytych umożliwia określenie zmian w czasie poszczególnych grup rozmytych. Zmiany te można określić, wyznaczając odległości Euklidesowe między środkami ciężkości klas należących do klasyfikacji rozmytych, które dotyczą różnych okresów. Porównując liczące odpowiednio K 1 i K 2 grup klasyfikacje rozmyte dla dwóch okresów t1 i t 2 , uzyskane odległości Euklidesowe między środkami ciężkości tworzą macierz S1 o wymiarach [K 1 × K 2 ] . Element sij1 tej macierzy oznacza od- ległość między środkiem ciężkości i-tej klasy rozmytej z klasyfikacji wyznaczonej dla okresu t1 oraz środkiem ciężkości j-tej klasy rozmytej z klasyfikacji wyznaczonej dla okresu t 2 . Minimalne wartości w wierszu (lub kolumnie) macierzy S1 wskazują klasy najbardziej po- Ocena stabilności klasyfikacji rozmytej... 43 dobne pod względem wartości zmiennych w dwóch okresach. Rozpatrując N różnych okresów, czyli N klasyfikacji rozmytych, można wyznaczyć N ( N − 1) / 2 macierzy S1 dla każdej pary okresów. WYNIKI I DYSKUSJA Pierwszą propozycją oceny stabilności klasyfikacji rozmytej jest porównanie mierników rozmytości klasyfikacji. W tym celu dla każdego z czterech badanych okresów wyznaczono klasyfikacje rozmyte – metodą rozmytego środka ciężkości. Wyniki rozmytych klasyfikacji z wartościami funkcji przynależności do trzech skupień ( K = 3 ) stanowiły podstawę wyznaczenia miernika rozmytości klasyfikacji. Dla kolejnych okresów (z lat 1999–2002) wskaźnik ten wyniósł odpowiednio: 0,752, 0,725, 0,724, 0,718. Uzyskane rezultaty wskazują, że wartości omawianego miernika są zbliżone. Klasyfikacja w rozpatrywanym przedziale czasowym kształtowała się na podobnym poziomie, czyli można stwierdzić, że występuje stabilność klasyfikacji. Kolejnym sposobem badania stabilności klasyfikacji rozmytej jest zastosowanie miernika różnic w stopniach przynależności obiektów do klas rozmytych. Wykorzystując N = 4 klasyfikacje rozmyte wyznaczono 16 mierników podobieństwa dla każdej pary okresów (wliczając podobieństwo danego okresu do tego samego okresu). Następnie zgrupowano je w postaci macierzy S różnic w stopniach przynależności, która odzwierciedla podobieństwa poszczególnych par obiektów ze względu na klasyfikację rozmytą: ⎡0,000 ⎢0,784 S=⎢ ⎢1,542 ⎢ ⎣ 2,862 0,784 0,000 1,172 2,763 1,542 1,172 0,000 2,565 2,862⎤ 2,763⎥⎥ . 2,565⎥ ⎥ 0,000⎦ Analizując macierz S, można zauważyć, że wartości elementów macierzy rosną w miarę oddalania się od głównej przekątnej. Nie odnotowano wyraźnego podziału badanego przedziału czasowego, z czego wynika, że klasyfikacje rozmyte otrzymane dla omawianego okresu nie wykazują istotnych różnic. Małe wartości elementów tej macierzy wskazują na stabilność klasyfikacji rozmytej. Trzecią propozycją oceny stabilności klasyfikacji rozmytej jest dynamiczna analiza środków ciężkości klas rozmytych, umożliwiająca określenie zmian w czasie poszczególnych klasyfikacji. W tym celu wyznaczono odległości Euklidesowe między środkami ciężkości klas należących do klasyfikacji rozmytych i otrzymano macierze S1 o wymiarach [3 x 3]. Ponieważ rozpatrywano cztery różne okresy, czyli N = 4 klasyfikacje rozmyte, wyznaczono sześć macierzy S1 dla każdej pary okresów: S 199/00 ⎡0,470 3,556 6,354⎤ = ⎢⎢3,466 0,192 2,968⎥⎥ ⎢⎣6,287 3,050 0,118 ⎥⎦ S 199/01 ⎡0,514 3,377 6,194 ⎤ = ⎢⎢3,655 0,336 2,774⎥⎥ ⎢⎣6,376 3,129 0,194 ⎥⎦ 44 A. Becker 1 99/02 ⎡0,558 3,585 6,375⎤ = ⎢⎢ 3,988 0,661 2,366⎥⎥ ⎢⎣6,246 2,971 0,283⎥⎦ S 100/02 ⎡0,450 3,571 6,439⎤ = ⎢⎢ 4,091 0,624 2,425⎥⎥ ⎢⎣6,365 2,962 0,271⎥⎦ S S 1 00/01 S 101/02 ⎡0,376 3,374 6,254⎤ = ⎢⎢3,745 0,261 2,838⎥⎥ ⎢⎣6,504 3,113 0,123 ⎥⎦ ⎡0,518 3,766 6,526 ⎤ = ⎢⎢3,917 0,468 2,509 ⎥⎥ . ⎢⎣ 6,199 2,771 0,277 ⎥⎦ Elementy na głównej przekątnej, które odpowiadają odległościom między środkami ciężkości klas o tych samych numerach, mają mniejsze wartości niż pozostałe elementy. Nie zauważono wyraźnych dysproporcji pomiędzy klasyfikacjami rozmytymi (macierzami) a stosunkowo małe wartości elementów tych macierzy wskazują na stabilność klasyfikacji rozmytej w czasie. PODSUMOWANIE W latach 1999–2002 zastosowanie klasyfikacji rozmytej dało zbliżone wyniki. W grupie pierwszej (w poszczególnych latach) znaczącymi stopniami przynależności charakteryzowały się trzy województwa śląskie, mazowieckie i wielkopolskie. Grupa druga została zdominowana przez województwa centralne i południowo-wschodnie. W klasie trzeciej przewagę stanowiły województwa: zachodnie, wschodnie i północno-wschodnie. Porównanie mierników rozmytości, wyznaczenie mierników podobieństwa, które zgrupowano w postaci macierzy różnic, w stopniach przynależności, i dynamiczna analiza środków ciężkości klas rozmytych pozwoliła stwierdzić, że klasyfikacje (przeprowadzone na stałych zmiennych ekonomiczno-informatycznych) w rozpatrywanym przedziale czasowym kształtowały się na podobnym poziomie, czyli otrzymane grupy rozmyte były stabilne. Stanowi to ważną cechę informacyjną w kreowaniu ugruntowanej (stabilnej) polityki regionalnej stosowania Internetu w rozwoju przedsiębiorczości. PIŚMIENNICTWO Becker A. 2006. Zastosowanie taksonomii rozmytej do oceny poziomu usług internetowych w działalności gospodarczej przedsiębiorstw. Rozprawa doktorska. SGGW, Warszawa (maszynopis). Hellwig Z. 1995. Stabilność i odporność struktur taksonometrycznych [w: Klasyfikacja i analiza danych. Problemy teoretyczne]. Red. K. Jajuga, M. Walesiak. Taksonomia (2), 7–30. Jajuga K. 1986. O stabilności klasyfikacji rozmytych. Prz. Statyst. (3), 232–234.