Pełny tekst PDF - Instytut Badań Systemowych PAN
Transkrypt
Pełny tekst PDF - Instytut Badań Systemowych PAN
Współczynnik korelacji rangowej – badanie zależności między preferencjami Przemysław Grzegorzewski Instytut Badań Systymowych PAN ul. Newelska 6 01-447 Warszawa E-mail: [email protected] Plan referatu: Klasyczne metody badania korelacji rangowej Kłopoty z danymi Intuicjonistyczne zbiory rozmyte Modelowanie systemów preferencji Uogólniony współczynnik korelacji rangowej Wnioski Kierunki dalszych badań Literatura Klasyczne metody badania korelacji rangowej Przykład 1 Chcemy zbadać, czy istnieje zależność między preferencjami dwóch osób odnośnie literatury współczesnej. W tym celu poprosiliśmy je o uszeregowanie następujących nazwisk Paulo Coelho, J.M. Coetzee, Jostein Gaarder, Helen Fielding, Imre Kertesz, Terry Prachett, Joanne Rowling, Wisława Szymborska w porządku od najbardziej cenionego do najmniej cenionego autora. Klasyczne metody badania korelacji rangowej Niech X = {x1 ,K, xn } oznacza zbiór obiektów, które będą uporządkowane według systemu preferencji A oraz B. Mamy więc do czynienia ze zbiorem par uporządkowanych ( A1 , B1 ),K, ( An , Bn ), gdzie Ai , Bi oznaczają, odpowiednio, rangi przypisane obiektowi xi zgodnie z systemem preferencji A oraz B. Do oceny stopnia korelacji między systemem preferencji A oraz B można posłużyć się współczynnikiem korelacji rangowej Spearmana, danym wzorem n 6 2 rS = 1 − d ∑ i n(n 2 − 1) i =1 gdzie d i = Ai − Bi oznacza różnicę rang przypisanych obiektowi xi . Klasyczne metody badania korelacji rangowej Przykład 1 (ciąg dalszy) Preferencje Jasia: 1. Coelho 2. Gaarder 3. Szymborska 4. Kertesz rS = − 0,9048 5. Coetzee 6. Rowling 7. Prachett 8. Fielding Preferencje Małgosi: 1. Prachett 2. Rowling 3. Fielding 4. Coetzee 5. Kertesz 6. Szymborska 7. Coelho 8. Gaarder Kłopoty z danymi Przykład 2 Preferencje Stasia: 1. Coelho 2. Gaarder 3. Szymborska 4. Kertesz 5. Coetzee 6. Rowling 7. Prachett Fielding=? Preferencje Margaret: 1. Coelho 2. Coetzee i Kertesz 3. Gaarder 4. Rowling 5. Prachett 6. Fielding Szymborska=? Intuicjonistyczne zbiory rozmyte Zbiorem rozmytym C w przestrzeni X nazywamy zbiór par uporządkowanych C = { xi , µ C ( x i ) : x i ∈ X } gdzie µ C : X → [0,1] jest funkcją przynależności, przypisującą każdemu elementowi xi stopień µ C ( xi ) jego przynależności do zbioru C. Zadeh (1965) Intuicjonistyczne zbiory rozmyte Intuicjonistycznym zbiorem rozmytym C w przestrzeni X nazywamy zbiór trójek uporządkowanych C = { xi , µ C ( xi ), ν C ( xi ) : xi ∈ X } gdzie µ C , ν C : X → [0,1] są funkcjami spełniającymi zależność µ C ( xi ) + ν C ( xi ) ≤ 1 ∀xi ∈ X Dla każdego elementu xi liczba µ C ( xi ) wskazuje stopień przynależności tego elementu do zbioru C, natomiast liczba ν C ( xi ) wyraża stopień nieprzynależności danego elementu do zbioru C. Atanassov (1986) Intuicjonistyczne zbiory rozmyte Wielkość π C ( xi ) = 1 − µ C ( xi ) − ν C ( xi ) nazywana intuicjonistycznym indeksem intuicjonistycznego zbioru rozmytego C, wyraża stopień nieokreśloności elementu xi w sensie jego przynależności bądź nieprzynależności do tego zbioru. Modelowanie systemów preferencji Systemy preferencji A i B utożsamiać będziemy z intuicjonistycznymi zbiorami rozmytymi A = { xi , µ A ( xi ),ν A ( xi ) : xi ∈ X } oraz B = { xi , µ B ( xi ),ν B ( xi ) : xi ∈ X } przy czym wartości µ A ( xi ) oraz ν A ( xi ) wskazują, w jakim stopniu element xi jest, odpowiednio, najbardziej preferowanym oraz najmniej preferowanym elementem ze zbioru X, zgodnie z systemem preferencji A (podobnie wartości µ B ( xi ) oraz ν B ( xi ) wskazują, w jakim stopniu element xi jest, odpowiednio, najbardziej preferowanym oraz najmniej preferowanym elementem ze zbioru X, zgodnie z systemem preferencji B ). Modelowanie systemów preferencji Niech w A ( xi ) µ A ( xi ) = n −1 b (x ) ν A ( xi ) = A i n −1 gdzie wA ( xi ) oznacza liczbę elementów spośród x1 ,K, xi −1 , xi +1 ,K, xn z pewnością gorszych od elementu xi natomiast bA ( xi ) jest liczbą elementów spośród x1 ,K, xi −1 , xi +1 ,K, xn z pewnością lepszych od xi zgodnie z systemem preferencji A. Modelowanie systemów preferencji Podobnie w B ( xi ) µ B ( xi ) = n −1 b (x ) ν B ( xi ) = B i n −1 gdzie wB ( xi ) oznacza liczbę elementów spośród x1 ,K, xi −1 , xi +1 ,K, xn z pewnością gorszych od elementu xi natomiast bB ( xi ) jest liczbą elementów spośród x1 ,K, xi −1 , xi +1 ,K, xn z pewnością lepszych od xi zgodnie z systemem preferencji B. Modelowanie systemów preferencji Uwaga Jeśli π A ( xi ) = 0 dla każdego xi ∈ X to fakt ten oznacza, że wszystkim elementom należącym do zbioru X zostały nadane rangi według systemu preferencji A i każdy z nich otrzymał inną rangę. Jeśli istnieje taki element xi ∈ X dla którego zachodzi π A ( xi ) > 0 to oznacza, że w porządku wygenerowanym zgodnie z systemem preferencji A występują elementy z rangami związanymi lub elementy, którym nie nadano rang. Warunek π A ( xi ) = 1 zachodzi wtedy i tylko wtedy, gdy element xi nie jest w systemie preferencji A porównywalny z żadnym spośród elementów x1 ,K, xi −1 , xi +1 ,K, xn Uogólniony współczynnik korelacji rangowej Nietrudno zauważyć, że współczynnik korelacji rangowej Spearmana rS = 1 − 6 n ∑ d i2 n(n 2 − 1) i =1 można zapisać w postaci rS = 1 − γ ⋅ d ( A, B) gdzie d ( A, B ) oznacza pewną miarę podobieństwa (odległości) między systemami preferencji A i B, natomiast γ jest stałą zależną od liczności próby. Uogólniony współczynnik korelacji rangowej Niech [ n −1 n RS ( A, B ) = 1 − ∑ α Dα+ ( xi ) + (1 − α) Dα− ( xi ) n(n + 1) i =1 przy czym { ( x ) = min{ µ ] } } Dα+ ( xi ) = max µ A ( xi ) − µ B ( xi ) , ν A ( xi ) −ν B ( xi ) 2 Dα− 2 gdzie α= i n+4 n 2 A ( xi ) − µ B ( xi ) , ν A ( xi ) − ν B ( xi ) 2 gdy n = 2k n 2 + 4n − 3 α= gdy n = 2k + 1 2 n −1 Uogólniony współczynnik korelacji rangowej Lemat 1 Dla dowolnych intuicjonistycznych zbiorów rozmytych A oraz B w przestrzeni X zachodzi: RS ( A, B) = RS ( B, A) oraz RS ( A, B ) ≤ 1 Uogólniony współczynnik korelacji rangowej Lemat 2 Jeśli wszystkie elementy zbioru X = {x1 ,K, xn } zostały jednoznacznie uporządkowane zgodnie z systemem preferencji A oraz B, wówczas uogólniony współczynnik korelacji rangowej RS jest równoważny klasycznemu współczynnikowi Spearmana rS Uogólniony współczynnik korelacji rangowej Lemat 3 Jeśli każdemu elementowi ze zbioru X = {x1 ,K, xn } została nadana ranga, zgodnie z systemem preferencji A lub B, wówczas RS ( A, B) = 1 wtedy i tylko wtedy gdy systemy preferencji A i B są w pełni zgodne, RS ( A, B) = −1 wtedy i tylko wtedy gdy systemy preferencji A i B są w całkowicie przeciwne. Uogólniony współczynnik korelacji rangowej Lemat 4 Jeśli przynajmniej jeden z systemów preferencji A lub B jest całkowicie nieokreślony (tzn. żadnemu z elementów zbioru X = {x1 ,K, xn } nie została nadana ranga), wówczas RS ( A, B) = 0 Uogólniony współczynnik korelacji rangowej Przykład 2 (ciąg dalszy) Intuicjonistyczny zbiór rozmyty odpowiadający preferencjom literackim Stasia ma postać 6 2 4 5 1 ⎧ A = ⎨ Coelho, , 0 , Coetzee, , , Gaarder, , , Fielding, 0, 0 7 7 7 7 7 ⎩ 3 3 6 1 5 4 2 ⎫ Kertesz, , , Prachett, 0, , Rowling, , , Szymborska, , ⎬ 7 7 7 7 7 7 7 ⎭ Uogólniony współczynnik korelacji rangowej Intuicjonistyczny zbiór rozmyty odpowiadający preferencjom literackim Margaret ma postać 6 4 1 3 3 6 ⎧ B = ⎨ Coelho, , 0 , Coetzee, , , Gaarder, , , Fielding, 0, 7 7 7 7 7 7 ⎩ 2 4 1 5 4 1 ⎫ Kertesz, , , Prachett, , , Rowling, , , Szymborska, 0, 0 ⎬ 7 7 7 7 7 7 ⎭ Po podstawieniu do wzoru otrzymujemy RS = 0,65476 Wnioski Zaproponowany współczynnik korelacji rangowej pozwala efektywnie wyznaczać stopień i kierunek zależności między systemami preferencji (również w przypadku braku rangowania wszystkich badanych obiektów). Współczynnik ten jest naturalnym uogólnieniem klasycznego współczynnika korelacji rangowej Spearmana. Zaproponowany współczynnik korelacji rangowej ma interesujące własności i może być stosowany do analizy korelacji między intuicjonistycznymi zbiorami rozmytymi (także poza kontekstem badania związku między preferencjami). Kierunki dalszych badań Uogólnienie współczynnika korelacji Kendalla. Konstrukcja testów istotności dla uogólnionych współczynników korelacji rangowej Spearmana i Kendalla. Konstrukcja współczynników korelacji rangowej wykorzystujących informację a priori. Literatura Atanassov K. (1986), Intuitionistic fuzzy sets, Fuzzy Sets and Systems 20, 87—96 Atanassov K. (1999), Intuitionistic Fuzzy Sets: Theory and Applications, Physica-Verlag Gibbons J.D., Chakraborti S. (2003), Nonparametric Statistical Inference, Marcel Dekker, Inc. Grzegorzewski P. (2003), Between intuitionistic fuzzy sets and/or interval-valued fuzzy sets Based on the Hausdorff metric, Fuzzy Sets and Systems (w druku) Grzegorzewski P. (2003), The Hamming distance between intuitionistic fuzzy sets, In: Proceedings of the 10th IFSA World Congress – IFSA 2003, Istanbul, Turkey, June 29 – July 2, 2003, pp. 35-38 Zadeh L.A. (1965), Fuzzy sets, Inform. and Control 8, 338—353