Pełny tekst PDF - Instytut Badań Systemowych PAN

Transkrypt

Współczynnik korelacji rangowej
– badanie zależności między
preferencjami
Przemysław Grzegorzewski
Instytut Badań Systymowych PAN
ul. Newelska 6
01-447 Warszawa
E-mail: [email protected]
Plan referatu:

Klasyczne metody badania korelacji rangowej
Kłopoty z danymi
Intuicjonistyczne zbiory rozmyte
Modelowanie systemów preferencji
Uogólniony współczynnik korelacji rangowej
Wnioski
Kierunki dalszych badań
Literatura
Klasyczne metody badania
korelacji rangowej
Przykład 1
Chcemy zbadać, czy istnieje zależność między preferencjami
dwóch osób odnośnie literatury współczesnej. W tym celu
poprosiliśmy je o uszeregowanie następujących nazwisk
Paulo Coelho, J.M. Coetzee, Jostein Gaarder, Helen Fielding,
Imre Kertesz, Terry Prachett, Joanne Rowling, Wisława Szymborska
w porządku od najbardziej cenionego do najmniej cenionego autora.
korelacji rangowej
Niech X = {x1 ,K, xn } oznacza zbiór obiektów, które będą
uporządkowane według systemu preferencji A oraz B.
Mamy więc do czynienia ze zbiorem par uporządkowanych
( A1 , B1 ),K, ( An , Bn ),
gdzie Ai , Bi oznaczają, odpowiednio, rangi przypisane obiektowi xi
zgodnie z systemem preferencji A oraz B.
Do oceny stopnia korelacji między systemem preferencji A oraz B
można posłużyć się współczynnikiem korelacji rangowej Spearmana,
danym wzorem
n
6
2
rS = 1 −
d
∑
i
n(n 2 − 1) i =1
gdzie d i = Ai − Bi oznacza różnicę rang przypisanych obiektowi xi .
korelacji rangowej
Przykład 1 (ciąg dalszy)
Preferencje Jasia:
1. Coelho
2. Gaarder
3. Szymborska
4. Kertesz
rS = − 0,9048
5. Coetzee
6. Rowling
7. Prachett
8. Fielding
Preferencje Małgosi:
1. Prachett
2. Rowling
3. Fielding
4. Coetzee
5. Kertesz
6. Szymborska
7. Coelho
8. Gaarder
Kłopoty z danymi
Przykład 2
Preferencje Stasia:
1. Coelho
2. Gaarder
3. Szymborska
4. Kertesz
5. Coetzee
6. Rowling
7. Prachett
Fielding=?
Preferencje Margaret:
1. Coelho
2. Coetzee i Kertesz
3. Gaarder
4. Rowling
5. Prachett
6. Fielding
Szymborska=?
Zbiorem rozmytym C w przestrzeni X nazywamy zbiór par
uporządkowanych
C = { xi , µ C ( x i ) : x i ∈ X }
gdzie µ C : X → [0,1] jest funkcją przynależności, przypisującą
każdemu elementowi xi stopień µ C ( xi ) jego przynależności do
zbioru C.
Zadeh (1965)
Intuicjonistycznym zbiorem rozmytym C w przestrzeni X nazywamy
zbiór trójek uporządkowanych
C = { xi , µ C ( xi ), ν C ( xi ) : xi ∈ X }
gdzie µ C , ν C : X → [0,1] są funkcjami spełniającymi zależność
µ C ( xi ) + ν C ( xi ) ≤ 1
∀xi ∈ X
Dla każdego elementu xi liczba µ C ( xi ) wskazuje stopień
przynależności tego elementu do zbioru C, natomiast liczba ν C ( xi )
wyraża stopień nieprzynależności danego elementu do zbioru C.
Atanassov (1986)
Wielkość
π C ( xi ) = 1 − µ C ( xi ) − ν C ( xi )
nazywana intuicjonistycznym indeksem intuicjonistycznego zbioru
rozmytego C, wyraża stopień nieokreśloności elementu xi w sensie
jego przynależności bądź nieprzynależności do tego zbioru.
Systemy preferencji A i B utożsamiać będziemy z intuicjonistycznymi
zbiorami rozmytymi
A = { xi , µ A ( xi ),ν A ( xi ) : xi ∈ X } oraz B = { xi , µ B ( xi ),ν B ( xi ) : xi ∈ X }
przy czym wartości µ A ( xi ) oraz ν A ( xi ) wskazują, w jakim stopniu
element xi jest, odpowiednio, najbardziej preferowanym oraz
najmniej preferowanym elementem ze zbioru X, zgodnie z systemem
preferencji A
(podobnie wartości µ B ( xi ) oraz ν B ( xi ) wskazują, w jakim stopniu
element xi jest, odpowiednio, najbardziej preferowanym oraz
najmniej preferowanym elementem ze zbioru X, zgodnie z systemem
preferencji B ).
Niech
w A ( xi )
µ A ( xi ) =
n −1
b (x )
ν A ( xi ) = A i
n −1
gdzie wA ( xi ) oznacza liczbę elementów spośród x1 ,K, xi −1 , xi +1 ,K, xn
z pewnością gorszych od elementu xi natomiast bA ( xi ) jest liczbą
elementów spośród x1 ,K, xi −1 , xi +1 ,K, xn z pewnością lepszych od xi
zgodnie z systemem preferencji A.
Podobnie
w B ( xi )
µ B ( xi ) =
n −1
b (x )
ν B ( xi ) = B i
n −1
gdzie wB ( xi ) oznacza liczbę elementów spośród x1 ,K, xi −1 , xi +1 ,K, xn
z pewnością gorszych od elementu xi natomiast bB ( xi ) jest liczbą
elementów spośród x1 ,K, xi −1 , xi +1 ,K, xn z pewnością lepszych od xi
zgodnie z systemem preferencji B.
Uwaga
Jeśli π A ( xi ) = 0 dla każdego xi ∈ X to fakt ten oznacza, że
wszystkim elementom należącym do zbioru X zostały nadane rangi
według systemu preferencji A i każdy z nich otrzymał inną rangę.
Jeśli istnieje taki element xi ∈ X dla którego zachodzi π A ( xi ) > 0
to oznacza, że w porządku wygenerowanym zgodnie z systemem
preferencji A występują elementy z rangami związanymi lub
elementy, którym nie nadano rang.
Warunek π A ( xi ) = 1 zachodzi wtedy i tylko wtedy, gdy element xi
nie jest w systemie preferencji A porównywalny z żadnym spośród
elementów x1 ,K, xi −1 , xi +1 ,K, xn
Uogólniony współczynnik korelacji
rangowej
Nietrudno zauważyć, że współczynnik korelacji rangowej Spearmana
rS = 1 −
6
n
∑ d i2
n(n 2 − 1) i =1
można zapisać w postaci
rS = 1 − γ ⋅ d ( A, B)
gdzie d ( A, B ) oznacza pewną miarę podobieństwa (odległości)
między systemami preferencji A i B, natomiast γ jest stałą zależną
od liczności próby.
rangowej
Niech
[
n −1 n
RS ( A, B ) = 1 −
∑ α Dα+ ( xi ) + (1 − α) Dα− ( xi )
n(n + 1) i =1
przy czym
{
( x ) = min{ µ
]
}
}
Dα+ ( xi ) = max µ A ( xi ) − µ B ( xi ) , ν A ( xi ) −ν B ( xi )
2
Dα−
2
gdzie
α=
i
n+4
n
2
A ( xi ) − µ B ( xi ) , ν A ( xi ) − ν B ( xi )
2
gdy n = 2k
n 2 + 4n − 3
α=
gdy n = 2k + 1
2
n −1
rangowej
Lemat 1
Dla dowolnych intuicjonistycznych zbiorów rozmytych A oraz B
w przestrzeni X zachodzi:
RS ( A, B) = RS ( B, A)
oraz
RS ( A, B ) ≤ 1
rangowej
Lemat 2
Jeśli wszystkie elementy zbioru X = {x1 ,K, xn } zostały
jednoznacznie uporządkowane zgodnie z systemem preferencji A
oraz B, wówczas uogólniony współczynnik korelacji rangowej RS
jest równoważny klasycznemu współczynnikowi Spearmana rS
rangowej
Lemat 3
Jeśli każdemu elementowi ze zbioru X = {x1 ,K, xn } została nadana
ranga, zgodnie z systemem preferencji A lub B, wówczas
RS ( A, B) = 1 wtedy i tylko wtedy gdy systemy preferencji A i B
są w pełni zgodne,
RS ( A, B) = −1 wtedy i tylko wtedy gdy systemy preferencji A i B
są w całkowicie przeciwne.
rangowej
Lemat 4
Jeśli przynajmniej jeden z systemów preferencji A lub B jest
całkowicie nieokreślony (tzn. żadnemu z elementów zbioru
X = {x1 ,K, xn } nie została nadana ranga), wówczas RS ( A, B) = 0
rangowej
Przykład 2 (ciąg dalszy)
Intuicjonistyczny zbiór rozmyty odpowiadający preferencjom
literackim Stasia ma postać
6
2 4
5 1
⎧
A = ⎨ Coelho, , 0 , Coetzee, , , Gaarder, , , Fielding, 0, 0
7
7 7
7 7
⎩
3 3
6
1 5
4 2 ⎫
Kertesz, , , Prachett, 0, , Rowling, , , Szymborska, , ⎬
7 7
7
7 7
7 7 ⎭
rangowej
Intuicjonistyczny zbiór rozmyty odpowiadający preferencjom
literackim Margaret ma postać
6
4 1
3 3
6
⎧
B = ⎨ Coelho, , 0 , Coetzee, , , Gaarder, , , Fielding, 0,
7
7 7
7 7
7
⎩
2 4
1 5
4 1
⎫
Kertesz, , , Prachett, , , Rowling, , , Szymborska, 0, 0 ⎬
7 7
7 7
7 7
⎭
Po podstawieniu do wzoru otrzymujemy
RS = 0,65476
Wnioski

Zaproponowany współczynnik korelacji rangowej
pozwala efektywnie wyznaczać stopień i kierunek zależności
między systemami preferencji (również w przypadku braku
rangowania wszystkich badanych obiektów).
Współczynnik ten jest naturalnym uogólnieniem klasycznego
współczynnika korelacji rangowej Spearmana.
Zaproponowany współczynnik korelacji rangowej ma interesujące
własności i może być stosowany do analizy korelacji między
intuicjonistycznymi zbiorami rozmytymi (także poza kontekstem
badania związku między preferencjami).
Kierunki dalszych badań

Uogólnienie współczynnika korelacji Kendalla.
Konstrukcja testów istotności dla uogólnionych współczynników
korelacji rangowej Spearmana i Kendalla.
Konstrukcja współczynników korelacji rangowej wykorzystujących
informację a priori.
Literatura

Atanassov K. (1986), Intuitionistic fuzzy sets, Fuzzy Sets and
Systems 20, 87—96
Atanassov K. (1999), Intuitionistic Fuzzy Sets: Theory and
Applications, Physica-Verlag
Gibbons J.D., Chakraborti S. (2003), Nonparametric Statistical
Inference, Marcel Dekker, Inc.
Grzegorzewski P. (2003), Between intuitionistic fuzzy sets
and/or interval-valued fuzzy sets Based on the Hausdorff metric,
Fuzzy Sets and Systems (w druku)
Grzegorzewski P. (2003), The Hamming distance between
intuitionistic fuzzy sets, In: Proceedings of the 10th IFSA World
Congress – IFSA 2003, Istanbul, Turkey, June 29 – July 2, 2003,
pp. 35-38
Zadeh L.A. (1965), Fuzzy sets, Inform. and Control 8, 338—353