Pełny tekst PDF - Instytut Badań Systemowych PAN

Transkrypt

Pełny tekst PDF - Instytut Badań Systemowych PAN
Współczynnik korelacji rangowej
– badanie zależności między
preferencjami
Przemysław Grzegorzewski
Instytut Badań Systymowych PAN
ul. Newelska 6
01-447 Warszawa
E-mail: [email protected]
Plan referatu:
„
„
„
„
„
„
„
„
Klasyczne metody badania korelacji rangowej
Kłopoty z danymi
Intuicjonistyczne zbiory rozmyte
Modelowanie systemów preferencji
Uogólniony współczynnik korelacji rangowej
Wnioski
Kierunki dalszych badań
Literatura
Klasyczne metody badania
korelacji rangowej
Przykład 1
Chcemy zbadać, czy istnieje zależność między preferencjami
dwóch osób odnośnie literatury współczesnej. W tym celu
poprosiliśmy je o uszeregowanie następujących nazwisk
Paulo Coelho, J.M. Coetzee, Jostein Gaarder, Helen Fielding,
Imre Kertesz, Terry Prachett, Joanne Rowling, Wisława Szymborska
w porządku od najbardziej cenionego do najmniej cenionego autora.
Klasyczne metody badania
korelacji rangowej
Niech X = {x1 ,K, xn } oznacza zbiór obiektów, które będą
uporządkowane według systemu preferencji A oraz B.
Mamy więc do czynienia ze zbiorem par uporządkowanych
( A1 , B1 ),K, ( An , Bn ),
gdzie Ai , Bi oznaczają, odpowiednio, rangi przypisane obiektowi xi
zgodnie z systemem preferencji A oraz B.
Do oceny stopnia korelacji między systemem preferencji A oraz B
można posłużyć się współczynnikiem korelacji rangowej Spearmana,
danym wzorem
n
6
2
rS = 1 −
d
∑
i
n(n 2 − 1) i =1
gdzie d i = Ai − Bi oznacza różnicę rang przypisanych obiektowi xi .
Klasyczne metody badania
korelacji rangowej
Przykład 1 (ciąg dalszy)
Preferencje Jasia:
1. Coelho
2. Gaarder
3. Szymborska
4. Kertesz
rS = − 0,9048
5. Coetzee
6. Rowling
7. Prachett
8. Fielding
Preferencje Małgosi:
1. Prachett
2. Rowling
3. Fielding
4. Coetzee
5. Kertesz
6. Szymborska
7. Coelho
8. Gaarder
Kłopoty z danymi
Przykład 2
Preferencje Stasia:
1. Coelho
2. Gaarder
3. Szymborska
4. Kertesz
5. Coetzee
6. Rowling
7. Prachett
Fielding=?
Preferencje Margaret:
1. Coelho
2. Coetzee i Kertesz
3. Gaarder
4. Rowling
5. Prachett
6. Fielding
Szymborska=?
Intuicjonistyczne zbiory rozmyte
Zbiorem rozmytym C w przestrzeni X nazywamy zbiór par
uporządkowanych
C = { xi , µ C ( x i ) : x i ∈ X }
gdzie µ C : X → [0,1] jest funkcją przynależności, przypisującą
każdemu elementowi xi stopień µ C ( xi ) jego przynależności do
zbioru C.
Zadeh (1965)
Intuicjonistyczne zbiory rozmyte
Intuicjonistycznym zbiorem rozmytym C w przestrzeni X nazywamy
zbiór trójek uporządkowanych
C = { xi , µ C ( xi ), ν C ( xi ) : xi ∈ X }
gdzie µ C , ν C : X → [0,1] są funkcjami spełniającymi zależność
µ C ( xi ) + ν C ( xi ) ≤ 1
∀xi ∈ X
Dla każdego elementu xi liczba µ C ( xi ) wskazuje stopień
przynależności tego elementu do zbioru C, natomiast liczba ν C ( xi )
wyraża stopień nieprzynależności danego elementu do zbioru C.
Atanassov (1986)
Intuicjonistyczne zbiory rozmyte
Wielkość
π C ( xi ) = 1 − µ C ( xi ) − ν C ( xi )
nazywana intuicjonistycznym indeksem intuicjonistycznego zbioru
rozmytego C, wyraża stopień nieokreśloności elementu xi w sensie
jego przynależności bądź nieprzynależności do tego zbioru.
Modelowanie systemów preferencji
Systemy preferencji A i B utożsamiać będziemy z intuicjonistycznymi
zbiorami rozmytymi
A = { xi , µ A ( xi ),ν A ( xi ) : xi ∈ X } oraz B = { xi , µ B ( xi ),ν B ( xi ) : xi ∈ X }
przy czym wartości µ A ( xi ) oraz ν A ( xi ) wskazują, w jakim stopniu
element xi jest, odpowiednio, najbardziej preferowanym oraz
najmniej preferowanym elementem ze zbioru X, zgodnie z systemem
preferencji A
(podobnie wartości µ B ( xi ) oraz ν B ( xi ) wskazują, w jakim stopniu
element xi jest, odpowiednio, najbardziej preferowanym oraz
najmniej preferowanym elementem ze zbioru X, zgodnie z systemem
preferencji B ).
Modelowanie systemów preferencji
Niech
w A ( xi )
µ A ( xi ) =
n −1
b (x )
ν A ( xi ) = A i
n −1
gdzie wA ( xi ) oznacza liczbę elementów spośród x1 ,K, xi −1 , xi +1 ,K, xn
z pewnością gorszych od elementu xi natomiast bA ( xi ) jest liczbą
elementów spośród x1 ,K, xi −1 , xi +1 ,K, xn z pewnością lepszych od xi
zgodnie z systemem preferencji A.
Modelowanie systemów preferencji
Podobnie
w B ( xi )
µ B ( xi ) =
n −1
b (x )
ν B ( xi ) = B i
n −1
gdzie wB ( xi ) oznacza liczbę elementów spośród x1 ,K, xi −1 , xi +1 ,K, xn
z pewnością gorszych od elementu xi natomiast bB ( xi ) jest liczbą
elementów spośród x1 ,K, xi −1 , xi +1 ,K, xn z pewnością lepszych od xi
zgodnie z systemem preferencji B.
Modelowanie systemów preferencji
Uwaga
Jeśli π A ( xi ) = 0 dla każdego xi ∈ X to fakt ten oznacza, że
wszystkim elementom należącym do zbioru X zostały nadane rangi
według systemu preferencji A i każdy z nich otrzymał inną rangę.
Jeśli istnieje taki element xi ∈ X dla którego zachodzi π A ( xi ) > 0
to oznacza, że w porządku wygenerowanym zgodnie z systemem
preferencji A występują elementy z rangami związanymi lub
elementy, którym nie nadano rang.
Warunek π A ( xi ) = 1 zachodzi wtedy i tylko wtedy, gdy element xi
nie jest w systemie preferencji A porównywalny z żadnym spośród
elementów x1 ,K, xi −1 , xi +1 ,K, xn
Uogólniony współczynnik korelacji
rangowej
Nietrudno zauważyć, że współczynnik korelacji rangowej Spearmana
rS = 1 −
6
n
∑ d i2
n(n 2 − 1) i =1
można zapisać w postaci
rS = 1 − γ ⋅ d ( A, B)
gdzie d ( A, B ) oznacza pewną miarę podobieństwa (odległości)
między systemami preferencji A i B, natomiast γ jest stałą zależną
od liczności próby.
Uogólniony współczynnik korelacji
rangowej
Niech
[
n −1 n
RS ( A, B ) = 1 −
∑ α Dα+ ( xi ) + (1 − α) Dα− ( xi )
n(n + 1) i =1
przy czym
{
( x ) = min{ µ
]
}
}
Dα+ ( xi ) = max µ A ( xi ) − µ B ( xi ) , ν A ( xi ) −ν B ( xi )
2
Dα−
2
gdzie
α=
i
n+4
n
2
A ( xi ) − µ B ( xi ) , ν A ( xi ) − ν B ( xi )
2
gdy n = 2k
n 2 + 4n − 3
α=
gdy n = 2k + 1
2
n −1
Uogólniony współczynnik korelacji
rangowej
Lemat 1
Dla dowolnych intuicjonistycznych zbiorów rozmytych A oraz B
w przestrzeni X zachodzi:
RS ( A, B) = RS ( B, A)
oraz
RS ( A, B ) ≤ 1
Uogólniony współczynnik korelacji
rangowej
Lemat 2
Jeśli wszystkie elementy zbioru X = {x1 ,K, xn } zostały
jednoznacznie uporządkowane zgodnie z systemem preferencji A
oraz B, wówczas uogólniony współczynnik korelacji rangowej RS
jest równoważny klasycznemu współczynnikowi Spearmana rS
Uogólniony współczynnik korelacji
rangowej
Lemat 3
Jeśli każdemu elementowi ze zbioru X = {x1 ,K, xn } została nadana
ranga, zgodnie z systemem preferencji A lub B, wówczas
RS ( A, B) = 1 wtedy i tylko wtedy gdy systemy preferencji A i B
są w pełni zgodne,
RS ( A, B) = −1 wtedy i tylko wtedy gdy systemy preferencji A i B
są w całkowicie przeciwne.
Uogólniony współczynnik korelacji
rangowej
Lemat 4
Jeśli przynajmniej jeden z systemów preferencji A lub B jest
całkowicie nieokreślony (tzn. żadnemu z elementów zbioru
X = {x1 ,K, xn } nie została nadana ranga), wówczas RS ( A, B) = 0
Uogólniony współczynnik korelacji
rangowej
Przykład 2 (ciąg dalszy)
Intuicjonistyczny zbiór rozmyty odpowiadający preferencjom
literackim Stasia ma postać
6
2 4
5 1
⎧
A = ⎨ Coelho, , 0 , Coetzee, , , Gaarder, , , Fielding, 0, 0
7
7 7
7 7
⎩
3 3
6
1 5
4 2 ⎫
Kertesz, , , Prachett, 0, , Rowling, , , Szymborska, , ⎬
7 7
7
7 7
7 7 ⎭
Uogólniony współczynnik korelacji
rangowej
Intuicjonistyczny zbiór rozmyty odpowiadający preferencjom
literackim Margaret ma postać
6
4 1
3 3
6
⎧
B = ⎨ Coelho, , 0 , Coetzee, , , Gaarder, , , Fielding, 0,
7
7 7
7 7
7
⎩
2 4
1 5
4 1
⎫
Kertesz, , , Prachett, , , Rowling, , , Szymborska, 0, 0 ⎬
7 7
7 7
7 7
⎭
Po podstawieniu do wzoru otrzymujemy
RS = 0,65476
Wnioski
„
„
„
Zaproponowany współczynnik korelacji rangowej
pozwala efektywnie wyznaczać stopień i kierunek zależności
między systemami preferencji (również w przypadku braku
rangowania wszystkich badanych obiektów).
Współczynnik ten jest naturalnym uogólnieniem klasycznego
współczynnika korelacji rangowej Spearmana.
Zaproponowany współczynnik korelacji rangowej ma interesujące
własności i może być stosowany do analizy korelacji między
intuicjonistycznymi zbiorami rozmytymi (także poza kontekstem
badania związku między preferencjami).
Kierunki dalszych badań
„
„
„
Uogólnienie współczynnika korelacji Kendalla.
Konstrukcja testów istotności dla uogólnionych współczynników
korelacji rangowej Spearmana i Kendalla.
Konstrukcja współczynników korelacji rangowej wykorzystujących
informację a priori.
Literatura
„
„
„
„
„
„
Atanassov K. (1986), Intuitionistic fuzzy sets, Fuzzy Sets and
Systems 20, 87—96
Atanassov K. (1999), Intuitionistic Fuzzy Sets: Theory and
Applications, Physica-Verlag
Gibbons J.D., Chakraborti S. (2003), Nonparametric Statistical
Inference, Marcel Dekker, Inc.
Grzegorzewski P. (2003), Between intuitionistic fuzzy sets
and/or interval-valued fuzzy sets Based on the Hausdorff metric,
Fuzzy Sets and Systems (w druku)
Grzegorzewski P. (2003), The Hamming distance between
intuitionistic fuzzy sets, In: Proceedings of the 10th IFSA World
Congress – IFSA 2003, Istanbul, Turkey, June 29 – July 2, 2003,
pp. 35-38
Zadeh L.A. (1965), Fuzzy sets, Inform. and Control 8, 338—353