Wyszukiwanie informacji w sieci, Lista 5 21.05.2007

Transkrypt

Wyszukiwanie informacji w sieci, Lista 5 21.05.2007
Wyszukiwanie informacji w sieci, Lista 5
21.05.2007
1. [1] (11) Przy rangowaniu dokumentów dwumianow¡ metod¡ probabilistyczn¡ (rozdz.
11) dokument x i zapytanie q s¡ reprezentowane przez wektory o dªugo±ci równej rozmiarowi sªownika, gdzie xi = 1/qi = 1, gdy i-ty term ze sªownika wyst¦puje w dokumencie/zapytaniu. Ranga dokumentu x okre±lana jest na podstawie warto±ci
RSV =
X
i:xi =qi =1
log
pi (1 − ui )
ui (1 − pi )
gdzie pi = P (xi = 1|R, q) i ui = P (xi = 1|N R, q). (Tutaj R/NR oznacza dokumenty
istotne/nieistotne; czyli pi okre±la cz¦sto±¢ i-tego termu w±ród dokumentów istotnych
dla zapytania, a ui w±ród nieistotnych dla zapytania.)
Gdyby±my mieli wiedz¦ o tym, które dokumenty s¡ istotne, czyli znaliby±my tabelk¦
xi = 1
xi = 0
Razem
dok. istotne
s
S−s
S
dok. nieistotne
n−s
(N − n) − (S − s)
N −S
razem
n
N −n
N
to warto±ci pi i ui mogliby±my aproksymowa¢ jako: pi = s/S , ui = (n − s)/(N − S).
Zadanie
(a) Porównaj wpªyw termów o nast¦puj¡cych wªasno±ciach na warto±¢ rangi : termy
wyst¦puj¡ce cz¦sto w caªej kolekcji dokumentów; termy wyst¦puj¡ce cz¦sto tylko
w±ród dokumentów istotnych; termy wyst¦puj¡ce cz¦sto tylko w±ród dokumentów
nieistotnych.
(b) U»ywaj¡c powy»szych oznacze« i przyjmuj¡c, »e dokumenty istotne/nieistotne
odpowiadaj¡ dokumentom z kategorii c i poza kategori¡ c, sformuªuj klasykacj¦
dokumentów metod¡ Bayesa, w modelu dwu-mianowym (p. rodziaª 13, tab. 13.2).
(c) Porównujemy omówion¡ w punkcie (a) metod¦ rangowania ze sformuªowan¡ w podpunkcie (b) metod¡ klasykacji. Potraktujmy obie metody jako metody klasykacji
dokumentów. Odpowiedz na pytania z podpunktu (a) dla klasykatora Bayesa z
punktu (b). Na tej podstawie scharakteryzuj dokumenty, dla których ocena obu
algorytmów b¦dzie odmienna.
2. [0.5] (12) Rozwa»my zapytanie q = t1 t2 t3 t4 oraz 10 dokumentów d1 , . . . , d10 z informacj¡,
które z nich s¡ istotne dla zapytania (oraz informacje o liczbie wyst¡pie« poszczególnych
termów w dokumentach):
d1
d2
d3
d4
d5
d6
d7
d8
d9
d10
t1
2
1
1
1
0
0
1
0
1
1
t2
1
0
0
2
2
1
1
1
1
0
t3
0
0
1
1
0
1
0
2
0
1
t4
0
0
1
1
1
0
0
1
0
0
istotny
0
0
1
1
1
0
0
1
0
0
Dla ka»dego z dokumentów, wyznacz warto±¢ jego rankingu wedªug metody probabilistycznej z rozdziaªu 12 (pami¦taj o wygªadzeniu prawdopodobie«stw zerowych; podaj
jak¡ metod¦ wygªadzania stosujesz).
3. [1] (13) Jedna z modykacji naiwnego klasykatora Bayesa polega na dodaniu nowego
parametru t. Wykorzystujemy go w ten sposób, »e formuªa wyboru kategorii dla dokumentu x = x1 x2 . . . xn ,
c = argmaxcj ∈C P (cj )
n
Y
P (xi |cj ),
i=1
gdzie C to zbiór kategorii, przybiera posta¢
c = argmaxcj ∈C P (cj )t
n
Y
P (xi |cj ).
i=1
A zatem zmieniamy wpªyw czynnika P (cj ) na wynik przy pomocy parametru t.
(a) Spróbuj uzasadni¢ czy i dlaczego taka modykacja zazwyczaj poprawia wyniki
dziaªania klasykatora.
(b) Zaªó»my, »e dziaªanie pewnego klasykatora Bayesa na zbiorze testowym opisuje
nast¦puj¡ca tabela
a
b
c
d
a
50
3
0
0
b
26
8
0
1
c
20
2
4
0
d
12
0
0
1
gdzie a, b, c i d to ró»ne kategorie.
Warto±¢ na przeci¦ciu wiersza i i kolumny j w powy»szej tabeli oznacza liczb¦
dokumentów z kategorii i, które zostaªy zakwalikowane jako dokumenty z kategorii
j.
Jakich zmian w klasykacji dokumentów nale»y si¦ spodziewa¢ dla ró»nych warto±ci
t w zmodykowanej metodzie Bayesa?
4. [0.5] (13.3) W procesie treningu naiwnego klasykatora Bayes'a (rys. 13.3 w podr¦czniku),
prawdopodobie«stwo kategorii P (cj ) przybli»a si¦ poprzez frakcj¦ dokumentów w klasie
cj w caªej kolekcji dokumentów. Alternatywn¡ miar¡ mogªaby by¢ proporcja sumarycznego
rozmiaru (liczba termów) dokumentów z klasy cj do sumarycznego rozmiaru caªej kolekcji
dokumentów treningowych.
Uzasadnij dlaczego nie wybiera si¦ tej drugiej miary.
5. [1] (13.12) We wzorach wyznaczaj¡cych X 2 (W, C) dla termu W i kategorii C , przyj¦li±my
oznaczenia:
• O1,1 to zaobserwowana (w danych treningowych) liczba dokumentów z kategorii C ,
w których wyst¦puje term W ;
• O1,0 to liczba dokumentów z kategorii C , w których nie wyst¦puje term W ;
• O0,1 , O0,0 analogicznie (dla dokumentów nie nale»¡cych do kategorii C );
• P (W ) = (O1,1 + O0,1 )/N to zaobserwowane prawdopodobie«stwo wyst¦powania
termu W w danych treningowych;
• P (C) = (O1,1 + O1,0 )/N to prawdopodobie«stwo wyst¦powania kategorii C ;
• Ei,j = N ·Pi (C)·Pj (W ) to oczekiwana liczba dokumentów z kategorii C (gdy i = 1)
lub poza C (gdy i = 0) zawieraj¡cych term W (dla j = 1) lub nie zawieraj¡cych W
(dla j = 0); przez oczekiwan¡ liczb¦ rozumiemy tutaj liczb¦, któr¡ uzyskaliby±my
gdyby przynale»no±¢ do C i wyst¦powanie W byªy niezale»ne.
Powy»ej przyjmujemy, »e N to liczba dokumentów w zestawie treningowym, P1 (X) =
P (X) oraz P0 (X) = 1 − P (X).
Polecenie. Uzasadnij, »e przy powy»szych oznaczeniach zachodzi
|O1,1 − E1,1 | = |O1,0 − E1,0 | = |O0,1 − E0,1 | = |O0,0 − E0,0 |.
6. [0.5] (13.7) Jakie warto±ci osi¡gaj¡ wspóªczynniki I(W, C) i X 2 (W, C) dla termu W
caªkowicie niezale»nego od kategorii C (W wyst¦puje z tym samym prawdopodobie«stwem w C jak i poza C ) oraz termu W caªkowicie zale»nego od kategorii C (W wyst¦puje
z prawdopobie«stwem 1 w C oraz z prawdopodobie«stwem 0 poza C ; lub odwrotnie).
7. [0.5] (13.13) Miary chi-kwadrat (X 2 (W, C)) i mutual information (I(W, C)) nie rozró»niaj¡ korelacji pozytywnej i negatywnej. W praktyce zdecydowanie bardziej przydatne
s¡ cechy o korelacji pozytywnej. Zaproponuj sposób wyeliminowania cech o korelacji
negatywnej.
8. [1] (13.14) Zadanie polega na klasykacji sªów, klasykator ma odró»nia¢ sªowa angielskie od nie-angielskich. (A zatem odpowiednikami dokumentów s¡ tutaj sªowa, a termów
litery.) W danych losowych pojawiaj¡ si¦ nast¦puj¡ce sªowa z poni»szym rozkªadem
prawdopodobie«stwa:
sªowo
ozb
uzu
zoo
bun
angielskie?
0
0
1
1
prawdopodobie«stwo
4/9
4/9
1/18
1/18
(a) Oblicz prawdopodobie«stwa P (c) i P (w|c) dla kategorii c angielskie/inne i liter
w ze zbioru b, n, o, u, z . (Tak jak to si¦ liczy w naiwnym klasykatorze Bayes'a.)
U»yj wygªadzania polegaj¡cego na tym, »e zerowe prawdopodobie«stwa symboli
s¡ przybli»ane jako 0.01. (W efekcie uzyskujemy P (A) + P (¬A) > 1, ale nie
martwimy si¦ tym.)
(b) Jak sklasykowane zostanie sªowo zoo?
(c) Chcemy sklasykowa¢ sªowo zoo przyjmuj¡c, »e rozkªady odpowiadaj¡ce ró»nym
pozycjom litery w sªowie s¡ ró»ne. Policz w tym celu potrzebne warto±ci P (W, i|c)
oznaczaj¡ce prawdopodobie«stwo litery W na pozycji i w±ród sªów kategorii c.
Wyznacz kategori¦ sªowa zoo.
Uwaga: prawdopodobie«stwo a/18 mo»esz traktowa¢ jak a wyst¡pie« danego sªowa w
zbiorze treningowym.
9. [2] (14) Zwerykuj prawdziwo±¢ nast¦puj¡cych zda«:
(a) Liczba liniowych separatorów mi¦dzy dwoma klasami jest niesko«czona lub równa
zero.
(b) Centroid p znormalizowanych wektorów n-wymiarowych jest równie» znormaliP
zowany, czyli k y k= ni=1 yi2 = 1 dla
y=(
X
x)/|X|
x∈X
gdzie
Pn
2
j=1 xij
= 1 dla ka»dego i ∈ [1, |X|].
(c) Je±li zbiór elementów pewnej kategorii jest liniowo separowalny, to klasykator
Bayesa znajdzie dla niego liniowy separator.
(d) Je±li zbiór elementów pewnej kategorii jest liniowo separowalny, to klasykator
Rocchio znajdzie dla niego liniowy separator.
10. [1] U»ywaj¡c poznanych metod klasykacji, zaproponuj sposób klasykacji i rangowania
dokumentów (ze wzgl¦du na zapytanie), które pozwol¡ wyszukiwa¢ dokumenty podobne
do zapytania, w tym równie» dokumenty w innych j¦zykach ni» j¦zyk zapytania. Proces
uczenia wyszukiwarki mo»e by¢ kosztowny, ale realizacja zapyta« powinna by¢ mo»liwa
w sensownym czasie.

Podobne dokumenty