Koncepcja informacji topologicznej w reprezentowaniu tekstów

Transkrypt

Koncepcja informacji topologicznej
w reprezentowaniu tekstów
Luiza Budzyńska, Irmina Masłowska, Robert Susmaga
Plan wystąpienia
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
Teksty a dokumenty
Cel i środki postępowania
Podejścia typu bag-of-words
Tekst w różnych wymiarach
Tekst jako sekwencja
Informacja topologiczna w reprezentacji tekstu
Macierz opisowa i topologiczne deskryptory strukturalne
Skalaryzacja topologicznych deskryptorów strukturalnych
Reprezentacja topologiczna wielu tekstów
Podsumowanie reprezentacji topologicznej
Teksty a dokumenty
•  Tekst a dokument:
tekst jest elementem składowym dokumentów
Dokument
Tekst Tekst Tekst Tekst
tekst tekst tekst tekst tekst tekst tekst
tekst tekst tekst
tekst tekst tekst
Teksty a dokumenty
•  Nietekstowe elementy składowe dokumentów:
– 
– 
– 
– 
– 
– 
– 
– 
– 
– 
ilustracje
ryciny
wykresy
tabele
podpisy
dopiski
iluminacje
ozdobniki
znaki wodne
…
•  Nietekstowe elementy dokumentu mogą same w sobie
zawierać teksty (lub ich fragmenty), teksty te jednak są
(w większości przypadków) wyłączane z dalszej analizy
Teksty a dokumenty
•  Teksty mogą zawierać trudno interpretowalne elementy
–  cyfry i liczby
–  oznaczenia (muzyczne/matematyczne/fizyczne/techniczne/
chemiczne/…), które mogą zawierać znaki spoza przyjętego
alfabetu
–  wzory (matematyczne/fizyczne/techniczne/chemiczne/…),
które mogą zawierać znaki spoza przyjętego alfabetu
–  nazwy własne, potencjalnie w innych językach
–  cytaty, potencjalnie w innych językach
–  …
•  Trudno interpretowalne elementy mogą zawierać znaki
lub symbole spoza przyjętego alfabetu, i dlatego zostają
(w większości przypadków) wyłączane z dalszej analizy
Teksty a dokumenty
•  Robocza definicja tekstu
–  założenia:
•  język alfabetyczny
•  rozszerzony alfabet tego języka
–  alfabet (litery)
–  rozszerzenia alfabetu (cyfry, znaki przestankowe i pomocnicze)
–  formułka:
•  sekwencja znaków rozszerzonego alfabetu utworzona zgodnie
z regułami poprawnościowymi (ortograficznymi/gramatycznymi/…)
funkcjonującymi w języku
•  Cel: reprezentowanie tekstów
(czyli znalezienie dla niego dobrych deskryptorów)
•  Środki: deskryptory (numeryczne)
(czyli różnego rodzaju wartości liczbowe)
•  Podział i charakterystyka deskryptorów
–  skalarne (skalary)
•  łatwiejsze w przetwarzaniu, a więc bardziej pożądane
•  niosące mniej informacji (od strukturalnych)
–  strukturalne (zbiory/listy/wektory/macierze/… skalarów)
•  trudniejsze w przetwarzaniu, a więc mniej pożądane
•  niosące więcej informacji (od skalarnych)
•  Deskryptory strukturalne i ich skalaryzacja
–  deskryptory strukturalne często dają się dobrze opisywać
różnymi wartościami skalarnymi
–  opis ten może dotyczyć
•  pojedynczych deskryptorów strukturalnych
•  par deskryptorów strukturalnych
•  zbiorów deskryptorów strukturalnych
–  operacja staje się łatwiejsza zazwyczaj po nadaniu
deskryptorom strukturalnym pewnej interpretacji
•  Przykładowe (mocno wyidealizowane!)
strukturalne deskryptory skalaryzowalne
–  przykład 1 – obiekt: plik JPG przedstawiający grupę osób
•  deskryptor strukturalny: obszar obejmujący sylwetkę pewnej osoby
•  potencjalny deskryptor skalarny: szacunkowy wiek osoby
–  przykład 2 – obiekt: plik MP3 zawierający utwór muzyczny
•  deskryptor strukturalny: fragment obejmujący refren utworu
•  potencjalny deskryptor skalarny: szacunkowy liczba wykonawców
–  …
•  Cel i środki: (ponownie)
Reprezentowanie tekstów w postaci deskryptorów,
najlepiej skalaryzowalnych deskryptorów strukturalnych,
posiadających naturalne interpretacjach i pozwalających
na trafne charakteryzowanie poszczególnych tekstów
oraz skuteczne odróżnianie jednych tekstów od drugich
•  Do najbardziej popularnych podejść do analizy
dokumentów (w praktyce: do analizy tekstów) należą
podejścia typu „bag-of-words” (ang. dosł. „torba słów”,
inaczej /lepiej?/ „worek słów”), traktujące teksty jako
„bags”, czyli torby (worki) słów
•  Jednak angielskie słowo „bag” posiada, oprócz ogólnego
znaczenia „torba”, także specjalistyczne znaczenie
„multizbiór” (inaczej: „wielozbiór”), i właśnie to słowo
powinno być używane do charakteryzowania tego
podejścia
•  Zbiór a multizbiór
–  zbiór
•  struktura matematyczna zdefiniowana aksjomatycznie
•  cechą charakterystyczną zbioru jest fakt „jednokrotnego” należenia
do niego elementów (elementy są z definicji różne od siebie)
–  albo dany element należy (1), albo nie należy (0)
–  multizbiór (lub wielozbiór)
•  struktura matematyczna zdefiniowana aksjomatycznie
•  cechą charakterystyczną zbioru jest fakt „wielokrotnego” należenia
do niego elementów (elementy są z definicji różne od siebie)
–  albo dany element należy jednokrotnie (1),
albo wielokrotnie (N>1), albo nie należy (0)
•  Dowolny multizbiór pewnych elementów może być
reprezentowany jako
zbiór elementów + zbiór liczności (tych elementów)
•  Podsumowując, podejścia typu bag-of-words traktują
dany tekst jako multizbiór pewnych z góry ustalonych
słów (tzw. słów kluczowych)
–  czyli:
tekst ≈ zbiór słów kluczowych + zbiór liczności słów kluczowych
•  Szkic reprezentacji tekstu w postaci multizbioru:
{ słowo
{ liczność
słowo
liczność
słowo
liczność
…
…
}
}
•  Multizbiór jest oczywiście deskryptorem strukturalnym!
•  Multizbiór a wektor liczności
–  w praktyce w metodach typu bag-of-words multizbiór
reprezentujący tekst jest traktowany jako wektor liczności
słów kluczowych (który także jest deskryptorem strukturalnym)
•  Cel: nadanie interpretacji
•  (dobry przykład skalaryzowalnych deskryptorów strukturalnych)
–  po przyjęciu tego samego zbioru słów kluczowych dla wszystkich
analizowanych tekstów, teksty te są reprezentowane jednolicie
jako wektory (w pewnej przestrzeni wielowymiarowej)
–  kąt pomiędzy wektorami (podawany zwykle w postaci cosinusa)
wyraża podobieństwo reprezentowanych tekstów
•  kąt bliski 0°: teksty „zgodne”
•  kąt bliski 90°: teksty „niezależne”
•  Posługiwanie się dosłownymi postaciami słów w
analizach tekstów przynosi bardzo słabe rezultaty
z powodu zjawiska fleksji (odmiany słów)
–  np.: „jest”, „są”, „bądźmy”, … zamiast „być”
•  Aby uniknąć wynikających stąd niejednoznaczności
stosuje się (za wyjątkiem odosobnionych przypadków)
lematyzację, czyli operację przywracającą odmienionym
słowom ich nieodmienione (podstawowe, słownikowe)
formy
–  (właściwa) lematyzacja (ang. lemmatization)
•  potencjalnie bardziej skuteczna, ale trudniejsza w implementacji
–  quasi-lematyzacja (ang. stemming)
•  potencjalnie mniej skuteczna, ale łatwiejsza w implementacji
•  Zestawy ustalonych słów multizbioru dobiera
się uwzględniając wiele czynników, które mają
reprezentować potencjalną przydatność słów
w bieżącym zastosowaniu
•  Decydują tu m.in.
–  znaczenia słów (np. wybrane nazwy własne, rzeczowniki, …)
–  liczności występowania słów (niezbyt rzadkie, niezbyt częste, …)
–  …
•  Podsumowując, reprezentowanie tekstu w postaci
multizbioru możemy stwierdzić, że:
–  jest to informacja intra-tekstowa
•  pochodzi w całości z tekstu
–  jest to informacja niekompletna
•  ilość informacji pozyskiwanej w ten sposób z danego tekstu jest
niewielka (w porównaniu z ilością informacji zawartej w tekście)
•  Pomimo małej ilości informacji pozyskiwanej
z analizowanych tekstów, skuteczność podejść
typu bag-of-words w zadaniach dyskryminacyjnych
jest zaskakująco wysoka
•  Potencjalne wyjaśnienia teoretyczne:
–  przekształcanie danych (na różnych etapach):
•  wstępne przetwarzanie słów (np. lematyzacja)
•  odszumianie danych (np. SVD)
–  dalsze pozyskiwanie danych:
•  informacje inter-tekstowe (np. TF-IDF)
•  Wyjaśnienie praktyczne:
–  gdy zbiór słów kluczowych jest odpowiednio duży, to znajdą
się słowa występujące częściej w jednym tekście niż w drugim
–  najbardziej oczywista metoda na polepszanie wyników
dyskryminacji: rozszerzanie zbioru słów kluczowych
•  Kiedy spada skuteczność podejść typu bag-of-words?
–  gdy teksty dotyczą tej samej tematyki (nawet jeśli wyrażają
odmienne opinie czy poglądy na dany temat)
•  i w rezultacie zawierają podobną liczbę wystąpień tych samych słów
kluczowych
–  gdy teksty są wariacjami (różnymi wersjami) tekstu
podstawowego
•  i w rezultacie zawierają podobną liczbę wystąpień tych samych słów
kluczowych
•  Problematyki
–  identyfikowanie tematyki w tekstach sformułowanych przy użyciu
zasadniczo różnych słów
–  odróżnianie od siebie tekstów sformułowanych przy użyciu
zasadniczo tych samych słów
•  Analogia do
–  rozpoznawania mowy
–  rozpoznawania mówcy
•  Pożądane właściwości postulowanego podejścia
–  skuteczne charakteryzowanie tekstów na podstawie możliwie
małego zbioru słów kluczowych
–  skuteczne dyskryminowanie tekstów na podstawie możliwie
małego zbioru słów kluczowych
•  także wtedy, gdy słowa z tego zbioru charakteryzują się zbliżonymi
(względnymi/bezwględnymi) licznościami wystąpień w tych tekstach
•  Aby to osiągnąć konieczne wydaje się
pozyskanie większej ilości informacji z tekstu!
•  Dotychczasowe formy pozyskiwania większej ilości
informacji z tekstu w rozszerzeniach metod typu
bag-of-words skupiały się raczej na zastąpieniu
słów kluczowych
–  N-gramami
•  znakowymi
•  wyrazowymi
–  frazami
•  Tak rozszerzone podejścia były wykorzystywane w
–  identyfikacji podobieństwa tekstów o tej samej tematyce,
ale wykorzystujących różne słowa kluczowe do wyrażenia
tej samej treści (np. synonimy)
–  odróżnianiu tekstów o odmiennej tematyce, ale zawierających
identyczne słowa kluczowe (np. homonimy)
•  Pewne spostrzeżenie
–  podstawowe podejścia typu bag-of-words są „ślepe” na pewne
przekształcenia tekstów (tzn. pozyskują identyczne informacje
z tekstu przed przekształceniem i po przekształceniu)
–  przykład takiego przekształcenia: odwrócenie kolejności słów
•  wynik zrozumiały (formalnie), choć błędny (trywialny tekst)
–  „Tom knows John.”
–  „John knows Tom.”
•  wynik niezrozumiały (nietrywialny tekst)
–  „.waters the of face the upon moved God of Spirit the And .deep the of
face the upon was darkness and ;void and ,form without was earth the
And .earth the and heaven the created God beginning the In”
–  „In the beginning God created the heaven and the earth. And the earth
was without form, and void; and darkness was upon the face of the
deep. And the Spirit of God moved upon the face of the waters.”
Więcej niż bag-of-words
•  Pewien wniosek
–  informacje o licznościach słów w tekście należy wzbogacić
informacjami o położeniach słów w tekście (czyli informacjami
topologicznymi!)
•  Szkic postulowanej reprezentacji tekstu:
{ słowo
słowo
słowo
…
{ liczność
liczność
liczność
…
{ inf_o_położeniu inf_o_położeniu inf_o_położeniu …
}
}
}
Więcej niż bag-of-words
•  Aby pozyskać informację o położeniach słów,
trzeba mieć możliwość jednoznacznego
identyfikowania położeń tych słów w tekście
•  A więc trzeba odpowiedzieć na pytanie:
co rozumiemy przez pozycję słowa w tekście?
– 
– 
– 
– 
nr strony
nr słowa na stronie
współrzędne (x,y) początku/środka/końca słowa na stronie
...
•  Do tego potrzebna jest reprezentacja tekstu, w której
położenie każdego słowa jest jednoznacznie określone
•  Wymiarowość tekstu: czy tekst jest strukturą
jedno- czy dwu- (a może więcej-) wymiarową?
–  jeden wymiar:
•  tekst stanowi jednowymiarową sekwencję znaków
–  dwa wymiary:
•  tekst stanowią dwuwymiarowe znaki na dwuwymiarowych stronach
–  więcej wymiarów:
•  ???
•  Tekst w swej najbardziej naturalnej postaci
–  jako obraz?
•  reprezentacja w postaci (prostokątnych) stron
•  analogia do rysunku, zdjęcia, itp. (istotna dwuwymiarowość)
•  forma naturalna, często spotykana
– 
– 
– 
– 
dokumenty historyczne
książki, gazety, wydruki (teksty w formie drukowanej)
wyświetlacze elektroniczne (teksty w formie elektronicznej)
…
–  jako sekwencja?
•  reprezentacja w postaci „paska telegraficznego”
•  analogia do mowy, muzyki, itp. (istotna sekwencyjność/kolejność)
•  forma nienaturalna, rzadko spotykana
– 
– 
– 
– 
sygnały Morse’a
paski telegraficzne
paski informacyjne na kanałach TV
…
•  Popularne sposoby zapisywania tekstu na stronie
–  poziome (wierszowe)
•  wiersze: od góry do dołu, znaki w wierszu: od lewej do prawej
•  wiersze: od góry do dołu, znaki w wierszu: od prawej do lewej
–  pionowe (kolumnowe)
•  kolumny: od lewej do prawej, znaki w kolumnie: od góry do dołu
•  kolumny: od prawej do lewej, znaki w kolumnie: od góry do dołu
•  Tekst (w języku alfabetycznym) po ustaleniu kolejności
–  stron
–  sekcji
–  znaków
staje się sekwencją, która może być
jednoznacznie zapisana w postaci wektora
•  Tekst w postaci wektora znaków
–  znaki: elementy alfabetu rozszerzonego
–  długość tekstu: liczba znaków (Z)
•  Uwagi:
–  znaki nie są zwyczajowo używanymi jednostkami długości tekstu
•  częściej: strony, linie
•  rzadziej: zdania, słowa
•  Tekst w postaci wektora jednostek leksykalnych
–  jednostki leksykalne: słowa i elementy interpunkcyjne
–  długość tekstu: liczba jednostek leksykalnych (J)
•  Uwagi:
–  rola interpunkcji jest podrzędna (porządkowanie słów)
–  elementów interpunkcyjnych nie uwzględnia się przy ustalaniu
długości tekstu
•  Tekst w postaci wektora słów
–  słowa: ciągi znaków po usunięciu elementów interpunkcyjnych
oraz rozróżnienia duże/małe litery (przez zapisanie wszystkiego
małymi literami)
–  długość tekstu: liczba słów (T)
•  Uwagi:
–  jedyny problem stanowi w tym momencie zjawisko fleksji
(czyli fakt, że słowa występują w postaci odmienionej)
•  Tekst w postaci wektora zlematyzowanych słów
–  zlematyzowane słowa: słowa poddane procesowi lematyzacji
•  lematyzacji należy w praktyce dokonywać na wcześniejszych
etapach, ponieważ do jej przeprowadzenia potrzebny może być
tekst w pełni (gramatycznie/ortograficznie/…) poprawny (a więc
przed usunięciem z niego jakiejkolwiek informacji, w tym przed
usunięciem interpunkcji)
–  długość tekstu: liczba słów (T)
•  Uwagi:
–  tekst gotowy do jednoznacznego określania położeń słów
•  Podsumowując, po zapisaniu tekstu w postaci wektora
(zlematyzowanych) słów, każdemu wystąpieniu słowa
w tekście można przypisać jego jednoznaczne położenie
–  położenie określa numer (indeks, adres) słowa w wektorze
reprezentującym tekst
–  położenie to może od tego momentu być wykorzystywane
w deskryptorach tekstu
•  King James Bible, Genesis 1:1–5 (jako obraz)
•  Genesis 1:1–5 jako wektor jednostek leksykalnych
•  J = 103 (jednostki leksykalne)
•  Genesis 1:1–5 jako wektor słów
•  T = 89 (słów)
•  Genesis 1:1–5 jako wektor zlematyzowanych słów
•  T = 89 (zlematyzowanych słów)
Informacja topologiczna w reprezentacji
•  Jeżeli jakieś słowo występuje w tekście jednokrotnie,
to informacja o tym wystąpieniu może być przedstawiona
w postaci (pojedynczego) położenia
•  Jeżeli jakieś słowo występuje w tekście wielokrotnie,
to informacja o tych wystąpieniach może być
przedstawiona w postaci listy położeń
•  Pomysł na reprezentację nr 1
–  wybrać słowa kluczowe
–  ustalić liczności wystąpień (słów kluczowych)
–  ustalić listy położeń (słów kluczowych)
•  Reprezentacja nr 1:
słowo
liczność
{
położenie
położenie
}
słowo
liczność
{
położenie
położenie
położenie
położenie
}
słowo
liczność
{
położenie
położenie
położenie
}
…
…
…
…
…
•  Deskryptorami topologicznymi są
–  listy położeń słów kluczowych (wielkości strukturalne)
•  Charakterystyka reprezentacji nr 1
–  deskryptory topologiczne dostępne wyłącznie w postaci
strukturalnej
–  uwaga:
•  przedstawiona reprezentacja pozwala na odróżnienie
(w ogólności) tekstu oryginalnego od tekstu odwróconego
•  Problemy reprezentacji nr 1
–  listy położeń słów kluczowych mogą być różnej długości
(co utrudnia ich porównywanie)
•  Potencjalne remedium
–  wprowadzenie charakterystyk skalarnych dla list położeń
słów kluczowych (np. wartości średnich arytmetycznych),
co umożliwi ich opisywanie i porównywanie
–  charakteryzowanie list położeń słów kluczowych wielkościami
skalarnymi
•  liczności wystąpień (czyli – obecne już wcześniej! – liczności)
•  wartości średnie (arytmetyczne, geometryczne, …)
słowo
liczność
śred_poł
{
położenie
położenie
}
słowo
liczność
śred_poł
{
położenie
położenie
położenie
położenie
}
słowo
liczność
śred_poł
{
położenie
położenie
położenie
}
…
…
…
…
…
…
–  listy położeń słów kluczowych (wielkości strukturalne)
–  średnie położeń słów kluczowych (wielkości skalarne)
–  deskryptory topologiczne dostępne zarówno w postaci
strukturalnej jak i skalarnej
–  uwaga:
–  listy położeń słów kluczowych nadal mogą być różnej długości
(co utrudnia ich porównywanie)
–  słowa kluczowe o istotnie różnych rozkładach wystąpień mogą
mieć nieistotnie różne (lub wręcz równe) położenia uśrednione
•  Potencjalne remedium
–  wprowadzenie charakterystyk strukturalnych dla list położeń
słów kluczowych (np. rozkłady zmienności), co umożliwi ich
opisywanie i porównywanie
–  podzielenie tekstu na ustaloną z góry liczbę segmentów
będących kolejnymi fragmentami tekstu
•  segmenty stanowią odpowiedniki koszyków w rozkładzie
zmienności
–  potraktowanie każdego segmentu jak osobnego tekstu
–  przedstawienie informacji o każdym segmencie w postaci
multizbioru opisującego ten sam zestaw słów kluczowych
słowo
liczn_w_seg_1
liczn_w_seg_2
liczn_w_seg_3
…
słowo
liczn_w_seg_1
liczn_w_seg_2
liczn_w_seg_3
…
słowo
liczn_w_seg_1
liczn_w_seg_2
liczn_w_seg_3
…
…
…
…
…
…
–  wektory liczności poszczególnych słów w danym segmencie
–  wektory liczności danego słowa w poszczególnych segmentach
Macierz opisowa
•  Reprezentacja nr 3 w postaci macierzowej:
słowo 1
słowo 2
…
słowo N
segment 1
liczność
liczność
…
liczność
segment 2
liczność
liczność
…
liczność
…
…
…
…
…
segment M
liczność
liczność
…
liczność
(tzw. macierz opisowa tekstu)
Macierz opisowa
–  dla M segmentów i N słów kluczowych tekst reprezentuje
macierz S = [sij] o rozmiarach MxN
–  element macierzy sij wyraża liczność wystąpienia słowa j-tego
w segmencie i-tym
–  uwaga:
–  (patrz dalej)
Macierz opisowa
•  Genesis 1:1–5 w reprezentacji nr 1
•  K = {‘god’, ‘darkness’, ‘light’, ‘day’, ‘earth’, ‘face’}
Macierz opisowa
•  Genesis 1:1–5 w reprezentacji nr 2
Macierz opisowa
•  Genesis 1:1–5 w reprezentacji nr 3 (macierzowej)
•  M = 3 (segmenty)
Macierz opisowa
•  Podział tekstu na M segmentów
–  teoretyczne założenie: 2 ≤ M ≤ T
–  praktyczne założenie: 2 ≤ M << T
(tekst musi być odpowiednio długi)
•  Możliwe metody podziału
–  segmenty równej długości
–  segmenty nierównej (ale zbliżonej) długości
(np. wynikające z naturalnego podziału tekstu)
Macierz opisowa
•  Macierz opisowa jest uogólnieniem multizbioru
–  w praktyce macierz opisowa zawiera M multizbiorów
charakteryzujących poszczególne segmenty tekstu
–  dla M = 1 otrzymujemy jeden multizbiór charakteryzujący
cały tekst (identycznie jak w metodach typu bag-of-words)
Topologiczne deskryptory strukturalne
•  Deskryptory z macierzy opisowej
–  skalarne
•  wszystkie elementy macierzy (w dowolnie ustalonej kolejności),
stanowiące M·N deskryptorów skalarnych
–  strukturalne
•  wiersze macierzy, stanowiące M deskryptorów strukturalnych
jednowymiarowych (każdy jest wektorem o rozmiarze N)
•  kolumny macierzy, stanowiące N deskryptorów strukturalnych
jednowymiarowych (każdy jest wektorem o rozmiarze M)
•  cała macierz, stanowiąca jeden deskryptor strukturalny,
dwuwymiarowy (o rozmiarach MxN)
Topologiczne deskryptory strukturalne
•  Najlepsze deskryptory: kolumny macierzy opisowej
–  mają jasne interpretacje, ponieważ odpowiadają słowom
kluczowym
–  stanowią strukturalne deskryptory skalaryzowalne, ponieważ
są strukturalne, ale można z nich łatwo generować deskryptory
skalarne
Skalaryzacja deskryptorów strukturalnych
•  Suma elementów kolumny j-tej
–  stanowi liczność wystąpień
–  zakres zmienności: 〈0, T〉
•  min: odpowiadające słowo nie występuje wcale w tekście
•  max: odpowiadające słowo „wypełnia” cały tekst
–  liczba tego rodzaju deskryptorów: N
M
S j = ∑ sij
i =1
•  Średnia elementów kolumny j-tej
–  typowa miara położenia
–  zakres zmienności: 〈0, T/M〉
•  min: odpowiadające słowo nie występuje wcale w tekście
•  max: odpowiadające słowo „wypełnia” cały tekst
M
∑s
ij
Aj =
i =1
M
•  Oczekiwany segment elementów kolumny j-tej
–  miara położenia
–  zakres zmienności: 〈1, M〉
•  min: odpowiadające słowo występuje tylko w pierwszym segmencie
•  max: odpowiadające słowo występuje tylko w ostatnim segmencie
M
∑ (i ⋅ s
ij
Ej =
i =1
Sj
)
•  Problemy sumy/średniej i oczekiwanego segmentu
–  suma/średnia jest niewrażliwa na kolejność elementów kolumny
–  żadna z miar nie wyraża poziomu (ani formy) zmienności
elementów kolumny
•  Wariancja elementów kolumny j-tej
–  miara rozproszenia
–  zakres zmienności: 〈0, (M–1)(Aj)2〉
•  min: odpowiadające słowo występuje równomiernie w segmentach
•  max: odpowiadające słowo występuje tylko w jednym segmencie
1
Vj =
M
M
2
(
s
−
A
)
∑ ij j
i =1
•  Kowariancja dwóch kolumn: j-tej i k-tej
–  miara zależności liniowej
–  zakres zmienności: 〈–(M–1)AjAk, +(M–1)AjAk〉
•  min: odpowiadające słowa występują w różnych segmentach
•  max: odpowiadające słowa występują w tych samych segmentach
–  liczba tego rodzaju deskryptorów: N2
1
C jk =
M
M
∑ (s
ij
i =1
− A j )(sik − Ak )
•  Korelacja dwóch kolumn: j-tej i k-tej
–  miara zależności liniowej
–  zakres zmienności: 〈–1, +1〉
•  min: odpowiadające słowa występują w różnych segmentach
•  max: odpowiadające słowa występują w tych samych segmentach
–  liczba tego rodzaju deskryptorów: N2
M
∑ (s
ij
R jk =
− Aj )(sik − Ak )
i =1
M
∑ ( sij − Aj )
i =1
2
M
2
(
s
−
A
)
∑ ij k
i =1
•  Problemy wariancji wektora
–  charakteryzuje się pewną trudnością interpretacyjną
•  gdy dla parzystego M
–  połowa elementów wektora jest równa S/(M/2) = 2S/M,
–  połowa elementów wektora jest równa 0,
(Aj)2
to wariancja wynosi:
•  a wiec jest mniejsza od maksymalnej (M–1) razy
–  wartość maksymalna wynosi (M–1)(Aj)2 i występuje wtedy,
gdy dochodzi do całkowitej koncentracji wartości wektora
w jego jednym elemencie (wszystkie wartości wektora są
równe 0 oprócz jednej, która wynosi Sj)
–  jest niewrażliwa na kolejność elementów
70
60
50
40
30
20
10
0
1
2
3
4
5
6
1
2
3
4
5
6
70
60
50
40
30
20
10
0
•  Autokowariancja kolumny j-tej
–  miara postaci zmienności
–  zakres zmienności: 〈–Pj, +Pj〉 (gdzie P zależy od Sj i M)
•  min: odpowiadające słowa występują w segmentach na przemian
•  max: odpowiadające słowa występują w segmentach sąsiednich
1 M −1
AC j =
( sij − A j )(si +1 j − A j )
∑
M − 1 i =1
•  Autokorelacja kolumny j-tej
–  miara postaci zmienności
–  zakres zmienności: 〈–1, +1〉
•  min: odpowiadające słowa występują w segmentach na przemian
•  max: odpowiadające słowa występują w segmentach sąsiednich
M −1
∑(s
ij
AR j =
i =1
− Aj )(si +1 j − Aj )
M −1
2
(
s
−
A
)
∑ ij j
i =1
•  Dalsze możliwe parametry pojedynczych kolumn
–  (skalarne) inne miary położenia (np. moda), rozproszenia
(np. zakres), zmienności (np. autokowariancje/autokorelacje
dla różnych wartości przesunięcia)
–  (strukturalne) współczynniki Fouriera, rozkłady wartości
–  …
•  Dalsze możliwe parametry par kolumn
–  (skalarne) miary zależności nieliniowych (np. typu χ2)
–  …
•  Dalsze możliwe parametry zbiorów kolumn
–  (strukturalne) normalizacje inter-segmentowe (np. typu TF-IDF)
–  …
•  Dzięki:
–  przyjęciu wspólnej liczby segmentów
–  przeskalowaniu wszystkich liczności
(podzielenie przez długość tekstu)
możliwe jest generowanie kompatybilnych macierzy
opisowych dla tekstów o różnych długościach
•  Cztery teksty (o różnych długościach), dwa segmenty
•  Przeskalowanie wpływa na niektóre parametry kolumn
•  (korelacje i autokorelacje nie ulegają zmianie)
–  pewne stają się parametrami względnymi
•  sumy (czyli liczności) i średnie
•  wariancje, kowariancje i autokowariancje
–  inne powinny zostać parametrami bezwzględnymi
•  oczekiwane segmenty (wymagana korekta!)
•  Ewangelie (w języku angielskim, z „King James Bible”)
–  Św. Mateusza (ang. St. Matthew)
•  85 stron, 28 rozdziałów, 25936 słów
–  Św. Marka (ang. St. Mark)
•  54 strony, 16 rozdziałów, 16593 słowa
–  Św. Łukasza (ang. St. Luke)
•  92 strony, 24 rozdziały, 28314 słów
•  Ewangelie powyższe są zwyczajowo nazywane
synoptycznymi
–  słowo „synoptyczne” (gr.) oznacza
„mające wspólny punkt widzenia”
–  w praktyce: ewangelie te są podobne do siebie w budowie
i wielu swoich fragmentach
•  Wybrane do analizy słowa kluczowe
K = {‘temple’, ‘devil’, ‘judea’, ‘word’}
•  (zlematyzowane, zapisane małymi literami)
•  Słowa te wybrano, ponieważ
–  dotyczą tematyki „ewangelicznej”
–  względne liczności ich występowania w rozważanych tekstach
są mocno zbliżone do siebie
•  Pomimo tego (niekorzystnego dla dyskryminacji) faktu
słowa te zostaną wykorzystane do zademonstrowania
deskryptorów topologicznych
–  pytanie: z jakim skutkiem?
•  Liczności słów kluczowych
Matt
Mark
Luke
35
30
25
20
15
10
5
0
'templ*'
'devil*'
'judea*'
'word*'
•  Względne liczności słów kluczowych
Matt
Mark
Luke
0,0014
0,0012
0,001
0,0008
0,0006
0,0004
0,0002
0
'temple'
'devil'
'judea'
'word'
•  Macierze
opisowe
•  Względne liczności słowa „temple” w segmentach
'temple' in:
Matt
Mark
Luke
0,0004
0,00035
0,0003
0,00025
0,0002
0,00015
0,0001
0,00005
0
1
2
3
4
5
6
7
•  Oczekiwane segmenty słów kluczowych
Matt
Mark
Luke
7
6
5
4
3
2
1
0
'temple'
'devil'
'judea'
'word'
•  Względne wariancje słów kluczowych
Matt
Mark
Luke
0,0009
0,0008
0,0007
0,0006
0,0005
0,0004
0,0003
0,0002
0,0001
0
'temple'
'devil'
'judea'
'word'
•  Autokorelacje słów kluczowych
Matt
Mark
Luke
0,8
0,6
0,4
0,2
0
-0,2
-0,4
-0,6
-0,8
'temple'
'devil'
'judea'
'word'
•  Korelacje par słów kluczowych
Matt
Mark
Luke
'judea'-'word'
'devil'-'word'
'devil'-'judea'
'temple'-'word'
'temple'-'judea'
'temple'-'devil'
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
•  Potencjalne zastosowania podejścia
– 
– 
– 
– 
MDS na kolumnach macierzy opisowej
PCA na kolumnach macierzy opisowej
FA na kolumnach macierzy opisowej
CA na kolumnach/wierszach macierzy opisowej
•  Potencjalne rozszerzenia podejścia
–  uwzględnienie innych niż zupełny porządków tekstu
(występujących np. dokumentach hipertekstowych)
•  Podstawowe zalety reprezentacji macierzowej
–  posiada strukturalne deskryptory skalaryzowalne o naturalnej
interpretacji
–  pozwala na łatwe porównywanie wielu tekstów o różnych
długościach
–  jest skuteczna w dyskryminowaniu tekstów przy małej liczbie
słów kluczowych
•  (Teoretyczny) Problem porządku segmentów tekstu
–  wymagany porządek segmentów tekstu: zupełny (liniowy)
•  (Teoretyczno-praktyczny) Problem liczby segmentów
–  zbyt mała liczba segmentów lub nieodpowiednio dobrane ich
zakresy mogą doprowadzić do redukcji poziomu zmienności
kolumn macierzy opisowej, a tym samym do zmiany parametrów
opisujących tę kolumnę
–  zbyt duża liczba segmentów lub nieodpowiednio dobrane ich
zakresy mogą doprowadzić do wzrostu poziomu zależności par
kolumn macierzy opisowej, a tym samym do zmiany parametrów
opisujących tę parę
•  (Praktyczny) Problem wymaganej długości tekstu
–  brak dużego zbioru dużych tekstów, który mógłby być
wykorzystany w doświadczeniach dyskryminacyjnych

Koncepcja informacji topologicznej w reprezentowaniu tekstów

Transkrypt

Podobne dokumenty

„życie bez nałogów” cele konkursu

Przetwarzanie tekstów Szkolenie Przetwarzanie tekstów dotyczy

Copywriter - język niderlandzki

1 Przetwarzanie języka naturalnego

szczegóły

Asystent/ka działu realizacji usług - praca zdalna

Dział Marketingu

deskryptory poziomu 8

Płatny staż: pracownik biurowy ze znajomością języka angielskiego