Koncepcja informacji topologicznej w reprezentowaniu tekstów

Transkrypt

Koncepcja informacji topologicznej w reprezentowaniu tekstów
Koncepcja informacji topologicznej
w reprezentowaniu tekstów
Luiza Budzyńska, Irmina Masłowska, Robert Susmaga
Plan wystąpienia
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
Teksty a dokumenty
Cel i środki postępowania
Podejścia typu bag-of-words
Tekst w różnych wymiarach
Tekst jako sekwencja
Informacja topologiczna w reprezentacji tekstu
Macierz opisowa i topologiczne deskryptory strukturalne
Skalaryzacja topologicznych deskryptorów strukturalnych
Reprezentacja topologiczna wielu tekstów
Podsumowanie reprezentacji topologicznej
Teksty a dokumenty
•  Tekst a dokument:
tekst jest elementem składowym dokumentów
Dokument
Tekst Tekst Tekst Tekst
tekst tekst tekst tekst tekst tekst tekst
tekst tekst tekst tekst tekst tekst tekst
tekst tekst tekst tekst tekst tekst tekst
tekst tekst tekst tekst tekst tekst tekst
tekst tekst tekst tekst tekst tekst tekst
tekst tekst tekst tekst tekst tekst tekst
tekst tekst tekst
tekst tekst tekst
Teksty a dokumenty
•  Nietekstowe elementy składowe dokumentów:
– 
– 
– 
– 
– 
– 
– 
– 
– 
– 
ilustracje
ryciny
wykresy
tabele
podpisy
dopiski
iluminacje
ozdobniki
znaki wodne
…
•  Nietekstowe elementy dokumentu mogą same w sobie
zawierać teksty (lub ich fragmenty), teksty te jednak są
(w większości przypadków) wyłączane z dalszej analizy
Teksty a dokumenty
•  Teksty mogą zawierać trudno interpretowalne elementy
–  cyfry i liczby
–  oznaczenia (muzyczne/matematyczne/fizyczne/techniczne/
chemiczne/…), które mogą zawierać znaki spoza przyjętego
alfabetu
–  wzory (matematyczne/fizyczne/techniczne/chemiczne/…),
które mogą zawierać znaki spoza przyjętego alfabetu
–  nazwy własne, potencjalnie w innych językach
–  cytaty, potencjalnie w innych językach
–  …
•  Trudno interpretowalne elementy mogą zawierać znaki
lub symbole spoza przyjętego alfabetu, i dlatego zostają
(w większości przypadków) wyłączane z dalszej analizy
Teksty a dokumenty
•  Robocza definicja tekstu
–  założenia:
•  język alfabetyczny
•  rozszerzony alfabet tego języka
–  alfabet (litery)
–  rozszerzenia alfabetu (cyfry, znaki przestankowe i pomocnicze)
–  formułka:
•  sekwencja znaków rozszerzonego alfabetu utworzona zgodnie
z regułami poprawnościowymi (ortograficznymi/gramatycznymi/…)
funkcjonującymi w języku
Cel i środki postępowania
•  Cel: reprezentowanie tekstów
(czyli znalezienie dla niego dobrych deskryptorów)
•  Środki: deskryptory (numeryczne)
(czyli różnego rodzaju wartości liczbowe)
Cel i środki postępowania
•  Podział i charakterystyka deskryptorów
–  skalarne (skalary)
•  łatwiejsze w przetwarzaniu, a więc bardziej pożądane
•  niosące mniej informacji (od strukturalnych)
–  strukturalne (zbiory/listy/wektory/macierze/… skalarów)
•  trudniejsze w przetwarzaniu, a więc mniej pożądane
•  niosące więcej informacji (od skalarnych)
Cel i środki postępowania
•  Deskryptory strukturalne i ich skalaryzacja
–  deskryptory strukturalne często dają się dobrze opisywać
różnymi wartościami skalarnymi
–  opis ten może dotyczyć
•  pojedynczych deskryptorów strukturalnych
•  par deskryptorów strukturalnych
•  zbiorów deskryptorów strukturalnych
–  operacja staje się łatwiejsza zazwyczaj po nadaniu
deskryptorom strukturalnym pewnej interpretacji
Cel i środki postępowania
•  Przykładowe (mocno wyidealizowane!)
strukturalne deskryptory skalaryzowalne
–  przykład 1 – obiekt: plik JPG przedstawiający grupę osób
•  deskryptor strukturalny: obszar obejmujący sylwetkę pewnej osoby
•  potencjalny deskryptor skalarny: szacunkowy wiek osoby
–  przykład 2 – obiekt: plik MP3 zawierający utwór muzyczny
•  deskryptor strukturalny: fragment obejmujący refren utworu
•  potencjalny deskryptor skalarny: szacunkowy liczba wykonawców
–  …
Cel i środki postępowania
•  Cel i środki: (ponownie)
Reprezentowanie tekstów w postaci deskryptorów,
najlepiej skalaryzowalnych deskryptorów strukturalnych,
posiadających naturalne interpretacjach i pozwalających
na trafne charakteryzowanie poszczególnych tekstów
oraz skuteczne odróżnianie jednych tekstów od drugich
Podejścia typu bag-of-words
•  Do najbardziej popularnych podejść do analizy
dokumentów (w praktyce: do analizy tekstów) należą
podejścia typu „bag-of-words” (ang. dosł. „torba słów”,
inaczej /lepiej?/ „worek słów”), traktujące teksty jako
„bags”, czyli torby (worki) słów
•  Jednak angielskie słowo „bag” posiada, oprócz ogólnego
znaczenia „torba”, także specjalistyczne znaczenie
„multizbiór” (inaczej: „wielozbiór”), i właśnie to słowo
powinno być używane do charakteryzowania tego
podejścia
Podejścia typu bag-of-words
•  Zbiór a multizbiór
–  zbiór
•  struktura matematyczna zdefiniowana aksjomatycznie
•  cechą charakterystyczną zbioru jest fakt „jednokrotnego” należenia
do niego elementów (elementy są z definicji różne od siebie)
–  albo dany element należy (1), albo nie należy (0)
–  multizbiór (lub wielozbiór)
•  struktura matematyczna zdefiniowana aksjomatycznie
•  cechą charakterystyczną zbioru jest fakt „wielokrotnego” należenia
do niego elementów (elementy są z definicji różne od siebie)
–  albo dany element należy jednokrotnie (1),
albo wielokrotnie (N>1), albo nie należy (0)
•  Dowolny multizbiór pewnych elementów może być
reprezentowany jako
zbiór elementów + zbiór liczności (tych elementów)
Podejścia typu bag-of-words
•  Podsumowując, podejścia typu bag-of-words traktują
dany tekst jako multizbiór pewnych z góry ustalonych
słów (tzw. słów kluczowych)
–  czyli:
tekst ≈ zbiór słów kluczowych + zbiór liczności słów kluczowych
•  Szkic reprezentacji tekstu w postaci multizbioru:
{ słowo
{ liczność
słowo
liczność
słowo
liczność
…
…
}
}
•  Multizbiór jest oczywiście deskryptorem strukturalnym!
Podejścia typu bag-of-words
•  Multizbiór a wektor liczności
–  w praktyce w metodach typu bag-of-words multizbiór
reprezentujący tekst jest traktowany jako wektor liczności
słów kluczowych (który także jest deskryptorem strukturalnym)
•  Cel: nadanie interpretacji
•  (dobry przykład skalaryzowalnych deskryptorów strukturalnych)
–  po przyjęciu tego samego zbioru słów kluczowych dla wszystkich
analizowanych tekstów, teksty te są reprezentowane jednolicie
jako wektory (w pewnej przestrzeni wielowymiarowej)
–  kąt pomiędzy wektorami (podawany zwykle w postaci cosinusa)
wyraża podobieństwo reprezentowanych tekstów
•  kąt bliski 0°: teksty „zgodne”
•  kąt bliski 90°: teksty „niezależne”
Podejścia typu bag-of-words
•  Posługiwanie się dosłownymi postaciami słów w
analizach tekstów przynosi bardzo słabe rezultaty
z powodu zjawiska fleksji (odmiany słów)
–  np.: „jest”, „są”, „bądźmy”, … zamiast „być”
•  Aby uniknąć wynikających stąd niejednoznaczności
stosuje się (za wyjątkiem odosobnionych przypadków)
lematyzację, czyli operację przywracającą odmienionym
słowom ich nieodmienione (podstawowe, słownikowe)
formy
–  (właściwa) lematyzacja (ang. lemmatization)
•  potencjalnie bardziej skuteczna, ale trudniejsza w implementacji
–  quasi-lematyzacja (ang. stemming)
•  potencjalnie mniej skuteczna, ale łatwiejsza w implementacji
Podejścia typu bag-of-words
•  Zestawy ustalonych słów multizbioru dobiera
się uwzględniając wiele czynników, które mają
reprezentować potencjalną przydatność słów
w bieżącym zastosowaniu
•  Decydują tu m.in.
–  znaczenia słów (np. wybrane nazwy własne, rzeczowniki, …)
–  liczności występowania słów (niezbyt rzadkie, niezbyt częste, …)
–  …
Podejścia typu bag-of-words
•  Podsumowując, reprezentowanie tekstu w postaci
multizbioru możemy stwierdzić, że:
–  jest to informacja intra-tekstowa
•  pochodzi w całości z tekstu
–  jest to informacja niekompletna
•  ilość informacji pozyskiwanej w ten sposób z danego tekstu jest
niewielka (w porównaniu z ilością informacji zawartej w tekście)
Podejścia typu bag-of-words
•  Pomimo małej ilości informacji pozyskiwanej
z analizowanych tekstów, skuteczność podejść
typu bag-of-words w zadaniach dyskryminacyjnych
jest zaskakująco wysoka
•  Potencjalne wyjaśnienia teoretyczne:
–  przekształcanie danych (na różnych etapach):
•  wstępne przetwarzanie słów (np. lematyzacja)
•  odszumianie danych (np. SVD)
–  dalsze pozyskiwanie danych:
•  informacje inter-tekstowe (np. TF-IDF)
•  Wyjaśnienie praktyczne:
–  gdy zbiór słów kluczowych jest odpowiednio duży, to znajdą
się słowa występujące częściej w jednym tekście niż w drugim
–  najbardziej oczywista metoda na polepszanie wyników
dyskryminacji: rozszerzanie zbioru słów kluczowych
Podejścia typu bag-of-words
•  Kiedy spada skuteczność podejść typu bag-of-words?
–  gdy teksty dotyczą tej samej tematyki (nawet jeśli wyrażają
odmienne opinie czy poglądy na dany temat)
•  i w rezultacie zawierają podobną liczbę wystąpień tych samych słów
kluczowych
–  gdy teksty są wariacjami (różnymi wersjami) tekstu
podstawowego
•  i w rezultacie zawierają podobną liczbę wystąpień tych samych słów
kluczowych
Podejścia typu bag-of-words
•  Problematyki
–  identyfikowanie tematyki w tekstach sformułowanych przy użyciu
zasadniczo różnych słów
–  odróżnianie od siebie tekstów sformułowanych przy użyciu
zasadniczo tych samych słów
•  Analogia do
–  rozpoznawania mowy
–  rozpoznawania mówcy
Podejścia typu bag-of-words
•  Pożądane właściwości postulowanego podejścia
–  skuteczne charakteryzowanie tekstów na podstawie możliwie
małego zbioru słów kluczowych
–  skuteczne dyskryminowanie tekstów na podstawie możliwie
małego zbioru słów kluczowych
•  także wtedy, gdy słowa z tego zbioru charakteryzują się zbliżonymi
(względnymi/bezwględnymi) licznościami wystąpień w tych tekstach
•  Aby to osiągnąć konieczne wydaje się
pozyskanie większej ilości informacji z tekstu!
Podejścia typu bag-of-words
•  Dotychczasowe formy pozyskiwania większej ilości
informacji z tekstu w rozszerzeniach metod typu
bag-of-words skupiały się raczej na zastąpieniu
słów kluczowych
–  N-gramami
•  znakowymi
•  wyrazowymi
–  frazami
•  Tak rozszerzone podejścia były wykorzystywane w
–  identyfikacji podobieństwa tekstów o tej samej tematyce,
ale wykorzystujących różne słowa kluczowe do wyrażenia
tej samej treści (np. synonimy)
–  odróżnianiu tekstów o odmiennej tematyce, ale zawierających
identyczne słowa kluczowe (np. homonimy)
Podejścia typu bag-of-words
•  Pewne spostrzeżenie
–  podstawowe podejścia typu bag-of-words są „ślepe” na pewne
przekształcenia tekstów (tzn. pozyskują identyczne informacje
z tekstu przed przekształceniem i po przekształceniu)
–  przykład takiego przekształcenia: odwrócenie kolejności słów
•  wynik zrozumiały (formalnie), choć błędny (trywialny tekst)
–  „Tom knows John.”
–  „John knows Tom.”
•  wynik niezrozumiały (nietrywialny tekst)
–  „.waters the of face the upon moved God of Spirit the And .deep the of
face the upon was darkness and ;void and ,form without was earth the
And .earth the and heaven the created God beginning the In”
–  „In the beginning God created the heaven and the earth. And the earth
was without form, and void; and darkness was upon the face of the
deep. And the Spirit of God moved upon the face of the waters.”
Więcej niż bag-of-words
•  Pewien wniosek
–  informacje o licznościach słów w tekście należy wzbogacić
informacjami o położeniach słów w tekście (czyli informacjami
topologicznymi!)
•  Szkic postulowanej reprezentacji tekstu:
{ słowo
słowo
słowo
…
{ liczność
liczność
liczność
…
{ inf_o_położeniu inf_o_położeniu inf_o_położeniu …
}
}
}
Więcej niż bag-of-words
•  Aby pozyskać informację o położeniach słów,
trzeba mieć możliwość jednoznacznego
identyfikowania położeń tych słów w tekście
•  A więc trzeba odpowiedzieć na pytanie:
co rozumiemy przez pozycję słowa w tekście?
– 
– 
– 
– 
nr strony
nr słowa na stronie
współrzędne (x,y) początku/środka/końca słowa na stronie
...
•  Do tego potrzebna jest reprezentacja tekstu, w której
położenie każdego słowa jest jednoznacznie określone
Tekst w różnych wymiarach
•  Wymiarowość tekstu: czy tekst jest strukturą
jedno- czy dwu- (a może więcej-) wymiarową?
–  jeden wymiar:
•  tekst stanowi jednowymiarową sekwencję znaków
–  dwa wymiary:
•  tekst stanowią dwuwymiarowe znaki na dwuwymiarowych stronach
–  więcej wymiarów:
•  ???
Tekst w różnych wymiarach
•  Tekst w swej najbardziej naturalnej postaci
–  jako obraz?
•  reprezentacja w postaci (prostokątnych) stron
•  analogia do rysunku, zdjęcia, itp. (istotna dwuwymiarowość)
•  forma naturalna, często spotykana
– 
– 
– 
– 
dokumenty historyczne
książki, gazety, wydruki (teksty w formie drukowanej)
wyświetlacze elektroniczne (teksty w formie elektronicznej)
…
–  jako sekwencja?
•  reprezentacja w postaci „paska telegraficznego”
•  analogia do mowy, muzyki, itp. (istotna sekwencyjność/kolejność)
•  forma nienaturalna, rzadko spotykana
– 
– 
– 
– 
sygnały Morse’a
paski telegraficzne
paski informacyjne na kanałach TV
…
Tekst jako sekwencja
•  Popularne sposoby zapisywania tekstu na stronie
–  poziome (wierszowe)
•  wiersze: od góry do dołu, znaki w wierszu: od lewej do prawej
•  wiersze: od góry do dołu, znaki w wierszu: od prawej do lewej
–  pionowe (kolumnowe)
•  kolumny: od lewej do prawej, znaki w kolumnie: od góry do dołu
•  kolumny: od prawej do lewej, znaki w kolumnie: od góry do dołu
Tekst jako sekwencja
•  Tekst (w języku alfabetycznym) po ustaleniu kolejności
–  stron
–  sekcji
–  znaków
staje się sekwencją, która może być
jednoznacznie zapisana w postaci wektora
Tekst jako sekwencja
•  Tekst w postaci wektora znaków
–  znaki: elementy alfabetu rozszerzonego
–  długość tekstu: liczba znaków (Z)
•  Uwagi:
–  znaki nie są zwyczajowo używanymi jednostkami długości tekstu
•  częściej: strony, linie
•  rzadziej: zdania, słowa
Tekst jako sekwencja
•  Tekst w postaci wektora jednostek leksykalnych
–  jednostki leksykalne: słowa i elementy interpunkcyjne
–  długość tekstu: liczba jednostek leksykalnych (J)
•  Uwagi:
–  rola interpunkcji jest podrzędna (porządkowanie słów)
–  elementów interpunkcyjnych nie uwzględnia się przy ustalaniu
długości tekstu
Tekst jako sekwencja
•  Tekst w postaci wektora słów
–  słowa: ciągi znaków po usunięciu elementów interpunkcyjnych
oraz rozróżnienia duże/małe litery (przez zapisanie wszystkiego
małymi literami)
–  długość tekstu: liczba słów (T)
•  Uwagi:
–  jedyny problem stanowi w tym momencie zjawisko fleksji
(czyli fakt, że słowa występują w postaci odmienionej)
Tekst jako sekwencja
•  Tekst w postaci wektora zlematyzowanych słów
–  zlematyzowane słowa: słowa poddane procesowi lematyzacji
•  lematyzacji należy w praktyce dokonywać na wcześniejszych
etapach, ponieważ do jej przeprowadzenia potrzebny może być
tekst w pełni (gramatycznie/ortograficznie/…) poprawny (a więc
przed usunięciem z niego jakiejkolwiek informacji, w tym przed
usunięciem interpunkcji)
–  długość tekstu: liczba słów (T)
•  Uwagi:
–  tekst gotowy do jednoznacznego określania położeń słów
Tekst jako sekwencja
•  Podsumowując, po zapisaniu tekstu w postaci wektora
(zlematyzowanych) słów, każdemu wystąpieniu słowa
w tekście można przypisać jego jednoznaczne położenie
–  położenie określa numer (indeks, adres) słowa w wektorze
reprezentującym tekst
–  położenie to może od tego momentu być wykorzystywane
w deskryptorach tekstu
Tekst jako sekwencja
•  King James Bible, Genesis 1:1–5 (jako obraz)
Tekst jako sekwencja
•  Genesis 1:1–5 jako wektor jednostek leksykalnych
•  J = 103 (jednostki leksykalne)
Tekst jako sekwencja
•  Genesis 1:1–5 jako wektor słów
•  T = 89 (słów)
Tekst jako sekwencja
•  Genesis 1:1–5 jako wektor zlematyzowanych słów
•  T = 89 (zlematyzowanych słów)
Informacja topologiczna w reprezentacji
•  Jeżeli jakieś słowo występuje w tekście jednokrotnie,
to informacja o tym wystąpieniu może być przedstawiona
w postaci (pojedynczego) położenia
•  Jeżeli jakieś słowo występuje w tekście wielokrotnie,
to informacja o tych wystąpieniach może być
przedstawiona w postaci listy położeń
Informacja topologiczna w reprezentacji
•  Pomysł na reprezentację nr 1
–  wybrać słowa kluczowe
–  ustalić liczności wystąpień (słów kluczowych)
–  ustalić listy położeń (słów kluczowych)
Informacja topologiczna w reprezentacji
•  Reprezentacja nr 1:
słowo
liczność
{
położenie
położenie
}
słowo
liczność
{
położenie
położenie
położenie
położenie
}
słowo
liczność
{
położenie
położenie
położenie
}
…
…
…
…
…
•  Deskryptorami topologicznymi są
–  listy położeń słów kluczowych (wielkości strukturalne)
Informacja topologiczna w reprezentacji
•  Charakterystyka reprezentacji nr 1
–  deskryptory topologiczne dostępne wyłącznie w postaci
strukturalnej
–  uwaga:
•  przedstawiona reprezentacja pozwala na odróżnienie
(w ogólności) tekstu oryginalnego od tekstu odwróconego
•  Problemy reprezentacji nr 1
–  listy położeń słów kluczowych mogą być różnej długości
(co utrudnia ich porównywanie)
•  Potencjalne remedium
–  wprowadzenie charakterystyk skalarnych dla list położeń
słów kluczowych (np. wartości średnich arytmetycznych),
co umożliwi ich opisywanie i porównywanie
Informacja topologiczna w reprezentacji
•  Pomysł na reprezentację nr 2
–  charakteryzowanie list położeń słów kluczowych wielkościami
skalarnymi
•  liczności wystąpień (czyli – obecne już wcześniej! – liczności)
•  wartości średnie (arytmetyczne, geometryczne, …)
Informacja topologiczna w reprezentacji
•  Reprezentacja nr 2:
słowo
liczność
śred_poł
{
położenie
położenie
}
słowo
liczność
śred_poł
{
położenie
położenie
położenie
położenie
}
słowo
liczność
śred_poł
{
położenie
położenie
położenie
}
…
…
…
…
…
…
•  Deskryptorami topologicznymi są
–  listy położeń słów kluczowych (wielkości strukturalne)
–  średnie położeń słów kluczowych (wielkości skalarne)
Informacja topologiczna w reprezentacji
•  Charakterystyka reprezentacji nr 2
–  deskryptory topologiczne dostępne zarówno w postaci
strukturalnej jak i skalarnej
–  uwaga:
•  przedstawiona reprezentacja pozwala na odróżnienie
(w ogólności) tekstu oryginalnego od tekstu odwróconego
•  Problemy reprezentacji nr 2
–  listy położeń słów kluczowych nadal mogą być różnej długości
(co utrudnia ich porównywanie)
–  słowa kluczowe o istotnie różnych rozkładach wystąpień mogą
mieć nieistotnie różne (lub wręcz równe) położenia uśrednione
•  Potencjalne remedium
–  wprowadzenie charakterystyk strukturalnych dla list położeń
słów kluczowych (np. rozkłady zmienności), co umożliwi ich
opisywanie i porównywanie
Informacja topologiczna w reprezentacji
•  Pomysł na reprezentację nr 3
–  podzielenie tekstu na ustaloną z góry liczbę segmentów
będących kolejnymi fragmentami tekstu
•  segmenty stanowią odpowiedniki koszyków w rozkładzie
zmienności
–  potraktowanie każdego segmentu jak osobnego tekstu
–  przedstawienie informacji o każdym segmencie w postaci
multizbioru opisującego ten sam zestaw słów kluczowych
Informacja topologiczna w reprezentacji
•  Reprezentacja nr 3:
słowo
liczn_w_seg_1
liczn_w_seg_2
liczn_w_seg_3
…
słowo
liczn_w_seg_1
liczn_w_seg_2
liczn_w_seg_3
…
słowo
liczn_w_seg_1
liczn_w_seg_2
liczn_w_seg_3
…
…
…
…
…
…
•  Deskryptorami topologicznymi są
–  wektory liczności poszczególnych słów w danym segmencie
–  wektory liczności danego słowa w poszczególnych segmentach
Macierz opisowa
•  Reprezentacja nr 3 w postaci macierzowej:
słowo 1
słowo 2
…
słowo N
segment 1
liczność
liczność
…
liczność
segment 2
liczność
liczność
…
liczność
…
…
…
…
…
segment M
liczność
liczność
…
liczność
(tzw. macierz opisowa tekstu)
Macierz opisowa
•  Charakterystyka reprezentacji nr 3
–  dla M segmentów i N słów kluczowych tekst reprezentuje
macierz S = [sij] o rozmiarach MxN
–  element macierzy sij wyraża liczność wystąpienia słowa j-tego
w segmencie i-tym
–  uwaga:
•  przedstawiona reprezentacja pozwala na odróżnienie
(w ogólności) tekstu oryginalnego od tekstu odwróconego
•  Problemy reprezentacji nr 3
–  (patrz dalej)
Macierz opisowa
•  Genesis 1:1–5 w reprezentacji nr 1
•  K = {‘god’, ‘darkness’, ‘light’, ‘day’, ‘earth’, ‘face’}
Macierz opisowa
•  Genesis 1:1–5 w reprezentacji nr 2
•  K = {‘god’, ‘darkness’, ‘light’, ‘day’, ‘earth’, ‘face’}
Macierz opisowa
•  Genesis 1:1–5 w reprezentacji nr 3 (macierzowej)
•  K = {‘god’, ‘darkness’, ‘light’, ‘day’, ‘earth’, ‘face’}
•  M = 3 (segmenty)
Macierz opisowa
•  Podział tekstu na M segmentów
–  teoretyczne założenie: 2 ≤ M ≤ T
–  praktyczne założenie: 2 ≤ M << T
(tekst musi być odpowiednio długi)
•  Możliwe metody podziału
–  segmenty równej długości
–  segmenty nierównej (ale zbliżonej) długości
(np. wynikające z naturalnego podziału tekstu)
Macierz opisowa
•  Macierz opisowa jest uogólnieniem multizbioru
–  w praktyce macierz opisowa zawiera M multizbiorów
charakteryzujących poszczególne segmenty tekstu
–  dla M = 1 otrzymujemy jeden multizbiór charakteryzujący
cały tekst (identycznie jak w metodach typu bag-of-words)
Topologiczne deskryptory strukturalne
•  Deskryptory z macierzy opisowej
–  skalarne
•  wszystkie elementy macierzy (w dowolnie ustalonej kolejności),
stanowiące M·N deskryptorów skalarnych
–  strukturalne
•  wiersze macierzy, stanowiące M deskryptorów strukturalnych
jednowymiarowych (każdy jest wektorem o rozmiarze N)
•  kolumny macierzy, stanowiące N deskryptorów strukturalnych
jednowymiarowych (każdy jest wektorem o rozmiarze M)
•  cała macierz, stanowiąca jeden deskryptor strukturalny,
dwuwymiarowy (o rozmiarach MxN)
Topologiczne deskryptory strukturalne
•  Najlepsze deskryptory: kolumny macierzy opisowej
–  mają jasne interpretacje, ponieważ odpowiadają słowom
kluczowym
–  stanowią strukturalne deskryptory skalaryzowalne, ponieważ
są strukturalne, ale można z nich łatwo generować deskryptory
skalarne
Skalaryzacja deskryptorów strukturalnych
•  Suma elementów kolumny j-tej
–  stanowi liczność wystąpień
–  zakres zmienności: 〈0, T〉
•  min: odpowiadające słowo nie występuje wcale w tekście
•  max: odpowiadające słowo „wypełnia” cały tekst
–  liczba tego rodzaju deskryptorów: N
M
S j = ∑ sij
i =1
Skalaryzacja deskryptorów strukturalnych
•  Średnia elementów kolumny j-tej
–  typowa miara położenia
–  zakres zmienności: 〈0, T/M〉
•  min: odpowiadające słowo nie występuje wcale w tekście
•  max: odpowiadające słowo „wypełnia” cały tekst
–  liczba tego rodzaju deskryptorów: N
M
∑s
ij
Aj =
i =1
M
Skalaryzacja deskryptorów strukturalnych
•  Oczekiwany segment elementów kolumny j-tej
–  miara położenia
–  zakres zmienności: 〈1, M〉
•  min: odpowiadające słowo występuje tylko w pierwszym segmencie
•  max: odpowiadające słowo występuje tylko w ostatnim segmencie
–  liczba tego rodzaju deskryptorów: N
M
∑ (i ⋅ s
ij
Ej =
i =1
Sj
)
Skalaryzacja deskryptorów strukturalnych
•  Problemy sumy/średniej i oczekiwanego segmentu
–  suma/średnia jest niewrażliwa na kolejność elementów kolumny
–  żadna z miar nie wyraża poziomu (ani formy) zmienności
elementów kolumny
Skalaryzacja deskryptorów strukturalnych
•  Wariancja elementów kolumny j-tej
–  miara rozproszenia
–  zakres zmienności: 〈0, (M–1)(Aj)2〉
•  min: odpowiadające słowo występuje równomiernie w segmentach
•  max: odpowiadające słowo występuje tylko w jednym segmencie
–  liczba tego rodzaju deskryptorów: N
1
Vj =
M
M
2
(
s
−
A
)
∑ ij j
i =1
Skalaryzacja deskryptorów strukturalnych
•  Kowariancja dwóch kolumn: j-tej i k-tej
–  miara zależności liniowej
–  zakres zmienności: 〈–(M–1)AjAk, +(M–1)AjAk〉
•  min: odpowiadające słowa występują w różnych segmentach
•  max: odpowiadające słowa występują w tych samych segmentach
–  liczba tego rodzaju deskryptorów: N2
1
C jk =
M
M
∑ (s
ij
i =1
− A j )(sik − Ak )
Skalaryzacja deskryptorów strukturalnych
•  Korelacja dwóch kolumn: j-tej i k-tej
–  miara zależności liniowej
–  zakres zmienności: 〈–1, +1〉
•  min: odpowiadające słowa występują w różnych segmentach
•  max: odpowiadające słowa występują w tych samych segmentach
–  liczba tego rodzaju deskryptorów: N2
M
∑ (s
ij
R jk =
− Aj )(sik − Ak )
i =1
M
∑ ( sij − Aj )
i =1
2
M
2
(
s
−
A
)
∑ ij k
i =1
Skalaryzacja deskryptorów strukturalnych
•  Problemy wariancji wektora
–  charakteryzuje się pewną trudnością interpretacyjną
•  gdy dla parzystego M
–  połowa elementów wektora jest równa S/(M/2) = 2S/M,
–  połowa elementów wektora jest równa 0,
(Aj)2
to wariancja wynosi:
•  a wiec jest mniejsza od maksymalnej (M–1) razy
–  wartość maksymalna wynosi (M–1)(Aj)2 i występuje wtedy,
gdy dochodzi do całkowitej koncentracji wartości wektora
w jego jednym elemencie (wszystkie wartości wektora są
równe 0 oprócz jednej, która wynosi Sj)
–  jest niewrażliwa na kolejność elementów
70
60
50
40
30
20
10
0
1
2
3
4
5
6
1
2
3
4
5
6
70
60
50
40
30
20
10
0
Skalaryzacja deskryptorów strukturalnych
•  Autokowariancja kolumny j-tej
–  miara postaci zmienności
–  zakres zmienności: 〈–Pj, +Pj〉 (gdzie P zależy od Sj i M)
•  min: odpowiadające słowa występują w segmentach na przemian
•  max: odpowiadające słowa występują w segmentach sąsiednich
–  liczba tego rodzaju deskryptorów: N
1 M −1
AC j =
( sij − A j )(si +1 j − A j )
∑
M − 1 i =1
Skalaryzacja deskryptorów strukturalnych
•  Autokorelacja kolumny j-tej
–  miara postaci zmienności
–  zakres zmienności: 〈–1, +1〉
•  min: odpowiadające słowa występują w segmentach na przemian
•  max: odpowiadające słowa występują w segmentach sąsiednich
–  liczba tego rodzaju deskryptorów: N
M −1
∑(s
ij
AR j =
i =1
− Aj )(si +1 j − Aj )
M −1
2
(
s
−
A
)
∑ ij j
i =1
Skalaryzacja deskryptorów strukturalnych
•  Dalsze możliwe parametry pojedynczych kolumn
–  (skalarne) inne miary położenia (np. moda), rozproszenia
(np. zakres), zmienności (np. autokowariancje/autokorelacje
dla różnych wartości przesunięcia)
–  (strukturalne) współczynniki Fouriera, rozkłady wartości
–  …
•  Dalsze możliwe parametry par kolumn
–  (skalarne) miary zależności nieliniowych (np. typu χ2)
–  …
•  Dalsze możliwe parametry zbiorów kolumn
–  (strukturalne) normalizacje inter-segmentowe (np. typu TF-IDF)
–  …
Reprezentacja topologiczna wielu tekstów
•  Dzięki:
–  przyjęciu wspólnej liczby segmentów
–  przeskalowaniu wszystkich liczności
(podzielenie przez długość tekstu)
możliwe jest generowanie kompatybilnych macierzy
opisowych dla tekstów o różnych długościach
Reprezentacja topologiczna wielu tekstów
•  Cztery teksty (o różnych długościach), dwa segmenty
Reprezentacja topologiczna wielu tekstów
•  Przeskalowanie wpływa na niektóre parametry kolumn
•  (korelacje i autokorelacje nie ulegają zmianie)
–  pewne stają się parametrami względnymi
•  sumy (czyli liczności) i średnie
•  wariancje, kowariancje i autokowariancje
–  inne powinny zostać parametrami bezwzględnymi
•  oczekiwane segmenty (wymagana korekta!)
Reprezentacja topologiczna wielu tekstów
•  Ewangelie (w języku angielskim, z „King James Bible”)
–  Św. Mateusza (ang. St. Matthew)
•  85 stron, 28 rozdziałów, 25936 słów
–  Św. Marka (ang. St. Mark)
•  54 strony, 16 rozdziałów, 16593 słowa
–  Św. Łukasza (ang. St. Luke)
•  92 strony, 24 rozdziały, 28314 słów
•  Ewangelie powyższe są zwyczajowo nazywane
synoptycznymi
–  słowo „synoptyczne” (gr.) oznacza
„mające wspólny punkt widzenia”
–  w praktyce: ewangelie te są podobne do siebie w budowie
i wielu swoich fragmentach
Reprezentacja topologiczna wielu tekstów
•  Wybrane do analizy słowa kluczowe
K = {‘temple’, ‘devil’, ‘judea’, ‘word’}
•  (zlematyzowane, zapisane małymi literami)
•  Słowa te wybrano, ponieważ
–  dotyczą tematyki „ewangelicznej”
–  względne liczności ich występowania w rozważanych tekstach
są mocno zbliżone do siebie
•  Pomimo tego (niekorzystnego dla dyskryminacji) faktu
słowa te zostaną wykorzystane do zademonstrowania
deskryptorów topologicznych
–  pytanie: z jakim skutkiem?
Reprezentacja topologiczna wielu tekstów
•  Liczności słów kluczowych
Matt
Mark
Luke
35
30
25
20
15
10
5
0
'templ*'
'devil*'
'judea*'
'word*'
Reprezentacja topologiczna wielu tekstów
•  Względne liczności słów kluczowych
Matt
Mark
Luke
0,0014
0,0012
0,001
0,0008
0,0006
0,0004
0,0002
0
'temple'
'devil'
'judea'
'word'
Reprezentacja topologiczna wielu tekstów
•  Macierze
opisowe
Reprezentacja topologiczna wielu tekstów
•  Względne liczności słowa „temple” w segmentach
'temple' in:
Matt
Mark
Luke
0,0004
0,00035
0,0003
0,00025
0,0002
0,00015
0,0001
0,00005
0
1
2
3
4
5
6
7
Reprezentacja topologiczna wielu tekstów
•  Oczekiwane segmenty słów kluczowych
Matt
Mark
Luke
7
6
5
4
3
2
1
0
'temple'
'devil'
'judea'
'word'
Reprezentacja topologiczna wielu tekstów
•  Względne wariancje słów kluczowych
Matt
Mark
Luke
0,0009
0,0008
0,0007
0,0006
0,0005
0,0004
0,0003
0,0002
0,0001
0
'temple'
'devil'
'judea'
'word'
Reprezentacja topologiczna wielu tekstów
•  Autokorelacje słów kluczowych
Matt
Mark
Luke
0,8
0,6
0,4
0,2
0
-0,2
-0,4
-0,6
-0,8
'temple'
'devil'
'judea'
'word'
Reprezentacja topologiczna wielu tekstów
•  Korelacje par słów kluczowych
Matt
Mark
Luke
'judea'-'word'
'devil'-'word'
'devil'-'judea'
'temple'-'word'
'temple'-'judea'
'temple'-'devil'
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
Podsumowanie reprezentacji topologicznej
•  Potencjalne zastosowania podejścia
– 
– 
– 
– 
MDS na kolumnach macierzy opisowej
PCA na kolumnach macierzy opisowej
FA na kolumnach macierzy opisowej
CA na kolumnach/wierszach macierzy opisowej
•  Potencjalne rozszerzenia podejścia
–  uwzględnienie innych niż zupełny porządków tekstu
(występujących np. dokumentach hipertekstowych)
Podsumowanie reprezentacji topologicznej
•  Podstawowe zalety reprezentacji macierzowej
–  posiada strukturalne deskryptory skalaryzowalne o naturalnej
interpretacji
–  pozwala na łatwe porównywanie wielu tekstów o różnych
długościach
–  jest skuteczna w dyskryminowaniu tekstów przy małej liczbie
słów kluczowych
Podsumowanie reprezentacji topologicznej
•  (Teoretyczny) Problem porządku segmentów tekstu
–  wymagany porządek segmentów tekstu: zupełny (liniowy)
•  (Teoretyczno-praktyczny) Problem liczby segmentów
–  zbyt mała liczba segmentów lub nieodpowiednio dobrane ich
zakresy mogą doprowadzić do redukcji poziomu zmienności
kolumn macierzy opisowej, a tym samym do zmiany parametrów
opisujących tę kolumnę
–  zbyt duża liczba segmentów lub nieodpowiednio dobrane ich
zakresy mogą doprowadzić do wzrostu poziomu zależności par
kolumn macierzy opisowej, a tym samym do zmiany parametrów
opisujących tę parę
•  (Praktyczny) Problem wymaganej długości tekstu
–  brak dużego zbioru dużych tekstów, który mógłby być
wykorzystany w doświadczeniach dyskryminacyjnych