Analiza wypowiedzi Russ

Transkrypt

Projekt: "Prace badawczo-rozwojowe przy stworzeniu platformy umożliwiającej monitorowanie Social Media"
jest współfinansowany przez Unię Europejską ze środków Europejskiego Funduszu Rozwoju Regionalnego
Analiza wypowiedzi, pochodzących z portali
rosyjskojęzycznych
Spis treści
Streszczenie ............................................................................................................................................. 2
Podział wypowiedzi na tematy ................................................................................................................ 2
Dane .................................................................................................................................................... 2
Tabela 1: Statystyki.......................................................................................................................... 2
Model .................................................................................................................................................. 2
Analiza sentymentu ................................................................................................................................. 3
Tabela 2: Modele ............................................................................................................................. 4
Tabela 3: Wyniki analizy sentymentu z stop words ........................................................................ 4
Tabela 4: Wyniki analizy sentymentu bez stop words .................................................................... 4
Tabela 5: Wyniki analizy obiektywny/subiektywny bez stop words ............................................... 4
Streszczenie
Dokument zawiera opis eksperymentu, którego celem był podział
wiadomości, pochodzących z portali społecznościowych, na watki
tematyczne oraz opis analizy sentymentu. Eksperymenty zostały
przeprowadzone
na danych pochodzących z następujących stron internetowych:
• vk.com portal społecznościowy
• fb.com portal społecznościowy
• Drom portal o samochodach
Podział wypowiedzi na tematy
Dane
Eksperyment przeprowadzono na danych w języku rosyjskim,
pochodzących z portali społecznościowych vk.com oraz fb.com.
W przypadku vk.com wybrano 500 najbardziej popularnych grup według
rankingu AllSocial.ru. W przypadku portalu Facebook wybrano 558
najpopularniejszych grup(fan page) według rankingu Ksan.ru.
Zródło
vk.com
Facebook
Liczba wiadomości
42,600,262
15,039,743
Liczba dokumentów
561,800
328,597
Tabela 1: Statystyki
Model
Zarówno na vk.com jak i Facebook grupy posiadają taką sama strukturę użytkownik publikuje post, który inni użytkownicy mogą komentować.
Komentarze do postów najczęściej nie niosą w sobie żadnej istotnej
informacji, dlatego post oraz wszystkie komentarze zostały połączone w
jeden dokument. Została również zastosowana inna heurystyka - do
zbioru uczącego trafiły tylko te dokumenty, które zawierają post plus co
najmniej trzy komentarze. Taki krok pozwolił zmniejszyć ilość wiadomości
w zbiorze uczącym.
Do podziału wiadomości na watki tematyczne został użyty algorytm LDA.
Dany algorytm dla określonej liczby tematów K pozwala wyznaczyć
rozkład prawdopodobieństwa tematów dla każdego z dokumentów oraz
rozkład prawdopodobieństwa słów dla każdego z tematów. Na tym polega
klasteryzacja ”miękka”. W przypadku obu portali
następujące parametry:
K=100 - liczba wątków tematycznych
α= 0.05 - parametr dla rozkładu dokument-temat
β= 0.001 - parametr dla rozkładu temat-term
n=100 - liczna iteracji
zostały
wybrane
W celu określenia cech dla każdego dokumentu zostały stworzone
słowniki(mapa). W celu utworzenia słownika zostały podjęte następujące
kroki:
1. uzyskana lista unikalnych termów, z których każdy jest zawarty w
przynajmniej 100 dokumentach
przeprowadzony
spellchecking(automatyczna
poprawa
2. został
literówek) za pomoca Yandex Speller API
3. termy w których ww API znalazł błąd zostały zweryfikowane i
poprawione ręcznie
4. z listy termów zostały uzyskane rzeczowniki za pomocą narzędzia
My-Stem
5. rzeczowniki zostały sprowadzone do formy podstawowej
Do eksperymentu zostały użyte wiadomości opublikowane z okresie 0107-2013 - 01-07-2014. Zbiór został podzielony na 4 części, zawierające
wypowiedzi z okresu trzech miesięcy. I dla każdej z tych części został
uruchomiony algorytm.
W przypadku portalu vk.com w 2,3 i 4 częściach podział został
zdominowany przed watek polityczny, opisujący wydarzenia na Ukrainie.
Nieco w mniejszym stopniu sa zauważalne watki sportowe (Mundial 2014
w Brazylii) oraz muzyczne(konkurs Eurowizja - Conchita Wurst). Rozkład
tematów można przeczytać w załączonym arkuszu.
Analiza sentymentu
Analiza
sentymentu
automatyczna
ocena
wydźwięku
wypowiedzi(pozytywna lub negatywna) o jakimś przedmiocie. Do
przeprowadzenie
eksperymentu
zostały
wykorzystane
opinie
o
samochodach z portalu Drom. Zadanie analizy sentymentu zostało
podzielone na 2 części:
• analiza czy wiadomość jest subiektywna czy obiektywna
• analiza sentymentu wiadomości
Analizie wydźwięku są poddawane tylko wiadomości subiektywne, które
rzeczywiście niosą ocenę danego przedmiotu(samochodu). Zostały
zbudowane następujące modele:
Unigram
stop word/without stop words
TF-IDF
Delta TFIDF
Bigram
stop words/without stop words
Tabela 2: Modele
Dla analizy obiektywny/subiektywny został zbadany tylko model TF-IDF.
Do badan został użyty algorytm SVM z jadrem liniowym.
Wysoka skuteczność klasyfikacji dla obu zadań jest związana przede
wszystkim z bardzo duża ilością niezerowych cech dla każdego
dokumentu.
W przypadku zadania analizy sentymentu bardzo najlepszy wynik
uzyskujemy w modelu Unigram DeltaTF-IDF z stop words.
Wyniki są przedstawione poniżej:
Unigram Bigram
TF-IDF
86.4%
84.6%
Delta TF-IDF 94.35% 92.8%
Tabela 3: Wyniki analizy sentymentu z stop words
Unigram Bigram
TF-IDF
86.5% 89.3%
Delta TF-IDF 92%
95.75%
Tabela 4: Wyniki analizy sentymentu bez stop words
Unigram Bigram
TF-IDF
88.05% 86.5%
Delta TF-IDF 91%
85.4%
Tabela 5: Wyniki analizy obiektywny/subiektywny bez stop words

Analiza wypowiedzi Russ

Transkrypt

Podobne dokumenty

Dobrze jest być dużym, czyli jak „oni” to robią

Wykład 12