Analiza wypowiedzi Russ

Transkrypt

Analiza wypowiedzi Russ
Projekt: "Prace badawczo-rozwojowe przy stworzeniu platformy umożliwiającej monitorowanie Social Media"
jest współfinansowany przez Unię Europejską ze środków Europejskiego Funduszu Rozwoju Regionalnego
Analiza wypowiedzi, pochodzących z portali
rosyjskojęzycznych
Spis treści
Streszczenie ............................................................................................................................................. 2
Podział wypowiedzi na tematy ................................................................................................................ 2
Dane .................................................................................................................................................... 2
Tabela 1: Statystyki.......................................................................................................................... 2
Model .................................................................................................................................................. 2
Analiza sentymentu ................................................................................................................................. 3
Tabela 2: Modele ............................................................................................................................. 4
Tabela 3: Wyniki analizy sentymentu z stop words ........................................................................ 4
Tabela 4: Wyniki analizy sentymentu bez stop words .................................................................... 4
Tabela 5: Wyniki analizy obiektywny/subiektywny bez stop words ............................................... 4
Projekt: "Prace badawczo-rozwojowe przy stworzeniu platformy umożliwiającej monitorowanie Social Media"
jest współfinansowany przez Unię Europejską ze środków Europejskiego Funduszu Rozwoju Regionalnego
Streszczenie
Dokument zawiera opis eksperymentu, którego celem był podział
wiadomości, pochodzących z portali społecznościowych, na watki
tematyczne oraz opis analizy sentymentu. Eksperymenty zostały
przeprowadzone
na danych pochodzących z następujących stron internetowych:
• vk.com portal społecznościowy
• fb.com portal społecznościowy
• Drom portal o samochodach
Podział wypowiedzi na tematy
Dane
Eksperyment przeprowadzono na danych w języku rosyjskim,
pochodzących z portali społecznościowych vk.com oraz fb.com.
W przypadku vk.com wybrano 500 najbardziej popularnych grup według
rankingu AllSocial.ru. W przypadku portalu Facebook wybrano 558
najpopularniejszych grup(fan page) według rankingu Ksan.ru.
Zródło
vk.com
Facebook
Liczba wiadomości
42,600,262
15,039,743
Liczba dokumentów
561,800
328,597
Tabela 1: Statystyki
Model
Zarówno na vk.com jak i Facebook grupy posiadają taką sama strukturę użytkownik publikuje post, który inni użytkownicy mogą komentować.
Komentarze do postów najczęściej nie niosą w sobie żadnej istotnej
informacji, dlatego post oraz wszystkie komentarze zostały połączone w
jeden dokument. Została również zastosowana inna heurystyka - do
zbioru uczącego trafiły tylko te dokumenty, które zawierają post plus co
najmniej trzy komentarze. Taki krok pozwolił zmniejszyć ilość wiadomości
w zbiorze uczącym.
Do podziału wiadomości na watki tematyczne został użyty algorytm LDA.
Dany algorytm dla określonej liczby tematów K pozwala wyznaczyć
rozkład prawdopodobieństwa tematów dla każdego z dokumentów oraz
rozkład prawdopodobieństwa słów dla każdego z tematów. Na tym polega
Projekt: "Prace badawczo-rozwojowe przy stworzeniu platformy umożliwiającej monitorowanie Social Media"
jest współfinansowany przez Unię Europejską ze środków Europejskiego Funduszu Rozwoju Regionalnego
klasteryzacja ”miękka”. W przypadku obu portali
następujące parametry:
K=100 - liczba wątków tematycznych
α= 0.05 - parametr dla rozkładu dokument-temat
β= 0.001 - parametr dla rozkładu temat-term
n=100 - liczna iteracji
zostały
wybrane
W celu określenia cech dla każdego dokumentu zostały stworzone
słowniki(mapa). W celu utworzenia słownika zostały podjęte następujące
kroki:
1. uzyskana lista unikalnych termów, z których każdy jest zawarty w
przynajmniej 100 dokumentach
przeprowadzony
spellchecking(automatyczna
poprawa
2. został
literówek) za pomoca Yandex Speller API
3. termy w których ww API znalazł błąd zostały zweryfikowane i
poprawione ręcznie
4. z listy termów zostały uzyskane rzeczowniki za pomocą narzędzia
My-Stem
5. rzeczowniki zostały sprowadzone do formy podstawowej
Do eksperymentu zostały użyte wiadomości opublikowane z okresie 0107-2013 - 01-07-2014. Zbiór został podzielony na 4 części, zawierające
wypowiedzi z okresu trzech miesięcy. I dla każdej z tych części został
uruchomiony algorytm.
W przypadku portalu vk.com w 2,3 i 4 częściach podział został
zdominowany przed watek polityczny, opisujący wydarzenia na Ukrainie.
Nieco w mniejszym stopniu sa zauważalne watki sportowe (Mundial 2014
w Brazylii) oraz muzyczne(konkurs Eurowizja - Conchita Wurst). Rozkład
tematów można przeczytać w załączonym arkuszu.
Analiza sentymentu
Analiza
sentymentu
automatyczna
ocena
wydźwięku
wypowiedzi(pozytywna lub negatywna) o jakimś przedmiocie. Do
przeprowadzenie
eksperymentu
zostały
wykorzystane
opinie
o
samochodach z portalu Drom. Zadanie analizy sentymentu zostało
podzielone na 2 części:
• analiza czy wiadomość jest subiektywna czy obiektywna
• analiza sentymentu wiadomości
Projekt: "Prace badawczo-rozwojowe przy stworzeniu platformy umożliwiającej monitorowanie Social Media"
jest współfinansowany przez Unię Europejską ze środków Europejskiego Funduszu Rozwoju Regionalnego
Analizie wydźwięku są poddawane tylko wiadomości subiektywne, które
rzeczywiście niosą ocenę danego przedmiotu(samochodu). Zostały
zbudowane następujące modele:
Unigram
stop word/without stop words
TF-IDF
Delta TFIDF
stop word/without stop words
Bigram
stop word/without stop words
stop words/without stop words
Tabela 2: Modele
Dla analizy obiektywny/subiektywny został zbadany tylko model TF-IDF.
Do badan został użyty algorytm SVM z jadrem liniowym.
Wysoka skuteczność klasyfikacji dla obu zadań jest związana przede
wszystkim z bardzo duża ilością niezerowych cech dla każdego
dokumentu.
W przypadku zadania analizy sentymentu bardzo najlepszy wynik
uzyskujemy w modelu Unigram DeltaTF-IDF z stop words.
Wyniki są przedstawione poniżej:
Unigram Bigram
TF-IDF
86.4%
84.6%
Delta TF-IDF 94.35% 92.8%
Tabela 3: Wyniki analizy sentymentu z stop words
Unigram Bigram
TF-IDF
86.5% 89.3%
Delta TF-IDF 92%
95.75%
Tabela 4: Wyniki analizy sentymentu bez stop words
Unigram Bigram
TF-IDF
88.05% 86.5%
Delta TF-IDF 91%
85.4%
Tabela 5: Wyniki analizy obiektywny/subiektywny bez stop words

Podobne dokumenty