Analiza wypowiedzi Russ
Transkrypt
Analiza wypowiedzi Russ
Projekt: "Prace badawczo-rozwojowe przy stworzeniu platformy umożliwiającej monitorowanie Social Media" jest współfinansowany przez Unię Europejską ze środków Europejskiego Funduszu Rozwoju Regionalnego Analiza wypowiedzi, pochodzących z portali rosyjskojęzycznych Spis treści Streszczenie ............................................................................................................................................. 2 Podział wypowiedzi na tematy ................................................................................................................ 2 Dane .................................................................................................................................................... 2 Tabela 1: Statystyki.......................................................................................................................... 2 Model .................................................................................................................................................. 2 Analiza sentymentu ................................................................................................................................. 3 Tabela 2: Modele ............................................................................................................................. 4 Tabela 3: Wyniki analizy sentymentu z stop words ........................................................................ 4 Tabela 4: Wyniki analizy sentymentu bez stop words .................................................................... 4 Tabela 5: Wyniki analizy obiektywny/subiektywny bez stop words ............................................... 4 Projekt: "Prace badawczo-rozwojowe przy stworzeniu platformy umożliwiającej monitorowanie Social Media" jest współfinansowany przez Unię Europejską ze środków Europejskiego Funduszu Rozwoju Regionalnego Streszczenie Dokument zawiera opis eksperymentu, którego celem był podział wiadomości, pochodzących z portali społecznościowych, na watki tematyczne oraz opis analizy sentymentu. Eksperymenty zostały przeprowadzone na danych pochodzących z następujących stron internetowych: • vk.com portal społecznościowy • fb.com portal społecznościowy • Drom portal o samochodach Podział wypowiedzi na tematy Dane Eksperyment przeprowadzono na danych w języku rosyjskim, pochodzących z portali społecznościowych vk.com oraz fb.com. W przypadku vk.com wybrano 500 najbardziej popularnych grup według rankingu AllSocial.ru. W przypadku portalu Facebook wybrano 558 najpopularniejszych grup(fan page) według rankingu Ksan.ru. Zródło vk.com Facebook Liczba wiadomości 42,600,262 15,039,743 Liczba dokumentów 561,800 328,597 Tabela 1: Statystyki Model Zarówno na vk.com jak i Facebook grupy posiadają taką sama strukturę użytkownik publikuje post, który inni użytkownicy mogą komentować. Komentarze do postów najczęściej nie niosą w sobie żadnej istotnej informacji, dlatego post oraz wszystkie komentarze zostały połączone w jeden dokument. Została również zastosowana inna heurystyka - do zbioru uczącego trafiły tylko te dokumenty, które zawierają post plus co najmniej trzy komentarze. Taki krok pozwolił zmniejszyć ilość wiadomości w zbiorze uczącym. Do podziału wiadomości na watki tematyczne został użyty algorytm LDA. Dany algorytm dla określonej liczby tematów K pozwala wyznaczyć rozkład prawdopodobieństwa tematów dla każdego z dokumentów oraz rozkład prawdopodobieństwa słów dla każdego z tematów. Na tym polega Projekt: "Prace badawczo-rozwojowe przy stworzeniu platformy umożliwiającej monitorowanie Social Media" jest współfinansowany przez Unię Europejską ze środków Europejskiego Funduszu Rozwoju Regionalnego klasteryzacja ”miękka”. W przypadku obu portali następujące parametry: K=100 - liczba wątków tematycznych α= 0.05 - parametr dla rozkładu dokument-temat β= 0.001 - parametr dla rozkładu temat-term n=100 - liczna iteracji zostały wybrane W celu określenia cech dla każdego dokumentu zostały stworzone słowniki(mapa). W celu utworzenia słownika zostały podjęte następujące kroki: 1. uzyskana lista unikalnych termów, z których każdy jest zawarty w przynajmniej 100 dokumentach przeprowadzony spellchecking(automatyczna poprawa 2. został literówek) za pomoca Yandex Speller API 3. termy w których ww API znalazł błąd zostały zweryfikowane i poprawione ręcznie 4. z listy termów zostały uzyskane rzeczowniki za pomocą narzędzia My-Stem 5. rzeczowniki zostały sprowadzone do formy podstawowej Do eksperymentu zostały użyte wiadomości opublikowane z okresie 0107-2013 - 01-07-2014. Zbiór został podzielony na 4 części, zawierające wypowiedzi z okresu trzech miesięcy. I dla każdej z tych części został uruchomiony algorytm. W przypadku portalu vk.com w 2,3 i 4 częściach podział został zdominowany przed watek polityczny, opisujący wydarzenia na Ukrainie. Nieco w mniejszym stopniu sa zauważalne watki sportowe (Mundial 2014 w Brazylii) oraz muzyczne(konkurs Eurowizja - Conchita Wurst). Rozkład tematów można przeczytać w załączonym arkuszu. Analiza sentymentu Analiza sentymentu automatyczna ocena wydźwięku wypowiedzi(pozytywna lub negatywna) o jakimś przedmiocie. Do przeprowadzenie eksperymentu zostały wykorzystane opinie o samochodach z portalu Drom. Zadanie analizy sentymentu zostało podzielone na 2 części: • analiza czy wiadomość jest subiektywna czy obiektywna • analiza sentymentu wiadomości Projekt: "Prace badawczo-rozwojowe przy stworzeniu platformy umożliwiającej monitorowanie Social Media" jest współfinansowany przez Unię Europejską ze środków Europejskiego Funduszu Rozwoju Regionalnego Analizie wydźwięku są poddawane tylko wiadomości subiektywne, które rzeczywiście niosą ocenę danego przedmiotu(samochodu). Zostały zbudowane następujące modele: Unigram stop word/without stop words TF-IDF Delta TFIDF stop word/without stop words Bigram stop word/without stop words stop words/without stop words Tabela 2: Modele Dla analizy obiektywny/subiektywny został zbadany tylko model TF-IDF. Do badan został użyty algorytm SVM z jadrem liniowym. Wysoka skuteczność klasyfikacji dla obu zadań jest związana przede wszystkim z bardzo duża ilością niezerowych cech dla każdego dokumentu. W przypadku zadania analizy sentymentu bardzo najlepszy wynik uzyskujemy w modelu Unigram DeltaTF-IDF z stop words. Wyniki są przedstawione poniżej: Unigram Bigram TF-IDF 86.4% 84.6% Delta TF-IDF 94.35% 92.8% Tabela 3: Wyniki analizy sentymentu z stop words Unigram Bigram TF-IDF 86.5% 89.3% Delta TF-IDF 92% 95.75% Tabela 4: Wyniki analizy sentymentu bez stop words Unigram Bigram TF-IDF 88.05% 86.5% Delta TF-IDF 91% 85.4% Tabela 5: Wyniki analizy obiektywny/subiektywny bez stop words