Oglądaj/Otwórz

Transkrypt

Oglądaj/Otwórz
Wydział Dziennikarstwa i Nauk Politycznych
Uniwersytetu Warszawskiego
STRESZCZENIE PRACY DOKTORSKIEJ
Dane z internetu. Rola rafinacji informacji
sieciowej w kampaniach wyborczych
mgr Paweł Kuczma
Praca doktorska wykonana pod kierunkiem
prof. dr. hab. inż. Włodzimierza Gogołka
oraz dr. Krzysztofa Kowalika,
Instytut Dziennikarstwa,
Wydział Dziennikarstwa i Nauk Politycznych
Uniwersytetu Warszawskiego
Warszawa, luty 2016
Spis treści
1. Uzasadnienie podjęcia tematu ............................................................................. 3
2. Cel, hipoteza i założenia rozprawy ...................................................................... 4
3. Dotychczasowy stan badań związanych z podejmowaną problematyką ............... 6
4. Metodologiczna charakterystyka pracy ............................................................... 9
5. Konstrukcja pracy ............................................................................................... 10
6. Metodologia i wyniki przeprowadzonych badań .................................................. 12
7. Wnioski .............................................................................................................. 19
2
1. Uzasadnienie podjęcia tematu
Globalna ilość danych cyfrowych przyrasta bardzo dynamicznie. W 2013 roku na
świecie było 4,4 ZB (zettabajtów) danych. Liczba ta co dwa lata ulega podwojeniu i do 2020
osiągnie 44 ZB – dziesięciokrotnie więcej w porównaniu z rokiem 2013 1. Gdyby dane z 2013
roku zapisać w pamięci iPhone’ów 6 i ułożyć je jeden na drugim, wypełniłyby one 68%
odległości między Ziemią a Księżycem. W 2020 roku, będzie to 6,8-krotność tej odległości2.
Jednym z powodów istnienia tak wielkiej ilości danych jest zjawisko web 2.0, dzięki któremu
mogą one być wytwarzane przez użytkowników na masową skalę.
Natłok danych sprawia, że jesteśmy jako ludzkość często bezradni wobec ich ogromu.
Tradycyjne narzędzia ich analizy nie radzą sobie z takim natłokiem. Big data to wielkie
zasoby danych, które mogą być źródłem wiedzy, dotychczas niedostępnej z powodu braku
możliwości ich połączenia z innymi faktami oraz braku narzędzi do ich gromadzenia
i analizy. Wiele z tych realiów pochodzi z mediów społecznościowych.
Istnienie olbrzymich ilości danych, zwłaszcza generowanych przez obywateli, skłania
ku refleksji na temat cybernetycznego podejścia do formalnego opisu społeczeństw. Brakuje
w bieżącej literaturze opracowań i analiz dotyczących wykorzystywania danych w państwie
czy w procesach politycznych. Ograniczają się one często do działań marketingowych. Wiele
mediów społecznościowych, w tym Twitter i Facebook, mimo posiadania ogromnych
i szybko rosnących zasobów danych generowanych przez użytkowników, nie ułatwia dostępu
do nich, ograniczając go lub zupełnie blokując3. Stąd, podjęta w rozprawie, próba
wykorzystania rafinacji danych sieciowych i ich analizy.
Media społecznościowe są bardzo dynamicznie rozwijającą się gałęzią internetu.
Widoczne zainteresowanie dotyczy zwłaszcza środowisk zajmujących się marketingiem
produktów, usług, ale również idei, w tym idei politycznych. Tematy związane
z mediami społecznościowymi są obecne w wielu artykułach, książkach, na konferencjach
branżowych4. Jest to przedmiot coraz chętniej badany również w środowisku naukowym oraz
1
IDC, The Digital Universe of Opportunities: Rich Data and the Increasing Value of the Internet of Things,
kwiecień 2014, emc.com/leadership/digital-universe/2014iview/executive-summary.htm [dostęp 12.01.2015].
2
Wyliczenia własne oparte na pomyśle zamieszczonym w raporcie: IDC, The Digital Universe of Opportunities:
Rich Data and the Increasing Value of the Internet of Things, kwiecień 2014, emc.com/leadership/digitaluniverse/2014iview/executive-summary.htm [dostęp 12.01.2015].
3
Constine J., Facebook Finally Lets Its Firehose Be Tapped For Marketing Insights Thanks To DataSift,
10.03.2015, techcrunch.com/2015/03/10/facebook-topic-data/#QI9i76:JDP5 [dostęp 10.03.2015];
twittercommunity.com/t/how-do-i-get-firehose-access/7490 [dostęp 13.03.2015].
4
Wyszukiwarka books.google.com wyświetla około 3 200 000 rekordów na zapytanie „Social Media”
google.com/search?q=social+media&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:pl:official&client=firefoxa#q=social+media&oe=utf-8&rls=org.mozilla:pl:official&client=firefox-a&um=1&ie=UTF-
3
na styku światów naukowego i akademickiego 5. Ciągle jednak niewiele można odnaleźć
w literaturze wyników badań i opracowań analizujących zjawisko mediów społecznościowych
z perspektywy danych odnośnie procesów społecznych, a szczególnie szeroko rozumiane
polityki.
Rozprawa jest odpowiedzią na ten brak. Zawiera opis badań, które jako jedne
z pierwszych na świecie (jeśli nie pierwsze)
potwierdziły użyteczność danych
z mediów społecznościowych w celu przewidywania wydarzeń. Przykłady podobnych
eksperymentów6
miały
już
miejsce
po
badaniu
przeprowadzonym
w
Instytucie
Dziennikarstwa, o którym mowa w rozdziale 4 pracy.
2. Cel, hipoteza i założenia rozprawy
Celem pracy jest wykazanie, że dane z internetu, w tym te generowane przez
użytkowników, są wiarygodnym7 źródłem informacji. Celami dodatkowymi są:
-
opracowanie nowej metodologii i narzędzi badawczych służących do analizy realiów,
które byłyby możliwe do wykorzystania w eksperymentach polegających na
analizowaniu danych w celu wyłowienia na ich podstawie nowych informacji,
nazywanych za W. Gogołkiem, rafinacją 8;
-
zarysowanie nowych pól eksploatacji danych w celu ich wykorzystania, zarówno
przez władze, jak i obywateli, do zwiększania trafności podejmowanych decyzji.
Hipoteza główna: dane, w tym te, pochodzące z sieci, mogą stanowić wiarygodne
źródło informacji w kampaniach wyborczych.
Przyjęta hipoteza jest inspirowana teorią Hayeka opisującą mechanizm gromadzenia
i przekazywania rozproszonych informacji przez rynek 9, który te informacje zbiera. Dane są
8&hl=en&tbo=u&tbm=bks&source=og&sa=N&tab=wp&ei=4dt2T43ZDIrXsgb9tsSlBA&bav=on.2,or.r_gc.r_p
w.r_cp.r_qf.,cf.osb&fp=457ce4a8ea22e728&biw=1525&bih=653. Około 2 820 000 rekordów pojawia się na to
samo zapytanie w wyszukiwarce scholar.google.com,
scholar.google.com/scholar?q=social+media&hl=en&btnG=Search&as_sdt=1%2C5&as_sdtp=on [dostęp do obu
źródeł 31.03.2012].
5
Firmy takie jak Sotrender.com czy SWresearch.pl [dostęp 10.03.2015] są dobrym przykładem tego zjawiska.
6
Copeland D., Harvard Researcher Uses Social Media To Predict Stock Market Volume, 8.02.2012,
readwrite.com/2012/02/08/harvard_researcher_uses_social_media_to_predict_st [dostęp 12.03.2013].
7
Definicja wiarygodności w podrozdziale 1.15. Potencjał mediów społecznościowych pod względem
oddziaływania na użytkowników.
8
Gogołek W., Rafinacja informacji sieciowej, Op. cit.
9
Hayek F., The use of knowledge in society, „American Economic Review”, 1945;35(4), s. 519, 526.
4
odpowiednikiem takich rozproszonych informacji w rozumieniu Hayeka 10, które po
odpowiedniej analizie – rafinacji – tworzą informacje przydatne w predykcji wyników
wyborów. Tym samym mogą być przydatne w podejmowaniu decyzji politycznych.
Aby zweryfikować postawioną hipotezę, przeprowadzono badania (dotyczące
odpowiednio wyborów prezydenckich i parlamentarnych) na wielkich zasobach danych
pozyskanych z internetu, a szczególnie z mediów społecznościowych. Dokonano rafinacji
wpisów w mediach społecznościowych dotyczących kandydatów w wyborach prezydenckich
2010 roku oraz partii politycznych w wyborach parlamentarnych 2011 roku. Dokonano
również analizy literatury dotyczącej omawianych zagadnień związanych z celami pracy,
hipotezą i problemem badawczym.
Sens opierania się na danych w podejmowaniu decyzji istnieje tylko wtedy, jeśli
w wyniku rafinacji danych możliwe jest otrzymanie wniosków, które dają szerszy ogląd
rzeczywistości, np. w przypadku wyborów pozwalają na przewidywanie preferencji
politycznych przed wyborami. Uznano więc za celowe analizowanie roli danych z sieci z
wykorzystaniem rafinacji. Powyższe wnioskowanie doprowadziło do sformułowania
następującej hipotezy pomocniczej, będącej jednocześnie hipotezą w przeprowadzonych i
opisanych w rozdziale 4. badaniach:
Rafinacja danych z sieci umożliwia bieżący i wiarygodny monitoring zmieniających
się preferencji wyborczych Polaków w okresie poprzedzającym wybory, odpowiednio:
-
prezydenckie w 2010 r.
-
parlamentarne w 2011 r.
oraz predykcję wyników wyborów.
Przyjęty główny problem badawczy uzasadniają:
- brak istniejącej, ukonstytuowanej naukowo metodologii badania wielkich zasobów
danych w celu przewidywania zachowań ludzi
- dostęp do olbrzymich cyfrowych zasobów informacyjnych
- potencjał sieci i współczesnych narzędzi teleinformatycznych.
Problem badawczy wynika z przyjętej hipotezy pracy i dotyczy istnienia
statystycznie istotnej korelacji między danymi generowanymi przez użytkowników
w internecie a ich postawami i działaniami. Przyjęta metodologia analizy big data jest próbą
rozwiązania tego problemu.
10
Rozumienie pojęcia informacji Hayeka oraz przyjęte w rozprawie są odmienne. Pojęcia danych
i informacji są zdefiniowane w rozdziale 2., p. 2.2. Piramida Dane-Informacje-Wiedza-Mądrość.
5
W drodze do osiągnięcia zakładanego celu pracy przyjęto następujące założenia:
1. Państwo można traktować jako układ cybernetyczny zgodnie z rozumieniem
cybernetyki Mariana Mazura11.
2. Analizowane dane uzyskane z sieci pochodzą z mediów społecznościowych.
3. Praca zawiera analizę danych związanych z kampaniami wyborczymi i odnosi się do
zastosowań politycznych i na nich się koncentruje. Zastosowanie wniosków
z tej pracy w innych dziedzinach nie jest wykluczone, ale wymaga dalszej analizy.
4. Rozprawa ma charakter interdyscyplinarny z pogranicza socjologii, politologii,
filozofii, ekonomii, informatyki, medioznawstwa, związanych m.in. z państwem,
społeczeństwem, władzą, demokracją i rządzeniem, cybernetyką i jej pozaspołecznymi
zastosowaniami, ale szczegółowe analizowanie wszystkich omawianych zagadnień
przez pryzmat wszystkich wymienionych dziedzin nauki wykracza poza zakres pracy.
3. Dotychczasowy stan badań związanych z podejmowaną problematyką
Inspiracją do podjęcia badań nad danymi była teoria Hayeka, zgodnie z którą rynek jest
mechanizmem przekazywania rozproszonej12 na rynku informacji13. Można go porównać z
rozumem zbierającym rozproszone informacje 14. Dane w mediach społecznościowych są
odpowiednikiem takich informacji, gdyż są rozproszone i trudno je było przez wiele lat zebrać
w jednym miejscu, w którym mogłyby zostać przeanalizowane, by wyciągać z nich wnioski.
Metodologiczne podstawy badań nad wielkimi zasobami danych zostały zbudowane
m.in. przez Culturnomics15, które polegało na analizie tekstów książek skanowanych na
potrzeby usługi Google Books. Na potrzeby projekt, któremu nadano nazwę Ngram (rys. 1)16
stworzono korpus tekstów obejmujący w owym czasie 4% wszystkich książek wydanych w
historii ludzkości. Analiza ta pozwoliła na zbadanie społecznych, historycznych, kulturowych
czy ideologicznych zmian poprzez analizę popularności słów w książkach 17. Takie podejście
11
Por. 3.3.1. Istota cyberpaństwa. Rola cybernetyki w rządzeniu i zarzadzaniu.
Ibidem, s. 519.
13
Hayek F., The use of knowledge in society, „American Economic Review”, 1945, 35(4), s. 526.
14
Ibidem,s. 526.
15
Jean-Baptiste Michel J.-B., Kui Shen, J., Aiden A. P., Veres A., Gray M./K., The Google Books Team, Pickett
J. P., Hoiberg D., Clancy D., Norvig P., Orwant J., Pinker S., Nowak M. A., Aiden E. L., Quantitative Analysis
of Culture Using Millions of Digitized Books, „Science”, 331 (6014), 16.12.2010,: 176–82,
sciencemag.org/content/331/6014/176.full [dostęp 1.11.2014].
16
books.google.com/ngrams [dostęp 1.11.2014]; więcej przykładów:
informationisbeautiful.net/visualizations/google-ngram-experiments [dostęp 1.11.2014].
17
Jean-Baptiste M., Shen Y., Aiden A., Veres A., Gray M., Pickett J., Hoiberg D., Clancy D., Norvig P., Orwant
J., Pinker S., Nowak M., Aiden E., Quantitative analysis of culture using millions of digitized books, „Science”,
volume 331, number 6014, 2011, s. 176–182, librarian.net/wp-content/uploads/science-googlelabs.pdf [dostęp
7.06.2015].
12
6
stanowi swego rodzaju przełom w analizowaniu danych wytworzonych przez ludzkość i jest
rodzajem rafinacji. Dane, które są wynikiem tego badania, pozwalają na odtworzenie obrazu
społecznego w czasie, a więc zakreślenia zagadnień, które wpływają na sposób postrzegania
świata
przez
ludzkość,
a
tym
samym
sposób
zachowania
się
ludzi
w danym momencie dziejowym.
Rys. 1. Google Books Ngram Viewer – aplikacja pozwalająca na poszukiwanie popularności
słów w książkach18
Źródło:
books.google.com/ngrams/graph?content=money%2Cfaith&year_start=1800&year_end=2015&corpus=15&smo
othing=3&share=&direct_url=t1%3B%2Cmoney%3B%2Cc0%3B.t1%3B%2Cfaith%3B%2Cc0#t1%3B%2Cmo
ney%3B%2Cc0%3B.t1%3B%2Cfaith%3B%2Cc1 [dostęp 26.04.2015].
Kontynuacją tego badania było Culturnomics 2.0, w którym analizowano treści
medialne wytworzone na całym świecie (prasa, internet, radio, telewizja) 19. Culturnomics 2.0
opierał się na założeniu, że analiza danych może dostarczyć nowego rodzaju informacji
o procesach społecznych, w tym umożliwić przewidywanie przyszłych zdarzeń. Leetaru we
wnioskach z badania, które było analizą wielkich zasobów danych (big data) przewidział
wybuch rewolucji w Tunezji, Libii oraz w Egipcie – włącznie z usunięciem ówczesnego
prezydenta tego kraju, Hosniego Mubaraka, miejsce przebywania Osamy bin Ladena z
18
Wykres pokazuje popularność słów pieniądze i wiara (ang. money, faith) w latach 1800-2008. Wyraźnie
widoczny jest spadek zainteresowania wiarą od połowy XIX w, podczas gdy pieniądze cieszą się niezmiennym
zainteresowaniem autorów książek od ponad 200 lat.
19
Leetaru K. H., Culturomics 2.0: Forecasting Large-Scale Human Behavior Using Global News Media Tone In
Time And Space, „First Monday”, 16(9), 5.09.2011,
firstmonday.org/ojs/index.php/fm/article/view/3663/3040#p2 [dostęp 1.11.2014].
7
dokładnością do 200 kilometrów (rys. 2), a także stabilną, mimo niepokojów na Bliskim
Wschodzie, sytuację w Arabii Saudyjskiej.
Inne wnioski z badania dotyczyły m.in. pogłębiania się negatywnego wydźwięku coraz
większej liczby informacji publikowanych w mediach20.
Rys. 2. Geograficzne mapowanie treści zawierających słowa „bin Laden”, które znalazły się
w mediach między styczniem 1979 a kwietniem 2011
Źródło: Leetaru K. H., Culuromics 2.0…, firstmonday.org/ojs/index.php/fm/article/view/3663/3040 [dostęp
1.11.2014].
Inne przykłady wykorzystania podobnej metody pracy to rynek prognostyczny
(prediction market), czyli instytucja, która zbiera opinie zwykłych obywateli (nie ekspertów z
danej dziedziny) na temat przyszłych wydarzeń, które po zagregowaniu dają dość miarodajną
prognozę tych wydarzeń21. Mogą to być np. wyniki wyborów22, kurs waluty, wybuch wojny,
czy kryzysu. Chen, Fine i Huberman sugerują możliwość wykorzystania tej metody również z
użyciem danych dostępnych publicznie 23. Podejście to zostało zweryfikowane na podstawie
danych publicznych odnoszących się do wyborów w Szwajcarii w 2011 roku. Rozwiązanie to
przyniosło lepszy efekt, niż sondaże przedwyborcze, co dowodzi jego skuteczności (jego
wynik przedstawiono na rys. 3.)24.
20
Ibidem.
Wolfers J., Zitzewitz E., Prediction markets, „Journal of Economic Perspectives”, 18:2, 2004, s. 107-126.
22
Berg J.E., Nelson F.D., Rietz T.A., Prediction market accuracy in the long run, „International Journal of
Forecasting”, Volume 24, Issue 2, April–June 2008, s. 285–300.
23
Chen K-Y; Fine L. R.; Huberman B. A., Predicting the Future, Information Systems Frontiers, Jan 2003; 5, 1,
s. 52.
24
Rau S., Börsen präziser als Umfragen, 27.10.2011, „Tages Anzeiger”,
21
8
Rys. 3. Porównanie wyników sondaży z wynikami rynków prognostycznych z rzeczywistymi
Grüne
3,6%
4,3%
5,4%
CVP
Wynik wyborów
4,9%
5,6%
5,4%
FDP
9,3%
9,1%
8,4%
14,2%
12,9%
12,3%
SP
Rynki prognostyczne
15,2%
13,6%
15,1%
SVP
Sondaż
19,9%
19,5%
18,7%
35%
30%
25%
20%
15%
10%
5%
0%
29,3%
28,6%
26,6%
wynikami wyborów parlamentarnych w Szwajcarii w 2011 roku
GLP
BDP
Źródło: Rau S., Börsen präziser als Umfragen, 27.10.2011, „Tages Anzeiger”25. Opracowanie własne.
Bazujący na podobnych założeniach Watts26 przewidział sukces rynkowy nowych
filmów, muzyki i gier wideo. Nawiązywał on do metodologii według której działa usługa
Google Flu Trends27, a więc opierał się na wolumenach wyszukiwań słów związanych
z danym działem. Z tą różnicą, że dane na temat tych wolumenów zostały pozyskane
z wyszukiwarki Yahoo (a nie Google, jak w przypadku Google Flu Trends).
4. Metodologiczna charakterystyka pracy
Praca pod kątem metodologicznym składa się z następujących elementów:
- analiza literatury przedmiotu (szeroko rozumianej jako wszelkie publikacje obejmujące
zakres rozprawy dostępne offline i online, a także korespondencja z organami państwa),
- opis eksperymentów badawczych dotyczących rafinacji danych pochodzących z mediów
społecznościowych,
- opis koncepcji cyberpaństwa, rozumianego jako państwo, którego struktury są oparte na
bieżącej analizie i wytwarzaniu danych oraz zaangażowaniu obywateli w procesy decyzyjne.
tagesanzeiger.ch/wahlen2011/standard/Boersen-praeziser-als-Umfragen/story/20113288 [dostęp 1.11.2014].
25
Ibidem.
26
Watts D. J., A twenty-first century science, „Nature”, 2/1/2007, Vol. 445 Issue 7127, s. 489-489; Goel S.;
Hofman J. M.; Lahaie S.; Pennock D. M.; Watts D. J., Predicting consumer behavior with Web search, online
version: research.yahoo.com/files/g_h_l_p_w_PNAS_10.pdf,2010, [dostęp 10.08.2010].
27
google.org/flutrends, więcej informacji na temat tej usługi patrz 2.3. Wielkie zasoby danych (big data).
9
5. Konstrukcja pracy
W pracy zostały zdefiniowanie najistotniejsze pojęcia związane z jej tematem
i omawianym w niej zakresem zagadnień. Jest to konieczne ponieważ wiele z nich to pojęcia
stosunkowo
nowe,
które
nie
mają
jeszcze
ugruntowanych
definicji
(zwłaszcza
w języku polskim), ale również dlatego, że są one różnie rozumiane w zależności od
kontekstu, osób ich używających, charakteru dyskursu (potoczny, zawodowy, naukowy) czy
akcentowania określonych ich cech.
Rozprawa zawiera przegląd literatury przedmiotu związanej z przedmiotem pracy web 2.0 i mediami społecznościowymi, danymi, a także związanej z cybernetycznym
podejściem do relacji między władzą w państwie a obywatelami. Ze względu na świeżość
materii, której dotyczy praca, wiele źródeł stanowią, poza artykułami naukowymi czy
książkami, także raporty i opracowania branżowe, artykuły informacyjne oraz strony
internetowe.
W pierwszym rozdziale rozprawy wyjaśniono fenomen zjawiska web 2.0 oraz mediów
społecznościowych i stanowi on swego rodzaju wprowadzenie do badań, których wyniki
opisano w rozdziale 4. Oprócz definiowania podstawowych pojęć, została opisana geneza web
2.0, mediów społecznościowych oraz zjawisk i pojęć z nimi powiązanych takich jak
crowdsourcing, folksonomia, wikinomia, mashup.
Ta część pracy zawiera także analizę sformułowaną przez O’Reilly’ego koncepcji
rządu jako platformy w duchu web 2.028. Dlatego też omówione zostały cechy web 2.0
również w odniesieniu do państwa.
Rozdział
drugi
dotyczy
danych,
ich
rodzajów,
praktycznych
zastosowań
i korzyści wypływających z ich wykorzystywania w różnych dziedzinach życia społecznopolitycznego. Zawiera on również definicje najważniejszych pojęć dotyczących danych.
Analizuje zjawiska wielkich zasobów danych i otwartych danych. Istotnym elementem tej
części pracy jest kwestia otwartych danych, informacji publicznych (PSI), łączenia danych,
sposobów ich pozyskiwania oraz możliwości ich wykorzystywania, a także barier, które
powstrzymują władze przed upublicznianiem danych. Część tego rozdziału stanowi opis
narzędzi służących do analizowania danych.
28
Patrz: 3.2.2. Koncepcja otwartego rządu w perspektywie web 2.0.
10
Otwarte dane są wstępem do analizy zjawiska otwartego dostępu i otwartego rządu, do
którego można dotrzeć tylko przez otwieranie danych i sprawienie, że działania władzy będą
bardziej transparentne.
Trzeci rozdział pokazuje proces powstawania cyberpaństwa, rozumianego jako
państwo, które w swoim funkcjonowaniu opiera się na pełniejszym wykorzystaniu danych,
głównie na wynikach ich analizy. Śledzi wpływ realiów, w tym otwartych danych oraz
wielkich zasobów danych, na społeczeństwo oraz władzę rozumianą jako konstytucyjne
organy władzy państwowej i samorządowej.
Rozważania te prowadzą do zarysowania teoretycznych ram cyberpaństwa oraz
opisania prób wprowadzania cybernetycznego sposobu myślenia do funkcjonowania państw.
Zmiana relacji z modelu „jeden do wielu” na model, w którym informacja przepływa od
„wielu do wielu” ma wpływ na relację między rządem a obywatelami. Podobnie jak
użytkownicy portalu społecznościowego, mogą oni wchodzić w częstsze relacje z władzą, a w
związku z tym również wpływać na nią w sposób ciągły, a nie tylko w czasie wyborów i
referendów.
Stopień
konsultacji
społecznych,
rozmów
rządu
z różnymi środowiskami ma charakter zbyt sformalizowany i hermetyczny, a także zamknięty
dla większości obywateli29. Owo sprzężenie zwrotne stanowi fundament związku między
państwem a cybernetyką.
Ta część rozprawy nakreśla szanse, które stoją przed państwem, jeśli gromadzi ono
fakty, rafinuje, analizuje wyniki rafinacji danych i wykorzystuje je w podejmowaniu decyzji
(sprzężenie zwrotne), a także udostępnia zbierane realia obywatelom. W tym rozdziale zostały
zaznaczone również zagrożenia dużego uzależnienia od danych.
Rozdział czwarty zawiera opis i wyniki badań przeprowadzanych na potrzeby
niniejszej pracy. Były one oparte o big data30 i dotyczyły wyborów prezydenckich w 2010
roku i wyborów parlamentarnych w 2011 roku. W tym rozdziale znajduje się również
metodologia wspomnianych badań, wraz z opisem zmiennych oraz płynących z nich
konkluzji.
Główny
wniosek
wynikający
z
przytaczanego
eksperymentu
mówi
o wiarygodności danych pochodzących z mediów społecznościowych i innych zasobów
sieciowych oraz wynikającej z tego faktu możliwości prognozowania wyniku wyborów na ich
podstawie. Oprócz przytoczonych wyników badań własnych oraz wypływających z ich
29
Ministerstwo Administracji i Cyfryzacji odmówiło Monice Płatek zapisu rozmów Komisji Wspólnej Rządu i
Episkopatu z dnia 14 listopada 2013 dotyczących Konwencji o zapobieganiu i zwalczaniu przemocy wobec
kobiet i przemocy domowej, facebook.com/permalink.php?id=162286418526&story_fbid=10151889629253527
[dostęp 20.02.2014].
30
Definicja pojęcia w rozdziale 2., p. 2.3. Wielkie zbiory danych (big data).
11
wniosków, przestawiona została również analiza sondaży ilustrujących preferencje polityczne
przez pryzmat wyników wyborów oraz odnotowanej frekwencji.
Trzecie badanie opisane w tym rozdziale prezentuje wpływ internetu i mediów
społecznościowych na wybory polityczne według deklaracji ankietowanych.
6. Metodologia i wyniki przeprowadzonych badań
Najwięcej uwagi, w związku z charakterem pracy, skierowano na badania
niereaktywne31. Polegają one na analizie zachowań społecznych bez wpływania na nie. Jak to
określa E. Babbie, jest to „metoda badania zachowań społecznych, niewpływających na te
badania”32. Analiza istniejących danych statystycznych, nazywana w polskiej literaturze
analizą danych zastanych 33, polega na badaniu istniejących statystyk, wytworzonych często w
innych celach niż cele badawcze34.
Na potrzeby pracy przeprowadzono badania, które miały pomóc w weryfikacji
hipotezy głównej. Badania te oparte były na opracowanej przez autorów metodę rafinacji35
danych polegającą na monitorowaniu i analizowaniu treści tworzonych przez użytkowników
w okresie poprzedzającym dzień wyborów i śledzenie na tej podstawie zmieniających się
preferencji wyborczych.
Pod pojęciem rafinacji rozumiana jest analiza wielkich zasobów ustrukturyzowanych
i nieustrukturyzowanych danych źródłowych za pomocą narzędzi, w celu uzyskania
ustrukturyzowanych danych wtórnych i wnioskowanie na ich podstawie.
Hipoteza badawcza jest równoznaczna z twierdzeniem, że treści w mediach
społecznościowych
są
odzwierciedleniem
rzeczywistych
postaw
użytkowników
i mogą zapowiadać ich realne działania takie jak oddanie głosu na kandydata, partię, wybór
określonej odpowiedzi w referendum. Istnieje tym samym statystyczna zależność między
treściami powstającymi w mediach społecznościowych a preferencjami politycznymi, których
efektem jest wybór określonej opcji politycznej.
31
Babbie E., Badania społeczne w praktyce, s. 345.
Ibidem, s. 341.
33
Ibidem, s. 353.
34
Np. statystyk urzędowych.
35
Gogołek W., Rafinacja informacji sieciowej, w: Jastriebow A., Raczyńska M., Informatyka w dobie XXI
wieku, Nauka, Technika, Edukacja a nowoczesne technologie informatyczne, Radom 2011, Politechnika
Radomska, s. 229-238.
32
12
W badaniu zamieszczonym w niniejszej pracy wykorzystana została metoda
uogólniania obserwacji za pomocą indukcji niezupełnej 36. Korelację pomiędzy treściami
zamieszczanymi w mediach społecznościowych a postawami wyborców opisuje poniższy
wzór:
WG =
(DI, AS)
gdzie WG oznacza wynik głosowania, DI- dane ilościowe (liczba wpisów), a AS – analizę
sentymentu badanych treści.
Mimo poprawności metodologicznej na problem reprezentatywności badania,
w sytuacji relatywnie niskiej penetracji internetu w Polsce, zwrócili uwagę recenzenci
przytoczonych dalej wyników37. Badania prowadzone online z założenia pomijają osoby
dotknięte wykluczeniem cyfrowym38. Przy 70% gospodarstw domowych posiadających
komputery i 66,9% posiadających dostęp do internetu (44% osób posiada smartfon), co
trzecie gospodarstwo domowe w Polsce jest cyfrowo wykluczone 39. Z tego powodu
przeprowadzone zostało dodatkowe badanie dotyczące wpływu treści w internecie, w tym w
mediach społecznościowych, na decyzje polityczne Polaków, które uzupełnia wyniki dwóch
przytoczonych wcześniej badań. Jego hipoteza była następująca: Internet, w tym media
społecznościowe, ma znaczący wpływ na wybory polityczne dokonywane przez obywateli 40.
Głównym celem tego badania było zbadanie wpływu internetu, w tym mediów
społecznościowych na wybory polityczne obywateli. Celem pomocniczym było wzmocnienie
metodologii poprzednich badań dokonywanych na podstawie materiałów zebranych online.
36
Nowak S., Metodologia badań społecznych, s. 297.
M.in. na konferencji General Online Research 2013.
38
Jest to zjawisko, które jest definiowane w różny sposób w zależności od podejścia do problemu. Wykluczenie
cyfrowe w Stanach Zjednoczonych (digital divide) jest rozumiane jako „systematyczne różnice w dostępie i
korzystaniu z komputerów i internetu pomiędzy osobami o różnym statusie społeczno‑ekonomicznym
(wykształceniu, dochodach, zawodzie), na różnych etapach życia, mężczyznami i kobietami, a także różnymi
regionami. To samo zjawisko na terenie Unii Europejskiej jest rozumiane znacznie szerzej, jako odwrotność
eIntegracji – elementu spójnego z innymi wymiarami partycypacji społecznej. Por. Batorski D., Wykluczenie
cyfrowe w Polsce, „Studia Biura Analiz Sejmowych kancelarii sejmu”, 3(19) 2009, s. 223-249.
39
Batorski D., Polacy wobec technologii cyfrowych – uwarunkowania dostępności i sposobów korzystania,
w: Czapliński J., Panek T., „Diagnoza Społeczna 2013. Warunki i jakość życia Polaków”, s. 317. Smartfona
posiada 44% Polaków, komputer z dostępem do internet jest w 66,9% gospodarstw domowych w Polsce.
Penetracja smartfonów na podstawie: Raport „Smartfonizacja Polaków 2014”,
jestem.mobi/2014/02/smartfonizacja-w-polsce-2014-najwazniejsze-liczby-infografika [dostęp 20.12.2014].
40
Wyniki tego badania zostały zaprezentowane na międzynarodowej konferencji General Online Research 2014
w Kolonii w marcu 2014 r.
37
13
Badanie zostało przeprowadzone metodą CAWI na reprezentatywnej grupie dorosłych
Polaków w wieku 18-65 lat w czerwcu 2013 za pomocą panelu badawczego SW Research
(swresearch.pl). Ankietowani odpowiadali na pytania z zakresu:
-
sposobów korzystania z internetu, w tym z mediów społecznościowych,
-
poziomu partycypacji w życiu publicznym zarówno w kanale online, jak i z dala od
klawiatury,
-
wpływu mediów i innych narzędzi wpływania na decyzje polityczne.
Wynikiem badania są wnioski opisane w pracy. Główny z nich brzmi one następująco:
konsumpcja
i
tworzenie
treści
w
mediach
społecznościowych
różni
się
w zależności od wieku użytkownika, jeśli weźmiemy pod uwagę rodzaj medium.
Hipoteza, którą przyjęto w obu badaniach była podobna.. Mimo różnic związanych
z doborem słów, można ją przytoczyć w sposób następujący:
Rafinacja danych z sieci umożliwia bieżący i wiarygodny monitoring zmieniających się
preferencji wyborczych Polaków w okresie poprzedzającym wybory, odpowiednio:
-
prezydenckie w 2010 r.
-
parlamentarne w 2011 r.
Analiza miała w obu przypadkach charakter zarówno ilościowy, jak i jakościowy.
Dodatkowym celem badania było skonstruowanie metodologii badań zmian preferencji
wyborczych na podstawie informacji pochodzących z sieci. Do badania dotyczącego
wyborów prezydenckich w 2010 roku zakwalifikowano wszystkich kandydatów na urząd
prezydenta RP zakwalifikowanych przez Państwową Komisję Wyborczą 41. W przypadku
wyborów parlamentarnych w 2011 r. do badania zakwalifikowano komitety wyborcze
powiązane z partiami i/lub środowiskami politycznymi 42, których członkowie byli posłami na
Sejm RP w dniu 1 stycznia 2011 r. (włączywszy podmioty polityczne powstałe przed
wyborami związane z posłami VI kadencji Sejmu 43: Januszem Palikotem i Joanną Kluzik-
41
Na podstawie „Wykazu komitetów wyborczych, które zarejestrowały kandydata na Prezydenta
Rzeczypospolitej Polskiej w wyborach zarządzonych na dzień 20 czerwca 2010 r.”
pkw.gov.pl/pkw2/index.jsp?place=Lead07&news_cat_id=22827&news_id=43906&layout=1&page=text,
[dostęp 29.05.2010].
42
Ruch Poparcia – partia założona przez Janusza Palikota oraz Polska Jest Najważniejsza, która 1.01.2011 była
jeszcze stowarzyszeniem, a została zarejestrowana jako partia polityczna w 2011 r., amk, Wniosek o rejestrację
partii PJN, 01.02.2011, rp.pl/artykul/561429,603438.html [dostęp 4.11.2012].
43
VI kadencja Sejmu RP miała miejsce w latach 2007-2011.
14
Rostkowską). Szczegółowy wykaz kandydatów analizowanych w obu badaniach znajduje się
w tabeli 1.
Nazwiska kandydatów w wyborach prezydenckich i nazwy partii związanych
z komitetami wyborczymi wystawiającymi kandydatów w wyborach parlamentarnych były
jednym wymiarem analizy. Innym badanym aspektem była ilościowa ocena krotności
występowania, odpowiednio w zależności od rodzaju wyborów, nazwisk kandydatów lub
nazw partii politycznych w treściach pozyskanych w Sieci w wyznaczonych wcześniej
kontekstach.
Wpisy dotyczące kandydatów/partii były analizowane również pod kątem tematów, w
jakich występowały nazywanych kontekstami. Określono je na podstawie analizy treści
dwóch największych w owym czasie dzienników opiniotwórczych: „Gazeta Wyborcza”
i „Rzeczpospolita”44, które mają odmienny profil polityczny. Analizowano elektroniczne
wersje tych dzienników pozyskane przy użyciu wyszukiwarki EMIS Poland (Emerging
Markets Information Service)45 przy wyborach prezydenckich i wyszukiwarki Factiva 46 przy
wyborach parlamentarnych.
Konteksty były wyłonione na dwa sposoby:
1. Przy okazji wyborów prezydenckich: przy wykorzystaniu programu QDA Miner v3.2
wraz z WordStat 6.0.147 wybrano słowa, które miały największą częstotliwość
występowania. Następnie zostały one pogrupowane w 10 kategorii stanowiących
konteksty, przez pryzmat których analizowane były wpisy (tab. 2 a.).
2. Przy okazji wyborów parlamentarnych:
a. Konteksty medialne. Pierwsza metoda była powtórzeniem tej z punktu 1.
Konteksty uzyskane tą metodą nazwane zostały na potrzeby badania kontekstami
medialnymi , czyli takimi, które związane były z wydarzeniami relacjonowanymi
w mediach w okresie poprzedzającym badanie. W wyniku opisanej analizy
wyłoniono osiem kontekstów. Ich lista znajduje się w tabeli 4.2 c).
44
PP, "Gazeta Wyborcza" i "Fakt" to najchętniej czytane dzienniki, 24.05.2010,
wirtualnemedia.pl/artykul/gazeta-wyborcza-i-fakt-to-najchetniej-czytane-dzienniki# [dostęp 31.05.2010].
45
han.buw.uw.edu.pl/han/ISIEM/site.securities.com/search/pub_search.html?pc=PL&sv=EMIS [dostęp
31.05.2010].
46
global.factiva.com/ha/default.aspx [dostęp 31.05.2010].
47
Programy dostępne na stronie: provalisresearch.com/Download/download.html [dostęp 28.05.2010]. Używana
była wersja testowa.
15
b. Konteksty merytoryczne. Drugą grupę kontekstów stanowiły te, związane wprost z
rządem, ministerstwami, ich funkcjami i kompetencjami 48, nazywane kontekstami
merytorycznymi – tab. 4.2 b).
Tab. 1. Listy analizowanych w badaniu podmiotów w wyborach prezydenckich
i parlamentarnych w kolejności alfabetycznej
#
Wybory
prezydenckie
Wybory parlamentarne 2011 –
49
#
1
Jurek Marek
1
Platforma Obywatelska RP
2
Kaczyński Jarosław
2
Polska Jest Najważniejsza
3
Komorowski Bronisław
3
Polskie Stronnictwo Ludowe
4
Korwin-Mikke Janusz
4
Prawo i Sprawiedliwość
5
Lepper Andrzej
5
Ruch Palikota
6
Morawiecki Kornel
6
Sojusz Lewicy Demokratycznej
7
Napieralski Grzegorz
8
Olechowski Andrzej
9
Pawlak Waldemar
2010 - kandydaci
komitety wyborcze
10 Ziętek Bogusław
Źródło: Opracowanie własne50.
Uzyskane w ten sposób konteksty merytoryczne i medialne zostały użyte do oceny
charakteru kampanii. Sprawdzono w ten sposób, na ile merytoryczny lub medialny charakter
miała dyskusja użytkowników na temat wyborów.
W trakcie głównej części badania analizowano treści publikowane:
48
Na podstawie struktury Rady Ministrów za: Postanowienie Prezydenta Rzeczypospolitej Polskiej z dnia 16
listopada 2007 r. nr 1131-50-07 o powołaniu w skład Rady Ministrów (M.P. 2007 nr 87 poz. 947) oraz statutów
poszczególnych ministerstw.
49
Obwieszczenie Państwowej Komisji Wyborczej z dnia 17 maja 2010 r. o kandydatach na Prezydenta
Rzeczypospolitej Polskiej w wyborach zarządzonych na dzień 20 czerwca 2010 r., s. 19,
pkw.gov.pl/g2/i/22/42/46/224246/5-10.pdf [dostęp 28.10.2014].
50
Opracowano na podstawie badań opisanych w : Kuczma P., Gogołek W., Informacyjny potencjał sieci – na
przykładzie wyborów prezydenckich 2010, „Studia Medioznawcze”, nr 4(43) 2010, Gogołek W., Kuczma P.,
Rafinacja informacji sieciowych na przykładzie wyborów parlamentarnych. Część 1. Blogi, fora, analiza
sentymentów, „Studia Medioznawcze”, 2 (53) 2013; Gogołek W., Kuczma P., Rafinacja informacji sieciowych
na przykładzie wyborów parlamentarnych. Część 2. Portale internetowe, konteksty medialne i merytoryczne,
„Studia Medioznawcze”, Vol. 3 (54) 2013.
16
-
w mediach społecznościowych (w tym fora internetowe, blogi, Facebook, Twitter),
czyli na stronach, na których treści tworzone są przez użytkowników 51,
-
na portalach informacyjnych – tam, gdzie główne treści tworzą profesjonalne redakcje.
Pojedynczy wpis, komentarz, rekord, fragment blogu pozyskany z sieci do
szczegółowej analizy nazywany będzie terminem: „wpis”.
W obu badaniach dane zostały zebrane za pomocą narzędzia Attentio Brand
Dashboard52. Służy ono do monitorowania internetu w zakresie określonym przez
użytkownika poprzez zdefiniowanie słów kluczowych oraz kontekstów, w jakich te słowa się
pojawiają. Dane obejmowały dni poprzedzające dzień wyborów prezydenckich – I tura 20
czerwca 2010 r., II tura 4 lipca 2010 r. oraz parlamentarnych – 9 października 2011 r., oraz
sam dzień wyborów, a w przypadku drugiego badania również kilka dni po dniu wyborów:
-
wybory prezydenckie: 10 kwietnia – 5 lipca 2010 r. (87 dni),
-
wybory parlamentarne: 1 marca – 17 października 2011 r. (231 dni).
Przeprowadzone badania stanowiły analizę treści opublikowanych w mediach
społecznościowych oraz na portalach informacyjnych, w następującym zakresie:
-
analiza ilościowa53:
-
liczba wszystkich wpisów z odniesieniami do danego kandydata/partii
politycznej,
-
dynamika zmian w liczbie wpisów54,
analiza jakościowa:
-
kontekstów, w których pojawiają się treści dotyczące kandydatów na
prezydenta/partii politycznych55
-
zabarwienia emocjonalnego treści (sentyment – rozróżnienie treści na
pozytywne, neutralne lub negatywne)56.
51
Tam, gdzie te treści stanowią główną zawartość strony.
dashboard.attentio.com/login [dostęp 31.05.2010].
53
Goel S., Hofman J. M.; Lahaie S.; Pennock D. M.; Watts D. J., Predicting consumer behavior with Web
search, online version: research.yahoo.com/files/g_h_l_p_w_PNAS_10.pdf,2010 [dostęp 10.08.2010].
54
Pod tym pojęciem rozumiane są wzrosty lub spadki w ilości wpisów dotyczącej poszczególnych
kandydatów/partii w badanym okresie.
55
Kracauer S., The Challenge of Qualitative Content Analysis, „Public Opinion Quarterly”, (1952) 16 (4), s. 631642; Iversen G. R., Contextual Analysis, Series: Quantitative Applications in the Social Sciences,
Volume 81, 1991.
56
Hatzivassiloglou V., McKeown K. R., Predicting the Semantic Orientation of Adjectives, 35th
Annual Meeting of the Association for Computational Linguistics, s. 174-181, Madrid 1997,
52
17
Tab. 2. Konteksty w ramach których analizowane były treści
1
a) Wybory
prezydenckie 2010 konteksty
Gospodarka
1
b) Wybory parlamentarne
2011 - konteksty
merytoryczne
Edukacja
1
c) Wybory
parlamentarne 2011 konteksty medialne
Katastrofa smoleńska
2
Katastrofa
2
Finanse
2
Kościół
3
Media
3
Gospodarka
3
Media
4
Partie
4
Infrastruktura
4
Pieniądze
5
Polityka zagraniczna
5
Kultura
5
Prawo
6
Powódź
6
Nauka i Szkolnictwo Wyższe
6
Reformy
7
Prezydent
7
Obrona
7
Unia Europejska
8
Rosja
8
Praca i Polityka Społeczna
8
Władza
9
Sprawy wewnętrzne
9
Rolnictwo
#
10 Wybory
#
#
10 Rozwój Regionalny
11 Skarb Państwa
12 Sport i Turystyka
13 Sprawiedliwość
Sprawy Wewnętrzne i
14 Administracja
15 Sprawy Zagraniczne
16 Środowisko
17 Zdrowie
Źródło: Opracowanie własne57.
Wyniki badań potwierdziły hipotezę pracy. Wpisy dotyczące kandydatów/partii
cieszących się większym poparciem dominowały nad wpisami na temat mniej popularnych
kandydatów, z czego wnioskować można większe powodzenie u wyborców w dniu wyborów.
W wyniku obliczeń korelacji
między liczbą głosów otrzymanych w wyborach
a liczbą wpisów pozytywnych z blogów i forów otrzymano wysoką korelację. Tym samym
acl.ldc.upenn.edu/P/P97/P97-1023.pdf [dostęp 30.10.2011]; Turney P.D., Thumbs Up or Thumbs Down?
Semantic Orientation Applied to Unsupervised Classification of Reviews, Proceedings of the 40th Annual
Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002, s. 417-424,
acl.ldc.upenn.edu/P/ P02/P02-1053.pdf [dostęp 29.10.2011].
57
Opracowano na podstawie badań opisanych w : Kuczma P., Gogołek W., Informacyjny potencjał sieci …,
Gogołek W., Kuczma P., Rafinacja informacji sieciowych … Część 1 i. Część 2.
18
wykazano zależność wyników będących efektem procesu rafinacji z rzeczywistymi wynikami
wyborów parlamentarnych.
7. Wnioski
Wykazano, zarówno na gruncie teoretycznym – w wyniku wywodu analizującego
literaturę, jak i praktycznym, na podstawie przykładów konkretnych działań opartych
o analizę danych, że dane mają praktyczne zastowanie i w wyniku ich przetwarzania powstają
wymierne efekty. Mogą więc odgrywać istotną rolę w sferze społecznej, politycznej, czy
gospodarczej.
Efekty badań uzyskane w wyniku rafinacji wykazują wysokie współczynniki korelacji
z sondażami przedwyborczymi oraz z rezultatami wyborów przy znacznie niższym,
w porównaniu z przeprowadzeniem sondażu, koszcie 58. Ponadto, w przeciwieństwie do
sondaży, metoda ta umożliwia śledzenie zmian preferencji w czasie rzeczywistym.
Dopracowanie i doskonalenie metodologii rafinacji wielkich zasobów danych (big
data) ciągle pozostaje wyzwaniem. Jest ono istotne zwłaszcza w sytuacji, w której partie
polityczne i kandydaci wydają coraz więcej pieniędzy na promocję w internecie, w tym
w mediach społecznościowych. Wydatki te mogą zakłócać obraz treści powstających na temat
kandydatów i partii, którym brak odpowiedniego wsparcia finansowego, czyli w sposób
organiczny. Dotyczy to zarówno aspektu liczby wpisów, jak i ich jakości (kontekstów
i wydźwięku)59.
Opisana metoda rafinacji realiów z internetu pozwalająca na przewidywanie wyników
wyborów, może stanowić fundament dalszych badań nad danymi i możliwościami ich
wykorzystania w cyberpaństwie. M.in. przewidywania potrzeb obywateli oraz ich zachowań
zwłaszcza w sferze relacji między obywatelem a państwem oraz między samymi
obywatelami, a także ostrzegania przed napięciami społecznymi.
W pracy zarysowany został projekt cyberpaństwa, jako tworu opartego na korzystaniu
z wyników analizy danych. Konsekwencją takiego sterowania państwem może być
w
przyszłości
ograniczenie
poziomu
obecności
czynnika
ludzkiego
w rządzeniu. Będzie on mógł być eliminowany w sytuacji, w której decyzje mogą zapadać
58
Koszt badania wyniósł około 3000 zł, podczas gdy koszt sondażu, w zależności od metodologii jego
przeprowadzenia sięga kilkudziesięciu do kilkuset tysięcy złotych – dane na podstawie informacji branżowych.
59
Komitety wyborcze mają co prawda obowiązek raportowania wydatków na promocję w mediach.
Sprawozdanie finansowe zawiera pozycję pkt. 2 „Usługi obce”, „Reklama w internecie (koszt usługi emisji)”,
patrz np.: pkw.gov.pl/g2/oryginal/2012_02/39f46349919c6db9edc3a1b40a87f3c8.pdf [1.11.2014], nie wynika z
niego jednak, na jakiego rodzaju reklamę i w jakim czasie dane środki zostały wydane.
19
automatycznie na podstawie wielkich ilości danych przekraczających ludzką pamięć
i możliwości ich analizy przez ludzki mózg. Dużo sprawniej poradzą sobie z nimi maszyny.
20

Podobne dokumenty