Michał STATKIEWICZ

Transkrypt

Michał STATKIEWICZ
MICHAŁ STATKIEWICZ
[email protected]
Wydział Elektroniki i Informatyki
Politechnika Koszalińska
NARZĘDZIA GRUPOWEJ OCENY JAKOŚCI
TREŚCI CYFROWYCH
Streszczenie: Badania przeprowadzane w wielu krajach wskazują, że istnieje
problem w funkcjonowaniu społeczeństwa informacyjnego, związany z nadmiarem niepewnych i zróżnicowanych źródeł informacji. Rozwijane są kolejne,
wielkoskalowe projekty służące rozwiązaniu tego problemu, m.in. zaawansowane wyszukiwarki oraz systemy bazujące na sztucznej inteligencji. Autor referatu przeanalizował wybrane rozwiązania bazujące na udziale dużych grup
użytkowników w ocenie treści cyfrowych. Rozwiązaniami tymi są oznaczanie
i punktowanie treści, dokonywane zróżnicowanej grupie portali o charakterze
społecznościowym. W referacie przedstawione są wnioski z dokonanej analizy.
Słowa kluczowe: Internet, Web 2.0, blog, portal społecznościowy
1. Wprowadzenie
Technologie informatyczne, odkąd pojawiły się, jako produkt komercyjny
w drugiej połowie dwudziestego wieku, rozwijają się stale, w szybkim tempie.
Równocześnie, dzięki dostępowi do nich, możliwe jest tworzenie, rejestrowanie
oraz gromadzenie coraz większych ilości danych w postaci cyfrowej (treści
cyfrowych, kontentu). Można stwierdzić, że w krajach rozwiniętych dostęp do
urządzeń i treści cyfrowych jest z roku na rok łatwiejszy, tańszy i szybszy, co
w pewnym ogólnym sensie dobrze odzwierciedla prawo Moora . Statystyki
pokazują, że obecnie w ciągu minuty generowane jest 30 godzin nowych filmów w serwisie Youtube, wysyłane są 204 miliony wiadomości, a łączna ilość
przesyłanych danych to 639800 GB. Te treści, które są dostępne, wytworzone
są w różnych językach, wielokrotnie zdublowane i przetwarzane. Jednak nawet,
gdy uwzględnimy, że użytkownik może odrzucić treści zdublowane i we
116
Michał Statkiewicz
wszystkich językach poza natywnym, pozostaje mu olbrzymia ilość informacji
do przeszukania, aby znalazł to, czego potrzebuje.
Problem wyszukiwania pożądanych treści w sieci jest, więc istotny, co potwierdzone jest po pierwsze ciągłym rozwojem algorytmów wyszukiwarek, po
drugie próbami ręcznego (dokonywanego przez wybranych użytkowników)
segregowania treści, pod względem, jakości oraz tematyki. Rozwiązanie pierwsze często nie daje zadowalających rezultatów, głównie z następujących przyczyn:
 skuteczne wyszukiwanie informacji za pomocą wyszukiwarek wymaga
umiejętności formułowania odpowiednio precyzyjnych zapytań, przy jednoczesnej znajomości logiki działania danej wyszukiwarki,
 większość użytkowników, jak pokazują statystyki , korzysta z wyszukiwarek w sposób bardzo podstawowy, mimo dostępnych na ogół informacji
o sposobie działania tych wyszukiwarek,
 zauważalny jest „wyścig” między dokładnością algorytmów sortujących
wyniki wyszukiwania, a użytkownikami zajmującymi się pozycjonowaniem stron (wypychaniem ich w górę listy wyników wyszukiwania), najczęściej w celach marketingowych, co zmniejsza trafność wyświetlanych
wyników,
 ostatnią przyczyną jest brak możliwości (na chwilę obecną) rozróżniania
przez wyszukiwarki, nawet przy odpowiednio szczegółowo sformułowanym zapytaniu, treści dobrej jakości od treści jakości gorszej (przygotowanej niestarannie, zmodyfikowanej, nieaktualnej bądź po prostu fałszywej),
a przez to nie spełniającej wymagań użytkownika.
Powyższe przyczyny sprawiają, że skuteczny dostęp do pożądanych treści
w internecie za pomocą wyszukiwarek, mimo bycia najpopularniejszym sposobem, wymaga rozwinięcia odpowiednich umiejętności oraz nierzadko poświęcenia zauważalnego czasu na znalezienie tych treści – wymaga bycia "użytkownikiem zaawansowanym”. Rozwiązanie drugie, czyli świadome
katalogowanie treści przez wybraną grupę doświadczonych użytkowników,
przestaje być popularne oraz efektywne wraz ze wzrostem ilości dostępnych
treści.
Treści, których użytkownicy szukają, mają różne zastosowania. Jeśli są to
treści rozrywkowe (typu film, muzyka czy opowiadanie), to trafienie na egzemplarz gorszej (pod różnymi względami) jakości oznacza najczęściej „tylko”
mniejszą satysfakcję użytkownika, co z komercyjnego punktu widzenia może
prowadzić do strat. Jednak wiele treści, umieszczanych np. na forach internetowych albo blogach, ma zastosowanie praktyczne (dotyczy np. przepisu kulinarnego, rozliczania podatków czy naprawy samochodu). W tej drugiej sytuacji,
Narzedzia grupowej oceny jakości treści cyfrowych
117
trafienie na treść gorszej jakości oznaczać może (jeśli nie uda się informacji
zweryfikować w innych źródłach) niemożność rozwiązania problemu, różnego
rodzaju szkody lub nawet zagrożenie dla użytkownika. Ponieważ, jak wspomniano wcześniej, algorytmy wyszukiwarek nie radzą sobie jeszcze z rozróżnianiem treści różnej jakości, a ograniczona grupa użytkowników (nawet doświadczonych specjalistów) nie radzi sobie z dużą ilością treści, potrzebne jest
inne rozwiązanie.
2. Mechanizmy grupowej oceny treści
W procesie segregowania treści wymagana jest obecność użytkowników – jako
świadomych odbiorców treści zainteresowanych daną tematyką, najlepiej
w ilości proporcjonalnej do generowanych treści (zapewni to jednocześnie
i skuteczność i wydajność procesu). Wymagany jest też przejrzysty sposób wartościowania i oznakowania treści, zrozumiały dla wszystkich uczestników tego
procesu. Jednocześnie cały proces oceniania i segregowania treści powinien być
zrealizowany w taki sposób, aby użytkowników mocno nie obciążać, aby selekcja dokonywana była niejako przy okazji i przy możliwie małym wysiłku. Więc
jeśli powstanie odpowiednio liczna grupa użytkowników zainteresowanych
daną dziedziną bądź tematyką, aktywnie i świadomie oceniająca dostępne treści, proces segregowania tych treści powinien stać się skuteczny.
Treści, których użytkownicy szukają, mogą być na stronach internetowych
zapisane w różnej postaci (tekst, grafika, wideo, dźwięk, aplikacje) oraz zgromadzone są w różnych strukturach (umieszczone na różnych typach stron internetowych), m.in.:
 proste strony statyczne (najczęściej prywatne),
 rozbudowane strony firm, organizacji, agencji informacyjnych itd., zarządzane przez oprogramowanie CMS (ang. content management system, system zarządzania treścią),
 fora internetowe, specjalizowane i ogólne,
 platformy blogowe (np. Wordpress.com),
 portale społecznościowe (np. Facebook, Youtube, Wykop),
 agregatory plików, najczęściej multimedialnych (np. Wrzuta, Chomikuj),
 sklepy internetowe, portale aukcyjne, porównywarki cen i agregatory opinii (np. Allegro, e-Bay).
118
Michał Statkiewicz
Portale społecznościowe, platformy blogowe oraz fora internetowe tworzą
specyficzną grupę, główną cechą której jest duża liczba aktywnych użytkowników tworzących (od podstaw lub modyfikując) bądź dodających (z zewnętrznych źródeł) większą część dostępnych treści. Ta cecha pozwala łatwo zrealizować jednocześnie mechanizm grupowej oceny treści.
Rozwiązania pozwalające na ocenę treści stały się popularne w latach 20002004, bazując na koncepcji Web 2.0 . Na szerszą skalę rozwiązanie takie zastosowane zostało w amerykańskim serwisie społecznościowym Digg (oraz jego
pochodnych, np. polski Wykop). Ponieważ strony internetowe tego typu mają
model biznesowy oparty głównie o transfer danych generowany przez użytkowników, wprowadzone rozwiązanie służące segregowaniu (rankingowaniu)
dodawanych treści („znalezisk”, głównie treści zewnętrznych) miało przede
wszystkim zachęcać użytkowników do korzystania ze strony. Oznacza to, że
przy projektowaniu tych funkcjonalności nacisk położony był na atrakcyjność
i prostotę obsługi procesu oceniania treści.
3. Sposoby oznaczania treści
Treści cyfrowe, przechowywane w plikach różnych typów na serwerach i przesyłane do użytkowników, można opisywać i oznaczać na kilka sposobów.
Technicznie, większość typów plików multimedialnych pozwala na dołączanie
tzw. metadanych (czyli danych dodatkowych) do treści podstawowej (jak dane
EXIF przy zdjęciach cyfrowych, opisujące parametry i okoliczności wykonania
zdjęcia). Drugim technicznym rozwiązaniem jest powiązanie plików (lub rekordów) przechowywanych w jakiegoś rodzaju repozytorium na serwerze z innymi
danymi (opisowymi) przechowywanymi w dedykowanej tabeli. Drugie rozwiązanie jest bardziej uniwersalne, ponieważ pozwala dodać dowolną strukturę
opisową do każdego rodzaju treści, w pierwszym rozwiązaniu istnieją ograniczenia wynikające z definicji formatów plików.
Od strony merytorycznej, można wyróżnić kilka rozpowszechnionych metod opisu treści, umożliwiających podział w zależności od jakości i trafności
(spełnienia wymagań użytkownika):
 oznaczanie (dodawanie znaczników, ang. tag, oznaczanie za pomocą słów
kluczowych), pozwala w sposób czytelny dla użytkowników opisać dane treści, znaczniki mogą stanowić zbiór zamknięty lub otwarty, każda treść może
mieć wiele znaczników, np. „naprawa”, „elektryka”, „łatwe”, „sprawdzone”,
Narzedzia grupowej oceny jakości treści cyfrowych
119
 punktowanie (modyfikowanie przez wielu użytkowników jednej bądź wielu wartości numerycznych przypisanych do treści) w ustalonej skali, najczęściej całkowitej, opisującej pożądaną cechę (trafność).
Oznaczanie co prawda ułatwia znacząco wyszukiwanie i filtrowanie treści,
ale nie zapewnia mechanizmu grupowej oceny przez użytkowników (np. znacznik „sprawdzone” może do artykułu „Naprawa lamp w Toyota Corolla” być
przypisany tylko raz, kolejne dodania tego znacznika przez kolejnych użytkowników nie będą przez system zliczane). Dodatkowo, przy rozbudowanym zbiorze znaczników, otwartym do modyfikacji dla użytkowników, może łatwo dojść
do powstania bałaganu w warstwie opisowej treści.
Punktowanie treści może zachodzić wielokrotnie dla każdej jej porcji (np.
wiadomości, klipu wideo czy grafiki), przy czym od każdego z użytkowników
najczęściej tylko jeden raz. Realizowane są najczęściej dwie formy zliczania
punktów:
1. Sumowanie punktów. Stosowane zwykle, gdy użytkownicy mają możliwość punktowania (głosowania) stałą wartością: 1 lub parą wartości: 1 i 1. Punkty od wszystkich użytkowników są zliczane i prezentowane
w pobliżu treści w postaci samej sumy lub proporcji sumy (często samych punktów dodatnich) do liczby wszystkich oddanych głosów.
2. Obliczanie średniej z punktów. Metoda stosowana w sytuacji, gdy dostępna jest wielowartościowa skala punktowania (zwykle oceniania
produktu). Dostępne dla użytkownika wartości najczęściej są liczbami
naturalnymi. Wynik punktowania przedstawiany jest zazwyczaj w postaci nie przetworzonej wartości średniej, stosunku średniej do maksymalnej wartości na skali (procentowo) oraz w postaci graficznej (suwaka, )
Przypisane do danej treści punkty są zwykle wykorzystywane jako dodatkowa informacja, świadcząca o jakości (trafności, dopasowaniu do tematyki) tej
treści. Na części portali, będących zwykle jakiegoś rodzaju agregatorami treści
(jak Digg, Wykop czy Google+), punkty te są też wykorzystywane do sortowania treści. Treści z dużą punktacją wyświetlane są jako pierwsze, a treści z liczbą punktów poniżej pewnego założonego progu mogą być domyślnie ukrywane
(lub dostępne na części strony o niższym priorytecie dostępu).
120
Michał Statkiewicz
4. Przykład serwisu umożliwiającego grupową ocenę
treści: Wykop.pl
Serwis Wykop.pl powstał w 2005 roku, w 2012 roku został przejęty przez grupę
Allegro. Jest to serwis z grupy społecznościowych agregatorów wiadomości.
W 2012 roku serwis miał ponad 140 tysięcy aktywnych użytkowników (dodających treści) i około 680 tysięcy istniejących treści (wpisów w bazie danych).
Idea serwisu bazuje na procesie dodawania przez zarejestrowanych użytkowników „znalezisk” - czyli ciekawych informacji, stron internetowych bądź
(rzadziej) generowania autorskich treści. Dodane znaleziska tworzą listę, na
której kolejność ustalana jest w zależności od ilości głosów (dodatnich - „wykop” i ujemnych „zakop”) oddanych na te znaleziska przez zainteresowanych
użytkowników. Lista znalezisk podzielona jest na dwie części: „główna (strona)” oraz „wykopalisko”, w drugiej części znajdują się treści, które nie uzyskały
wystarczającej liczby punktów od momentu dodania, albo uzyskały zbyt dużo
punktów negatywnych (zakopów).
Oprócz punktowania treści, serwis pozwala również na ich oznaczanie. Lista znaczników jest otwarta i nieuporządkowana w jakiegokolwiek rodzaju
strukturę, każdy znacznik rozpoczyna się znakiem #. Przykładowe znaczniki to
„#rozrywka”, „#polityka”, „#muzyka”, „#iphone”. Znaczniki nie służą na ogół
ocenie jakości treści (chociaż mogą nazwą sugerować treść lepszej lub gorszej
jakości), ale ułatwiają wyszukiwanie. Każde znalezisko może być dodatkowo
komentowane przez zainteresowanych użytkowników. Komentarze tworzą
zwykle wątek dyskusyjny, na podobnych zasadach jak ma to miejsce na forach
internetowych (m.in. mogą być zagnieżdżone oraz niezależnie od znaleziska
punktowane).
Rys. 1. Częstość zapytań o hasło „wykop” (2007-2013)
Narzedzia grupowej oceny jakości treści cyfrowych
121
Dokładny algorytm sortowania znalezisk w serwisie Wykop.pl nie został
przez właścicieli opublikowany. Wiadomo, że część pozycji na liście znalezisk
zawiera wykupione reklamy – w tym przypadku pozycja na liście nie wynika
wyłącznie z ilości głosów pozytywnych i negatywnych oddanych na znalezisko.
Ponadto algorytm sortujący znaleziska uwzględnia rangę użytkownika, oznaczaną w serwisie kolorem (od najbardziej znaczących: bordowy, pomarańczowy, zielony, szary).
Rysunek 1 pokazuje względne zainteresowanie hasłem „wykop”, w latach
2007-2014, zarejestrowane przez narządzie Google Trends.
5. Podsumowanie
Opisane w referacie sposoby oceny treści cyfrowych są popularne ze względu
na swoją dostępność i prostotę używania. Wielu użytkowników jest skłonnych
oceniać treści pod kątem subiektywnie postrzeganej jakości, jeśli nie wymaga to
złożonych działań, np. wypełniania długiej ankiety. W opisywanym powyżej
serwisie Wykop.pl, podobnie jak w większości istniejących obecnie portali
społecznościowych, ocena sprowadza się zwykle do pojedynczego kliknięcia
w odpowiedni przycisk, odpowiadający głosowi dodatniemu lub ujemnemu
(aczkolwiek przy ujemnym głosie należy wskazać jeszcze kategorię „niedopasowania” treści). Jeśli użytkownik potrzebuje uzasadnić swoją ocenę lub wyrazić opinię na temat „znaleziska”, ma taką możliwość dodając komentarz.
Można zaobserwować, że jest to jednak proces wrażliwy na określone zjawiska społeczne, takie jak trendy, rozłamy czy mody. W przypadku stron ogólnotematycznych ocena treści odzwierciedlać może po prostu wybrane trendy
społeczne, ale dla stron ukierunkowanych, wyspecjalizowanych powinna pozwolić na wykrycie, zweryfikowanie i oznaczenie treści odpowiednio lepszej
i gorszej jakości. W przypadku serwisu Wykop.pl zauważalne są okazjonalnie
grupowe oceny treści zakłócone przez preferencje polityczne bądź skorelowane
w czasie z różnymi wydarzeniami.
Jednak dla treści dydaktycznych, naukowych czy praktycznych oceny grupowe działają dość dobrze. Zwykle w odpowiednio licznej grupie użytkowników znajduje się pewna liczba osób obeznanych z danym tematem na tyle, aby
wyłapać podstawowe błędy w zamieszczanych materiałach, jeśli istnieją. Odpowiednia funkcjonalność pozwala dodawać treści powiązanie tematycznie
z danym „znaleziskiem” oraz także je punktować. Społeczność serwisu Wykop.pl wprowadziła ponadto zwyczaj „weryfikowania” ekspertów w danej
Michał Statkiewicz
122
dziedzinie, jeśli się w danym znalezisku wypowiadają. Jeśli uwzględnimy
znaczną liczbę użytkowników, rosnącą popularność serwisu oraz możliwość
znalezienia błędów w treściach (a przez to eliminację lub korektę treści gorszej
jakości), rozwiązania w rodzaju Wykop.pl wydają się skuteczne w ocenie jakości treści cyfrowych oraz pożyteczne społecznie.
Literatura
1.
2.
3.
4.
5.
6.
Liddle, David E.. "The Wider Impact of Moore's Law". Solid State Circuits
Newsletter, 2006.
Opracowanie firmy Intel z 2012.05,
http://www.intel.com/content/www/us/en/communications/internet-minuteinfographic.html.
Segev, El, Google and the Digital Divide: The Biases of Online Knowledge, Oxford: Chandos Publishing 2010.
PewResearch, badanie z 2012.02,
http://www.pewinternet.org/2012/03/09/search-engine-use-2012/.
Kietzmann, J.H., Canhoto, A. (2013). "Bittersweet! Understanding and
Managing Electronic Word of Mouth" (PDF). Journal of Public Affairs 13
(2): 146–159
Papacharissi, Zizi (2007). The Virtual Sphere 2.0: The Internet, the Public
Sphere, and Beyond.

Podobne dokumenty