instrukcja instalacji i konfiguracji aplikacji websoft site

Transkrypt

instrukcja instalacji i konfiguracji aplikacji websoft site
Lukaszjarosinski.com – producent oprogramowania
INSTRUKCJA INSTALACJI I KONFIGURACJI APLIKACJI
WEBSOFT SITE ANALYZER 2.7.1
Producent:
Lukaszjarosinski.com
Nazwa oprogramowania:
Websoft Site Analyzer 2.7.1
Wersja finalna:
28.02.2013
Kontakt:
[email protected], tel. 508 052 990
INSTALACJA I KONFIGURACJA OPROGRAMOWANIA
1) Należy wgrać wszystkie pliki na serwer do wybranego katalogu/podkatalogu.
2) Należy założyć na serwerze bazę danych oraz ewentualnie użytkownika dla niej (jeżeli jest
to na danym serwerze wymagane) – potrzebne będą takie dane, jak: nazwa hosta bazy
danych (zwykle localhost), nazwa bazy danych, nazwa użytkownika bazy danych oraz jego
hasło. Należy przygotować również tzw. frazę szyfrującą – jest to dowolny ciąg znaków,
który posłuży do szyfrowania haseł (np. 812jeu20k3).
3) Wpisujemy w przeglądarce adres oprogramowania, np. http://www.twojadomena.pl/pkt –
jest to jedynie przykład, a w zależności od serwerów i użytkownika adres ten może się
całkowicie różnić.
4) Wypełniamy formularz danymi z pkt 2. Po zatwierdzeniu danych, przy założeniu, że
wszystkie są poprawne, parser zostaje zainstalowany i wstępnie skonfigurowany do pracy.
5) Usuwamy plik install.php z serwera.
6) Chcąc wejść do panelu administracyjnego, należy wejść na adres z pkt 3 oraz podać dane
dostępowe (domyślnie nazwa użytkownika oraz hasło to „admin” - należy je zmienić po
zalogowaniu się do panelu).
7) Oprogramowanie jest przeznaczone zarówno do pracy ręcznej (ręczne uruchamianie z
panelu administracyjnego, tzw. pobieranie danych na żądanie), jak i automatycznej (sam
pobiera dane i pracuje nawet przy wyłączonym komputerze) – korzysta wtedy z
harmonogramu zadań CRON. Jeżeli chcemy przejść w tryb pracy automatycznej, należy
skonfigurować harmonogram zadań CRON (pkt 7).
Copyright © 2012 - 2013 Lukaszjarosinski.com – producent oprogramowania
Lukaszjarosinski.com – producent oprogramowania
8) Sposób ustawienia harmonogramu zadań CRON jest różny w zależności od serwera i
stosowanego na nim oprogramowania. Aby ustawić parser, należy do CRONa dodać
wykonywanie
plików
http://www.twojadomena.pl/pkt/parserpkt.php
oraz
http://www.twojadomena.pl/pkt/parserzumi.pl. Częstotliwość uruchamiania plików zależy od
serwera, jego mocy itd. - Optymalnym ustawieniem jest uruchamianie skryptów nie
rzadziej, niż co 15 minut. Jeżeli korzystamy z serwerów proxy (wyjaśnienie konfiguracji w
pkt 8) i posiadany serwer ma dużą moc obliczeniową, możemy ustawić większą
częstotliwość uruchamiania CRONa. W większości przypadków do harmonogramu należy
dodać następujące komendy:
GET http://www.twojadomena.pl/parserpkt.php >/dev/null
GET http://www.twojadomena.pl/parserzumi.php >/dev/null
lub
lynx -dump http://www.twojadomena.pl/parserpkt.php
lynx -dump http://www.twojadomena.pl/parserzumi.php
Jeżeli podane powyżej komendy nie działają, należy spróbować innej, np. jednej z
poniższych:
Być może dany serwer nie potrafi obsłużyć komendy podanej powyżej, wtedy można
spróbować innej. Np. jednej z poniższych:
lynx -dump XXXXXXX
/usr/bin/lynx -dump XXXXXXX
wget -q -O /dev/null XXXXXXX
/usr/bin/wget -q -O /dev/null XXXXXXX
/usr/local/bin/php YYYYYYY &>/dev/null
gdzie:
XXXXXXX to adres URL pliku parsera (np. http://www.twojadomena.pl/pkt/parserpkt.php),
YYYYYYY ścieżka dostępu do pliku parsera (ścieżka bezwględna z katalogu root na
serwerze).
UWAGA! Należy pamiętać, żeby dodawać zawsze dwa skryptu do CRONa – jeden
uruchamia parser PKT, drugi zaś parser ZUMI.
Jeśli zadania CRON nadal nie są uruchamiane, to sprawdź, czy w katalogu powyżej
Copyright © 2012 - 2013 Lukaszjarosinski.com – producent oprogramowania
Lukaszjarosinski.com – producent oprogramowania
katalogu, w którym zainstalowany jest Websoft Site Analyzer 2.6.0 nie ma pliku .htaccess,
który blokuje dostęp do plików parsera.
Uruchamianie zadań CRON na serwerach home.pl
Aby ustawić wywoływanie zadań crona na serwerach home.pl należy:
1. Utworzyć plik o nazwie cron-15min.php
2. W pliku tym wpisać kod:
<?php
echo file_get_contents('XXXXXXX');
?>
gdzie
XXXXXXX
to
adres
URL
do
wywołania
parsera
(np.
http://www.twojadomena.pl/pkt/parserpkt.php).
3. Przegrać plik do katalogu GŁÓWNEGO serwera wirtualnego home.pl.
Uruchamiane zadań CRON na serwerach nazwa.pl
Serwery nazwa.pl to jedyne serwery, których nie polecamy, ponieważ można na nich
uruchamiać komendy CRONa jedynie co 1 godzinę. Na większości serwerów zadania
CRONa można uruchamiać nawet co 1 minutę (optymalnie dla naszego skryptu to 15
minut). Jeśli zainstalowaliśmy Websoft Site Analyzer 2.6.0 na serwerze nazwa.pl, to
obejściem powyższego ograniczenia jest wywoływanie zadań CRON z innego serwera.
Wtedy na innym serwerze możemy zdefiniować jako komendę CRONa (tak jak
przedstawiono powyżej).
9) Oprogramowanie ma możliwość pracy automatycznej. Ustawieniem zalecanym jest
uruchamianie parsera co 15 minut. Jeżeli jednak dysponujemy serwerem o dużej mocy (np.
serwer dedykowany) w celu przyspieszenia pracy skryptu i pobierania danych, możemy
zmienić dwa parametry: częstotliwość uruchamiania parsera (pkt 7) oraz liczbę stron
wyników wyszukiwania pobieranych w jednym uruchomieniu (domyślnie 1 strona, w
zależności od serwisu 10, 15 czy 20 firm na stronie).
Aby zmienić liczbę pobieranych stron, należy skorzystać z zakładki Konfiguracja.
UWAGA! Zmieniając ustawienia domyślne należy mieć na uwadze, że serwisy, z których
pobierane są dane nie tolerują pobierania automatycznego i w związku z tym mogą
zablokować adresy IP, które według nich pobierają bardzo duże porcje danych (otwierają
dużo podstron) w krótkim czasie (tzw. nienaturalne pobieranie). Oprogramowanie nasze ma
Copyright © 2012 - 2013 Lukaszjarosinski.com – producent oprogramowania
Lukaszjarosinski.com – producent oprogramowania
możliwość skorzystania z tzw. serwerów pośredniczących (proxy) w celu ukrycia
prawdziwego IP serwera z zainstalowanym oprogramowaniem. Wtedy pobranie dowolnej
podstrony odbywa się przy pomocy IP innego serwera proxy. Jeżeli użytkownik posiada
dostęp do tzw. prywatnych proxy (zwykle płatne serwery proxy zapewniające szybki dostęp
do danych), istnieje możliwość skorzystania z nich.
Aby skonfigurować pobieranie przy użyciu proxy, należy przygotować listę sprawdzonych
serwerów pośredniczących (adres IP + port serwera). W internecie jest dostępnych dużo
bezpłatnych serwerów proxy (zapraszamy na stronę xroxy.com). Taką listę należy wkleić
do systemu korzystając z zakładki Lista proxy według zasady „każdy serwer w osobnym
wierszu”, a następnie w konfiguracji parserów ustawić wartość na 1 („korzystaj z serwerów
proxy”). Oprogramowanie podczas pracy sprawdza, czy dany serwer proxy jest aktywny i
jeżeli tak, używa go do połączenia, jeżeli nie, sprawdza inny serwer itd. Jeżeli wszystko
serwery proxy na liście nie działają, skrypt przestanie działać i ponownie spróbuje
rozpocząć pracę przy następnym uruchomieniu.
Przykładowy wpis w pliku proxy.csv (dla publicznych proxy, ogólnodostępnych):
'187.111.222.222:8080'
Przykładowy wpis w pliku proxy.csv (dla prywatnych proxy, wymagających podania loginu i
hasła):
'187.111.222.222:8080:login:haslo'
Wszystkie proxy można wpisać przy pomocy narzędzia Lista proxy.
WAŻNE! Od początku 2013 roku serwis PKT wprowadził dodatkowe zabezpieczenia
polegające na blokowaniu adresu IP już po kilkudziesięciu pobranych firmach. Bardzo
ważne jest korzystanie tutaj z serwerów pośredniczących proxy – bez tego aplikacja może
nie działać poprawnie!
UŻYWANIE WEBSOFT SITE ANALYZER 2.7.1
Po zalogowaniu do panelu administracyjnego parsera użytkownik ma do dyspozycji kilka zakładek.
Poniżej zostanie omówiona każda z nich.
Dodaj zadanie dla parsera – działanie oprogramowania opiera się na zadaniach, czyli jakby
komendach, które parser ma wykonać (a raczej na frazach, według których parser ma pobierać
firmy). Aby dodać zadanie, należy podać jedynie frazę kluczową (jeżeli interesuje nas spis np.
adwokatów, jako frazę kluczową wpisujemy adwokaci) oraz wybrać, której strony parser ma
pobierać wyniki. Oprogramowanie całą resztą wykona za nas, nasza praca ograniczy się jedynie
Copyright © 2012 - 2013 Lukaszjarosinski.com – producent oprogramowania
Lukaszjarosinski.com – producent oprogramowania
do ściągnięcia gotowej bazy danych.
Można dodać nieograniczoną liczbę zadań dla parsera – będą one przetwarzane po kolei (po
zakończeniu jednego uruchomi się drugie). Zadania już przetworzone zostaną automatycznie
usunięte z listy.
Edytuj zadanie dla parsera – jeżeli z jakiś powodów chcielibyśmy usunąć przetwarzanie danych
lub np. zmienić stronę, na jakiej będzie przeprowadzane wyszukiwanie danych, należy skorzystać
właśnie z tej zakładki.
Pobierz listę adresatów w formacie CSV – po kliknięciu zakładki będziemy mogli pobrać listę
adresatów już pobranych. Format CSV jest formatem „uniwersalnym”, obsługiwanym zarówno
przez edytory tekstowe (nawet Notatnik), jak i przez arkusze kalkulacyjne (np. Excel, OpenOffice
Calc) – najwygodniej je jednak otwierać właśnie w arkuszach kalkulacyjnych. Aby poprawnie
zaimportować plik np. do Excela, należy w programie Excel ustawić kodowanie na UTF-8,
rozdzielanie pól średnikami i separator tekstu jako cudzysłów (domyślne ustawienia Excela).
Pobrany plik będzie zawierał kilka kolumn z możliwością ich dowolnego sortowania: nazwa firmy,
adres fizyczny, telefon(y), e-mail, strona www, fraza kluczowa po której firma została znaleziona,
adres wpisu w portalu, data pobrania danych firmy. Pobrana baza nie będzie zawierać powtórzeń
(np. jedna firma ma wpis w kilku województwach czy w kilku branżach) – oprogramowanie zawiera
dwustopniowy system filtrowania danych, który usuwa dane powtórzone już podczas
pobierania. Pobranie pliku nie oznacza, że baza znika z serwera jest ona tam nadal i możemy
pobrać ją nawet za rok (baza jest czyszczona dopiero po kliknięciu poniższego przycisku).
Wyczyść bazę firm – przycisk pozwalający na czyszczenie pobranej bazy. Np. jeżeli pobraliśmy
bazę adwokatów, możemy ściągnąć ją na dysk, a następnie usunąć przy pomocy tej funkcji z
serwera. Tej operacji nie można cofnąć!
Zarządzanie użytkownikami – jeżeli z oprogramowania korzysta kilku użytkowników, każdy z nich
może posiadać osobny login i hasło do panelu. Zarządzanie użytkownikami (edycja, usuwanie)
odbywa się przy pomocy tej zakładki.
Dodaj użytkownika – jak powyżej, ale obejmuje jedynie dodawanie użytkowników panelu.
Uruchom parser ręcznie – jak zostało wyżej wspomniane, parser ma możliwość pracy
automatycznej (harmonogram zadań CRON) oraz ręcznej. Ręczna praca polega na samodzielnym
klikaniu przycisku w panelu – po kliknięciu następuje uruchomienie parsera i pobranie określonej
porcji danych (pkt 8 – Instalacja i konfiguracja oprogramowania).
Licencja na oprogramowanie – treść licencji na wykorzystywane oprogramowanie.
Copyright © 2012 - 2013 Lukaszjarosinski.com – producent oprogramowania
Lukaszjarosinski.com – producent oprogramowania
Konfiguracja parserów – możliwość szybkiej konfiguracji podstawowych parametrów pracy
parsera, takich jak korzystanie z serwerów pośredniczących proxy (tak lub nie), liczba stron
wyników wyszukiwania firm przetwarzanych w jednym żądaniu oraz zaawansowane wyszukiwanie
e-maili, czyli automatyczne łączenie się ze stroną www firmy w celu pobrania jej adresu e-mail,
jeżeli nie ma go w katalogu firm (tak lub nie).
Lista proxy – umożliwia wpisanie nieograniczonej liczby serwerów pośredniczących proxy, z której
parser będzie korzystał podczas pobierania danych.
Na stronie głównej panelu (bezpośrednio po zalogowaniu) znajdują się dane kontaktowe
pozwalające na zgłoszenie problemów z parserem. Znajduje się tam również link do poniższej
instrukcji. UWAGA! Do każdego zgłoszenia problemów z parserem, należy dołączyć zawartość
pliku licencja.php zainstalowanego na serwerze – zgłoszenia bez tego pliku nie będą brane pod
uwagę.
Copyright © 2012 - 2013 Lukaszjarosinski.com – producent oprogramowania

Podobne dokumenty