instrukcja instalacji i konfiguracji aplikacji websoft site
Transkrypt
instrukcja instalacji i konfiguracji aplikacji websoft site
Lukaszjarosinski.com – producent oprogramowania INSTRUKCJA INSTALACJI I KONFIGURACJI APLIKACJI WEBSOFT SITE ANALYZER 2.7.1 Producent: Lukaszjarosinski.com Nazwa oprogramowania: Websoft Site Analyzer 2.7.1 Wersja finalna: 28.02.2013 Kontakt: [email protected], tel. 508 052 990 INSTALACJA I KONFIGURACJA OPROGRAMOWANIA 1) Należy wgrać wszystkie pliki na serwer do wybranego katalogu/podkatalogu. 2) Należy założyć na serwerze bazę danych oraz ewentualnie użytkownika dla niej (jeżeli jest to na danym serwerze wymagane) – potrzebne będą takie dane, jak: nazwa hosta bazy danych (zwykle localhost), nazwa bazy danych, nazwa użytkownika bazy danych oraz jego hasło. Należy przygotować również tzw. frazę szyfrującą – jest to dowolny ciąg znaków, który posłuży do szyfrowania haseł (np. 812jeu20k3). 3) Wpisujemy w przeglądarce adres oprogramowania, np. http://www.twojadomena.pl/pkt – jest to jedynie przykład, a w zależności od serwerów i użytkownika adres ten może się całkowicie różnić. 4) Wypełniamy formularz danymi z pkt 2. Po zatwierdzeniu danych, przy założeniu, że wszystkie są poprawne, parser zostaje zainstalowany i wstępnie skonfigurowany do pracy. 5) Usuwamy plik install.php z serwera. 6) Chcąc wejść do panelu administracyjnego, należy wejść na adres z pkt 3 oraz podać dane dostępowe (domyślnie nazwa użytkownika oraz hasło to „admin” - należy je zmienić po zalogowaniu się do panelu). 7) Oprogramowanie jest przeznaczone zarówno do pracy ręcznej (ręczne uruchamianie z panelu administracyjnego, tzw. pobieranie danych na żądanie), jak i automatycznej (sam pobiera dane i pracuje nawet przy wyłączonym komputerze) – korzysta wtedy z harmonogramu zadań CRON. Jeżeli chcemy przejść w tryb pracy automatycznej, należy skonfigurować harmonogram zadań CRON (pkt 7). Copyright © 2012 - 2013 Lukaszjarosinski.com – producent oprogramowania Lukaszjarosinski.com – producent oprogramowania 8) Sposób ustawienia harmonogramu zadań CRON jest różny w zależności od serwera i stosowanego na nim oprogramowania. Aby ustawić parser, należy do CRONa dodać wykonywanie plików http://www.twojadomena.pl/pkt/parserpkt.php oraz http://www.twojadomena.pl/pkt/parserzumi.pl. Częstotliwość uruchamiania plików zależy od serwera, jego mocy itd. - Optymalnym ustawieniem jest uruchamianie skryptów nie rzadziej, niż co 15 minut. Jeżeli korzystamy z serwerów proxy (wyjaśnienie konfiguracji w pkt 8) i posiadany serwer ma dużą moc obliczeniową, możemy ustawić większą częstotliwość uruchamiania CRONa. W większości przypadków do harmonogramu należy dodać następujące komendy: GET http://www.twojadomena.pl/parserpkt.php >/dev/null GET http://www.twojadomena.pl/parserzumi.php >/dev/null lub lynx -dump http://www.twojadomena.pl/parserpkt.php lynx -dump http://www.twojadomena.pl/parserzumi.php Jeżeli podane powyżej komendy nie działają, należy spróbować innej, np. jednej z poniższych: Być może dany serwer nie potrafi obsłużyć komendy podanej powyżej, wtedy można spróbować innej. Np. jednej z poniższych: lynx -dump XXXXXXX /usr/bin/lynx -dump XXXXXXX wget -q -O /dev/null XXXXXXX /usr/bin/wget -q -O /dev/null XXXXXXX /usr/local/bin/php YYYYYYY &>/dev/null gdzie: XXXXXXX to adres URL pliku parsera (np. http://www.twojadomena.pl/pkt/parserpkt.php), YYYYYYY ścieżka dostępu do pliku parsera (ścieżka bezwględna z katalogu root na serwerze). UWAGA! Należy pamiętać, żeby dodawać zawsze dwa skryptu do CRONa – jeden uruchamia parser PKT, drugi zaś parser ZUMI. Jeśli zadania CRON nadal nie są uruchamiane, to sprawdź, czy w katalogu powyżej Copyright © 2012 - 2013 Lukaszjarosinski.com – producent oprogramowania Lukaszjarosinski.com – producent oprogramowania katalogu, w którym zainstalowany jest Websoft Site Analyzer 2.6.0 nie ma pliku .htaccess, który blokuje dostęp do plików parsera. Uruchamianie zadań CRON na serwerach home.pl Aby ustawić wywoływanie zadań crona na serwerach home.pl należy: 1. Utworzyć plik o nazwie cron-15min.php 2. W pliku tym wpisać kod: <?php echo file_get_contents('XXXXXXX'); ?> gdzie XXXXXXX to adres URL do wywołania parsera (np. http://www.twojadomena.pl/pkt/parserpkt.php). 3. Przegrać plik do katalogu GŁÓWNEGO serwera wirtualnego home.pl. Uruchamiane zadań CRON na serwerach nazwa.pl Serwery nazwa.pl to jedyne serwery, których nie polecamy, ponieważ można na nich uruchamiać komendy CRONa jedynie co 1 godzinę. Na większości serwerów zadania CRONa można uruchamiać nawet co 1 minutę (optymalnie dla naszego skryptu to 15 minut). Jeśli zainstalowaliśmy Websoft Site Analyzer 2.6.0 na serwerze nazwa.pl, to obejściem powyższego ograniczenia jest wywoływanie zadań CRON z innego serwera. Wtedy na innym serwerze możemy zdefiniować jako komendę CRONa (tak jak przedstawiono powyżej). 9) Oprogramowanie ma możliwość pracy automatycznej. Ustawieniem zalecanym jest uruchamianie parsera co 15 minut. Jeżeli jednak dysponujemy serwerem o dużej mocy (np. serwer dedykowany) w celu przyspieszenia pracy skryptu i pobierania danych, możemy zmienić dwa parametry: częstotliwość uruchamiania parsera (pkt 7) oraz liczbę stron wyników wyszukiwania pobieranych w jednym uruchomieniu (domyślnie 1 strona, w zależności od serwisu 10, 15 czy 20 firm na stronie). Aby zmienić liczbę pobieranych stron, należy skorzystać z zakładki Konfiguracja. UWAGA! Zmieniając ustawienia domyślne należy mieć na uwadze, że serwisy, z których pobierane są dane nie tolerują pobierania automatycznego i w związku z tym mogą zablokować adresy IP, które według nich pobierają bardzo duże porcje danych (otwierają dużo podstron) w krótkim czasie (tzw. nienaturalne pobieranie). Oprogramowanie nasze ma Copyright © 2012 - 2013 Lukaszjarosinski.com – producent oprogramowania Lukaszjarosinski.com – producent oprogramowania możliwość skorzystania z tzw. serwerów pośredniczących (proxy) w celu ukrycia prawdziwego IP serwera z zainstalowanym oprogramowaniem. Wtedy pobranie dowolnej podstrony odbywa się przy pomocy IP innego serwera proxy. Jeżeli użytkownik posiada dostęp do tzw. prywatnych proxy (zwykle płatne serwery proxy zapewniające szybki dostęp do danych), istnieje możliwość skorzystania z nich. Aby skonfigurować pobieranie przy użyciu proxy, należy przygotować listę sprawdzonych serwerów pośredniczących (adres IP + port serwera). W internecie jest dostępnych dużo bezpłatnych serwerów proxy (zapraszamy na stronę xroxy.com). Taką listę należy wkleić do systemu korzystając z zakładki Lista proxy według zasady „każdy serwer w osobnym wierszu”, a następnie w konfiguracji parserów ustawić wartość na 1 („korzystaj z serwerów proxy”). Oprogramowanie podczas pracy sprawdza, czy dany serwer proxy jest aktywny i jeżeli tak, używa go do połączenia, jeżeli nie, sprawdza inny serwer itd. Jeżeli wszystko serwery proxy na liście nie działają, skrypt przestanie działać i ponownie spróbuje rozpocząć pracę przy następnym uruchomieniu. Przykładowy wpis w pliku proxy.csv (dla publicznych proxy, ogólnodostępnych): '187.111.222.222:8080' Przykładowy wpis w pliku proxy.csv (dla prywatnych proxy, wymagających podania loginu i hasła): '187.111.222.222:8080:login:haslo' Wszystkie proxy można wpisać przy pomocy narzędzia Lista proxy. WAŻNE! Od początku 2013 roku serwis PKT wprowadził dodatkowe zabezpieczenia polegające na blokowaniu adresu IP już po kilkudziesięciu pobranych firmach. Bardzo ważne jest korzystanie tutaj z serwerów pośredniczących proxy – bez tego aplikacja może nie działać poprawnie! UŻYWANIE WEBSOFT SITE ANALYZER 2.7.1 Po zalogowaniu do panelu administracyjnego parsera użytkownik ma do dyspozycji kilka zakładek. Poniżej zostanie omówiona każda z nich. Dodaj zadanie dla parsera – działanie oprogramowania opiera się na zadaniach, czyli jakby komendach, które parser ma wykonać (a raczej na frazach, według których parser ma pobierać firmy). Aby dodać zadanie, należy podać jedynie frazę kluczową (jeżeli interesuje nas spis np. adwokatów, jako frazę kluczową wpisujemy adwokaci) oraz wybrać, której strony parser ma pobierać wyniki. Oprogramowanie całą resztą wykona za nas, nasza praca ograniczy się jedynie Copyright © 2012 - 2013 Lukaszjarosinski.com – producent oprogramowania Lukaszjarosinski.com – producent oprogramowania do ściągnięcia gotowej bazy danych. Można dodać nieograniczoną liczbę zadań dla parsera – będą one przetwarzane po kolei (po zakończeniu jednego uruchomi się drugie). Zadania już przetworzone zostaną automatycznie usunięte z listy. Edytuj zadanie dla parsera – jeżeli z jakiś powodów chcielibyśmy usunąć przetwarzanie danych lub np. zmienić stronę, na jakiej będzie przeprowadzane wyszukiwanie danych, należy skorzystać właśnie z tej zakładki. Pobierz listę adresatów w formacie CSV – po kliknięciu zakładki będziemy mogli pobrać listę adresatów już pobranych. Format CSV jest formatem „uniwersalnym”, obsługiwanym zarówno przez edytory tekstowe (nawet Notatnik), jak i przez arkusze kalkulacyjne (np. Excel, OpenOffice Calc) – najwygodniej je jednak otwierać właśnie w arkuszach kalkulacyjnych. Aby poprawnie zaimportować plik np. do Excela, należy w programie Excel ustawić kodowanie na UTF-8, rozdzielanie pól średnikami i separator tekstu jako cudzysłów (domyślne ustawienia Excela). Pobrany plik będzie zawierał kilka kolumn z możliwością ich dowolnego sortowania: nazwa firmy, adres fizyczny, telefon(y), e-mail, strona www, fraza kluczowa po której firma została znaleziona, adres wpisu w portalu, data pobrania danych firmy. Pobrana baza nie będzie zawierać powtórzeń (np. jedna firma ma wpis w kilku województwach czy w kilku branżach) – oprogramowanie zawiera dwustopniowy system filtrowania danych, który usuwa dane powtórzone już podczas pobierania. Pobranie pliku nie oznacza, że baza znika z serwera jest ona tam nadal i możemy pobrać ją nawet za rok (baza jest czyszczona dopiero po kliknięciu poniższego przycisku). Wyczyść bazę firm – przycisk pozwalający na czyszczenie pobranej bazy. Np. jeżeli pobraliśmy bazę adwokatów, możemy ściągnąć ją na dysk, a następnie usunąć przy pomocy tej funkcji z serwera. Tej operacji nie można cofnąć! Zarządzanie użytkownikami – jeżeli z oprogramowania korzysta kilku użytkowników, każdy z nich może posiadać osobny login i hasło do panelu. Zarządzanie użytkownikami (edycja, usuwanie) odbywa się przy pomocy tej zakładki. Dodaj użytkownika – jak powyżej, ale obejmuje jedynie dodawanie użytkowników panelu. Uruchom parser ręcznie – jak zostało wyżej wspomniane, parser ma możliwość pracy automatycznej (harmonogram zadań CRON) oraz ręcznej. Ręczna praca polega na samodzielnym klikaniu przycisku w panelu – po kliknięciu następuje uruchomienie parsera i pobranie określonej porcji danych (pkt 8 – Instalacja i konfiguracja oprogramowania). Licencja na oprogramowanie – treść licencji na wykorzystywane oprogramowanie. Copyright © 2012 - 2013 Lukaszjarosinski.com – producent oprogramowania Lukaszjarosinski.com – producent oprogramowania Konfiguracja parserów – możliwość szybkiej konfiguracji podstawowych parametrów pracy parsera, takich jak korzystanie z serwerów pośredniczących proxy (tak lub nie), liczba stron wyników wyszukiwania firm przetwarzanych w jednym żądaniu oraz zaawansowane wyszukiwanie e-maili, czyli automatyczne łączenie się ze stroną www firmy w celu pobrania jej adresu e-mail, jeżeli nie ma go w katalogu firm (tak lub nie). Lista proxy – umożliwia wpisanie nieograniczonej liczby serwerów pośredniczących proxy, z której parser będzie korzystał podczas pobierania danych. Na stronie głównej panelu (bezpośrednio po zalogowaniu) znajdują się dane kontaktowe pozwalające na zgłoszenie problemów z parserem. Znajduje się tam również link do poniższej instrukcji. UWAGA! Do każdego zgłoszenia problemów z parserem, należy dołączyć zawartość pliku licencja.php zainstalowanego na serwerze – zgłoszenia bez tego pliku nie będą brane pod uwagę. Copyright © 2012 - 2013 Lukaszjarosinski.com – producent oprogramowania