instrukcja instalacji i konfiguracji aplikacji websoft ceidg - E

Transkrypt

instrukcja instalacji i konfiguracji aplikacji websoft ceidg - E
Printec – producent oprogramowania
INSTRUKCJA INSTALACJI I KONFIGURACJI APLIKACJI
WEBSOFT CEIDG MONITOR
Producent:
Printec
Nazwa oprogramowania:
Websoft CEIDG Monitor
Aktualna wersja:
1.0
Ostatnia aktualizacja:
25.01.2015
Kontakt:
[email protected], tel. 508 052 990
Wymagania techniczne:
PHP5, MySQL >= 5, obsługa .htaccess, mod_rewrite, GD2,
wyłączone register_globals, dostęp do serwera poczty wychodzącej
(SMTP), wyłączone magic_quotes_gpc, moduł IONCube Loader
INSTALACJA I KONFIGURACJA OPROGRAMOWANIA
1) Należy wgrać wszystkie pliki na serwer do wybranego katalogu/podkatalogu.
2) Należy założyć na serwerze bazę danych oraz ewentualnie użytkownika dla niej (jeżeli jest
to na danym serwerze wymagane) – potrzebne będą takie dane, jak: nazwa hosta bazy
danych (zwykle localhost), nazwa bazy danych, nazwa użytkownika bazy danych oraz jego
hasło. Należy przygotować również tzw. frazę szyfrującą – jest to dowolny ciąg znaków,
który posłuży do szyfrowania haseł (np. 812jeu20k3).
3) Wpisujemy w przeglądarce adres oprogramowania, np. http://www.twojadomena.pl/ceidg –
jest to jedynie przykład, a w zależności od serwerów i użytkownika adres ten może się
całkowicie różnić.
4) Wypełniamy formularz danymi z pkt 2. Po zatwierdzeniu danych, przy założeniu, że
wszystkie są poprawne, parser zostaje zainstalowany i wstępnie skonfigurowany do pracy.
5) Usuwamy plik install.php z serwera.
6) Chcąc wejść do panelu administracyjnego, należy wejść na adres z pkt 3 oraz podać dane
dostępowe (domyślnie nazwa użytkownika oraz hasło to „admin” - należy je zmienić po
zalogowaniu się do panelu).
Copyright © 2012 - 2013 www.e-printec.com.pl
Printec – producent oprogramowania
7) Oprogramowanie jest przeznaczone zarówno do pracy ręcznej (ręczne uruchamianie z
panelu administracyjnego, tzw. pobieranie danych na żądanie; ręczne wpisywanie kodów
captcha), jak i automatycznej (sam pobiera dane, rozwiązuje kody captcha i pracuje nawet
przy wyłączonym komputerze) – korzysta wtedy z harmonogramu zadań CRON, a do
rozwiązywania kodów captcha korzysta z serwisu DeathByCaptcha. Jeżeli chcemy przejść
w tryb pracy automatycznej, należy skonfigurować harmonogram zadań CRON oraz podać
dane dostępowe do DeathByCaptcha (pkt 8).
8) Sposób ustawienia harmonogramu zadań CRON jest różny w zależności od serwera i
stosowanego na nim oprogramowania. Aby ustawić parser, należy do CRONa dodać
wykonywanie
plików
http://www.twojadomena.pl/ceidg/parserceidg.php.
Częstotliwość
uruchamiania plików zależy od serwera, jego mocy itd. - Optymalnym ustawieniem jest
uruchamianie skryptów nie częściej, niż co 10 minut. Jeżeli korzystamy z serwerów proxy
(wyjaśnienie konfiguracji w pkt 8) i posiadany serwer ma dużą moc obliczeniową, możemy
ustawić większą częstotliwość uruchamiania CRONa. W większości przypadków do
harmonogramu należy dodać następujące komendy:
GET http://www.twojadomena.pl/parserceidg.php >/dev/null
lub
lynx -dump http://www.twojadomena.pl/parserceidg.php
Jeżeli podane powyżej komendy nie działają, należy spróbować innej, np. jednej z
poniższych:
Być może dany serwer nie potrafi obsłużyć komendy podanej powyżej, wtedy można
spróbować innej. Np. jednej z poniższych:
lynx -dump XXXXXXX
/usr/bin/lynx -dump XXXXXXX
wget -q -O /dev/null XXXXXXX
/usr/bin/wget -q -O /dev/null XXXXXXX
/usr/local/bin/php YYYYYYY &>/dev/null
gdzie:
XXXXXXX
to
adres
URL
pliku
parsera
(np.
http://www.twojadomena.pl/ceidg/parserceidg.php),
YYYYYYY ścieżka dostępu do pliku parsera (ścieżka bezwględna z katalogu root na
Copyright © 2012 - 2013 www.e-printec.com.pl
Printec – producent oprogramowania
serwerze).
Jeśli zadania CRON nadal nie są uruchamiane, to sprawdź, czy w katalogu powyżej
katalogu, w którym zainstalowany jest Websoft CEIDG Monitor nie ma pliku .htaccess,
który blokuje dostęp do plików parsera.
Uruchamianie zadań CRON na serwerach home.pl
Aby ustawić wywoływanie zadań crona na serwerach home.pl należy:
1. Utworzyć plik o nazwie cron-10min.php
2. W pliku tym wpisać kod:
<?php
echo file_get_contents('XXXXXXX');
?>
gdzie
XXXXXXX
to
adres
URL
do
wywołania
parsera
(np.
http://www.twojadomena.pl/ceidg/parserceidg.php).
3. Przegrać plik do katalogu GŁÓWNEGO serwera wirtualnego home.pl.
Uruchamiane zadań CRON na serwerach nazwa.pl
Serwery nazwa.pl to jedyne serwery, których nie polecamy, ponieważ można na nich
uruchamiać komendy CRONa jedynie co 1 godzinę. Na większości serwerów zadania
CRONa można uruchamiać nawet co 1 minutę (optymalnie dla naszego skryptu to 10
minut). Jeśli zainstalowaliśmy Websoft CEIDG Monitor na serwerze nazwa.pl, to obejściem
powyższego ograniczenia jest wywoływanie zadań CRON z innego serwera. Wtedy na
innym serwerze możemy zdefiniować jako komendę CRONa (tak jak przedstawiono
powyżej).
9) Oprogramowanie ma możliwość pracy automatycznej. Ustawieniem zalecanym jest
uruchamianie parsera co 10 minut. Jeżeli jednak dysponujemy serwerem o dużej mocy (np.
serwer dedykowany) w celu przyspieszenia pracy skryptu i pobierania danych, możemy
zmienić dwa parametry: częstotliwość uruchamiania parsera (pkt 7) oraz liczbę stron
wyników wyszukiwania pobieranych w jednym uruchomieniu (domyślnie 1 strona, w
zależności od serwisu 10, 15 czy 20 firm na stronie).
Aby zmienić liczbę pobieranych stron, należy skorzystać z zakładki Konfiguracja.
UWAGA! Zmieniając ustawienia domyślne należy mieć na uwadze, że serwisy, z których
pobierane są dane nie tolerują pobierania automatycznego i w związku z tym mogą
Copyright © 2012 - 2013 www.e-printec.com.pl
Printec – producent oprogramowania
zablokować adresy IP, które według nich pobierają bardzo duże porcje danych (otwierają
dużo podstron) w krótkim czasie (tzw. nienaturalne pobieranie). Oprogramowanie nasze ma
możliwość skorzystania z tzw. serwerów pośredniczących (proxy) w celu ukrycia
prawdziwego IP serwera z zainstalowanym oprogramowaniem. Wtedy pobranie dowolnej
podstrony odbywa się przy pomocy IP innego serwera proxy. Jeżeli użytkownik posiada
dostęp do tzw. prywatnych proxy (zwykle płatne serwery proxy zapewniające szybki dostęp
do danych), istnieje możliwość skorzystania z nich.
Aby skonfigurować pobieranie przy użyciu proxy, należy przygotować listę sprawdzonych
serwerów pośredniczących (adres IP + port serwera). Najpewniejszym źródłem serwerów
proxy jest serwis www.proxymarket.pl. Taką listę należy wkleić do systemu korzystając z
zakładki Lista proxy według zasady „każdy serwer w osobnym wierszu”, a następnie w
konfiguracji
parserów
ustawić
wartość
na
1
(„korzystaj
z
serwerów
proxy”).
Oprogramowanie podczas pracy sprawdza, czy dany serwer proxy jest aktywny i jeżeli tak,
używa go do połączenia, jeżeli nie, sprawdza inny serwer itd. Jeżeli wszystko serwery
proxy na liście nie działają, skrypt przestanie działać i ponownie spróbuje rozpocząć pracę
przy następnym uruchomieniu.
Ponieważ www.proxymarket.pl udostępnia API do automatycznej integracji z naszą
aplikacją, nie ma konieczności wpisywania serwerów proxy do aplikacji – wystarczy w
naszej aplikacji podać adres API. Mamy wtedy gwarancję, że aplikacja będzie posiadała
stały dostęp do aktualnej listy proxy.
UWAGA!
Dla użytkowników
Websoft
CEIDG
Monitor
serwis proxymarket.pl
przygotował specjalną ofertę – o 50% więcej serwerów w każdym pakiecie i pomoc
PREMIUM (wszystkie zgłoszenia problemów od użytkowników Websoft CEIDG
Monitor będą rozpatywane w pierwszej kolejności!).
Przykładowy wpis w pliku proxy.csv (dla publicznych proxy, ogólnodostępnych):
'187.111.222.222:8080'
Przykładowy wpis w pliku proxy.csv (dla prywatnych proxy, wymagających podania loginu i
hasła):
'187.111.222.222:8080:login:haslo'
Wszystkie proxy można wpisać przy pomocy narzędzia Lista proxy.
WAŻNE! Aby aplikacja działała w pełni automatycznie, należy dodatkowo skonfigurować ją
do automatycznego rozwiązywania kodów captcha. CEIDG Monitor został w pełni
Copyright © 2012 - 2013 www.e-printec.com.pl
Printec – producent oprogramowania
zintegrowany z serwisem DeathByCaptcha.com, który po atrakcyjnych cenach umożliwia
rozwiązywanie kodów captcha w sposób automatyczny. W tym celu należy założyć konto
na stronie deathbycaptcha.com, wykupić odpowiedni pakiet kodów, a w Konfiguracji
parsera
podać
dane
dostępowe
(nazwę
użytkownika
i
hasło)
do
serwisu
DeatchByCaptcha.com. Dalsze działanie aplikacji jest w pełni automatycznie, nie ma
potrzeby monitorowania jej działania.
Należy wziąć pod uwagę, że do pobrania 100 firm aplikacja wykorzysta 3 kody captcha – to
jest wymaganie Centralnej Ewidencji Działalności Gospodarczej. Do poprawnego działania
trzeba więc zapewnić aplikacji odpowiednią ilość kodów, okresowo „doładowując” konto
użytkownika na DeatchByCaptcha.com.
UŻYWANIE WEBSOFT CEIDG Monitor
Po zalogowaniu do panelu administracyjnego parsera użytkownik ma do dyspozycji kilka zakładek.
Poniżej zostanie omówiona każda z nich.
Dodaj zadanie dla parsera – działanie oprogramowania opiera się na zadaniach, czyli jakby
komendach, które parser ma wykonać. Aby dodać zadanie, należy wypełnić formularz –
wypełnienie pól nie jest wymagane, jednak im więcej się ich wypełni, tym dokładniejsze wyniki się
otrzyma. Pamiętać należy, że zbyt ogólne zadania, ze względu na specyfikę Ewidencji
Działalności, nie pozwolą na uzyskanie zbyt wielu wyników – np. podanie wyłącznie województwa
spowoduje pobranie 100 pierwszych wyników z danego województwa; najlepiej jest zdefiniować
odpowiednie zadania do poszczególnych powiatów, gmin, a nawet miejscowości, co pozwoli na
pobranie większej bazy firm. Oprogramowanie całą resztą wykona za nas, nasza praca ograniczy
się jedynie do ściągnięcia gotowej bazy danych.
Można dodać nieograniczoną liczbę zadań dla parsera – będą one przetwarzane po kolei (po
zakończeniu jednego uruchomi się drugie). Zadania już przetworzone zostaną automatycznie
oznaczone jako nieaktywne – do momentu ręcznej aktywacji aplikacja nie będzie ich więcej
przetwarzała.
Edytuj zadanie dla parsera – jeżeli z jakiś powodów chcielibyśmy zmienić kryteria wyszukiwania,
należy skorzystać właśnie z tej zakładki.
Pobierz listę adresatów w formacie CSV – po kliknięciu zakładki będziemy mogli pobrać listę
adresatów już pobranych. Format CSV jest formatem „uniwersalnym”, obsługiwanym zarówno
przez edytory tekstowe (nawet Notatnik), jak i przez arkusze kalkulacyjne (np. Excel, OpenOffice
Calc) – najwygodniej je jednak otwierać właśnie w arkuszach kalkulacyjnych. Aby poprawnie
zaimportować plik np. do Excela, należy w programie Excel ustawić kodowanie na UTF-8,
Copyright © 2012 - 2013 www.e-printec.com.pl
Printec – producent oprogramowania
rozdzielanie pól średnikami i separator tekstu jako cudzysłów (domyślne ustawienia Excela).
Pobrany plik będzie zawierał kilka kolumn z możliwością ich dowolnego sortowania: nazwa firmy,
adres fizyczny, e-mail, strona www, branża wg PKD, adres wpisu w CEIDG, data powstania firmy i
wiele innych danych. Pobrana baza nie będzie zawierać powtórzeń (np. firma spełnia kryteria
dwóch różnych zadań) – oprogramowanie zawiera dwustopniowy system filtrowania danych,
który usuwa dane powtórzone już podczas pobierania. Pobranie pliku nie oznacza, że baza
znika z serwera jest ona tam nadal i możemy pobrać ją nawet za rok (baza jest czyszczona
dopiero po kliknięciu poniższego przycisku).
Wyczyść bazę firm – przycisk pozwalający na czyszczenie pobranej bazy. Np. jeżeli pobraliśmy
bazę adwokatów, możemy ściągnąć ją na dysk, a następnie usunąć przy pomocy tej funkcji z
serwera. Tej operacji nie można cofnąć!
Zarządzanie użytkownikami – jeżeli z oprogramowania korzysta kilku użytkowników, każdy z nich
może posiadać osobny login i hasło do panelu. Zarządzanie użytkownikami (edycja, usuwanie)
odbywa się przy pomocy tej zakładki.
Dodaj użytkownika – jak powyżej, ale obejmuje jedynie dodawanie użytkowników panelu.
Uruchom parser ręcznie – jak zostało wyżej wspomniane, parser ma możliwość pracy
automatycznej (harmonogram zadań CRON) oraz ręcznej. Ręczna praca polega na samodzielnym
klikaniu przycisku w panelu – po kliknięciu następuje uruchomienie parsera i pobranie określonej
porcji danych (pkt 8 – Instalacja i konfiguracja oprogramowania).
Licencja na oprogramowanie – treść licencji na wykorzystywane oprogramowanie.
Konfiguracja parserów – możliwość szybkiej konfiguracji podstawowych parametrów pracy
parsera, takich jak korzystanie z serwerów pośredniczących proxy (tak lub nie), nazwa
użytkownika i hasło do serwisu DeathByCaptcha.com (automatyczne rozwiązywanie kodów
captcha).
Lista proxy – umożliwia wpisanie nieograniczonej liczby serwerów pośredniczących proxy, z której
parser będzie korzystał podczas pobierania danych.
Na stronie głównej panelu (bezpośrednio po zalogowaniu) znajdują się dane kontaktowe
pozwalające na zgłoszenie problemów z parserem. Znajduje się tam również link do poniższej
instrukcji. UWAGA! Do każdego zgłoszenia problemów z parserem, należy podać adres e-mail, z
którego zostało dokonane zamówienie lub zakup – zgłoszenia bez tej informacji nie będą brane
pod uwagę.
Copyright © 2012 - 2013 www.e-printec.com.pl

Podobne dokumenty