Pobranie zawartości całego pliku PDF w jednej linii

Transkrypt

Pobranie zawartości całego pliku PDF w jednej linii
POLITECHNIKA WROCŁAWSKA
KOŁO NAUKOWE KREDEK
ĆWICZENIE:
Pobranie zawartości całego pliku PDF w jednej linii
Wykonał:
Mateusz Woszczyk
Data wykonania:
22.12.2011
1. Wstęp
Program przedstawia sposób na wczytanie zawartości pliku PDF w jednej linii kodu w języku
C#. Program wykorzystuje biblioteki FontBox-0.1.0-dev.dll, IKVM.GNU.Classpath.dll,
IKVM.Runtime.dll oraz PDFBox-0.7.3.dll (Biblioteki dostępne są w dziale Wiedza na stronie
internetowej Koła Naukowego KREDEK).
2. Jak dodać biblioteki ?
Aby wczytać biblioteki do nowo utworzonego projektu w Visual Studio 2008 Windows Forms
Application (C#), należy postępować zgodnie z krokami przedstawionymi poniżej:
1. W zakładce SolutionExplorer klikamy prawym przyciskiem myszy na nazwę projektu i
wybieramy pole Add Reference…
2. Pojawi nam się okno pokazane poniżej. W oknie klikamy zakładkę Browse i wybieramy
wszystkie 4 wcześniej wspomniane biblioteki, a następnie klikamy OK.
3. W oknie SolutionExplorer w zakładce References powinny pojawić się dodane biblioteki:
4. Po dodaniu linii kodu wczytującej plik PDF musimy skorzystać z podpowiedzi i dodać
odpowiednie przestrzenie nazw.
3. Opis kodu źródłowego
Tak jak napisano we wstępie, poniższy kod źródłowy pozwala na wczytanie zawartości pliku
PDF w jednej linii kodu w języku C#.
string path;
//Obsługa kontrolki OpenFiledialog
openFileDialog1.FileName = " ";
openFileDialog1.Filter = "PDF|*.pdf";
openFileDialog1.InitialDirectory = Directory.GetCurrentDirectory();
openFileDialog1.ShowDialog();
path = openFileDialog1.FileName;
//Wczytanie zawartości pliku PDF w jednej lini kodu
string data = new PDFTextStripper().getText(PDDocument.load(path));
//Przypisanie do kontrolki EditBox
textBoxLoadPdf.Text = data;
wczytanego tekstu z pliku PDF
Program wykorzystuje klasę PDFTextStripper, która wyciąga z pliku PDF czysty text(„plain
text”) ignorując formatowanie.