Pobranie zawartości całego pliku PDF w jednej linii
Transkrypt
Pobranie zawartości całego pliku PDF w jednej linii
POLITECHNIKA WROCŁAWSKA KOŁO NAUKOWE KREDEK ĆWICZENIE: Pobranie zawartości całego pliku PDF w jednej linii Wykonał: Mateusz Woszczyk Data wykonania: 22.12.2011 1. Wstęp Program przedstawia sposób na wczytanie zawartości pliku PDF w jednej linii kodu w języku C#. Program wykorzystuje biblioteki FontBox-0.1.0-dev.dll, IKVM.GNU.Classpath.dll, IKVM.Runtime.dll oraz PDFBox-0.7.3.dll (Biblioteki dostępne są w dziale Wiedza na stronie internetowej Koła Naukowego KREDEK). 2. Jak dodać biblioteki ? Aby wczytać biblioteki do nowo utworzonego projektu w Visual Studio 2008 Windows Forms Application (C#), należy postępować zgodnie z krokami przedstawionymi poniżej: 1. W zakładce SolutionExplorer klikamy prawym przyciskiem myszy na nazwę projektu i wybieramy pole Add Reference… 2. Pojawi nam się okno pokazane poniżej. W oknie klikamy zakładkę Browse i wybieramy wszystkie 4 wcześniej wspomniane biblioteki, a następnie klikamy OK. 3. W oknie SolutionExplorer w zakładce References powinny pojawić się dodane biblioteki: 4. Po dodaniu linii kodu wczytującej plik PDF musimy skorzystać z podpowiedzi i dodać odpowiednie przestrzenie nazw. 3. Opis kodu źródłowego Tak jak napisano we wstępie, poniższy kod źródłowy pozwala na wczytanie zawartości pliku PDF w jednej linii kodu w języku C#. string path; //Obsługa kontrolki OpenFiledialog openFileDialog1.FileName = " "; openFileDialog1.Filter = "PDF|*.pdf"; openFileDialog1.InitialDirectory = Directory.GetCurrentDirectory(); openFileDialog1.ShowDialog(); path = openFileDialog1.FileName; //Wczytanie zawartości pliku PDF w jednej lini kodu string data = new PDFTextStripper().getText(PDDocument.load(path)); //Przypisanie do kontrolki EditBox textBoxLoadPdf.Text = data; wczytanego tekstu z pliku PDF Program wykorzystuje klasę PDFTextStripper, która wyciąga z pliku PDF czysty text(„plain text”) ignorując formatowanie.