Wyodrębnij tekst z plików PDF i plików graficznych
Masz dokument PDF, z którego chcesz wyodrębnić cały tekst? Co z plikami obrazów zeskanowanego dokumentu, który chcesz przekonwertować na tekst edytowalny? Oto niektóre z najczęstszych problemów, które widziałem w miejscu pracy podczas pracy z plikami.
W tym artykule opowiem o kilku różnych sposobach próbowania wyodrębnienia tekstu z pliku PDF lub obrazu. Wyniki ekstrakcji będą się różnić w zależności od rodzaju i jakości tekstu w pliku PDF lub obrazie. Ponadto wyniki będą się różnić w zależności od używanego narzędzia, dlatego najlepiej jest wypróbować jak najwięcej z poniższych opcji, aby uzyskać najlepsze wyniki.
Wyodrębnij tekst z obrazu lub PDF
Najprostszym i najszybszym sposobem rozpoczęcia jest wypróbowanie usługi pobierania plików PDF w formacie PDF. Są one zwykle bezpłatne i mogą dać dokładnie to, czego szukasz, bez konieczności instalowania czegokolwiek na komputerze. Oto dwa, których użyłem z wynikami bardzo dobrymi do doskonałych:
ExtractPDF
ExtractPDF to darmowe narzędzie do pobierania obrazów, tekstu i czcionek z pliku PDF. Jedynym ograniczeniem jest to, że maksymalny rozmiar pliku PDF wynosi 10 MB. To trochę małe; więc jeśli masz większy plik, wypróbuj niektóre z poniższych metod. Wybierz plik, a następnie kliknij Wyślij plik przycisk. Wyniki są zwykle bardzo szybkie i po kliknięciu karty Tekst powinien pojawić się podgląd tekstu.
Dodatkową zaletą jest to, że wyodrębnia również obrazy z pliku PDF, na wypadek gdybyś ich potrzebował! Ogólnie rzecz biorąc, narzędzie online działa świetnie, ale natknąłem się na kilka dokumentów PDF, które dają mi zabawne wyniki. Tekst jest rozpakowywany w porządku, ale z jakiegoś powodu po każdym słowie będzie miał przerwę na linii! Nie jest to duży problem w przypadku krótkiego pliku PDF, ale z pewnością problem dla plików z dużą ilością tekstu. Jeśli tak się stanie, wypróbuj następne narzędzie.
OCR online
OCR online zwykle działał w przypadku dokumentów, które nie konwertowały poprawnie za pomocą ExtractPDF, więc dobrym pomysłem jest wypróbowanie obu usług, aby zobaczyć, które z nich dają lepsze wyniki. OCR online ma również kilka ładniejszych funkcji, które mogą okazać się przydatne dla każdego z dużym plikiem PDF, który wymaga jedynie konwersji tekstu na kilku stronach, a nie całego dokumentu.
Pierwszą rzeczą, którą chcesz zrobić, to stworzyć darmowe konto. Jest to trochę denerwujące, ale jeśli nie utworzysz bezpłatnego konta, będzie ono tylko częściowo konwertować plik PDF, a nie cały dokument. Ponadto zamiast przesyłać tylko dokument o pojemności 5 MB, możesz przesłać do 100 MB na plik z kontem.
Najpierw wybierz język, a następnie wybierz typ formatów wyjściowych dla przekonwertowanego pliku. Masz kilka opcji i możesz wybrać więcej niż jedną, jeśli chcesz. Pod Dokument wielostronicowy, możesz wybrać Numery stron a następnie wybierz tylko strony, które chcesz przekonwertować. Następnie wybierz plik i kliknij Konwertować!
Po konwersji zostaniesz przeniesiony do sekcji Dokumenty (jeśli jesteś zalogowany), gdzie możesz zobaczyć, ile pozostało wolnych stron i linki do pobrania przekonwertowanych plików. Wydaje się, że masz tylko 25 stron za darmo dziennie, więc jeśli potrzebujesz czegoś więcej, musisz albo poczekać, albo kupić więcej stron.
Online OCR wykonał świetną pracę polegającą na konwersji moich plików PDF, ponieważ był w stanie utrzymać rzeczywisty układ tekstu. W moim teście wziąłem dokument Worda, który używał kul, różnych rozmiarów czcionek itp. I przekonwertowałem go na PDF. Następnie użyłem Online OCR, aby przekonwertować go z powrotem na format Worda i był on w około 95% taki sam jak oryginał. To dla mnie imponujące.
Ponadto, jeśli chcesz przekonwertować obraz na tekst, OCR online może to zrobić równie łatwo, jak wyodrębnianie tekstu z plików PDF.
Darmowe OCR online
Ponieważ rozmawialiśmy o OCR z obrazem, pozwólcie, że wspomnę o innej dobrej stronie, która działa naprawdę dobrze na obrazach. Darmowy OCR online był bardzo dobry i bardzo dokładny podczas pobierania tekstu z moich obrazów testowych. Zrobiłem kilka zdjęć z mojego iPhone'a stron z książek, broszur itp. Byłem zaskoczony, jak dobrze udało się przekonwertować tekst.
Wybierz plik, a następnie kliknij przycisk Prześlij. Na następnym ekranie znajduje się kilka opcji i podgląd obrazu. Możesz go przyciąć, jeśli nie chcesz OCR całej rzeczy. Następnie kliknij przycisk OCR, a przekonwertowany tekst pojawi się pod podglądem obrazu. Nie ma też żadnych ograniczeń, co jest naprawdę miłe.
Oprócz usług online istnieją dwa bezpłatne konwertery plików PDF, o których chcę wspomnieć w przypadku, gdy potrzebne jest oprogramowanie działające lokalnie na komputerze w celu przeprowadzenia konwersji. Dzięki usługom online zawsze będziesz potrzebować połączenia z Internetem, co może nie być możliwe dla wszystkich. Zauważyłem jednak, że jakość konwersji z programów freeware była znacznie gorsza niż na stronach internetowych.
A-PDF Text Extractor
A-PDF Text Extractor to darmowy program, który dość dobrze wyodrębnia tekst z plików PDF. Po pobraniu i zainstalowaniu kliknij przycisk Otwórz, aby wybrać plik PDF. Następnie kliknij Wyodrębnij tekst, aby rozpocząć proces.
Poprosi Cię o lokalizację do przechowywania wyjściowego pliku tekstowego, a następnie rozpocznie rozpakowywanie. Możesz także kliknąć Opcja przycisk, który pozwala wybrać tylko niektóre strony do wyodrębnienia i typ ekstrakcji. Druga opcja jest interesująca, ponieważ wyodrębnia tekst w różnych układach i warto wypróbować wszystkie trzy, aby zobaczyć, który z nich daje najlepszą wydajność.
Pilot PDF2Text
PDF2Text Pilot wykonuje dobrą pracę polegającą na wyodrębnianiu tekstu. Nie ma żadnych opcji; po prostu dodajesz pliki lub foldery, konwertujesz i masz nadzieję na najlepsze. Działało dobrze na niektórych plikach PDF, ale dla większości z nich było wiele problemów.
Po prostu kliknij Dodaj pliki, a następnie kliknij Konwertować. Po zakończeniu konwersji kliknij Przeglądaj, aby otworzyć plik. Twój przebieg będzie się różnić za pomocą tego programu, więc nie oczekuj zbyt wiele.
Warto również wspomnieć, że jeśli jesteś w środowisku korporacyjnym lub możesz dostać kopię Adobe Acrobat z pracy, możesz naprawdę uzyskać znacznie lepsze wyniki. Acrobat nie jest oczywiście darmowy, ale ma opcje konwersji plików PDF do formatu Word, Excel i HTML. Wykonuje również najlepszą pracę polegającą na utrzymaniu struktury oryginalnego dokumentu i konwersji skomplikowanego tekstu.