Jak mogę skopiować tekst z pliku PDF, zachowując formatowanie?

PDF, wszechobecny format dokumentu, doskonale nadaje się do udostępniania dokumentów przy jednoczesnym zachowaniu czcionek, obrazów i ogólnego układu na różnych platformach. Czy jest jednak łatwy sposób na zachowanie tego samego formatowania podczas kopiowania i wklejania tekstu z dokumentu?

Dzisiejsza sesja pytań i odpowiedzi przychodzi do nas dzięki uprzejmości SuperUser - poddziału Stack Exchange, opartego na społecznościach grupowania witryn z pytaniami i odpowiedziami.

Pytanie

Czytnik SuperUser Colen szuka sposobu na wyodrębnienie tekstu z plików PDF przy jednoczesnym zachowaniu formatowania:

Kiedy kopiuję tekst z pliku PDF i do edytora tekstowego, kończy się to myleniem na wiele sposobów. Formatowanie takie jak pogrubienie i kursywa zostanie utracone; łagodne łamania linii w akapicie tekstu są konwertowane na twarde łamania linii; kreski do złamania słowa na dwóch liniach są zachowane nawet wtedy, gdy nie powinny; a pojedyncze i podwójne cudzysłowy są zastępowane? znaki.

Idealnie chciałbym móc skopiować tekst z pliku PDF i sformatować go na kod HTML, "inteligentne cytaty" przekonwertować na "i", a podziały wierszy zrobić poprawnie. Czy jest jakikolwiek sposób to zrobić??

Czy Colen (i reszta z nas) może szybko i łatwo uzyskać tekst przechwytywania, nie rezygnując z formatowania?

Odpowiedź

Pomocnik SuperUser Frabjous oferuje rozwiązanie połączone z dużą dozą ostrożności:

Po pierwsze, musisz zrozumieć, co to jest plik PDF. Pliki PDF mają naśladować wydrukowaną stronę i są zaprojektowane wyłącznie jako format wyjściowy, a nie format wejściowy. plik PDF to w zasadzie mapa zawierająca dokładną lokalizację znaków (pojedyncze litery lub znaki interpunkcyjne itp.) lub obrazy. W większości przypadków plik PDF nie przechowuje nawet informacji o tym, gdzie kończy się jedno słowo, a inny zaczyna się, a tym bardziej o przerwach w stosunku do twardych przerw na akapity..

(Kilka ostatnich plików PDF przechowuje pewne informacje na ten temat, ale jest to nowa technologia i możesz mieć szczęście, aby znaleźć takie pliki PDF. Nawet jeśli tak, Twoja przeglądarka plików PDF może o tym nie wiedzieć).

W każdym razie, to do twojego oprogramowania należy implementacja jakiejś "sztucznej inteligencji", aby wyodrębnić tylko z lokalizacji poszczególnych znaków, co to jest słowo, co to jest akapit i tak dalej. Różne oprogramowanie zrobi to lepiej niż inne, a także zależeć będzie od tego, w jaki sposób powstał plik PDF. W każdym razie nigdy nie powinieneś oczekiwać doskonałych rezultatów. Posiadanie wyjściowego pliku PDF nie jest tym samym, co dokument źródłowy. O wiele lepiej jest spróbować to zdobyć, jeśli możesz.

Standardowym rozwiązaniem twojego problemu jest użycie Adobe Acrobat Professional (drogi, a nie darmowy czytnik) do konwersji PDF na HTML. Nawet to nie przyniesie doskonałych rezultatów.

Jest wolne oprogramowanie, które może być użyte do wyodrębnienia tekstu z plików PDF z nietkniętym formatowaniem, ale znowu nie oczekuj doskonałych rezultatów. Zobacz np. Kaliber (który może konwertować do formatu RTF), pdftohtml / pdfreflow lub edytor tekstu AbiWord (z włączonymi wszystkimi wtyczkami importu / eksportu). Istnieje również wtyczka do importowania PDF dla OpenOffice.

Ale proszę nie oczekiwać doskonałości z żadnym z tych wyników. Idziesz tutaj wbrew ziarnom. PDF nie jest po prostu edytowalnym formatem wejściowym.

Jeśli masz kłopot z wyborem narzędzia, od którego zaczynasz, Calibre jest prawdziwym dokumentem szwajcarskiego scyzoryka. Możesz także użyć go do konwersji plików PDF do użytku na swoim czytniku e-booków i uporządkowania biblioteki ebook / dokumentów.

Czy masz coś do dodania do wyjaśnienia? Dźwięk w komentarzach. Chcesz przeczytać więcej odpowiedzi od innych użytkowników Stack Exchange, którzy znają się na technologii? Sprawdź cały wątek dyskusji tutaj.