Główna » jak » Jak przekonwertować plik PDF do edytowalnego tekstu za pomocą wiersza poleceń w systemie Linux

    Jak przekonwertować plik PDF do edytowalnego tekstu za pomocą wiersza poleceń w systemie Linux

    Istnieje wiele powodów, dla których warto przekonwertować plik PDF na tekst do edycji. Może trzeba zmienić stary dokument, a wszystko, co masz, to jego wersja PDF. Konwersja plików PDF w systemie Windows jest łatwa, ale co jeśli używasz Linuksa?

    Bez obaw. Pokażemy, jak łatwo konwertować pliki PDF na tekst edytowalny za pomocą narzędzia wiersza poleceń o nazwie pdftotext, które jest częścią pakietu "poppler-utils". To narzędzie może być już zainstalowane. Aby sprawdzić, czy pdftotext jest zainstalowany w twoim systemie, naciśnij "Ctrl + Alt + T", aby otworzyć okno terminala. Wpisz następujące polecenie w wierszu polecenia i naciśnij "Enter".

    dpkg -s poppler-utils

    UWAGA: Kiedy mówimy, aby wpisać coś w tym artykule i są cytaty wokół tekstu, NIE wpisuj cytatów, chyba że określimy inaczej.

    Jeśli pdftotext nie jest zainstalowany, wpisz następujące polecenie w wierszu polecenia i naciśnij klawisz "Enter".

    sudo apt-get install poppler-utils

    Po wyświetleniu monitu wpisz swoje hasło i naciśnij "Enter".

    W pakiecie poppler-utils dostępnych jest kilka narzędzi do konwertowania plików PDF na różne formaty, do manipulowania plikami PDF i do wyodrębniania informacji z plików.

    Poniżej przedstawiono podstawowe polecenie konwersji pliku PDF do edytowalnego pliku tekstowego. Naciśnij "Ctrl + Alt + T", aby otworzyć okno terminala, wpisz polecenie w odpowiedzi i naciśnij "Enter".

    pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

    Zmień ścieżkę do każdego pliku, aby odpowiadała lokalizacji i nazwie oryginalnego pliku PDF oraz miejscu, w którym chcesz zapisać wynikowy plik tekstowy. Zmień także nazwy plików, aby odpowiadały nazwom twoich plików.

    Plik tekstowy jest tworzony i można go otworzyć tak, jak otworzysz dowolny inny plik tekstowy w systemie Linux.

    Przekonwertowany tekst może mieć podziały wierszy w miejscach, których nie chcesz. Podziały linii wstawiane są po każdym wierszu tekstu w pliku PDF.

    Możesz zachować układ dokumentu (nagłówki, stopki, stronicowania itp.) Z oryginalnego pliku PDF w przekonwertowanym pliku tekstowym za pomocą flagi "-layout".

    pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

    Jeśli chcesz przekonwertować tylko zakres stron w pliku PDF, użyj flag "-f" i "-l" (małe litery "L"), aby określić pierwszą i ostatnią stronę zakresu, który chcesz przekonwertować.

    pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

    Aby przekonwertować plik PDF, który jest chroniony i zaszyfrowany hasłem właściciela, należy użyć flagi "-opw" (pierwszy znak w nazwie flagi to mała litera "O", a nie zero).

    pdftotext -opw 'password' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

    Zmień "hasło" na hasło używane do ochrony oryginalnego przekonwertowanego pliku PDF. Upewnij się, że istnieją pojedyncze cudzysłowy, nie podwójne, wokół "hasła".

    Jeśli plik PDF jest chroniony i zaszyfrowany hasłem użytkownika, użyj flagi "-upw" zamiast flagi "-opw". Reszta polecenia jest taka sama.

    Możesz również określić typ znaku końca linii, który zostanie zastosowany do przekonwertowanego tekstu. Jest to szczególnie przydatne, jeśli planujesz uzyskać dostęp do pliku w innym systemie operacyjnym, takim jak Windows lub Mac. Aby to zrobić, użyj flagi "-eol" (środkową postacią flagi jest mała litera "O", a nie zero), po której następuje spacja i typ znaku końca wiersza, którego chcesz użyć (" unix "," dos "lub" mac ").

    UWAGA: Jeśli nie określisz nazwy pliku dla pliku tekstowego, pdftotext automatycznie użyje podstawy nazwy pliku PDF i doda rozszerzenie ".txt". Na przykład "plik.pdf" zostanie przekonwertowany na "plik.txt". Jeśli plik tekstowy jest określony jako "-", przekonwertowany tekst jest wysyłany na standardowe wyjście, co oznacza, że ​​tekst jest wyświetlany w oknie Terminala i nie jest zapisywany w pliku.

    Aby zamknąć okno Terminal, kliknij przycisk "X" w lewym górnym rogu.

    Aby uzyskać więcej informacji na temat polecenia pdftotext, wpisz "man page pdftotext" w monicie w oknie terminala.