Jak wyodrębnić i zapisać obrazy z pliku PDF w systemie Linux

Możesz łatwo konwertować pliki PDF do edytowalnego tekstu w Linuksie za pomocą narzędzia wiersza poleceń "pdftotext". Jednakże, jeśli istnieją jakiekolwiek obrazy w oryginalnym pliku PDF, nie są one wyodrębniane. Aby wyodrębnić obrazy z pliku PDF, można użyć innego narzędzia wiersza poleceń o nazwie "pdfimages".

UWAGA: Kiedy mówimy, aby wpisać coś w tym artykule i są cytaty wokół tekstu, NIE wpisuj cytatów, chyba że określimy inaczej.

Narzędzie "pdfimages" jest częścią pakietu poppler-utils. Możesz sprawdzić, czy jest on zainstalowany w twoim systemie i zainstalować go w razie potrzeby, wykonując kroki opisane w tym artykule.

Aby wyodrębnić obrazy z pliku PDF za pomocą pdfimages, naciśnij "Ctrl + Alt + T", aby otworzyć okno Terminal. Wpisz następujące polecenie w wierszu polecenia.

pdfimages /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image

UWAGA: W przypadku wszystkich poleceń przedstawionych w tym artykule zastąp pierwszą ścieżkę w poleceniu i nazwę pliku PDF ścieżką i nazwą pliku oryginalnego pliku PDF. Druga ścieżka powinna być ścieżką do folderu głównego, w którym chcesz zapisać wyodrębnione obrazy. Słowo "obraz" na końcu drugiej ścieżki reprezentuje to, co chcesz poprzedzić swoją nazwę pliku. Nazwy plików obrazów są ponumerowane automatycznie (000, 001, 002, 003 itd.). Jeśli chcesz dodać tekst na początku każdego obrazu, wprowadź ten tekst na końcu drugiej ścieżki. W naszym przykładzie każda nazwa pliku obrazu zaczyna się od "obrazu", np. Image-001.ppm, image-002.ppm itp. Dodano myślnik między określonym tekstem a numerem.

Domyślnym formatem obrazu jest PPM (portable pixmap) dla obrazów innych niż monochromatyczne lub PBM (portable bitmap) dla obrazów monochromatycznych. Te formaty są zaprojektowane tak, aby można je było łatwo wymieniać między platformami.

UWAGA: Możesz otrzymać dwa pliki obrazów dla każdego obrazu w pliku PDF. Drugi obraz dla każdego obrazu jest pusty, dzięki czemu będziesz mógł stwierdzić, które obrazy zawierają obrazy z pliku przez miniaturę pliku w Menedżerze plików.

Aby utworzyć pliki graficzne .jpg, dodaj opcję "-j" do polecenia, jak pokazano poniżej.

pdfimages -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image

UWAGA: Możesz także zmienić domyślne wyjście na PNG używając opcji "-png" lub TIFF używając opcji "-tiff".

Główny plik obrazu dla każdego obrazu jest zapisywany jako plik .jpg. Drugim pustym obrazem jest nadal plik .ppm lub .pbm.

Jeśli chcesz konwertować obrazy na i po określonej stronie, użyj opcji "-f" z numerem, aby wskazać pierwszą stronę do przekonwertowania, jak pokazano w poniższym przykładowym poleceniu.

pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image

UWAGA: Połączyliśmy opcję "-j" z opcją "-f", aby uzyskać obrazy .jpg i zrobiliśmy to samo z opcją "-l" wymienioną poniżej.

Aby przekonwertować wszystkie obrazy przed i na określonej stronie, użyj opcji "-l" (małe litery "L", a nie cyfry "1") z liczbą, która wskazuje ostatnią stronę do przeliczenia, jak pokazano poniżej.

pdfimages -l 1 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image

UWAGA: Możesz użyć opcji "-f" i "-l", aby konwertować obrazy w określonym zakresie stron w środku dokumentu.

Jeśli w pliku PDF znajduje się hasło właściciela, użyj opcji "-opw" i hasła w cudzysłowach, jak pokazano poniżej. Jeśli hasło w pliku PDF jest hasłem użytkownika, użyj zamiast tego opcji "-upw" z hasłem.

UWAGA: Upewnij się, że w haśle są pojedyncze cudzysłowy w poleceniu.

pdfimages -opw 'password' -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image

Aby uzyskać więcej informacji o używaniu polecenia pdfimages, wpisz "pdfimages" w oknie Terminala i naciśnij "Enter". Wyświetlane jest użycie polecenia z listą opcji dostępnych do użycia w poleceniu.