Как извлечь изображения из PDF в ОС Linux

Здравствуйте, друзья. В этой статье мы покажем как извлечь изображения из PDF файла. Иногда возникает необходимость извлечь изображения, находящиеся внутри PDF-файла. Это может показаться сложным, но это проще, чем вы думаете.

Лучше всего, что вы можете сделать это из терминала, чтобы не тратить ресурсы и убедиться, что процесс идет очень быстро.

Как извлечь изображения из PDF в ОС Linux
Как извлечь изображения из PDF в ОС Linux

Установка Poppler в Linux

Poppler – это библиотека рендеринга PDF, основанная на кодовой базе XPDF-3.0. Она используется для обработки PDF-файлов и позволяет разработчикам создавать программы для чтения и редактирования PDF-документов. Poppler поддерживает множество операционных систем, включая Linux, macOS и Windows. В этой статье мы поговорим о Linux.

Именно с помощью этой библиотеки мы получим доступ к инструментам для работы с файлами PDF.

Для ее установки разумнее всего воспользоваться пакетом, входящим в официальные репозитории каждого дистрибутива. Хотя вы также можете скомпилировать его или загрузить двоичные файлы.

В случае с Debian, Ubuntu и их производными, такими как Linux Mint, вы можете выполнить команду

sudo apt update

sudo apt install poppler-utils

После установки библиотеки мы можем использовать часть ее компонентов для выполнения поставленной задачи.

Извлечение изображений из файла PDF

Процедура извлечения очень проста. Просто следуйте следующему синтаксису.

pdfimages -all input.pdf images/prefix

Приведенная выше команда берет все изображения из входного файла input.pdf и извлекает их в тот же каталог, что и запрос. Конечно, вы можете задать абсолютный путь к месту, где находится PDF-файл, и другой путь для выходного файла.

Что касается images/prefix, то идеальным вариантом будет выбрать такой, который хорошо идентифицирует изображения, а также формат jpeg или png, из которых два PNG обеспечивают более высокое качество.

После вышесказанного команда будет выглядеть следующим образом.

pdfimages -all input.pdf sample

В результате в каталоге будут созданы файлы изображений с такой номенклатурой sample-nnn.png.

Если вы хотите использовать jpg, то добавьте опцию -j

pdfimages -all -j input.pdf sample

Что касается опции -j, вы можете не получить желаемых результатов, но посмотрите, что говорит об этом человек:

” Обычно все изображения записываются в виде файлов PBM (для монохромных изображений) или PPM (для немонохромных изображений). При использовании этой опции изображения в формате DCT сохраняются как файлы JPEG. Все не-DCT изображения сохраняются в формате PBM/PPM как обычно.”

Дополнительные опции для извлечения изображений

Приведенная выше команда извлекает все изображения, но во многих случаях мы хотим определить диапазон. Важный параметр, если файл очень длинный.

Для этого существуют опции -f и -l, которые определяют первую и последнюю страницу, с которой нужно извлечь изображения.

pdfimages -f 1 -l 5 -png input.pdf images

Это, пожалуй, самая полезная опция, поскольку она позволяет нам ограничить выходные файлы.

Другой очень интересной опцией является параметр -p, которая включает номера страниц в имена выходных файлов.

pdfimages -f 1 -l 5 -png -p input.pdf images

В целом, процедура извлечения изображений из файла PDF довольно проста, и вы можете использовать дополнительные опции, чтобы ограничить выходные файлы.

Понравилась статья?

Помогите Setiwik.ru создавать больше глубоких обзоров и новостей. Один клик и ваш вклад помогает держать серверы включёнными и авторов мотивированными!

Спасибо, что вы с нами!

Nazario

Я Назар. Уже больше десяти лет я работаю с Linux и Windows системами каждый день. Это моя основная профессия и большая часть жизни.
Всё, что ты читаешь на Setiwik.ru, начинается с официальной документации, мануалов и технических спецификаций. Я их изучаю очень внимательно. Но ценность статей появляется именно тогда, когда я беру эту базу и пропускаю через десятки реальных ситуаций: ночные аварии, странные баги, которые не гуглятся с первого раза, выстраданные конфиги и проверенные обходные пути.
Я не обещаю истину в последней инстанции. Но если мой опыт поможет тебе сэкономить хотя бы пару часов нервов и перезагрузок, значит всё это было не зря. Здесь только практика: от тонкой настройки серверов до самых неожиданных ситуаций, которые официальные руководства обычно обходят стороной.
Setiwik.ru это место, где IT становится понятнее и спокойнее. Заходи почаще. Будем разбираться вместе.

Практические инструкции по Windows и Linux
Добавить комментарий