Cum se extrag imagini încorporate dintr-un fișier PDF în Ubuntu folosind PDFImages

Como extrair imagens incorporadas de um arquivo PDF no Ubuntu usando PDFImages

⌛ Reading Time: 3 minutes

Embora já saibamos como editar arquivos PDF existentes no Ubuntu, há momentos em que o requisito é usar todas ou algumas das imagens contidas em um arquivo PDF. Copiar e colar manualmente é definitivamente uma opção, mas não economiza tempo, especialmente quando o arquivo PDF contém um grande número de imagens.

Existe uma ferramenta, dublado PDFImages, que torna a extração de imagens de arquivos PDF uma moleza. Neste artigo, discutiremos essa ferramenta usando exemplos fáceis de entender. Observe que todos os exemplos usados ​​no artigo são testados no Ubuntu 14.04 LTS usando a versão 0.24.5 da ferramenta.

O que é PDFImages?

Como já discutido, PDFImages é uma ferramenta de linha de comando que você pode usar para extrair imagens de um arquivo PDF. A página do manual da ferramenta diz que ela lê o arquivo PDF de entrada, o escaneia e produz um arquivo Portable Pixmap (PPM), Portable Pixmap (PBM) ou JPEG para cada imagem encontrada no arquivo PDF.

Baixar e instalar

Se a ferramenta ainda não estiver instalada na caixa do Ubuntu, você pode baixá-la e instalá-la usando o seguinte comando:

Além do PDFImages, o pacote “poppler-utils” também contém vários outros utilitários de linha de comando para obter informações de documentos PDF, convertendo-os em outros formatos ou manipulando-os.

Uso

A ferramenta de linha de comando PDFImages, em sua forma mais básica, requer dois argumentos: o arquivo PDF de entrada e o caminho para o diretório no qual deseja que a ferramenta salve as imagens. Por exemplo, no meu caso, tentei extrair imagens de um arquivo PDF chamado “christmas_story.pdf” e salvá-las em um diretório chamado “pdfimages”.

O comando acima produziu os seguintes arquivos no diretório de destino:

Como você pode ver na saída acima, o nome dos arquivos começa com um hífen (-) seguido por um número. Para aqueles que estão se perguntando por que o nome começa com um hífen, a ferramenta oferece a flexibilidade de prefixar qualquer palavra antes do hífen para que você possa criar nomes personalizados para as imagens de saída. Você pode fazer isso adicionando essa palavra específica ao caminho do diretório de destino enquanto executa o comando.

Por exemplo, adicionei a palavra “imagem” ao caminho do diretório de destino:

E os arquivos de saída produzidos neste caso carregavam o seguinte nome:

Vale ressaltar que, ao contrário do que diz a página de manual da ferramenta, duas imagens são produzidas para cada imagem no arquivo PDF, sendo uma em branco e a outra utilizável. No meu caso, as imagens ímpares estavam em branco:

Continuando, você também pode alterar o formato do arquivo de imagem de saída de “ppm” para “jpeg”, o que pode ser feito usando o -j opção. Lembre-se, no entanto, que com esta opção, apenas as imagens no formato DCT são salvas como arquivos JPEG – todas as imagens não DCT são salvas no formato PBM / PPM normalmente.

Você também pode especificar quais páginas deseja que a ferramenta digitalize. Dessa forma, você só obterá as imagens na saída que estão nessas páginas. Para ativar esta opção, você deve usar o -f opção (seguida pelo número da página) e -l (seguido pelo número da página) para especificar as páginas inicial e final, respectivamente.

Por exemplo, eu queria que a ferramenta extraísse apenas as imagens presentes na primeira página do arquivo PDF, então usei o seguinte comando:

E no diretório de destino, apenas duas imagens (total de quatro incluindo as em branco) foram produzidas:

Conclusão

O PDFImages é definitivamente uma ferramenta útil se seu trabalho envolve lidar com arquivos PDF e as imagens que eles contêm e, como você já deve ter observado, é fácil de aprender e também simples de usar. Para saber mais sobre a ferramenta, vá para seu página man.