it-swarm-pt.tech

Existe algum tipo de PDF para conversor de texto?

Eu preciso de PDF arquivos para texto para que eu possa pesquisá-los em massa na linha de comando. Existe algum conversor para Ubuntu, OBSD ou distro semelhante?

Postagem talvez relacionada, OCR com ubuntu aqui .

21
otto

Você tem muitas opções!

pdftotext from poppler já foi mencionado.

Existe m programa Haskell chamado pdf2line que funciona bem.

calibre 's ebook-convert programa de linha de comando (ou o próprio calibre) é outra opção; ele pode converter PDF para texto simples, ou outro formato de e-book (RTF, ePub), na minha opinião ele gera melhores resultados do que o pdftotext, embora seja consideravelmente mais lento.

ebook-convert file.pdf file.txt

AbiWord pode converter entre quaisquer formatos que ele conhece da linha de comando, e pelo menos opcionalmente tem um plugin de importação PDF:

abiword --to=txt file.pdf

Outra opção é podofotextextract da podofo PDF biblioteca de ferramentas. Eu realmente não tentei isso.

Se você combinar as duas ferramentas Ghostscript, pdf2ps e ps2ascii, você tem mais uma opção.

Na verdade, posso pensar em mais alguns métodos, mas vou deixar assim por enquanto. ;)

22
frabjous

Você pode converter PDFs em texto na linha de comando com pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utils pacote).

Você pode usar Recoll (Ubuntu: recoll ; OpenBSD: sem porta, mas há uma para FreeBSD .) Para pesquisar dentro de vários tipos de documentos de texto formatados , incluindo PDF. Há uma GUI e ela cria um índice automaticamente nos bastidores. Ele usa pdftotext para converter PDF em texto.

O Acrobat Reader (pelo menos a versão 9 no Linux) tem um recurso limitado de pesquisa de vários arquivos (você pode pesquisar em todos os arquivos em um diretório).

9

o pdftotext é provavelmente o que você está procurando: http://en.wikipedia.org/wiki/Pdftotext a menos que o texto que você deseja extrair esteja realmente em uma forma gráfica, o que não é tão comum com o pdf documentos.

4
jlliagre