Eu preciso de PDF arquivos para texto para que eu possa pesquisá-los em massa na linha de comando. Existe algum conversor para Ubuntu, OBSD ou distro semelhante?
Postagem talvez relacionada, OCR com ubuntu aqui .
Você tem muitas opções!
pdftotext
from poppler já foi mencionado.
Existe m programa Haskell chamado pdf2line
que funciona bem.
calibre 's ebook-convert
programa de linha de comando (ou o próprio calibre) é outra opção; ele pode converter PDF para texto simples, ou outro formato de e-book (RTF, ePub), na minha opinião ele gera melhores resultados do que o pdftotext, embora seja consideravelmente mais lento.
ebook-convert file.pdf file.txt
AbiWord pode converter entre quaisquer formatos que ele conhece da linha de comando, e pelo menos opcionalmente tem um plugin de importação PDF:
abiword --to=txt file.pdf
Outra opção é podofotextextract
da podofo PDF biblioteca de ferramentas. Eu realmente não tentei isso.
Se você combinar as duas ferramentas Ghostscript, pdf2ps
e ps2ascii
, você tem mais uma opção.
Na verdade, posso pensar em mais alguns métodos, mas vou deixar assim por enquanto. ;)
Você pode converter PDFs em texto na linha de comando com pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utils
pacote).
Você pode usar Recoll (Ubuntu: recoll ; OpenBSD: sem porta, mas há uma para FreeBSD .) Para pesquisar dentro de vários tipos de documentos de texto formatados , incluindo PDF. Há uma GUI e ela cria um índice automaticamente nos bastidores. Ele usa pdftotext
para converter PDF em texto.
O Acrobat Reader (pelo menos a versão 9 no Linux) tem um recurso limitado de pesquisa de vários arquivos (você pode pesquisar em todos os arquivos em um diretório).
o pdftotext é provavelmente o que você está procurando: http://en.wikipedia.org/wiki/Pdftotext a menos que o texto que você deseja extrair esteja realmente em uma forma gráfica, o que não é tão comum com o pdf documentos.