[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [shell-script] Pesquisar string em arquivo pdf
From: |
Anderson |
Subject: |
Re: [shell-script] Pesquisar string em arquivo pdf |
Date: |
Mon, 28 Mar 2011 13:28:03 -0700 (PDT) |
Já passei por essa necessidade de pesquisar em arquivo .pdf e no meu caso foi
resolvido da seguinte forma:
1 - Primeiro eu tinha que baixar todos os arquivos pdf de um determinado site,
que era https e precisa de usuário e senha, nesse caso eu fiz:
wget --no-check-certificate --http-user=<login> --http-password=<senha> -nd -r
-A .pdf,.sxw https://<endereco>/ -P /root/tempdir/ -o logwget
2 – A pesquisa. Exemplo, pesquisando arquivos pdfs que contêm a palavra
“tomcat”:
root@maquina:~/tempdir# for i in * ; do if [ $(echo "$i" | rev | cut -f1 -d. |
rev) == "pdf" ] ; then result=$(pdftotext "$i" - | grep -i tomcat); if [[ -n
$result ]]; then echo -e "$i \n"`cat logwget | grep $i | grep -i http | cut -f3
-d" "`"\n"; fi; fi; done
Desvendando o for:
O loop “for” vai percorrer um a um, todos os elementos de um conjunto(*). Esse
conjunto contêm todos os arquivos do diretório "/root/tempdir/", onde foram
salvos todos os pdfs.
Em seguida será feito pesquisa apenas nos arquivos “.pdf”.
O “pdftotext” vai converter o arquivo pdf em um arquivo texto e o “grep” irá
pesquisar pela palavra “tomcat”.
Bom, pra mim, funcionou 100%!
Se tem pdf com documentos scanneados, pode fazer o uso das ferramentas:
tesseract-ocr; tesseract-ocr-por e gscan2pdf.
--- Em seg, 28/3/11, Karin Klayton Schiochet <address@hidden> escreveu:
De: Karin Klayton Schiochet <address@hidden>
Assunto: Re: [shell-script] Pesquisar string em arquivo pdf
Para: address@hidden
Data: Segunda-feira, 28 de Março de 2011, 14:24
Valeu pessoal,
Alexandre,
Valeu pela dica, estou baixando para fazer os testes.
Marcelo,
Vou também fazer alguns teste com o que você falou, já tinha feito
alguns exemplos convertendo de pdf para txt com o ps2txt mas ai não
coincidia a pagina da pesquisa feita no txt com relação ao pdf.
Vejo que você é de Belém-Pa, legal pois também sou desta cidade.
Atenciosamente,
Karin Klayton Schiochet
Em Seg, 2011-03-28 às 12:41 -0300, Marcelo Andrade escreveu:
>
>
> 2011/3/28 Karin Klayton Schiochet <address@hidden>
> >
> > (..)
>
> Além da dica do Alexandre, se for o caso, você poderia
> converter o pdf para ps e trabalhar em cima de um dump
> feito com ps2txt. Esses utilitários são do ghostscript.
>
> Atts.
>
> --
> MARCELO F ANDRADE
> Belem, Amazonia, Brazil
>
> "I took the red pill"
>
>
>
>
[As partes desta mensagem que não continham texto foram removidas]
[As partes desta mensagem que não continham texto foram removidas]