shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [shell-script] Filtrar retorno html


From: Petterson Faria
Subject: Re: [shell-script] Filtrar retorno html
Date: Tue, 11 Sep 2012 13:48:18 -0300

Vaeu Fernando, vou testar sim.
Fiz usando curl -s |grep e ta resolvendo para o que eu queria.

--
Atenciosamente,
*Petterson Faria*

*"*Where there is a shell there is a way" (UNIX)




2012/9/11 Fernando Mercês <address@hidden>

> **
>
>
> Petterson,
>
> Dá pra fazer com sed, mas em geral não se recomenda o sed para parsear html
> e sim texto puro. Por isso eu acho legal você converter html para texto
> antes. Um script legal é o html2text.py [1]. Com ele dá pra fazer:
>
> wget -qO - 'sua_url' | iconv -f ISO-8859-1 -t UTF-8 | python html2text.py
>
> PS.: Usei o iconv porque o site que você informou é ISO-8859-1 :( e o
> html2text trabalha com UTF-8.
>
> A partir daí o que você vai ter é texto puro, sem as tags HTML. Acho melhor
> para parsear com o sed/grep. Por exemplo, as datas disponíveis você já pega
> com a regex '[01][0-9]:[0-5][0-9] \([a-z]{3}\)'
>
> Abraço.
>
> [1] https://github.com/aaronsw/html2text
>
> Att,
>
> Fernando Mercês
> Linux Registered User #432779
> www.mentebinaria.com.br
> ------------------------------------
> "Ninguém pode ser escravo de sua identidade; quando surge uma possibilidade
> de mudança é preciso mudar". (Elliot Gould)
>
> 2012/9/11 Petterson Faria <address@hidden>
>
> > **
>
> >
> >
> > Boa tarde amigos.
> >
> > Estava ajudando um amigo a fazer um script para consultar horario de
> onibus
> > no site da 1001
> >
> > basicamente seria chamar o curl para a url com os parametros de data,
> > origem e destino.
> > Porem a gente queria passar por parametro um horario e ele retornar se
> tem
> > ou nao.
> >
> > Existem algum jeito melhor de trabalhar com o retorno do que usando
> > "Tokenize" ou "while read" limitando pelo "<d1> + </dd>" desse retorno?
> >
> >
> https://vendas.autoviacao1001.com.br/perl/br5.cgi?ida=soloida&txt_desde=532&txt_hasta=521&fecha=120911&fecha_vuelta=120911&Submit2=
> >
> > --
> > Atenciosamente,
> > *Petterson Faria*
> >
> > *"*Where there is a shell there is a way" (UNIX)
> >
> > [As partes desta mensagem que não continham texto foram removidas]
> >
> >
> >
>
> [As partes desta mensagem que não continham texto foram removidas]
>
>  
>


[As partes desta mensagem que não continham texto foram removidas]



reply via email to

[Prev in Thread] Current Thread [Next in Thread]