shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [shell-script] Filtrar retorno html


From: Fernando Mercês
Subject: Re: [shell-script] Filtrar retorno html
Date: Tue, 11 Sep 2012 13:44:16 -0300

Petterson,

Dá pra fazer com sed, mas em geral não se recomenda o sed para parsear html
e sim texto puro. Por isso eu acho legal você converter html para texto
antes. Um script legal é o html2text.py [1]. Com ele dá pra fazer:

wget -qO - 'sua_url' | iconv -f ISO-8859-1 -t UTF-8 | python html2text.py

PS.: Usei o iconv porque o site que você informou é ISO-8859-1 :( e o
html2text trabalha com UTF-8.

A partir daí o que você vai ter é texto puro, sem as tags HTML. Acho melhor
para parsear com o sed/grep. Por exemplo, as datas disponíveis você já pega
com a regex '[01][0-9]:[0-5][0-9] \([a-z]{3}\)'

Abraço.

[1] https://github.com/aaronsw/html2text

Att,

Fernando Mercês
Linux Registered User #432779
www.mentebinaria.com.br
------------------------------------
"Ninguém pode ser escravo de sua identidade; quando surge uma possibilidade
de mudança é preciso mudar". (Elliot Gould)


2012/9/11 Petterson Faria <address@hidden>

> **
>
>
> Boa tarde amigos.
>
> Estava ajudando um amigo a fazer um script para consultar horario de onibus
> no site da 1001
>
> basicamente seria chamar o curl para a url com os parametros de data,
> origem e destino.
> Porem a gente queria passar por parametro um horario e ele retornar se tem
> ou nao.
>
> Existem algum jeito melhor de trabalhar com o retorno do que usando
> "Tokenize" ou "while read" limitando pelo "<d1> + </dd>" desse retorno?
>
> https://vendas.autoviacao1001.com.br/perl/br5.cgi?ida=soloida&txt_desde=532&txt_hasta=521&fecha=120911&fecha_vuelta=120911&Submit2=
>
> --
> Atenciosamente,
> *Petterson Faria*
>
> *"*Where there is a shell there is a way" (UNIX)
>
> [As partes desta mensagem que não continham texto foram removidas]
>
>  
>


[As partes desta mensagem que não continham texto foram removidas]



reply via email to

[Prev in Thread] Current Thread [Next in Thread]