[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [shell-script] Filtrar retorno html
From: |
Fernando Mercês |
Subject: |
Re: [shell-script] Filtrar retorno html |
Date: |
Tue, 11 Sep 2012 13:44:16 -0300 |
Petterson,
Dá pra fazer com sed, mas em geral não se recomenda o sed para parsear html
e sim texto puro. Por isso eu acho legal você converter html para texto
antes. Um script legal é o html2text.py [1]. Com ele dá pra fazer:
wget -qO - 'sua_url' | iconv -f ISO-8859-1 -t UTF-8 | python html2text.py
PS.: Usei o iconv porque o site que você informou é ISO-8859-1 :( e o
html2text trabalha com UTF-8.
A partir daí o que você vai ter é texto puro, sem as tags HTML. Acho melhor
para parsear com o sed/grep. Por exemplo, as datas disponíveis você já pega
com a regex '[01][0-9]:[0-5][0-9] \([a-z]{3}\)'
Abraço.
[1] https://github.com/aaronsw/html2text
Att,
Fernando Mercês
Linux Registered User #432779
www.mentebinaria.com.br
------------------------------------
"Ninguém pode ser escravo de sua identidade; quando surge uma possibilidade
de mudança é preciso mudar". (Elliot Gould)
2012/9/11 Petterson Faria <address@hidden>
> **
>
>
> Boa tarde amigos.
>
> Estava ajudando um amigo a fazer um script para consultar horario de onibus
> no site da 1001
>
> basicamente seria chamar o curl para a url com os parametros de data,
> origem e destino.
> Porem a gente queria passar por parametro um horario e ele retornar se tem
> ou nao.
>
> Existem algum jeito melhor de trabalhar com o retorno do que usando
> "Tokenize" ou "while read" limitando pelo "<d1> + </dd>" desse retorno?
>
> https://vendas.autoviacao1001.com.br/perl/br5.cgi?ida=soloida&txt_desde=532&txt_hasta=521&fecha=120911&fecha_vuelta=120911&Submit2=
>
> --
> Atenciosamente,
> *Petterson Faria*
>
> *"*Where there is a shell there is a way" (UNIX)
>
> [As partes desta mensagem que não continham texto foram removidas]
>
>
>
[As partes desta mensagem que não continham texto foram removidas]
- Filtrar retorno html, Petterson Faria, 2012/09/11
- Re: [shell-script] Filtrar retorno html,
Fernando Mercês <=