shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [shell-script] Filtrar retorno html


From: Leslie Watter
Subject: Re: [shell-script] Filtrar retorno html
Date: Wed, 12 Sep 2012 14:26:22 -0300

Oi Peterson,

Eu usei o w3m com a opção -dump... veja só :

leslie@mione:~$ w3m -dump  "
https://vendas.autoviacao1001.com.br/perl/br5.cgi?ida=soloida&txt_desde=532&txt_hasta=521&fecha=120912&fecha_vuelta=120911&Submit2=";
| grep "( )   "
Received cookie: sessionID6=2d0396fe63be4deed4a17545d436ae2f
        ( )       16:20 (qua) 19:00     20,64 25        CONV C/AR    [avmil]
        ( )       17:15 (qua) 19:45     20,64 31        CONV C/AR    [avmil]
        ( )       18:15 (qua) 20:45     20,64 26        CONVENCIONAL [avmil]
        ( )       23:50 (qua) 02:00     20,64 19        CONV C/AR    [avmil]
        ( )       23:57 (qua) 02:30     20,64 35        CONVENCIONAL [avmil]
leslie@mione:~$

É só vc filtrar mais se quiser alguma coisa diferente ... e com certeza
fica mais fácil que o while grep ....


[]s

Leslie

2012/9/11 Petterson Faria <address@hidden>

> Vaeu Fernando, vou testar sim.
> Fiz usando curl -s |grep e ta resolvendo para o que eu queria.
>
> --
> Atenciosamente,
> *Petterson Faria*
>
> *"*Where there is a shell there is a way" (UNIX)
>
>
>
>
> 2012/9/11 Fernando Mercês <address@hidden>
>
> > **
> >
> >
> > Petterson,
> >
> > Dá pra fazer com sed, mas em geral não se recomenda o sed para parsear
> html
> > e sim texto puro. Por isso eu acho legal você converter html para texto
> > antes. Um script legal é o html2text.py [1]. Com ele dá pra fazer:
> >
> > wget -qO - 'sua_url' | iconv -f ISO-8859-1 -t UTF-8 | python html2text.py
> >
> > PS.: Usei o iconv porque o site que você informou é ISO-8859-1 :( e o
> > html2text trabalha com UTF-8.
> >
> > A partir daí o que você vai ter é texto puro, sem as tags HTML. Acho
> melhor
> > para parsear com o sed/grep. Por exemplo, as datas disponíveis você já
> pega
> > com a regex '[01][0-9]:[0-5][0-9] \([a-z]{3}\)'
> >
> > Abraço.
> >
> > [1] https://github.com/aaronsw/html2text
> >
> > Att,
> >
> > Fernando Mercês
> > Linux Registered User #432779
> > www.mentebinaria.com.br
> > ------------------------------------
> > "Ninguém pode ser escravo de sua identidade; quando surge uma
> possibilidade
> > de mudança é preciso mudar". (Elliot Gould)
> >
> > 2012/9/11 Petterson Faria <address@hidden>
> >
> > > **
> >
> > >
> > >
> > > Boa tarde amigos.
> > >
> > > Estava ajudando um amigo a fazer um script para consultar horario de
> > onibus
> > > no site da 1001
> > >
> > > basicamente seria chamar o curl para a url com os parametros de data,
> > > origem e destino.
> > > Porem a gente queria passar por parametro um horario e ele retornar se
> > tem
> > > ou nao.
> > >
> > > Existem algum jeito melhor de trabalhar com o retorno do que usando
> > > "Tokenize" ou "while read" limitando pelo "<d1> + </dd>" desse retorno?
> > >
> > >
> >
> https://vendas.autoviacao1001.com.br/perl/br5.cgi?ida=soloida&txt_desde=532&txt_hasta=521&fecha=120911&fecha_vuelta=120911&Submit2=
> > >
> > > --
> > > Atenciosamente,
> > > *Petterson Faria*
> > >
> > > *"*Where there is a shell there is a way" (UNIX)
> > >
> > > [As partes desta mensagem que não continham texto foram removidas]
> > >
> > >
> > >
> >
> > [As partes desta mensagem que não continham texto foram removidas]
> >
> >
> >
>
>
> [As partes desta mensagem que não continham texto foram removidas]
>
>
>
> ------------------------------------
>
> ---------------------------------------------------------------------
> Esta lista não admite a abordagem de outras liguagens de programação, como
> perl, C etc. Quem insistir em não seguir esta regra será moderado sem
> prévio aviso.
> ---------------------------------------------------------------------
> Sair da lista: address@hidden
> ---------------------------------------------------------------------
> Esta lista é moderada de acordo com o previsto em
> http://www.listas-discussao.cjb.net
> ---------------------------------------------------------------------
> Servidor Newsgroup da lista: news.gmane.org
> Grupo: gmane.org.user-groups.programming.shell.brazil
>
> Links do Yahoo! Grupos
>
>
>


-- 
Leslie H. Watter


[As partes desta mensagem que não continham texto foram removidas]



reply via email to

[Prev in Thread] Current Thread [Next in Thread]