[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: copiar página da web via script - questão de formatação
From: |
Cristiano |
Subject: |
Re: copiar página da web via script - questão de formatação |
Date: |
Tue, 03 Aug 2010 20:27:04 -0000 |
User-agent: |
eGroups-EW/0.82 |
--- Em address@hidden, Helton Moraes <heltonbiker@...> escreveu
>
> Caros Colegas
>
> Agradeço muito pelas respostas, e agora é que me dei conta das diferenças
> entre as dicas apresentadas: wget para pegar o código fonte, e lynx e cia
> para a página formatada.
>
> Acabei usando o lynx -dump -crawl http://www.site.com | grep, sed, etc, pois
> a opção crawl remove os números antes dos links.
>
> Recomendo muito a todos aqueles que vivem pescando coisas da internet fazer
> esses scripts de parsing da página formatada ou do código fonte (conforme a
> conveniência), já que poupa bastante trabalho e faz a gente se sentir
> poderoso, ainda mais naqueles sites que dificultam as coisas, hehe. Além
> disso, é um ótimo exercício de regex no sed ou no grep.
>
> Até mais
>
> Helton
Anota aí então para sua caixa de ferramentas mais um comandinho: curl.
É extremamente útil quando você precisa fazer de uma sessão autenticada para de
acessar dados restritos em sites.
Exemplosinho básico de seu uso:
http://pastebin.com/zYgT4Fge
Quando você precisa pegar o ID de uma sessão e passar na URL, ele também é
deveras útil.