[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
copiar página da web via script - questão de formatação
From: |
Helton Moraes |
Subject: |
copiar página da web via script - questão de formatação |
Date: |
Mon, 2 Aug 2010 19:07:31 -0300 |
Caros Colegas
Estou precisando pescar uma grande quantidade de dados de sites de lista
telefônica. Cada pesquisa (por especialidades médicas) retorna várias
páginas, então pretendo automatizar essa pesca.
O fato é que, se eu dou um "selecionar tudo" no Firefox, e copio/colo no
editor de texto, obtenho algo do tipo:
Ardais Clínica de Cirurgia Plástica Tel: (51) 3330-4856
Rua Quintino Bocaiúva, 699
Floresta - Porto Alegre - RS - CEP: 90440-051
mapa | +info | torpedo
Compartilhe essa informação no Facebook Compartilhe essa informação no
Twitter
Arnt, Ricardo A Tel: (51) 3346-5762
Rua Mariante, 288 s 1007
Rio Branco - Porto Alegre - RS - CEP: 90430-181
mapa | +info | torpedo
Compartilhe essa informação no Facebook Compartilhe essa informação no
Twitter
Augusto Casagrande Tel: (51) 3346-2812
Rua Mariante, 288 s 501
Rio Branco - Porto Alegre - RS - CEP: 90430-180
mapa | +info | torpedo
Compartilhe essa informação no Facebook Compartilhe essa informação no
Twitter
Azambuja, Paulo R F Tel: (51) 3328-9081
Rua Des Espiridião L Medeiros, 81
Três Figueiras - Porto Alegre - RS - CEP: 91330-020
+info | torpedo
Compartilhe essa informação no Facebook Compartilhe essa informação no
Twitter
.
.
.
.
mas se uso o wget, evidentemente essa formatação se perde, e os
códigos-fonte html neste caso não têm uma estrutura boa para usar algum
parsing.
Assim, a pergunta é:
"De que forma, ou qual programa/comando/opção eu poderia usar, via linha de
comando, para capturar para um .txt o conteúdo da página conforme mostrado
no navegador (o que seria equivalente a copiar e colar com o mouse)?"
Desde já agradeço a atenção
Helton
[As partes desta mensagem que não continham texto foram removidas]
- copiar página da web via script - questão de formatação,
Helton Moraes <=