shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [shell-script] Remover tags html, mas deixar o endereço do Link


From: Tiago Peczenyj
Subject: Re: [shell-script] Remover tags html, mas deixar o endereço do Link
Date: Fri, 2 Dec 2011 20:46:30 -0200

faça assim

sed 's/\ //g'

quando vc coloca entre [ e ] isso significa qualquer caracter dentro desses
caracteres

ou seja, tanto n quanto b quanto s ou p...

Porém vc ja tentou utilizar o lynx com a opcao --dump? acho que ele
encontra todos os links e coloca no final... de uma olhada.

2011/12/2 Rodrigo Boechat <address@hidden>

> **
>
>
> Pessoal,
>
> Estou com uma encrenca braba para resolver.
> No meu serviço fizeram uma "Base de Conhecimento" em html no WORD!!!!!
> Agora eu preciso limpar a bagaça toda que o word fez no html para
> refazer a base.
> Eu consegui remover todas as tags com o comando abaixo, mas ele gerou
> dois problemas que eu não sei como resolver:
>
> cat menuinstallconteudo.htm | tr "\r" " " | tr "\n" " " | sed -e
> "s/<[^>]*>//g;s/[&nbsp;]//g" > teste2.htm
>
> Primeiramente é que o comando removeu todas as letras "n" do arquivo.
> Não consegui compreender o porque...
> O segundo é que eu preciso do valor do HREF das tags <a>...
>
> Não me importa como será a saída, desde que o link esteja próximo do texto.
> Exemplos:
>
> texto texto.link texto2 texto2.link texto3 texto3.link
>
> ou
> texto1 texto1.link
> texto2 texto2.link
>
> ou
> texto1.link texto1
> texto2.link texto2
>
> Segue um exemplo da encrenca que eu estou enfrentando:
> <p class=MsoNoSpacing
> style='margin-left:36.0pt;text-indent:-18.0pt;line-height:
> 115%;mso-list:l0 level1 lfo2'><![if !supportLists]><span
> style='font-family:
> Symbol;mso-fareast-font-family:Symbol;mso-bidi-font-family:Symbol'><span
> style='mso-list:Ignore'>·<span style='font:7.0pt "Times New
> Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> </span></span></span><![endif]><span
> style='font-size:10.0pt;line-height:115%;
> font-family:"Verdana","sans-serif"'><a
> href="../install/I-7ZIP.doc">7-ZIP</a></span><span
> style='font-family:"Verdana","sans-serif"'><o:p></o:p></span></p>
>
> Tags multi linhas e uma confusão difícil de compreender. E há parágrafos
> ainda mais confusos, dependendo da quantidade de vez que ele foi editado...
>
> [As partes desta mensagem que não continham texto foram removidas]
>
>  
>



-- 
Tiago B. Peczenyj
Linux User #405772

http://pacman.blog.br


[As partes desta mensagem que não continham texto foram removidas]



reply via email to

[Prev in Thread] Current Thread [Next in Thread]