shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [shell-script] Re: regexp para extrair domínio de uma URL


From: Julio C. Neves
Subject: Re: [shell-script] Re: regexp para extrair domínio de uma URL
Date: Tue, 3 Nov 2009 17:33:45 -0200

Fala Cristiano,
eu, na pressa constante, não analisei o que vc postou no pastebin e já
mandei meu pitaco, sem testar. Como não gosto de deixar nada errado na
lista, aí vai uma resposta para vc pensar:

$ grep -oE
'^(www\.)?[[:alpha:]]+\.([[:alpha:]]{3,4})?(\.)?([[:alpha:]]{2})?$' <<< "
www.usp.br
ufmt.br
www.ufmt.br
www.google.com
google.com
www.google.com.br
google.com.br
www.ta.tudo.errado"
www.usp.br
ufmt.br
www.ufmt.br
www.google.com
google.com
www.google.com.br
google.com.br

Sugiro que vc troque o www por uma lista com todos os valores possíveis e o
[[:alpha:]]{3,4} tb.

Abraços,
Julio
Cursos de Shell e Zenity em 2 fins de semana?
- Em SP ligue (11) 2125-4747;
- Em DF ligue (61) 3223-3000;
- No RJ ligue (21) 2561-0867;
- Turmas fechadas em outras cidades ligue (21) 8112-9988.


2009/11/3 Cristiano <address@hidden>

>
>
> --- Em address@hidden <shell-script%40yahoogrupos.com.br>,
> "Julio C. Neves" <julio.neves@...> escreveu
>
> >
> > Fala Cristiano,
> > no pastebin vc colocou assim:
> >
> > ((coop|blog|radio|flog|vlog|wiki|taxi)|([[:alpha:]]{3}))\.
> > para fazer o que vc quer, basta tornar todo este bloco opcional. E para
> > isso, basta:
> > (((coop|blog|radio|flog|vlog|wiki|taxi)|([[:alpha:]]{3}))\.)?
> >
> > OBS: Assim como vc descreveu TDL possíveis, eu faria o mesmo para os
> > prefixos. Assim eu trocaria o [[:alpha:]]* inicial, por:
> >
> > (www|...)
>
> Grande mestre, boa tarde.
>
> A ER no pastebin tinha erros. Mas, seguindo seu raciocínio, quase cheguei
> lá.
>
> Reformulei o código, mas ainda me escapa algo. Veja:
>
> http://pastebin.com/f7ff2e392
>
> O problema ainda diz respeito aos domínios de universidades. Veja o
> destaque. Neste caso, eu gostaria de pegar apenas a raiz do domínio (
> uem.br) e não o subdomínio (DCE).
>
> Será que é o máximo em que se pode chegar genericamente ou ainda há o que
> melhorar?
>
> PS: Pessoal, por favor, vamos manter as mensagens organizadas. Criem novas
> threads em novas mensagem e não iniciar novos tópicos como respostas a
> tópicos existentes, como fez o Bruno Romano Mulle nesta thread. Não adianta
> mudar o subject pois existem referências internas à mensagem. Fica uma zona
> para quem segue os posts encadeados.
>
>  
>


[As partes desta mensagem que não continham texto foram removidas]



reply via email to

[Prev in Thread] Current Thread [Next in Thread]