shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [shell-script] Ajuda com transformação de arquivos


From: Jeiks
Subject: Re: [shell-script] Ajuda com transformação de arquivos
Date: Fri, 12 Nov 2010 16:36:44 -0200

Opa,
   fiz com awk aqui, pra poder manter os vetores mais visíveis e para
trabalhar com fórmulas depois, pois precisarei de normalizar os valores.
Ficou assim:

$ head -n 10000 kddcup.data > a
$ time sed -f sed_patterns.sed a > b

real    0m0.967s
user    0m0.664s
sys     0m0.044s

$ time ./org_awk.sh a > c

real    0m1.022s
user    0m0.768s
sys     0m0.016s

Fica um pouco mais lento, mas acho que também vale a pena.
o código do org_awk.sh está aqui: http://pastebin.com/We3fihks

abs

Em 10 de novembro de 2010 17:07, Eri Ramos Bastos
<address@hidden>escreveu:

>
>
> Sem problemas.
>
> última correção no arquivo sed (rodei pro arquivo inteiro e achei um
> erro pro tftp...):
>
> http://pastebin.com/uFMPvu3x
>
> Agora sim deve estar supimpa.
>
>
> []'s
> Eri Ramos Bastos
>
> 2010/11/10 Jeiks <address@hidden <jacsonrcsilva%40gmail.com>>:
> > Nossa... bem melhor somente com sed... a estimativa agora é de 11 minutos
> e
> > alguns segundos.
> >
> > vlw mesmo
> >
> > Em 10 de novembro de 2010 12:46, Eri Ramos Bastos
> > <address@hidden <bastos.eri%40gmail.com>>escreveu:
> >
> >>
> >>
> >> Arquivo sed corrigido. Agora os outputs batem perfeitamente:
> >>
> >> http://pastebin.com/efM0rE59
> >>
> >> []'s
> >> Eri Ramos Bastos
> >>
> >> 2010/11/10 Eri Ramos Bastos 
> >> <address@hidden<bastos.eri%40gmail.com><bastos.eri%
> 40gmail.com>
>
> >> >:
> >>
> >> > Tem certeza que esse é o melhor "approach"?
> >> >
> >> >
> >> > Eu peguei só 10 mil entradas:
> >> > [0.57][1426] ebastos:/tmp/lixo$> head -10000 kddcup.data_10_percent >
> >> small
> >> >
> >> > Ai rodei seu script:
> >> >
> >> > [0.41][1427] ebastos:/tmp/lixo$> time ./organiza_fonte.sh small > bla
> >> >
> >> > real    0m15.057s
> >> > user    0m13.710s
> >> > sys     0m1.130s
> >> >
> >> > Pensei que poderia usar o sed e converti (mal e porcamente) o arquivo
> >> > especif.h para sed (http://pastebin.com/nN0LP0ZB)
> >> > E rodei de novo:
> >> >
> >> > [0.49][1426] ebastos:/tmp/lixo$> time sed -f pat.sed < small > ble
> >> >
> >> > real    0m0.401s
> >> > user    0m0.370s
> >> > sys     0m0.020s
> >> >
> >> > O arquivo sed ainda precisa de um fine-tunning. Parece que eu perdi
> >> > alguma coisa, já que o diff dos dois outputs não está batendo, mas
> >> > pelo tempo ai dá pra ver que deve vale a pena reescrever usando sed.
> >> >
> >> >
> >> > []'s
> >> > Eri Ramos Bastos
> >> >
> >> >
> >> > 2010/11/10 Jeiks <address@hidden 
> >> > <jacsonrcsilva%40gmail.com><jacsonrcsilva%
> 40gmail.com>>:
>
> >> >> Olá lista,
> >> >>     estou com um arquivo de 4898431 linhas, que segue o seguinte
> padrão:
> >> >>
> >> >>
> >> >>
> >>
>  
> 0,tcp,http,SF,219,1098,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,7,255,1.00,0.00,0.14,0.05,0.00,0.01,0.00,0.00,normal.
> >> >>
> >> >>
> >>
>  
> 0,udp,domain_u,SF,30,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,2,0.00,0.00,0.00,0.00,1.00,0.00,1.00,46,9,0.20,0.11,0.20,0.00,0.00,0.00,0.00,0.00,normal.
> >> >>
> >> >>     estou convertendo os valores para organizá-los como entrada de
> uma
> >> rede
> >> >> neural.
> >> >>     Bom, fiz o script abaixo, mas pelas minhas contas ele vai demorar
> >> 25h
> >> >> para terminar... e eu ainda tenho outros arquivos.
> >> >>     Gostaria de uma ajuda para a otimização do script.
> >> >>
> >> >> Informações:
> >> >> especif.h (biblioteca de vetores indexados - necessita de bash 4.0)
> ->
> >> >> http://pastebin.com/AMxEvSYd
> >> >> organiza_fonte.sh -> http://pastebin.com/XxNrBX4y
> >> >> execução: ./organiza_fonte.sh arquivo > arquivo_saida
> >> >>
> >> >> arquivo completo de entrada:
> >> >> http://kdd.ics.uci.edu/databases/kddcup99/kddcup.data.gz
> >> >> 10% do arquivo de entrada:
> >> >> http://kdd.ics.uci.edu/databases/kddcup99/kddcup.data_10_percent.gz
> >> >>
> >> >> obrigado a todos
> >> >>
> >> >> --
> >> >> Jacson R. C. Silva
> >> >>
> >> >>
> >> >> [As partes desta mensagem que não continham texto foram removidas]
> >> >>
> >> >>
> >> >>
> >> >> ------------------------------------
> >> >>
> >> >> ----------------------------------------------------------
> >> >> Esta lista não admite a abordagem de outras liguagens de programação,
> >> como perl, C etc. Quem insistir em não seguir esta regra será moderado
> sem
> >> prévio aviso.
> >> >> ----------------------------------------------------------
> >> >> Sair da lista: 
> >> >> address@hidden<shell-script-unsubscribe%40yahoogrupos.com.br>
> <shell-script-unsubscribe%40yahoogrupos.com.br>
>
> >> >> ----------------------------------------------------------
> >> >> Esta lista é moderada de acordo com o previsto em
> >> http://www.listas-discussao.cjb.net
> >> >> ----------------------------------------------------------
> >> >> Servidor Newsgroup da lista: news.gmane.org
> >> >> Grupo: gmane.org.user-groups.programming.shell.brazil
> >> >>
> >> >> Links do Yahoo! Grupos
> >> >>
> >> >>
> >> >>
> >> >
> >>
> >>
> >>
> >
> >
> >
> > --
> > Jacson R. C. Silva
> >
> >
> > [As partes desta mensagem que não continham texto foram removidas]
> >
> >
> >
> > ------------------------------------
> >
> > ----------------------------------------------------------
> > Esta lista não admite a abordagem de outras liguagens de programação,
> como perl, C etc. Quem insistir em não seguir esta regra será moderado sem
> prévio aviso.
> > ----------------------------------------------------------
> > Sair da lista: address@hidden<shell-script-unsubscribe%40yahoogrupos.com.br>
> > ----------------------------------------------------------
> > Esta lista é moderada de acordo com o previsto em
> http://www.listas-discussao.cjb.net
> > ----------------------------------------------------------
> > Servidor Newsgroup da lista: news.gmane.org
> > Grupo: gmane.org.user-groups.programming.shell.brazil
> >
> > Links do Yahoo! Grupos
> >
> >
> >
>
>  
>



-- 
Jacson R. C. Silva


[As partes desta mensagem que não continham texto foram removidas]



reply via email to

[Prev in Thread] Current Thread [Next in Thread]