[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [shell-script] Ajuda com transformação de arquivos
From: |
Eri Ramos Bastos |
Subject: |
Re: [shell-script] Ajuda com transformação de arquivos |
Date: |
Wed, 10 Nov 2010 14:31:18 -0400 |
Tem certeza que esse é o melhor "approach"?
Eu peguei só 10 mil entradas:
[0.57][1426] ebastos:/tmp/lixo$> head -10000 kddcup.data_10_percent > small
Ai rodei seu script:
[0.41][1427] ebastos:/tmp/lixo$> time ./organiza_fonte.sh small > bla
real 0m15.057s
user 0m13.710s
sys 0m1.130s
Pensei que poderia usar o sed e converti (mal e porcamente) o arquivo
especif.h para sed (http://pastebin.com/nN0LP0ZB)
E rodei de novo:
[0.49][1426] ebastos:/tmp/lixo$> time sed -f pat.sed < small > ble
real 0m0.401s
user 0m0.370s
sys 0m0.020s
O arquivo sed ainda precisa de um fine-tunning. Parece que eu perdi
alguma coisa, já que o diff dos dois outputs não está batendo, mas
pelo tempo ai dá pra ver que deve vale a pena reescrever usando sed.
[]'s
Eri Ramos Bastos
2010/11/10 Jeiks <address@hidden>:
> Olá lista,
> estou com um arquivo de 4898431 linhas, que segue o seguinte padrão:
>
>
>
> 0,tcp,http,SF,219,1098,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,7,255,1.00,0.00,0.14,0.05,0.00,0.01,0.00,0.00,normal.
>
>
> 0,udp,domain_u,SF,30,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,2,0.00,0.00,0.00,0.00,1.00,0.00,1.00,46,9,0.20,0.11,0.20,0.00,0.00,0.00,0.00,0.00,normal.
>
> estou convertendo os valores para organizá-los como entrada de uma rede
> neural.
> Bom, fiz o script abaixo, mas pelas minhas contas ele vai demorar 25h
> para terminar... e eu ainda tenho outros arquivos.
> Gostaria de uma ajuda para a otimização do script.
>
> Informações:
> especif.h (biblioteca de vetores indexados - necessita de bash 4.0) ->
> http://pastebin.com/AMxEvSYd
> organiza_fonte.sh -> http://pastebin.com/XxNrBX4y
> execução: ./organiza_fonte.sh arquivo > arquivo_saida
>
> arquivo completo de entrada:
> http://kdd.ics.uci.edu/databases/kddcup99/kddcup.data.gz
> 10% do arquivo de entrada:
> http://kdd.ics.uci.edu/databases/kddcup99/kddcup.data_10_percent.gz
>
> obrigado a todos
>
> --
> Jacson R. C. Silva
>
>
> [As partes desta mensagem que não continham texto foram removidas]
>
>
>
> ------------------------------------
>
> ---------------------------------------------------------------------
> Esta lista não admite a abordagem de outras liguagens de programação, como
> perl, C etc. Quem insistir em não seguir esta regra será moderado sem prévio
> aviso.
> ---------------------------------------------------------------------
> Sair da lista: address@hidden
> ---------------------------------------------------------------------
> Esta lista é moderada de acordo com o previsto em
> http://www.listas-discussao.cjb.net
> ---------------------------------------------------------------------
> Servidor Newsgroup da lista: news.gmane.org
> Grupo: gmane.org.user-groups.programming.shell.brazil
>
> Links do Yahoo! Grupos
>
>
>