[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Deduplicator tabajara!
From: |
ainda_uso_win311 |
Subject: |
Re: Deduplicator tabajara! |
Date: |
Wed, 10 Apr 2013 17:45:03 -0000 |
User-agent: |
eGroups-EW/0.82 |
Maldito (ou bendito?) awk...
Tenho uma relação de amor e ódio com esse comando! Amor porque é milagroso e
ódio porque ainda não consegui entender a sua lógica.
Vou destrincha-lo mais...
Muito obrigado Tiago, já me deu um norte!
Att.
--- Em address@hidden, Tiago Peczenyj <tiago.peczenyj@...> escreveu
>
> opa
>
> saca so
>
> $ find . -type f | xargs md5 -r | awk 'a[$1]{ print "achei " $2 " tem o
> mesmo md5 de " a[$1] ; next; } { a[$1]=$2 }'
>
> estou usando BSD e md5 -r tem o output
> MD5 ./nome_do_arquivo1
> MD5 ./nome_do_arquivo2
> ...
>
> se vc rodar o script acima vc vai ver que eu tenho uma saida como esta:
>
> achei ./perlcritic.rc tem o mesmo md5 de ./perlcritic.old
>
> eu forcei a barra e tenho essa configuracao:
>
> 1f913b0324086d8d03ba193754c2d383 perlcritic.old
> 1f913b0324086d8d03ba193754c2d383 perlcritic.rc
>
> agora eu posso substituir a minha mensagem para algo que o shell entenda e
> então executar de tres formas
>
> 1) fazendo print e adicionando um pipe para o bash
> 2) posso usar a função system que vai executar o comando
> 3) escrevo no seguinte formado
> <arquivo1> <arquivo2>[NOVA LINHA]
> e faço pipe pra um script que sabe ler essas linhas e capturar as
> variaveis, de forma a apagar um arquivo e criar o link "duro""
>
> BTW faça uma versão que só escreva o que vc vai fazer e verifique se é isso
> mesmo. e ai bola pra frente. De preferencia escreva em um arquivo TUDO o
> que vc esta fazendo.
>
>
>
> 2013/4/10 ainda_uso_win311 <tiagotarifa@...>
>
> > **
> >
> >
> > Srs, estou tentando montar um script que localize arquivos identicos,
> > apague os duplicados e crie hardlinks para o mesmo inode.
> >
> > Sem usar programas próprios, como o dedup, queria fazer algo com o md5sum.
> > Eu cheguei aqui e empaquei:
> >
> > find . -type f -exec md5sum {} \; | sort -t" " -k1,1
> >
> > A ideia é fazer com que ele crie hardlinks com as linhas que tenham o
> > md5sum duplicado.
> >
> > Por favor, sem passar o código pronto, poderiam me "assoprar" por onde
> > devo começar a pesquisar? O intuito desse script é apenas para meu estudo
> > mesmo.
> >
> > Obs.: Sim, o filesystem é ext4.
> >
> > Att.
> > Tiago Tarifa Munhoz.
> >
> >
> >
>
>
>
> --
> Tiago B. Peczenyj
> Linux User #405772
>
> http://about.me/peczenyj
>
>
> [As partes desta mensagem que não continham texto foram removidas]
>