[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-developers] Conservation des nombres dans la rechercheplein-tex
From: |
Pierrick Brihaye |
Subject: |
Re: [sdx-developers] Conservation des nombres dans la rechercheplein-texte |
Date: |
Wed, 14 Apr 2004 22:00:05 +0200 |
Salut,
>Note 2 : le "tokenizer" arabe de Pierrick compte gérer les nombres (ça
>fait l'objet d'un TODO dans le code)
Oui : en fait, j'ai une idée plus générique en tête : un Tokenizer qui
prendrait/ne prendrait pas certains plans Unicode. Un truc du genre :
TokenizerCustomisation tc = new TokenizerCustomisation();
tc.accept(ARABIC_LETTERS);
tc.accept(HINDIC_DIGITS);
tc.discard(ARABIC_DIGITS);
tc.tokenizeAt(Character.Whitespace);
...
UniversalTokenizer.addCustomization(tc);
Avec, bien sûr, des TokenizerCustomisation prédéfinies en fonction de telle
ou telle Locale.
Voilou :-)
A+
p.b.