sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-developers] Conservation des nombres dans la rechercheplein-tex


From: Pierrick Brihaye
Subject: Re: [sdx-developers] Conservation des nombres dans la rechercheplein-texte
Date: Wed, 14 Apr 2004 22:00:05 +0200

Salut,

>Note 2 : le "tokenizer" arabe de Pierrick compte gérer les nombres (ça
>fait l'objet d'un TODO dans le code)

Oui : en fait, j'ai une idée plus générique en tête : un Tokenizer qui
prendrait/ne prendrait pas certains plans Unicode. Un truc du genre :

TokenizerCustomisation tc = new TokenizerCustomisation();
tc.accept(ARABIC_LETTERS);
tc.accept(HINDIC_DIGITS);
tc.discard(ARABIC_DIGITS);
tc.tokenizeAt(Character.Whitespace);
...
UniversalTokenizer.addCustomization(tc);

Avec, bien sûr, des TokenizerCustomisation prédéfinies en fonction de telle
ou telle Locale.

Voilou :-)

A+

p.b.







reply via email to

[Prev in Thread] Current Thread [Next in Thread]