sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[sdx-developers] Conservation des nombres dans la recherche plein-texte


From: Pierre Dittgen
Subject: [sdx-developers] Conservation des nombres dans la recherche plein-texte
Date: Tue, 13 Apr 2004 18:05:35 +0200
User-agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.5) Gecko/20031007

Bonjour,

Merci à Pierrick et à Rasik pour leur soutien technique. Les modifications que j'ai apporté aux analyseurs permettent maintenant à une application SDX de rechercher aussi sur les nombres contenus dans des textes indexés. Cette extension de la fonctionnalité est, à mon sens, générique. Ce serait intéressant de l'intégrer à SDX (c'est du moins mon souhait). Elle consiste en 2 classes supplémentaires : LetterOrDigitTokenizer et LaxistLowerCaseTokenizer dans le package fr.gouv.culture.sdx.search.lucene.analysis.tokenizer. et en la modification des classes DefaultAnalyser, Analyser_fr, Analyser_cz, Analyser_br pour l'utilisation de LetterOrDigitTokenizer plutôt que StandardTokenizer et LaxistLowerCaseTokenizer plutôt que LowerCaseTokenizer.
Cette modification s'applique à l'analyseur par défaut et aux analyseurs  :
- anglais (car simple dérivation de l'analyseur par défaut)
- tchèque (modifié)
- français (modifié)
- brésilien (modifié)
mais pas :
- russe (car la classe d'analyse est dans Lucene)
- allemand (même raison)

Note 1 : le "tokenizer" chinois prenait apparemment déjà en compte les chiffres/nombres dans son indexation. Note 2 : le "tokenizer" arabe de Pierrick compte gérer les nombres (ça fait l'objet d'un TODO dans le code) Note 3 : pour le "tokenizer" allemand, il suffirait de remplacer l'utilisation de StandardTokenizer par LetterOrDigitTokenizer dans la classe GermanAnalyser. Mais il faudrait alors déplacer la classe LetterOrDigitTokenizer dans le code de Lucene... Note 4 : Pour le "tokenizer" russe, c'est un test à modifier dans la méthode isTokenChar() de la classe RussianLetterTokenizer.

Voilà, je tiens à disposition les sources modifiés et donnerai un coup de main à toute personne souhaitant faire l'intégration.

Bonne soirée
Pierre
--
Pierre Dittgen, address@hidden
PASS Technologie http://www.pass-tech.fr






reply via email to

[Prev in Thread] Current Thread [Next in Thread]