Suggestions:
D'après @cuxac les chevrons qui apparaissaient dans ISTEX sont un problème qui a été corrigé depuis.
On va donc considérer que c'est un nettoyage à faire en amont le cas échéant.
On va supprimer les termes qui ne font qu'un caractère.
Et Pascal a suggéré aussi de calculer un ratio caractère bizarre / caractère alphanumérique pour décider si on supprime le terme.
On peut juste calculer le pourcentage de caractères alphanumériques (et espace, voire ponctuation ?) dans le terme.
Ensuite, il faudra décider du seuil (Pascal a dit qu'il regarderait ce qu'il avait fait pour ISTEX).
Même si ces filtres pourraient être ajoutés dans le script actuel, ce serait sans doute plus maintenable d'ajouter une instruction ezs au package @ezs/teeft
, du genre RemoveNonAlphaNumericTerms
, et RemoveShortTerms
(sur lesquelles on pourrait mettre des paramètres allowedCharacters
et minSize
).
Les exemples n'en montrent pas, mais on nous a aussi signalé des multitermes beaucoup trop longs pour être utiles.
Peut-être faut-il ajouter le corollaire de RemoveShortTerms
avec RemoveLongTerms
?
Certains cas particuliers posent problème, en particulier sur les résumés d'articles de chimie.
Voir la carte Trello.
Exemples avec un tiret
Quand on interroge terms-extraction/v1/teeft/en, on obtient:
On voit que les termes à un seul caractère sont inutiles
-
,−
(tiret long, apparemment).Exemples avec un chevron
Ce sont vraisemblablement des puces dans l'abstract, qui ne portent pas de sens particulier, mais polluent le texte et génèrent des termes.
Quand on interroge terms-extraction/v1/teeft/en, on obtient: