Changed "lda.py" into a first version of a lda W.S. Added doc in "REAME.MD" Added requirements in "requirements.txt"
data-computer/README.md
159
159
160
...
160
Créer pour l'ensemble des documents un champ "lda" d'un ensemble de 5 topics. Chaque topic contient un champ "word", qui est composé une liste de 10 mots qui sont les plus caractéristiques du topic, ainsi que d'un champ "weight" qui donne la probabilité que le document soit classé dans le topic.
Modification : disponible à présent que pour du texte anglais. Utilise une liste de mot vides provenant https://countwordsfree.com/ . Une liste de mot vide est déjà disponible anticipant l'arrivée d'une route pour le français. Utilise un lemmatiseur.
Voici des pistes d'améliorations pour le service web :
vérifier les listes de mots-vides (851 éléments pour l'anglais ; 496 pour le français ) ;
revoir le paramètre "num_iterations" et le faire dépendre de la taille du corpus ? Par exemple min(...,max(...,f(size_corpus)) ? ;
changer éventuellement le nombre de topic par défauts / le nombre de mots caractérisant le topic par défaut ; voir pouvoir adapter le nb de topics et de mot par un paramètre dans l'URL. Par exemple /v1/lda/3/8 pour obtenir 3 topics de 8 mots ;
pouvoir retourner la liste des documents dans chaque topic.
Pour paramétrer le nombre de topic, il est possible de s'inspirer de teeft avec un paramètre nb= après multiplier les paramètres c'est déporter le problème du choix de leurs *valeurs
Je suis pas un fan des paramètres donnés à l'utilisateur , surtout quand il n'est pas spécialiste. Je suis plutot pour des méthodes d'ajustement automatique. Mais dans un premier temps le nb de topic peut bêtement être imposé, ou au plus être dépendant de la taille du corpus.
juste une remarque: Chaque topic contient un champ "word", qui est composé une liste de 10 mots qui sont les plus caractéristiques du topic, ainsi que d'un champ "weight" qui donne la probabilité que le document soit classé dans le topic.
Je ne suis pas du tout certain que "weight" soit cette proba !
Tu as raison, dans la doc ce n'est pas précisé quelle proba c'est. C'est simplement écrit The topics are returned as a list [...] of (word, probability) 2-tuples.
Changed "lda.py" into a first version of a lda W.S.
Added doc in "REAME.MD"
Added requirements in "requirements.txt"
Préciser que ça marche mieux sur de l'anglais ou du français (d'après la liste de mots-vides qui est dans le programme).
enhancement
label on 26 SepModification : disponible à présent que pour du texte anglais. Utilise une liste de mot vides provenant https://countwordsfree.com/ . Une liste de mot vide est déjà disponible anticipant l'arrivée d'une route pour le français. Utilise un lemmatiseur.
Voici des pistes d'améliorations pour le service web :
min(...,max(...,f(size_corpus))
? ;Pour paramétrer le nombre de topic, il est possible de s'inspirer de teeft avec un paramètre nb=
après multiplier les paramètres c'est déporter le problème du choix de leurs *valeurs
Je suis pas un fan des paramètres donnés à l'utilisateur , surtout quand il n'est pas spécialiste. Je suis plutot pour des méthodes d'ajustement automatique. Mais dans un premier temps le nb de topic peut bêtement être imposé, ou au plus être dépendant de la taille du corpus.
juste une remarque:
Chaque topic contient un champ "word", qui est composé une liste de 10 mots qui sont les plus caractéristiques du topic, ainsi que d'un champ "weight" qui donne la probabilité que le document soit classé dans le topic.
Je ne suis pas du tout certain que "weight" soit cette proba !
Tu as raison, dans la doc ce n'est pas précisé quelle proba c'est. C'est simplement écrit
The topics are returned as a list [...] of (word, probability) 2-tuples
.c'est la probabilité du mot dans le topic
Pourtant j'ai un poids par topic et pas par mot :
J'essaie de voir avant le daily
Fonctionne en VI, tags créés. à merge
Lda
774b7f1
intomaster
fromlda
on 10 Oct