diff --git a/data-computer/README.md b/data-computer/README.md index 0808b52..fb9051b 100644 --- a/data-computer/README.md +++ b/data-computer/README.md @@ -157,7 +157,101 @@ ### v1/lda -... +Créer pour l'ensemble des documents un champ "lda" d'un ensemble de 5 topics. Chaque topic contient un champ "word", qui est composé une liste de 10 mots qui sont les plus caractéristiques du topic, ainsi que d'un champ "weight" qui donne la probabilité que le document soit classé dans le topic. + + +Par exemple, pour un document pris dans un ensemble de document (l'id "35" est totalement arbitraire) +```json +{"id": 35, "value": "L'anglais est souvent enseign\u00e9 comme langue seconde dans de nombreux pays \u00e0 travers le monde."} +``` + +On obtiendra : +```json +{ + "id": 35, + "value": "L'anglais est souvent enseign\u00e9 comme langue seconde dans de nombreux pays \u00e0 travers le monde.", + "lda": { + "topic_1": { + "words": [ + "plus", + "nombreux", + "nombre", + "grand", + "philosophie", + "concept", + "physique", + "second", + "fondamentale", + "relativite" + ], + "weight": "0.018401673" + }, + "topic_2": { + "words": [ + "revolution", + "concept", + "francaise", + "philosophie", + "comme", + "revolutionne", + "empereur", + "tels", + "stoicisme", + "vertu" + ], + "weight": "0.01821572" + }, + "topic_3": { + "words": [ + "etatsunis", + "physique", + "philosophie", + "temps", + "principe", + "existence", + "histoire", + "siecle", + "trous", + "generale" + ], + "weight": "0.01818413" + }, + "topic_4": { + "words": [ + "nombreux", + "postulat", + "mathematiques", + "domaines", + "algebre", + "anglaise", + "connu", + "theoreme", + "devenu", + "science" + ], + "weight": "0.018459676" + }, + "topic_5": { + "words": [ + "anglais", + "production", + "connu", + "langue", + "litterature", + "nombreux", + "monde", + "revolutionne", + "travers", + "siecle" + ], + "weight": "0.92673886" + } + } +} + +``` + +NOTE : l'algorithme a besoin de beaucoup de documents pour fonctionner (> 100 idéalement), d'où la non exhaustivité de l'exemple. #### Paramètre(s) URL @@ -175,6 +269,10 @@ ```bash -... +# Send data for batch processing +cat input.tar.gz |curl --data-binary @- -H "X-Hook: https://webhook.site/dce2fefa-9a72-4f76-96e5-059405a04f6c" "http://localhost:31976/v1/lda" > output.json + +# When the corpus is processed, get the result +cat output.json |curl --data-binary @- "http://localhost:31976/v1/retrieve" > output.tar.gz ```