diff --git a/kos2vec/README.md b/kos2vec/README.md index ec9d533..e575f5f 100755 --- a/kos2vec/README.md +++ b/kos2vec/README.md @@ -2,7 +2,7 @@ # kos2vec -##Application d’indexation sémantique sur une ressource termino-ontologique (RTO) +## Application d’indexation sémantique sur une ressource termino-ontologique (RTO) ------------ **Identification de concepts sur la mémoire basé sur une ontology et utilisant un modèle de langue** @@ -15,9 +15,9 @@ Le système prend en entrée les métadonnées associées à un article (titre, résumé) et renvoie une sélection de concepts tirés du thesaurus mémoire. Il se compose de 3 modules principaux : -- le module syntaxique analyse les documents d'entrée et identifie les concepts qui sont explicitement mentionnés dans le document. - -- le Module semantique extrait des candidats termes (cunking) et calcule la similarité de ceux-ci avec les nœuds de l'ontologie en tirant parti de l'intégration des mots dans un modèle Embedding. Il sélection des termes RTO directement présent ou proche voisin dans le modèle. +- le module syntaxique analyse les documents d'entrée et identifie les concepts qui sont explicitement mentionnés dans le document. + +- le Module semantique extrait des candidats termes (cunking) et calcule la similarité de ceux-ci avec les nœuds de l'ontologie en tirant parti de l'intégration des mots dans un modèle Embedding. Il sélection des termes RTO directement présent ou proche voisin dans le modèle. ![text](image2.jpg) @@ -27,8 +27,8 @@ L'approche exploite une RTO de loterre et des plongements lexicaux calculés sur un corpus du domaine. - * Le modele de langue est de type Word2Vec et il construit sur un corpus Istex de 540.000 résumés annotés par les termes de la RTO et les ngrams les plus fréquents (collocation lexicale). - * L'Ontology mémoire provient du site Inist Loterre : https://skosmos.loterre.fr/P66/fr/ + * Le modele de langue est de type **Word2Vec** et il construit sur un corpus Istex de 540.000 résumés **annotés par les termes de la RTO et les ngrams les plus fréquents** (collocation lexicale). + * L'Ontology mémoire provient du site Inist **Loterre** : https://skosmos.loterre.fr/P66/fr/ ## Utilisation @@ -52,9 +52,9 @@ * **"idt"** : identifiant fourni en entrée - * **"syntactic"** : résultat de l'indexation syntactique + * **"syntactic"** : résultat de l'indexation syntaxique * **"semantic"** : résultat de l'indexation semantique - * **"union"** : union des deuc indexations + * **"union"** : union des deux indexations * **"enhancement"** : trace textuelle des indexations * **"explanation"** : les concepts broader de tous les concepts trouvés @@ -69,5 +69,7 @@ EOF ``` +### Citations +*Salatino, A.A., Osborne, F., Thanapalasingam, T., Motta, E.: The CSO Classifier: Ontology-Driven Detection of Research Topics in Scholarly Articles. In: TPDL 2019: 23rd International Conference on Theory and Practice of Digital Libraries. Springer.*