Newer
Older
ez-indexation / app / node_modules / rd-teeft / package.json
@kieffer kieffer on 7 Mar 2017 11 KB v0.0.0
{
  "_args": [
    [
      {
        "raw": "rd-teeft@git+ssh://vsistex.intra.inist.fr:22222/istex/rd-teeft.git",
        "scope": null,
        "escapedName": "rd-teeft",
        "name": "rd-teeft",
        "rawSpec": "git+ssh://vsistex.intra.inist.fr:22222/istex/rd-teeft.git",
        "spec": "ssh://vsistex.intra.inist.fr:22222/istex/rd-teeft.git",
        "type": "git"
      },
      "/home/kieffer/tdm/ez-indexation/node_modules/tdm-utils"
    ]
  ],
  "_from": "git+ssh://vsistex.intra.inist.fr:22222/istex/rd-teeft.git",
  "_id": "rd-teeft@1.0.1",
  "_inCache": true,
  "_location": "/rd-teeft",
  "_phantomChildren": {},
  "_requested": {
    "raw": "rd-teeft@git+ssh://vsistex.intra.inist.fr:22222/istex/rd-teeft.git",
    "scope": null,
    "escapedName": "rd-teeft",
    "name": "rd-teeft",
    "rawSpec": "git+ssh://vsistex.intra.inist.fr:22222/istex/rd-teeft.git",
    "spec": "ssh://vsistex.intra.inist.fr:22222/istex/rd-teeft.git",
    "type": "git"
  },
  "_requiredBy": [
    "/tdm-utils"
  ],
  "_resolved": "git+ssh://vsistex.intra.inist.fr:22222/istex/rd-teeft.git#2bc41b9f89548e7034a1fdec46eadc7d3d69b538",
  "_shasum": "6c96e2806e6e54ae12a09094f51df6726f054a08",
  "_shrinkwrap": null,
  "_spec": "rd-teeft@git+ssh://vsistex.intra.inist.fr:22222/istex/rd-teeft.git",
  "_where": "/home/kieffer/tdm/ez-indexation/node_modules/tdm-utils",
  "author": {
    "name": "istex-rd"
  },
  "dependencies": {
    "async": "^2.0.0-rc.5",
    "backbone": "^1.3.3",
    "javascript-lemmatizer": "0.0.2",
    "li-utils": "git+ssh://vsistex.intra.inist.fr:22222/istex/li-utils.git",
    "mocha": "^3.2.0",
    "rd-tu": "git+ssh://vsistex.intra.inist.fr:22222/istex/rd-tu.git",
    "snowball-stemmers": "^0.6.0"
  },
  "description": "Module métier permettant d'indexer le fulltext d'un Objet Documentaire",
  "devDependencies": {},
  "gitHead": "2bc41b9f89548e7034a1fdec46eadc7d3d69b538",
  "keywords": [
    "istex"
  ],
  "license": "GNU",
  "main": "index.js",
  "name": "rd-teeft",
  "optionalDependencies": {},
  "readme": "rd-teeft\n===============\n\n## Présentation ##\n\nLe module **rd-teeft** indexe le fulltext d'un `article` **(doit être positionné après : `li-2mods` ou ``oi-select``)**.\n\n### Fonctionnement ###\n\n`rd-teeft` effectue ses traitements dans une fonction `doTheJob()` dédiée.\n\nLe module effectue les opérations suivantes :\n  - Récupération en entrée d'un `docObject` (objet JSON avec un champ `idIstex`), ainsi que d'une callback `cb`.\n  - Récupération du fulltext de l'article puis indexation.\n  - Création du fragment de TEI contenant les termes indexés.\n  - Renvoi des éventuelles erreurs en paramètre de la callback `cb`.\n\n## Utilisation ##\n\n### Ressources ###\n\n#### Path, config et template ####\n\n*Par défaut, toutes les ressources du module se trouvent dans le répertoire `resources/`*\n\nPour que le module fonctionne correctement, il lui faut :\n  - Le chemin **relatif** de **chaque ressources** (fichiers/répertoires). *Obligatoirement dans le fichier `paths.json`*\n  - Les paramètres du module (le nom, la version, la langue...). *Par défaut dans le fichier `config.default.json`*\n  - Un fichier de template qui permet de générer le TEI. *Par défaut dans le fichier `fragment.tei.xml.tpl`*\n\n#### Template ####\n\nLa variable *data* du fichier `index.js` contient toutes les données accessibles dans le template, soit :\n\n```js\n// Construction de la structure de données pour le templates\nvar data = {\n  'date': business.NOW,\n  'module': business.resources.config, // Infos sur la configuration du module\n  'document': { // Infos sur le document\n    'id': documentId,\n    'terms': text.keywords // Termes indexés\n  }\n}\n```\n\nConcrétement, les données seront sous la forme :\n\n```json\n{\n  \"date\": \"11-01-2017\",\n  \"module\": {\n    \"id\": \"rd-teeft\",\n    \"version\": \"1.0.1\",\n    \"label\": \"teeft\",\n    \"lang\": \"en\",\n    \"resp\": {\n      \"id\": \"istex-rd\",\n      \"label\": \"ISTEX-RD\"\n    },\n    \"resource\": \"brown\",\n    \"truncate\": true,\n    \"sort\": true\n  },\n  \"document\": {\n    \"id\": \"0000000000000000000000000000000000000000\",\n    \"terms\": [{\n      \"frequency\": 6,\n      \"strength\": 2,\n      \"specificity\": 1,\n      \"term\": \"feature selection\"\n    }, {\n      \"frequency\": 11,\n      \"strength\": 1,\n      \"specificity\": 0.865187981752399,\n      \"term\": \"algorithm\"\n    }, {\n      \"frequency\": 4,\n      \"strength\": 2,\n      \"specificity\": 0.6666666666666666,\n      \"term\": \"classification results\"\n    }, {\n      \"frequency\": 3,\n      \"strength\": 2,\n      \"specificity\": 0.5,\n      \"term\": \"text classification\"\n    }, {\n      \"frequency\": 3,\n      \"strength\": 2,\n      \"specificity\": 0.5,\n      \"term\": \"confusion matrix\"\n    }, {\n      \"frequency\": 2,\n      \"strength\": 2,\n      \"specificity\": 0.3333333333333333,\n      \"term\": \"average representation\"\n    }, {\n      \"frequency\": 2,\n      \"strength\": 2,\n      \"specificity\": 0.3333333333333333,\n      \"term\": \"information gain\"\n    }, {\n      \"frequency\": 2,\n      \"strength\": 2,\n      \"specificity\": 0.3333333333333333,\n      \"term\": \"high degree\"\n    }, {\n      \"frequency\": 2,\n      \"strength\": 2,\n      \"specificity\": 0.3333333333333333,\n      \"term\": \"bayes classifier\"\n    }, {\n      \"frequency\": 2,\n      \"strength\": 2,\n      \"specificity\": 0.3333333333333333,\n      \"term\": \"classification methods\"\n    }, {\n      \"frequency\": 2,\n      \"strength\": 2,\n      \"specificity\": 0.3333333333333333,\n      \"term\": \"original data\"\n    }, {\n      \"frequency\": 2,\n      \"strength\": 2,\n      \"specificity\": 0.3333333333333333,\n      \"term\": \"filter approach\"\n    }, {\n      \"frequency\": 2,\n      \"strength\": 2,\n      \"specificity\": 0.3333333333333333,\n      \"term\": \"french verbs\"\n    }, {\n      \"frequency\": 2,\n      \"strength\": 2,\n      \"specificity\": 0.3333333333333333,\n      \"term\": \"feature maximization\"\n    }, {\n      \"frequency\": 2,\n      \"strength\": 2,\n      \"specificity\": 0.3333333333333333,\n      \"term\": \"optimal results\"\n    }]\n  }\n}\n```\n\nExemple :\n\n  - Pour insérer la date dans le template (`resources/fragment.tei.xml.tpl`), il faudra ajouter `{{date}}`.\n  - Pour insérer l'`id` du document, il faudra ajouter `{{document.id}} `.\n\n**Attention :** *Les valeurs des variables entre double accolades sont 'sanitizées'. Si l'on souhaite ajouter une valeur brute (exemple : url, symboles), il faut utiliser une triple accolades `{{{ maVariable }}}`.*\n\nPour plus d'infos, voir la [documentation](https://github.com/raycmorgan/Mu) de mustache pour nodejs\n\n#### stopwords.json ####\n\nCe fichier (par default : `resources/stopwords.json`) permet de lister les termes à filtrer lors de l'indexation. C'est le dictionnaire de mots vide du module.\nC'est un objet json dont chaque clé représente un mot. La valeur n'est pas prise en compte, par défaut elle est mise à false.\n\n```json\n{\n  \"essay\": false,\n  \"second\": false,\n  \"all\": false\n}\n```\n\n**Seul le *`stem`* des mots vides est à renseigner dans ce fichier. Lors de l'étape de `Sanitization`, chaque terme du texte est *\"stemmé\"* avant d'être comparé à cette liste.**\n\n#### dictionary.json ####\n\nCe fichier (par default : `resources/dictionary.json`) permet de pondérer la spécificité d'un terme.\nC'est un objet json dont chaque clé représente un mot qui à pour valeur un coefficient de pondération.\n\n```json\n{\n  \"government\": 0.00911017,\n  \"city\": 0.00872881,\n  \"president\": 0.00868644,\n  \"business\": 0.00830508,\n  \"several\": 0.00798729,\n  \"national\": 0.00794492,\n}\n```\n\n### Indexation ###\n\nL'indexation s'effectue en 5 grandes étapes :\n\n  - `Tokenization` : découpage du texte en `tokens`.\n  - `Tag` : Tag de chaque `tokens`.\n  - `Lemmatization` : Lemmatisation de tous les `tokens` taggés.\n  - `Sanitization` : \"Nettoyage\" des termes (retrait des mots vides, mal formés, etc).\n  - `Extraction` : Extraction des termes (en fonction des filtres configurés).\n\n#### Tokenization ####\n\nLe texte est découpé afin d'extraire des `tokens`. Les séparateurs utilisés sont les espaces blancs et la ponctuation.\n\n#### Tag ####\n\nChaque `tokens` est taggé (par défaut, comme un nom).\n\n#### Lemmatization ####\n\nChaque `tokens` taggés est lemmatizé.\n\n#### Sanitization ####\n\nÀ cette étape, seul les `tokens` correspondant aux critères sont conservés, à savoir :\n\n  - ceux qui ne sont pas des mots vide.\n  - ceux taggés comme des noms ou adjectifs.\n  - ceux ayant une taille supérieur ou égale à la taille minimum.\n  - ceux ayant un nombre de chiffres et caractères spéciaux inférieur à la limite maximale.\n\nTous les autres sont considérés consiérés comme n'étant pas *\"indexable\"*.\n\n#### Extraction ####\n\nUne fois le nettoyage effectué, l'extrateur va regrouper les multi-termes entre eux puis effectuer des statistiques (calcul de fréquence, spécificité, etc).\nPar défaut, seul les *termes* dont la spécificité est **supérieure** à la *Moyenne des spécificités* sont sélectionnés.\n\n## Annexes ##\n\n### Arborescence ###\n\n```\n.\n├── changelog.md                    // changelog\n├── index.js                        // point d'entrée, contenant la fonction doTheJob()\n├── lib                             // répertoire des librairies\n│   ├── defaultfilter.js                // fichier de classe des filtres\n│   ├── lexicon.js                      // fichier de classe du lexique du tagger\n│   ├── tagger.js                       // fichier de classe du tagger\n│   └── termextractor.js                // fichier de classe de l'extracteur de terme\n├── newVersion                      // script de version\n├── node_modules                    // modules NPM\n│   └── ...\n├── package.json                    // packages\n├── README.md                       // readme\n├── resources                       // répertoire des ressources\n│   ├── config.default.json             // configuration du module\n│   ├── dictionary.json                 // dictionnaire de mot (pour la pondération de terme)\n│   ├── fragment.tei.xml.tpl            // template du fragment de TEI\n│   ├── paths.json                      // chemins utiles au module\n│   └── stopwords.json                  // liste des mots vides\n└── test                            // répertoire des TU\n    ├── dataset                         // répertoire des données de test\n    │   └── ...\n    └── run.js                          // point d'entrée des TU\n```\n\n### Codes d'erreur ###\n\nPlage de codes : 0~99\n\nCode | Signification           | Note(s)\n-----|-------------------------|--------\n1    | Erreur lecture/écriture |",
  "readmeFilename": "README.md",
  "repository": {
    "type": "git",
    "url": "ssh://istex@vsistex.intra.inist.fr:22222/istex/rd-teeft.git"
  },
  "scripts": {
    "test": "mocha -t 120000"
  },
  "version": "1.0.1"
}