diff --git a/alignement/README.md b/alignement/README.md index 397ebc0..d8aec13 100644 --- a/alignement/README.md +++ b/alignement/README.md @@ -5,7 +5,7 @@ Ce programme permet d’aligner les bases bibliographiques Pascal et Francis de l’**Inist** avec la base **Istex**, c’est-à-dire retrouver dans la base Istex les documents correspondants aux notices bibliographiques des base Pascal ou Francis. -À noter que si ce programme est utilisé à l'Inist, il est recommandé d’éviter de passer par le proxy. Pour cela, il faut supprimer les variables globales le définissant, ce qui se fait avec la commande `unset http_proxy https_proxy no_proxy`. Vérifiez également avec la commande `env` si ces mêmes variables n'existent pas en majuscule. Auquel cas, supprimez les avec la commande`unset HTTP_PROXY HTTPS_PROXY NO_PROXY`. +À noter que si ce programme est utilisé à l'Inist, il est recommandé d’éviter de passer par le proxy. Pour cela, il faut supprimer les variables globales le définissant, ce qui se fait avec la commande  : `unset http_proxy https_proxy no_proxy`. Vérifiez également avec la commande `env` si ces mêmes variables n'existent pas en majuscule. Auquel cas, supprimez les avec la commande : `unset HTTP_PROXY HTTPS_PROXY NO_PROXY`. ### Prérequis @@ -56,7 +56,8 @@ #### 1 - Notices Inist Les notices bibliographiques des bases Pascal et Francis sont des documents balisés en [SGML](https://fr.wikipedia.org/wiki/Standard_Generalized_Markup_Language) (norme ISO 8879:1986). Chaque notice est sur une seule ligne et à chaque balise ouvrante correspond une balise fermante. En dehors des lettres majuscules et minuscules non-accentuées, des chiffres et des signes de ponctuation de base, les caractères sont écrits sous forme d’entité caractère (par exemple, `é` pour le caractère `é`). À l’inverse de ce qu’on peut trouver dans [XML](https://fr.wikipedia.org/wiki/Extensible_Markup_Language) (qui est un sous-ensemble de SGML), les valeurs d’attribut ne sont pas entre *quotes*, simples ou doubles et il n'y a pas de balise vide. -La racine du document est l’élément `record` et il y a deux niveaux de balise correspondant aux zones et sous-zones du format d’échange de notices bibliographiques de la norme [ISO 2709](https://fr.wikipedia.org/wiki/ISO_2709) comme on peut le voir dans l’exemple ci-dessous (indenté par souci de lisibilité). La sémantique des noms de zone, préfixés par `f` en SGML, des sous-zones, préfixés par `s` en SGML, et de l’attribut `dir` est défini dans le document « Format INIST Standard 1994 ». + +La racine du document est l’élément `record` et il y a deux niveaux de balise correspondant aux zones et sous-zones du format d’échange de notices bibliographiques de la norme [ISO 2709](https://fr.wikipedia.org/wiki/ISO_2709) comme on peut le voir dans l’exemple ci-dessous (indenté par souci de lisibilité). La sémantique des noms de zone, préfixés par `f` en SGML, des noms de sous-zone, préfixés par `s` en SGML, et de l’attribut `dir` est défini dans le document « Format INIST Standard 1994 ». ```sgml @@ -116,3 +117,46 @@ #### 2 - Fichier résultat +Pour chaque notice Inist traitée, et sauf pour 2 exceptions que l’on verra plus loin, on a une première ligne commençant par `URI` et indiquant la requête envoyée à l’API. La ligne suivante donne le nombre de réponses obtenues. + +```txt +URI : "https://api.istex.fr/document/?q=(host.title:"Scientometrics" OR host.issn:"0138-9130" OR host.eissn:"0138-9130" OR serie.issn:"0138-9130" OR serie.eissn:"0138-9130") AND (publicationDate:2007 OR copyrightDate:2007 OR host.publicationDate:2007 OR host.copyrightDate:2007 OR serie.publicationDate:2007 OR serie.copyrightDate:2007 OR host.volume:72 OR host.issue:2) AND (author.name:("ADAMS" OR "GURNEY" OR "MARSHALL") OR host.pages.first:[325 TO 344] OR host.pages.last:[325 TO 344])&output=title,author,host,serie,doi,publicationDate,copyrightDate" + => 68 +``` + +On peut ensuite trouver d’autres requêtes commençant par `ALT`, `ETC` ou `RAC`. Ces requêtes complémentaires servent soit à tester une autre stratégie de recherche (`RAC`), soit à essayer différentes valeurs pour la pagination (`ETC`) ou soit à rechercher un groupe de documents indexé dans une seule notice Inist (`ALT`). Les requêtes de type `ETC` et `RAC` sont suivies d’une ligne indiquant le nombre de réponse renvoyées par l¹API. + +Dans le cas le plus général, on a ensuite le résultat sur une ligne avec 22 champs, pas toujjours remplis, séparés par des tabulations. On a respectivement : + - une note exprimée à l’aide d’astérisques (1 étoile) et de signes plus (½ étoile), de `*****` à `0` + - le score, de `5.000` à `0.000`, parfois suivi d’un point d’exclamation `!` + - le niveau bibliographique : `A` pour un article et `M` pour une monographie + - le numéro Inist de la notice + - le titre du document + - le nom de la revue + - le titre de la monographie + - ISSN + - ISBN + - l’année de publication + - le n° de volume + - le n° de fascicule + - la page de début + - la page de fin + - le nom du premier auteur + - le prénom du premier auteur + - la liste des auteurs suivants séparés par une barre verticale `|` + - l’identifiant Istex + - l’identifiant pérenne ARK + - l’identifiant DOI + - l’identifiant PII + - l’identifiant PMID + +Dans l’exemple suivant, on a rajouté un signe d’exclamation aux champs vides pour permettre de les repérer. + +```txt +***** 5.000 A 08-0322753 Profiling citation impact : A new methodology Scientometrics ! 0138-9130 ! 2007 72 2 325 344 ADAMS Jonathan GURNEY, Karen|MARSHALL, Stuart 16AA6F7A70CD152792DC04F6D65A673B8B7F2214 ark:/67375/VQC-DZRDKVN2-2 10.1007/s11192-007-1696-x ! ! +``` + +On considère que l'alignement est bon si le score est supérieur ou égal à `3.490`. Pour les scores inférieurs à cette valeur, on a parfois un point d’exclamation `!` qui indique que les données bibliographiques sur la revue, l’année de publication, la volumaison, la tomaison (si elle existe) et la pagination sont correctes, mais que le reste des données ne correspond pas. Cela peut être dû à des fautes de frappe ou d’OCR dans les noms d’auteur ou dans le titre ou cela peut être dû à une erreur de bulletinage : le document s'est vu attribuer par exemple la pagination d’un autre article du même fascicule. Ce décalage se retrouve aussi bien dans les données Inist que dans celles des éditeurs. + + +