diff --git a/README.md b/README.md index 5a4470c..109d628 100644 --- a/README.md +++ b/README.md @@ -83,25 +83,6 @@ récupérer les notices pour tous les DOI (DOI originaux + manquants du chapitre 11) -## Précautions - -Quand on pard du DOI, s'assurer que le fichier des DOI n'est pas enregistré avec -un [BOM](https://fr.wikipedia.org/wiki/Indicateur_d%27ordre_des_octets). - -On peut soit le ré-enregistrer en `UTF-8` (au lieu de `UTF-8 with BOM`) en -utilisant un éditeur de texte comme VSCode, soit utiliser `sed` pour l'enlever -(voir [cette -page](https://unix.stackexchange.com/questions/381230/how-can-i-remove-the-bom-from-a-utf-8-file)): - -```bash -sed -i '1s/^\xEF\xBB\xBF//' dois.txt -``` - -Au passage, on peut s'assurer que les passages à la ligne du fichier sont bien -ceux d'Unix (LF), et pas de Windows (CRLF). Ça peut se faire via l'éditeur de -texte, ou `dos2unix`, mais le script `harvest-from-doi.ini` devrait s'en sortir -tout seul. - ## Procédure actuelle de l'équipe - Vérifier le nombre de publis diff --git a/harvest-from-doi.ini b/harvest-from-doi.ini index af03d11..a575af0 100644 --- a/harvest-from-doi.ini +++ b/harvest-from-doi.ini @@ -22,7 +22,7 @@ [replace] path = value -value = toLower().replace(/\r/,"").replace(/-$/, "").replace(/ /g, "").replace(/https?:\/\/doi.org\//g, "").replace(/;subjmeta=\d+$/,"").replace(/"/g, "") +value = toLower().replace(/^\uFEFF/, "").replace(/\r/,"").replace(/-$/, "").replace(/ /g, "").replace(/https?:\/\/doi.org\//g, "").replace(/;subjmeta=\d+$/,"").replace(/"/g, "") [group] size = env('size')