#!/bin/bash # Initialisation des variables pour les options programme=$(basename $0) substitut=$(echo $programme | sed 's/./ /g') version='1.3.6' modif='14/03/2022' function usage { echo "Usage : $programme -s sid -q queryId -n nb_notices -r résultat " echo " $substitut [ -o offset ] [ -t taille ] [ -c cookies ] " echo " $programme -h " } function aide { cat << EOT Usage ===== $programme -s sid -q queryId -n nb_notices -r résultat $substitut [ -o offset ] [ -t taille ] [ -c cookies.txt ] $programme -h Options ======= -c indique le nom du fichier qui recevra les cookies (“cookies.txt” par défaut) -h affiche cette aide -n indique le nombre total de notices WoS à télécharger (la valeur maximale est donnée par le programme envoyant la requête à l’API WoS) -o indique à partir de quel numéro (offset), on veut télécharger les notices, en particulier pour reprendre un téléchargement après un problème de connexion (1 par défaut) -q indique le numéro de la requête “queryId” dont on veut télécharger les résultats -r indique le nom du fichier résultat (pour la sortie standard, utiliser le tiret “-” comme argument de l’option) -s indique le jeton d’authentification “SID” obtenu avec le programme d’authentification à l'API WoS -t indique le nombre de notices à télécharger à chaque itération (100 par défaut) N.B. : la variable d‘environnement WOS_DELAY permet de modifier le délai entre deux itérations (1 seconde par défaut). Sa valeur doit être un entier positif supérieur à 1, par ex. : “export WOS_DELAY=3” EOT exit 0 } function nettoie { if [[ -f retrieve$$.xml ]] then rm -f retrieve$$.xml fi } # Options while getopts c:hn:o:q:r:s:t: i do case $i in c) cookie=$OPTARG;; h) aide;; n) nb=$OPTARG;; o) offset=$OPTARG;; q) qid=$OPTARG;; r) sortie=$OPTARG;; s) sid=$OPTARG;; t) taille=$OPTARG;; \?) echo >&2 usage >&2 exit 1;; esac done # Vérification des options if [[ -z $sid || -z $qid || -z $nb || -z $sortie ]] then echo "Erreur : option(s) manquante(s)" >&2 echo "" >&2 usage >&2 echo "" >&2 exit 2 fi if [[ $sortie = '-' ]] then sortie='/dev/fd/1' fi if [[ -z $cookie ]] then cookie='cookies.txt' fi if [[ ! $nb =~ ^[1-9][0-9]*$ ]] then echo "Erreur : le nombre de notices (option “-n”) doit être un entier positif non nul" >&2 exit 2 fi if [[ -z $offset ]] then offset=1 else if [[ $offset =~ ^[1-9][0-9]*$ ]] then if [[ $offset -gt $nb ]] then echo "Erreur : offset supérieur au nombre de notices" >&2 exit 2 fi else echo "Erreur : l’offset (option “-o”) doit être un entier positif non nul" >&2 exit 2 fi fi # Vérification de la présence des programmes # “curl” et “xmllint” for i in curl xmllint do prog=$(which $i 2> /dev/null) if [[ -z $prog ]] then echo "" >&2 echo "Erreur : programme “$i” introuvable. Vérifier \$PATH." >&2 echo "" >&2 exit 2 fi done # Vérification de la variable '$WOS_DELAY' if [[ -n $WOS_DELAY && ! $WOS_DELAY =~ ^[1-9][0-9]*$ ]] then echo "Erreur : la valeur de la variable \$WOS_DELAY doit être un entier supérieur à 1" >&2 exit 2 fi # Nettoyage en cas d’arrêt prématuré trap nettoie HUP INT QUIT TERM # Définition des fichiers de sortie out='WosApiOut.txt' err='WosApiErr.txt' # fonction “cherche” function cherche { end=$(( $1 + $2 - 1 )) printf " -> %d - %d " $1 $end >&2 cat << EOT > retrieve$$.xml <soap:Envelope xmlns:soap="http://schemas.xmlsoap.org/soap/envelope/"> <soap:Body> <ns2:retrieve xmlns:ns2="http://woksearch.v3.wokmws.thomsonreuters.com"> <queryId>$qid</queryId> <retrieveParameters> <firstRecord>$1</firstRecord> <count>$2</count> </retrieveParameters> </ns2:retrieve> </soap:Body> </soap:Envelope> EOT curl -X POST -d @retrieve$$.xml -b $cookie -c $cookie -v 'http://search.webofknowledge.com/esti/wokmws/ws/WokSearch?wsdl' \ -H "Cookie: SID=$sid" 2> $err | xmllint -format - > $out 2>> $err return $? } # Itération max=${taille:-100} delai=${WOS_DELAY:-1} total=$(( $nb - $offset + 1 )) # Vérification de ces variables if [[ $max -lt 1 ]] then echo "Erreur : le nombre de notices par itération doit être compris entre 1 et 100" >&2 exit 4 elif [[ $max -gt 100 ]] then echo "Erreur : le nombre de notices par itération ne peut dépasser 100" >&2 exit 4 fi if [[ $delai -lt 1 ]] then echo "Erreur : la variable \$WOS_DELAY ne peut pas valoir moins d‘une seconde" exit 4 fi while [[ $total -gt 0 ]] do if [[ $total -lt $max ]] then max=$total fi SECONDS=0 rc=$(cherche "$offset" "$max") if [[ $rc -gt 0 ]] then echo "" echo "Erreur : la réponse de l‘API est incorrecte [code xmllint = $rc]" >&2 echo "" exit 4 fi printf " \r" >&2 rc=$(grep -c '<return>' $out 2> /dev/null) if [[ $rc -gt 0 ]] then cat $out >> $sortie else msg=$(perl -ne 'print "$1" if m|<faultstring>(.+?)</faultstring>|;' $out) if [[ -n $msg ]] then echo " " >&2 echo "Erreur : $msg ">&2 echo " " >&2 else echo " " >&2 echo "Erreur indéterminée. " >&2 echo "Voir fichier “$err”. " >&2 echo " " >&2 fi nettoie exit 3 fi total=$(( $total - $max )) offset=$(( $offset + $max )) while [[ $total -gt 0 && $SECONDS -lt $delai ]] do sleep 0.5 done done printf " \r" >&2 nettoie exit 0