diff --git a/count-EN.sh b/count-EN.sh new file mode 100644 index 0000000..81c20ae --- /dev/null +++ b/count-EN.sh @@ -0,0 +1,77 @@ +#!/bin/bash +# Récupération des arguments +OPTS=`getopt -o i:o: -- "$@"` +if [ $? != 0 ] +then + exit 1 +fi + +eval set -- "$OPTS" + +while true ; do + case "$1" in + -i) input="$2"; shift 2;; + -o) output="$2"; shift 2;; + --) shift; break;; + esac +done + +# Si input n'est pas définie +if [ -z "$input" ] +then + echo "available parameters :"; + echo "-i path/to/input_file or /path/to/directory (can't be empty!)"; + exit 1; +fi + +# Si output n'est pas définie +if [ -z "$output" ] +then + echo "available parameters :"; + echo "-o path/to/output_file (can't be empty!)"; + exit 1; +fi + +# Fonction de comptage des EN +# Elle prend en paramètre : $1 = fichier à traiter; $2 : fichier de sortie +function count_EN { + # Résultat + line="$1;"; + # Toutes les balises recherchées + arr_en=(''); + # Pour chaque EN recherchée, grep sur le fichier et récupération du nombre de ligne + for j in ${arr_en[*]} + do + data=$(grep -o "$j" $1 | wc -l); + line=$line$data";"; + echo $j': '$data; + done + # Écriture dans le fichier + echo $line >> $2; +} + +# Header du fichier de sortie +echo "file;;;;;;;;;;;" > $output; + +if [ -d "$input" ]; then + # compteur de fichier + i=0 + # Pour chaque fichier dans le répertoire + for f in $(find $input -type f) + do + # Petit affichage du fichier en cours + echo "Fichier en cours : $f ($i)"; + # Lancement de la fonction de comptage + count_EN $f $output; + # Incrémentation du nombre de fichier + i=$((i+1)); + done +elif [ -f "$input" ]; then + # Petit affichage du fichier en cours + echo "Fichier traité : $input"; + # Lancement de la fonction de comptage + count_EN $input $output; +else + echo "$input is not valid (should be a file or a directory)"; + exit 1; +fi \ No newline at end of file diff --git a/lance-make-tei.sh b/lance-make-tei.sh new file mode 100644 index 0000000..6e85a7f --- /dev/null +++ b/lance-make-tei.sh @@ -0,0 +1,17 @@ +#!/bin/bash +declare -a tab0F=( 0 1 2 3 4 5 6 7 8 9 A B C D E F ) +num_rows=16 + +dirIn="/applis/unitex/home/corpus_out/out_elsevier_eng" +dirOut="/applis/unitex/home/corpus_out_concatenes/out_elsevier_en_concat" +mkdir $dirOut + +for ((i=0;i" > $output; -echo "" >> $output; - # Pour chaque fichier dans le répertoire - for f in $(find $input -name "*.fulltext.tei.xml.result.txt") - do - # Écriture des données - echo "" >> $output; - cat $f >> $output; - echo "" >> $output; - done -echo "" >> $output; -nohup /bin/bash -s <<< "time make-tei.sh" >& time.txt & - - - - -