Création de VM : vp-istex-ocr #90

Closed perrin opened this issue on 24 Nov 2015 - 16 comments

@perrin perrin commented on 24 Nov 2015

Bonjour,

L'équipe ISTEX-DATA souhaiterait disposer d'une machine destinée à y faire fonctionner une future chaîne de réOCRisation.

Ces caractéristiques sont susceptibles d'évoluer dans le temps, mais voici, dans les grandes lignes, son profil idéal :

  • 16 cœurs
  • 32 Go de RAM (on traite du PDF image et du TIFF en 300ppp)
  • 500 Go de disque dispo pour l'espace utilisateur
  • un montage en lecture seule vers les corpus
  • Ubuntu 14.04 (si possible)

Du côté des premiers paquets à installer :

  • tesseract
  • poppler-utils
  • python (v. 3 serait idéal pour faire fonctionner des outils ISTEX-RD)
  • langid (avec ses dépendances)
  • xsltproc
  • xmlstarlet
  • libexpat

En termes d'accès, il faudrait que la machine soit utilisable part tous les membres des équipes ISTEX (API/DATA/RD).

Merci d'avance pour votre aide,

L'équipe ISTEX-DATA

@perrin perrin commented on 24 Nov 2015

bump!

@perrin perrin commented on 24 Nov 2015

Est-il possible aussi de disposer du paquet « imagemagick » (convert) ?

@perrin perrin commented on 24 Nov 2015

Est-il aussi possible de disposer du paquet GNU-Parallel ?

Bonjour, il me faudrait une liste plus précise des utilisateurs. et également m'indiquer ceux qui n'aurais pas de clés ssh, que je puisse les créer.

voici la liste des packages, peux tu me confirmer cette liste, certains noms diffèrent de ce que tu as indiqué :
package { 'imagemagick' : ensure => installed }
package { 'nfs-common' : ensure => installed }
package { 'xmlstarlet' : ensure => installed }
package { 'python3' : ensure => installed }
package { 'xfsprogs' : ensure => installed }
package { 'htop' : ensure => installed }
package { 'curl' : ensure => installed }
package { 'expat' : ensure => installed }
package { 'parallel' : ensure => installed }
package { 'tesseract-ocr' : ensure => installed }
package { 'poppler-utils' : ensure => installed }
package { 'xsltproc' : ensure => installed }
package { 'libexpat1' : ensure => installed }
package { 'python-pip' : ensure => installed }
package { 'python-dev' : ensure => installed }

    exec {'pip install -U langid':
@perrin perrin commented on 25 Nov 2015

Pour la liste de paquets, ça me semble bon (il y aura des ajouts dans le futur).

Pour les accès utilisateurs :

  • Stanislas PERRIN (perrin)
  • Frank DJELAKWONG-KAMDEM (djelak)
  • William PAUL (paul)
  • Étienne CARON (caron)
  • Jean-Joffrey PARENTIN (parent)
  • Claude NIEDERLENDER (nierderle)

Il n'y a pas de personnes sans clef SSH susceptibles d'y avoir accès pour le moment.

ok
pour les corpus c'est bien /data sur vp-istex-li dont tu parles, pas de corpusoutput ?

cette liste (dois je inclure sample, brut et enricjments ?)
/data/bmj
/data/brill
/data/degruyter/journals
/data/ecco
/data/eebo
/data/elsevier
/data/enrichments
/data/iop
/data/nature
/data/oup
/data/rsc
/data/sample
/data/springer
/data/wiley
/data/brut/elsevier
/data/brut/rsc
/data/brut/temp
/data/brut/wiley

@perrin perrin commented on 25 Nov 2015

Oui, il s'agit bien de l'accès aux corpus éditeurs comme ceux dispo dans le /data de vp-istex-li.

machine prête : à tester

@perrin perrin commented on 25 Nov 2015

Merci ! 👍

@perrin perrin commented on 1 Dec 2015

Je tente de cloner un dépôt GitBucket en SSH depuis vp-istex-ocr et je n'y parviens pas.
Probablement quelques ports à ouvrir, j'imagine... 😉

ssh est ouvert.
git utilise un port particulier en ssh ?

@ringot ringot commented on 1 Dec 2015

Le port de 22222 pour Gitbucket qui embarque son propre serveur SSH.

Le "souci" de git est résolu : les clés ssh n'étaient pas installées

@perrin perrin commented on 4 Dec 2015

Bonjour,

Est-il possible d'installer l'ensemble des packages de langues de Tesseract : tesseract-ocr-* ?

Merci ! 😃

@ponticel ponticel referenced the issue on 4 Dec 2015

done :

libtesseract-dev tesseract-ocr-afr tesseract-ocr-ara tesseract-ocr-aze
tesseract-ocr-bel tesseract-ocr-ben tesseract-ocr-bul tesseract-ocr-cat
tesseract-ocr-ces tesseract-ocr-chi-sim tesseract-ocr-chi-tra
tesseract-ocr-chr tesseract-ocr-dan tesseract-ocr-deu tesseract-ocr-deu-frak
tesseract-ocr-dev tesseract-ocr-ell tesseract-ocr-enm tesseract-ocr-epo
tesseract-ocr-est tesseract-ocr-eus tesseract-ocr-fin tesseract-ocr-fra
tesseract-ocr-frk tesseract-ocr-frm tesseract-ocr-glg tesseract-ocr-grc
tesseract-ocr-heb tesseract-ocr-hin tesseract-ocr-hrv tesseract-ocr-hun
tesseract-ocr-ind tesseract-ocr-isl tesseract-ocr-ita tesseract-ocr-ita-old
tesseract-ocr-jpn tesseract-ocr-kan tesseract-ocr-kor tesseract-ocr-lav
tesseract-ocr-lit tesseract-ocr-mal tesseract-ocr-mkd tesseract-ocr-mlt
tesseract-ocr-msa tesseract-ocr-nld tesseract-ocr-nor tesseract-ocr-pol
tesseract-ocr-por tesseract-ocr-ron tesseract-ocr-rus tesseract-ocr-slk
tesseract-ocr-slk-frak tesseract-ocr-slv tesseract-ocr-spa
tesseract-ocr-spa-old tesseract-ocr-sqi tesseract-ocr-srp tesseract-ocr-swa
tesseract-ocr-swe tesseract-ocr-tam tesseract-ocr-tel tesseract-ocr-tgl
tesseract-ocr-tha tesseract-ocr-tur tesseract-ocr-ukr tesseract-ocr-vie

@ponticel ponticel closed this issue on 4 Dec 2015
Labels

Priority
No priority
Milestone
No milestone
Assignee
@ponticel ponticel
4 participants
@perrin @ponticel @ringot @niederle