Vous n'êtes pas identifié.
Salut,
J'ai un pdf créé à partir d'un scan. Est-ce que quelqu'un sait si le système OCR de google pour transformer une image en html est disponible en open source?
Meilleures salutations.
Solution : http://code.google.com/p/tesseract-ocr/downloads/list
PS : merci de votre patiente, c'est en posant la question que j'ai trouvé la réponse.
Dernière modification par jean@adimp.ch (05 Jan 2010 10:44:12)
Hors ligne
Salut,
En fait la solution que j'ai choisie est VietOCR http://vietocr.sf.net/ . Il est basé sur tesserat. Il faut rajouter les langues ( par exemple le français ) dans le répertoire tesserat/tessdata. Le logiciel reconnait tout seul l'ajout de nouvelles langues.
Meilleures salutations.
PS : aprés il est nécessaire de traiter le texte avec open office et de rechercher les fautes d'orthographe, bien utile ce dictionnaire français dans open office, la fonction remplacer est aussi utile car le logiciel OCR se plante toujours au même endroit ( logique, c'est un programme ).
Dernière modification par jean@adimp.ch (05 Jan 2010 12:07:22)
Hors ligne