Tesseract (logiciel)
Apparence
Tesseract
Développé par | Ray Smith (d) |
---|---|
Dernière version | 5.5.1 ()[1] |
Dépôt | github.com/tesseract-ocr/tesseract.git |
Assurance qualité | Intégration continue |
Écrit en | C++ |
Système d'exploitation | GNU/Linux, Microsoft Windows, macOS, BSD, GNU/Hurd (d), Android et iOS |
Environnement | Linux, OpenBSD, Mac OS X, Windows |
Formats lus | TIFF, Portable Network Graphics, JPEG File Interchange Format, JP2 (d) et WebP |
Formats écrits | HOCR (en), fichier texte, Portable Document Format, ALTO (XML), TSV et PAGE (XML) |
Type | OCR |
Licence | Apache |
Documentation | tesseract-ocr.github.io |
Site web | https://github.com/tesseract-ocr/tesseract |
Tesseract est un logiciel libre de reconnaissance optique de caractères sous licence Apache.
Histoire
[modifier | modifier le code]Conçu par les ingénieurs de Hewlett Packard de 1985 à 1995, son développement est abandonné pendant les dix années suivantes.
En 2005, les sources du logiciel sont publiées sous licence Apache et Google poursuit son développement. Initialement limité aux caractères ASCII, il reconnaît les caractères UTF-8 dans plus de 100 langues.
Notes et références
[modifier | modifier le code]- ↑ (en) « Release 5.5.1 · tesseract-ocr/tesseract » (consulté le )
Articles connexes
[modifier | modifier le code]Liens externes
[modifier | modifier le code]- (en) Announcing Tesseract OCR (Luc Vincent, Google Code Blog, août 2006)
- (en) ExtractTextFromImage.online A free online OCR tool that uses the Tesseract engine to extract text within images