Share to: share facebook share twitter share wa share telegram print page

 

OCRopus

OCRopus

Description de l'image OCRopus Texterkennung.png.
Informations
Développé par Thomas Breuel (d)Voir et modifier les données sur Wikidata
Dernière version 1.3.3 ()[1],[2],[3]Voir et modifier les données sur Wikidata
Dépôt github.com/tmbdev/ocropy et github.com/ocropus/ocropy.gitVoir et modifier les données sur Wikidata
Écrit en PythonVoir et modifier les données sur Wikidata
Système d'exploitation FreeBSD, Linux, macOS et Windows 10Voir et modifier les données sur Wikidata
Formats écrits HOCR (en)Voir et modifier les données sur Wikidata
Type Reconnaissance optique de caractèresVoir et modifier les données sur Wikidata
Licence Licence ApacheVoir et modifier les données sur Wikidata
Site web github.com/tmbdev/ocropy et github.com/ocropus/ocropyVoir et modifier les données sur Wikidata

OCRopus est un logiciel libre d'analyse de documents et de reconnaissance optique de caractères avec une conception très modulaire. OCRopus a été développé avec l'aide de Google sous la direction de Thomas Breuel du Centre de Recherche Allemand pour l'Intelligence Artificielle (DFKI) à Kaiserslautern et publié en tant que logiciel libre sous les conditions de la version 2.0 de la licence Apache.

OCRopus a été spécialement conçu pour être utilisé dans des projets de numérisation à grande échelle de livres tels que Google Livres, Internet Archive ou des projets de bibliothèques différentes, où un grand nombre de langues et de polices d'écriture doivent être prises en charge. Il peut également être employé dans des applications bureautiques, des applications pour l'usage privé, ou des applications pour les malvoyants.

Les principaux composants de l'OCRopus sont formés[4]:

La reconnaissance de texte est actuellement basée sur des réseaux de neurones récurrents (LSTM) et ne nécessite pas de modèle linguistiques. Cela permet l’entraînement de modèles indépendants de la langue pour lesquels des bons résultats de reconnaissance ont été achevés à la fois pour l'anglais, l'allemand et le français[5]. Outre l’alphabet latin, il y a des résultats pour d'autres scripts tels que Sanskrit, Ourdou ou Devanagari.

De très bons taux de reconnaissance peuvent être obtenus grâce à un entraînement approprié[6]. Cet effort supplémentaire est particulièrement intéressant pour les documents difficiles ou les polices de caractères qui ne sont plus courants aujourd'hui (par ex. Fraktur) et qui ne sont pas au centre des préoccupations des autres logiciels d'OCR.

Liens externes

Notes et références

  1. « Release 1.3.3 », (consulté le )
  2. « Release 1.3.3 », (consulté le )
  3. « Release 1.3.3 », (consulté le )
  4. Thomas M. Breuel, « The OCRopus open source OCR system », Document Recognition and Retrieval XV, International Society for Optics and Photonics, vol. 6815,‎ , p. 68150F (DOI 10.1117/12.783598, lire en ligne, consulté le )
  5. Adnan Ul-Hasan et Thomas M. Breuel, « Can We Build Language-independent OCR Using LSTM Networks? », Proceedings of the 4th International Workshop on Multilingual OCR, ACM, mOCR '13,‎ , p. 9:1–9:5 (ISBN 9781450321143, DOI 10.1145/2505377.2505394, lire en ligne, consulté le )
  6. (en-US) Thomas M. Breuel, Adnan Ul-Hasan, Mayce Ali Al-Azawi et Faisal Shafait, « High-Performance OCR for Printed English and Fraktur Using LSTM Networks », 2013 12th International Conference on Document Analysis and Recognition,‎ (DOI 10.1109/icdar.2013.140, lire en ligne, consulté le )
Kembali kehalaman sebelumnya


Index: pl ar de en es fr it arz nl ja pt ceb sv uk vi war zh ru af ast az bg zh-min-nan bn be ca cs cy da et el eo eu fa gl ko hi hr id he ka la lv lt hu mk ms min no nn ce uz kk ro simple sk sl sr sh fi ta tt th tg azb tr ur zh-yue hy my ace als am an hyw ban bjn map-bms ba be-tarask bcl bpy bar bs br cv nv eml hif fo fy ga gd gu hak ha hsb io ig ilo ia ie os is jv kn ht ku ckb ky mrj lb lij li lmo mai mg ml zh-classical mr xmf mzn cdo mn nap new ne frr oc mhr or as pa pnb ps pms nds crh qu sa sah sco sq scn si sd szl su sw tl shn te bug vec vo wa wuu yi yo diq bat-smg zu lad kbd ang smn ab roa-rup frp arc gn av ay bh bi bo bxr cbk-zam co za dag ary se pdc dv dsb myv ext fur gv gag inh ki glk gan guw xal haw rw kbp pam csb kw km kv koi kg gom ks gcr lo lbe ltg lez nia ln jbo lg mt mi tw mwl mdf mnw nqo fj nah na nds-nl nrm nov om pi pag pap pfl pcd krc kaa ksh rm rue sm sat sc trv stq nso sn cu so srn kab roa-tara tet tpi to chr tum tk tyv udm ug vep fiu-vro vls wo xh zea ty ak bm ch ny ee ff got iu ik kl mad cr pih ami pwn pnt dz rmy rn sg st tn ss ti din chy ts kcg ve 
Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9