{"id":424,"date":"2010-05-02T07:58:43","date_gmt":"2010-05-02T06:58:43","guid":{"rendered":"http:\/\/olivier.hoarau.org\/?p=424"},"modified":"2010-05-02T07:58:43","modified_gmt":"2010-05-02T06:58:43","slug":"ocr-sous-linux","status":"publish","type":"post","link":"https:\/\/olivier.hoarau.org\/?p=424","title":{"rendered":"OCR sous linux"},"content":{"rendered":"<p>J&rsquo;ai eu besoin r\u00e9cemment de faire de r\u00e9cup\u00e9rer du texte issu d&rsquo;un document scanneris\u00e9 pour le retravailler avec le <strong>writer<\/strong> d&rsquo;openoffice. Pour cela j&rsquo;ai regard\u00e9 ce qui se faisait dans le domaine de la reconnaissance optique de caract\u00e8res (ROC ou OCR optical character recognition en anglais). Cette <a title=\"OCR sous linux\" href=\"http:\/\/doc.ubuntu-fr.org\/ocr\">page<\/a> d\u00e9crit bien les outils existants actuels.<\/p>\n<p>L&rsquo;outil qui semble \u00eatre actuellement le plus puissant pour la reconnaissance des textes \u00e9crits en fran\u00e7ais est <a title=\"Tesseract\" href=\"http:\/\/code.google.com\/p\/tesseract-ocr\/\">tesseract<\/a>. Il est disponible en tant que package dans la plupart des distributions linux dignes de ce nom, il ne faudra pas oublier \u00e9galement le package de langue fran\u00e7aise pour une meilleure reconnaissance.<\/p>\n<p>Le mode d&rsquo;utilisation est le suivant:<\/p>\n<p>1. Je scannerise avec mon <a title=\"Scanner sous linux\" href=\"http:\/\/olivier.hoarau.org\/?p=178\">Epson perfection V30 avec iscan<\/a>,<\/p>\n<p>2. Sous <strong>gimp<\/strong>, pour \u00e9viter l&rsquo;erreur suivante avec tesseract<\/p>\n<p><strong>Tesseract Open Source OCR Engine<br \/>\ncheck_legal_image_size:Error:Only 1,2,4,5,6,8 bpp are supported:32<br \/>\nErreur de segmentation<\/strong><\/p>\n<p>je passe en niveaux de gris (Image-&gt;Mode-&gt;Niveaux de gris, puis Calque-&gt;Transparence-&gt;Supprimer le canal alpha), puis je sauve l&rsquo;image au format tiff sans compression. Attention <strong>tesseract<\/strong> n&rsquo;est pas capable de comprendre le multi colonne, il faudra donc extraire les paragraphes (s\u00e9lection des chapitres, Edition-&gt;Copier puis Edition-&gt;Coller comme nouvelle image) avant de proc\u00e9der \u00e0 la reconnaissance des caract\u00e8res.<\/p>\n<p>3. Dans le r\u00e9pertoire o\u00f9 se trouve l&rsquo;image, je tape<\/p>\n<p><strong>tesseract image.tiff image -l fra<\/strong><\/p>\n<p>le texte va se retrouver dans le fichier <strong>image.txt<\/strong> dans le m\u00eame r\u00e9pertoire,<strong> -l fra<\/strong> indique \u00e0 <strong>tesseract<\/strong> de reconna\u00eetre du texte \u00e9crit en fran\u00e7ais.<\/p>\n<p>4. Vous pouvez ensuite importer le fichier txt sous openoffice.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>J&rsquo;ai eu besoin r\u00e9cemment de faire de r\u00e9cup\u00e9rer du texte issu d&rsquo;un document scanneris\u00e9 pour le retravailler avec le writer d&rsquo;openoffice. Pour cela j&rsquo;ai regard\u00e9 ce qui se faisait dans le domaine de la reconnaissance optique de caract\u00e8res (ROC ou OCR optical character recognition en anglais). Cette page d\u00e9crit bien les outils existants actuels. L&rsquo;outil &hellip; <a href=\"https:\/\/olivier.hoarau.org\/?p=424\" class=\"more-link\">Continuer la lecture de <span class=\"screen-reader-text\">OCR sous linux<\/span>  <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":4,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"ngg_post_thumbnail":0,"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_feature_clip_id":0,"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_post_was_ever_published":false,"_share_on_mastodon":"0"},"categories":[5],"tags":[],"class_list":["post-424","post","type-post","status-publish","format-standard","hentry","category-logiciels-libres"],"share_on_mastodon":{"url":"","error":""},"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"jetpack_shortlink":"https:\/\/wp.me\/peOjJ-6Q","jetpack_likes_enabled":true,"_links":{"self":[{"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=\/wp\/v2\/posts\/424","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=424"}],"version-history":[{"count":1,"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=\/wp\/v2\/posts\/424\/revisions"}],"predecessor-version":[{"id":425,"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=\/wp\/v2\/posts\/424\/revisions\/425"}],"wp:attachment":[{"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=424"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=424"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=424"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}