OCR sous linux

J’ai eu besoin récemment de faire de récupérer du texte issu d’un document scannerisé pour le retravailler avec le writer d’openoffice. Pour cela j’ai regardé ce qui se faisait dans le domaine de la reconnaissance optique de caractères (ROC ou OCR optical character recognition en anglais). Cette page décrit bien les outils existants actuels.

L’outil qui semble être actuellement le plus puissant pour la reconnaissance des textes écrits en français est tesseract. Il est disponible en tant que package dans la plupart des distributions linux dignes de ce nom, il ne faudra pas oublier également le package de langue française pour une meilleure reconnaissance.

Le mode d’utilisation est le suivant:

1. Je scannerise avec mon Epson perfection V30 avec iscan,

2. Sous gimp, pour éviter l’erreur suivante avec tesseract

Tesseract Open Source OCR Engine
check_legal_image_size:Error:Only 1,2,4,5,6,8 bpp are supported:32
Erreur de segmentation

je passe en niveaux de gris (Image->Mode->Niveaux de gris, puis Calque->Transparence->Supprimer le canal alpha), puis je sauve l’image au format tiff sans compression. Attention tesseract n’est pas capable de comprendre le multi colonne, il faudra donc extraire les paragraphes (sélection des chapitres, Edition->Copier puis Edition->Coller comme nouvelle image) avant de procéder à la reconnaissance des caractères.

3. Dans le répertoire où se trouve l’image, je tape

tesseract image.tiff image -l fra

le texte va se retrouver dans le fichier image.txt dans le même répertoire, -l fra indique à tesseract de reconnaître du texte écrit en français.

4. Vous pouvez ensuite importer le fichier txt sous openoffice.

Une réflexion sur « OCR sous linux »

  1. Salam,

    Voila qui est intéressant ! Je cherche à Convertir mon fichier PDF scanné ou Image vers le format .ods d’OpenOffice Calc (Classeur ODF)

    Est ce que Tesseract fait l’affaire…?
    Sinon y’a t’il un OCR OpenSource qui permet de faire la conversion
    (PDF scanné ou Image) -> .ods ou .csv

    merci bien et bon WeekEnd !

Laisser un commentaire