{"id":1771,"date":"2014-07-29T18:07:50","date_gmt":"2014-07-29T17:07:50","guid":{"rendered":"http:\/\/olivier.hoarau.org\/?p=1771"},"modified":"2014-07-29T18:07:50","modified_gmt":"2014-07-29T17:07:50","slug":"convertir-un-fichier-pdf-en-txt","status":"publish","type":"post","link":"https:\/\/olivier.hoarau.org\/?p=1771","title":{"rendered":"Convertir un fichier pdf en txt"},"content":{"rendered":"<p style=\"text-align: justify;\">Il n&rsquo;y a rien de plus frustrant d&rsquo;avoir un fichier pdf et de ne pas pouvoir faire un copier coller dans un traitement de texte pour vous \u00e9viter une ressaisie laborieuse. J&rsquo;ai trouv\u00e9 la solution sous linux avec <strong>tesseract<\/strong> qui permet d&rsquo;obtenir un fichier txt \u00e0 partir d&rsquo;un fichier pdf qui peut compter plusieurs pages. J&rsquo;avais d\u00e9j\u00e0 pr\u00e9sent\u00e9 <strong>tesseract<\/strong> <a title=\"OCR sous linux\" href=\"http:\/\/olivier.hoarau.org\/?p=424\">dans un article pr\u00e9c\u00e9dent<\/a> pour faire de la reconnaissance de caract\u00e8re \u00e0 partir d&rsquo;un scanner.<\/p>\n<p style=\"text-align: justify;\">Il faut tout d&rsquo;abord installer <strong>tesseract<\/strong>, je vous conseille de l&rsquo;installer \u00e0 partir des sources pour b\u00e9n\u00e9ficier de la derni\u00e8re version et du package de langue fran\u00e7aise, le site officiel est par <a title=\"Tesseract\" href=\"http:\/\/code.google.com\/p\/tesseract-ocr\/\">ici<\/a>. Il faudra installer pr\u00e9alablement <strong><a title=\"Leptionica\" href=\"http:\/\/www.leptonica.com\/\">leptonica<\/a><\/strong> qui fournit un ensemble d&rsquo;outils pour le traitement et l&rsquo;analyse d&rsquo;images ainsi qu&rsquo;<a title=\"ImageMagick\" href=\"http:\/\/www.imagemagick.org\/\"><strong>ImageMagick<\/strong><\/a> qu&rsquo;on trouvera sur la plupart des distributions linux.<\/p>\n<p style=\"text-align: justify;\">Pour le reste j&rsquo;ai r\u00e9cup\u00e9r\u00e9 le script suivant \u00e0 <a title=\"Ubuntuforums\" href=\"http:\/\/ubuntuforums.org\/showthread.php?t=880471\">cette adresse<\/a>.<\/p>\n<blockquote><p>#!\/bin\/bash<br \/>\nSCRIPT_NAME=`basename \u00ab\u00a0$0\u00a0\u00bb .sh`<br \/>\nTMP_DIR=${SCRIPT_NAME}-tmp<br \/>\nOUTPUT_FILE=${SCRIPT_NAME}-output.txt<\/p>\n<p>mkdir $TMP_DIR<br \/>\ncp $@ $TMP_DIR<br \/>\ncd $TMP_DIR<\/p>\n<p>pdftoppm -r 600 * ocrbook<\/p>\n<p>for i in *.ppm<br \/>\ndo<br \/>\nBASE=`basename \u00ab\u00a0$i\u00a0\u00bb .ppm`<br \/>\nconvert \u00ab\u00a0$i\u00a0\u00bb \u00ab\u00a0${BASE}.tif\u00a0\u00bb<br \/>\ntesseract \u00ab\u00a0${BASE}.tif\u00a0\u00bb \u00ab\u00a0${BASE}\u00a0\u00bb -l fra<br \/>\ncat ${BASE}.txt | tee -a $OUTPUT_FILE<br \/>\necho \u00ab\u00a0[pagebreak]\u00a0\u00bb | tee -a $OUTPUT_FILE<br \/>\nrm ${BASE}.*<br \/>\ndone<\/p>\n<p>mv $OUTPUT_FILE ..<br \/>\nrm *<br \/>\ncd ..<br \/>\nrmdir $TMP_DIR<\/p><\/blockquote>\n<p style=\"text-align: justify;\">Je l&rsquo;ai appel\u00e9 <strong>pdf2txt<\/strong>, il suffit de le lancer en tapant pdf2txt fichier.pdf et \u00e7a donne un r\u00e9sultat assez satisfaisant dans un fichier pdf2txt-output.txt.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Il n&rsquo;y a rien de plus frustrant d&rsquo;avoir un fichier pdf et de ne pas pouvoir faire un copier coller dans un traitement de texte pour vous \u00e9viter une ressaisie laborieuse. J&rsquo;ai trouv\u00e9 la solution sous linux avec tesseract qui permet d&rsquo;obtenir un fichier txt \u00e0 partir d&rsquo;un fichier pdf qui peut compter plusieurs pages. &hellip; <a href=\"https:\/\/olivier.hoarau.org\/?p=1771\" class=\"more-link\">Continuer la lecture de <span class=\"screen-reader-text\">Convertir un fichier pdf en txt<\/span>  <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":4,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"ngg_post_thumbnail":0,"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_feature_clip_id":0,"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_post_was_ever_published":false,"_share_on_mastodon":"0"},"categories":[5],"tags":[],"class_list":["post-1771","post","type-post","status-publish","format-standard","hentry","category-logiciels-libres"],"share_on_mastodon":{"url":"","error":""},"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"jetpack_shortlink":"https:\/\/wp.me\/peOjJ-sz","jetpack_likes_enabled":true,"_links":{"self":[{"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=\/wp\/v2\/posts\/1771","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=1771"}],"version-history":[{"count":1,"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=\/wp\/v2\/posts\/1771\/revisions"}],"predecessor-version":[{"id":1772,"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=\/wp\/v2\/posts\/1771\/revisions\/1772"}],"wp:attachment":[{"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=1771"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=1771"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/olivier.hoarau.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=1771"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}