L’OCR¶
OCR de pdf scannés¶
Pour l’OCR de documents de type PDF scannés, la librairie OCRmyPDF donne de très bons résultats. Elle s’appuie sur Pytesseract mais permet d’obtenir en une ligne de commande différnts types de sorties:
un pdf “éditanle” / numérisé
un fichier txt
Une option permet de déclarer la langue et permet d’avoir de meilleurs résultats sur le français (grâce à une meilleure détection des accents et des caractères spécuax notamment).