L’OCR

OCR de pdf scannés

Pour l’OCR de documents de type PDF scannés, la librairie OCRmyPDF donne de très bons résultats. Elle s’appuie sur Pytesseract mais permet d’obtenir en une ligne de commande différnts types de sorties:

  • un pdf “éditanle” / numérisé

  • un fichier txt

Une option permet de déclarer la langue et permet d’avoir de meilleurs résultats sur le français (grâce à une meilleure détection des accents et des caractères spécuax notamment).