OCR
Définition
Optical Character Recognition. Extraction automatique de texte depuis une image ou un PDF scanné. Les modèles vision modernes (GPT vision, Claude vision) gèrent l'OCR avancé avec contexte.
Comment ça marche
L'OCR (Optical Character Recognition) consiste à extraire automatiquement le texte d'une image, d'un scan ou d'un PDF non textuel. Les outils historiques (Tesseract, Google Cloud Vision, AWS Textract, ABBYY) suivent un pipeline en plusieurs étapes : détection des zones de texte dans l'image, reconnaissance caractère par caractère, reconstruction des lignes et paragraphes. La précision est élevée sur les documents propres et bien structurés. En revanche, sur des scans dégradés, des mises en page complexes (multi-colonnes, tableaux imbriqués, formulaires manuscrits), ces outils peinent et produisent du texte fragmenté ou mal ordonné.
Les modèles vision modernes
Les LLM multimodaux (Claude 4.5, GPT-5, Gemini 2.5 Pro) lisent une image et en extraient le texte avec une fiabilité supérieure aux OCR classiques sur les documents structurés. Ils respectent la structure (colonnes, tableaux, hiérarchie) parce qu'ils comprennent le contenu, pas seulement les pixels. On peut leur demander directement de produire un JSON propre selon un schéma : extraire une facture en {fournisseur, date, lignes: [{description, quantité, prix}], total} en un seul appel. C'est devenu l'approche par défaut pour le traitement de documents en 2025, parce qu'elle évite plusieurs couches de post-traitement.
Quand utiliser un OCR classique
L'OCR classique reste pertinent dans plusieurs cas. Pour des volumes très importants où le coût LLM serait prohibitif (millions de pages par mois). Pour des documents standardisés et propres (PDF générés numériquement, formulaires bien remplis) où la précision atteint 99%+. Pour des contraintes de souveraineté qui imposent de l'auto-hébergé : Tesseract tourne sur n'importe quel serveur, sans envoyer de données externe. Pour des intégrations dans des pipelines existants. On garde aussi l'OCR classique en première passe quand on n'a besoin que d'un texte brut sans structuration, suivi d'un LLM uniquement pour les cas difficiles.
Quand utiliser un LLM vision
Le LLM vision s'impose quand : la structure du document varie d'une page à l'autre (factures de différents fournisseurs, devis hétérogènes), la mise en page est complexe (formulaires avec cases à cocher, schémas, signatures), on veut sortir directement une donnée structurée plutôt qu'un texte brut, le volume est modéré (quelques milliers à quelques dizaines de milliers de pages par mois), et la précision sur les cas atypiques compte plus que le coût unitaire. Pour une PME qui traite ses factures fournisseurs, un LLM vision avec sortie structurée bat tous les OCR classiques en qualité, pour un coût acceptable.
Le pipeline combiné
Pour des volumes importants, on combine souvent les deux approches. Premier étage : un OCR classique (Tesseract local ou Cloud Vision) extrait le texte brut rapidement et pour quelques fractions de centime par page. Deuxième étage : on classifie le document avec un LLM léger pour décider de la suite. Troisième étage : on structure avec un LLM vision premium uniquement les cas qui le justifient, ou avec un LLM texte sur le résultat OCR pour les cas standards. Ce pipeline permet de garder les coûts maîtrisés tout en bénéficiant de la qualité LLM sur les cas difficiles.
Les pièges à éviter
Quatre erreurs courantes. Faire confiance à l'OCR sans validation : on revérifie systématiquement les champs critiques (montants, dates, IDs) avec une règle métier ou une seconde extraction. Ignorer la rotation et la qualité d'image : on prétraite (redresser, débruiter) avant OCR, surtout sur les photos de documents. Ne pas gérer les documents multi-pages : un PDF de 50 pages doit être traité page par page pour rester gérable côté contexte. Et négliger la confidentialité : les documents souvent contiennent des données personnelles ou commerciales, on choisit un fournisseur qui ne réutilise pas les données et on signe un DPA.