Le français Mistral AI a une bonne nouvelle pour celles et ceux dont l’écriture est à peine déchiffrable. L’entreprise a lancé, le 18 décembre 2025, son modèle OCR3, dédié à la reconnaissance optique de caractères. L’objectif : extraire avec une grande précision le texte, les tableaux et les images à partir de documents variés (PDF, scans, photos de pages, formulaires, etc.).
OCR3 ferait mieux que Mistral OCR 2 dans 74 % des cas, notamment sur les formulaires, les documents scannés, les tableaux complexes et l’écriture manuscrite, selon l’entreprise — aurait-on enfin la solution pour comprendre l’écriture de certains médecins, parfois proche des hiéroglyphes ?


Mistral vous permet d’extraire des chiffres rapidement
Concrètement, un OCR sert à convertir automatiquement le texte présent dans des images ou des documents scannés (PDF, photos, papier) en texte numérique modifiable et exploitable. Le concept n’est pas nouveau : les premiers OCR reposaient principalement sur des règles et des algorithmes classiques, tandis que les solutions modernes peuvent désormais s’appuyer sur l’IA et le deep learning pour gagner en précision et en robustesse.
Mistral AI dévoile ainsi la troisième génération de son outil maison, présentée comme offrant une précision de pointe, surpassant à la fois les solutions d’entreprise traditionnelles de traitement de documents et les OCR natifs basés sur l’IA. OCR3 est conçu pour extraire à la fois le texte et les images intégrées depuis un large éventail de documents, tout en respectant fidèlement leur structure : un titre reste un titre, un paragraphe reste un paragraphe, un tableau reste un tableau.

La firme met également en avant le fait qu’OCR3 ne se limite pas à un seul type de document. Le modèle vise à « exceller sur la grande majorité des types de documents rencontrés dans les organisations et au quotidien ». Parmi les principaux progrès annoncés :
- Écriture manuscrite : Mistral OCR parvient à interpréter avec précision l’écriture cursive, les annotations mêlant plusieurs types de contenus, ainsi que le texte manuscrit superposé à des formulaires imprimés.
- Formulaires : le modèle améliore nettement la détection des cases, des étiquettes et des champs manuscrits, y compris dans des mises en page denses. Il se montre particulièrement efficace sur les factures, reçus, formulaires de conformité et autres documents administratifs.
- Documents scannés et complexes : OCR3 est jugé comme étant bien plus robuste face aux artefacts de compression, aux déformations, à l’inclinaison des pages, à la faible résolution (low DPI) et au bruit de fond.
- Tableaux complexes : le système reconstruit la structure des tableaux — en-têtes, cellules fusionnées, blocs multi-lignes et hiérarchies de colonnes — et génère des balises HTML afin de préserver fidèlement la mise en page.
L’un des grands avantages d’OCR3 réside dans le fait qu’il renvoie du Markdown (donc déjà formaté) et reconstruit les tableaux en HTML, en gérant les en-têtes, les cellules fusionnées et les blocs multi-lignes. L’intérêt est de permettre aux systèmes exploitant cette sortie — moteur de recherche, outil d’analyse ou agent IA — de comprendre la structure globale du document. Cela s’avère particulièrement utile pour les images de tableaux riches en données.

À noter également qu’OCR3 est désormais accessible via une interface graphique baptisée Document AI Playground, intégrée au Mistral AI Studio. Il suffit d’y glisser-déposer un PDF ou une image pour récupérer soit un texte nettoyé, soit un JSON déjà structuré — dans ce cas, le résultat est déjà organisé en données prêtes à l’emploi, et pas juste du texte brut.
En complément de cette interface, le modèle reste accessible via l’API. Plus compact, OCR3 est proposé à un tarif de référence de 2 dollars pour 1 000 pages (environ 1,90 €), avec une remise de 50 % via l’API Batch, ce qui ramène le coût à 1 dollar pour 1 000 pages (environ 0,95 €).
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !











