Une entrepreneuse autrichienne, déjà à l’origine d’un scanner de documents qui a prouvé son efficacité, veut désormais permettre aux ordinateurs de comprendre les documents manuscrits.

L’usage des scanners capables d’interpréter et de retranscrire correctement des documents imprimés — livres, guides… — est aujourd’hui répandu. Mais il reste encore beaucoup de progrès à faire pour permettre aux ordinateurs et autres outils technologiques de comprendre les textes manuscrits.

C’est l’objectif poursuivi par la startup SearchInk, fondée par Sofie Quidenus, une entrepreneuse autrichienne interviewée par VentureBeat : « C’est assez fou de voir le nombre de formulaires qui sont encore utilisés aujourd’hui. On pense être au 21ème siècle mais c’est encore un gros problème. »

Après s’être attaquée à la conversion de documents papier en numérique avec le Book Scan 3.0, un scanner de livres capable de numériser 2 500 pages par heure — qui est aujourd’hui utilisé dans plus de 70 bibliothèques à travers le monde –, elle tente de maîtriser l’écriture manuscrite avec une technologie intitulée HTR (pour « Handwritten text recognition », ou « reconnaissance des textes manuscrits »).

https://www.youtube.com/watch?v=VaB6p52N0VI

La lettre « s » fait de la résistance

Sofie Quidenus veut aller bien au-delà d’une simple recherche de mots dans un document : « L’idée n’est pas seulement de lire le texte et d’y détecter des schémas optiques, mais bien qu’ils puissent être lus par la machine pour qu’elle les comprenne comme une personne le ferait. »

Son expérience avec le Book Scan 3.0 lui a notamment prouvé que la lettre « s » restait l’une des plus compliquées à interpréter à cause de ses nombreuses variantes, selon qu’elle est rédigée par un gaucher ou un droitier, par un homme ou par une femme, ou encore en fonction de l’ancienneté du document…

SearchInk, basé à Berlin, fait appel aux dons et aux ingénieurs intéressés pour l’aider à développer ce nouvel outil, déjà bien entamé. Il nécessite pour l’instant un correcteur humain qui modifie ces algorithmes naissants mais compte à terme recourir au deep learning pour permettre l’autonomie du système. Il faudra donc vraisemblablement attendre encore quelques années avant que ce rêve se concrétise.

Nouveauté : Découvrez

La meilleure expérience de Numerama, sans publicité,
+ riche, + zen, + exclusive.

Découvrez Numerama+

Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !