Qu’est-ce que l’OCR (Optical Character Recognition) ?
L’OCR, Reconnaissance Optique de Caractères ou Optical Character Recognition en anglais est un système informatique permettant de convertir électroniquement des documents manuscrits, imprimés ou dactylographiés.
Définition de l’OCR
La Reconnaissance Optique de Caractères est une technologie de LAD (Lecture Automatique de Documents) consistant à numériser des documents. Il s’agit de transformer un document scanné en texte. Pour ce faire, le logiciel OCR détecte les formes, les compare dans des bibliothèques de formes afin de les faire coïncider. Les documents en question peuvent alors être édités et stockés dans une base de données. A noter qu’un OCR a la capacité de reconnaître plusieurs formats et polices différentes ainsi que certaines données structurées telles que les images.
Pourquoi recourir à l’OCR ?
L’avantage principal de la Reconnaissance Optique de Caractères réside dans le gain de temps que celle-ci occasionne au niveau de la saisie de données. D’autre part, l’OCR reconnaît de façon automatique l’ensemble des caractères supprimant ainsi la saisie manuelle des données, et par conséquent le risque d’erreurs. De plus, la recherche des documents est rendue plus efficace grâce aux mots-clés et métadonnées. Celles-ci permettent d’enrichir de façon automatique les documents numérisés.
Cette technologie peut être employée pour différents types de documents d’entreprise tels que les bulletins de paie, les notes de frais, les bons de commande, les factures etc.
Les étapes de fonctionnement de l’OCR
1/ Pré-traitement de l’image : il s’agit d’un “nettoyage” global de l’image afin d’identifier les erreurs. Cela consiste en le réalignement, le déparasitage, lissage des bords, suppression de lignes etc.
2/ La reconnaissance de texte : pour reconnaître l’image l’OCR emploie deux algorithmes, à savoir la correspondance de motifs (il s’agit d’isoler une image – ”glyphe” en l’occurrence – et de la comparer à un glyphe existant déjà stocké). Le deuxième algorithme utilisé est l’extraction de caractéristiques, il s’agit de décomposer les glyphes en caractéristiques (boucle fermée, lignes etc.) afin de procéder à la comparaison pour trouver le glyphe le plus similaire.
3/ Le post-traitement : cette étape consiste à convertir les données textuelles en fichier numérique.
Conclusion
L’utilisation d’un logiciel de Reconnaissance Optique de Caractères est incontournable dans le cadre d’une démarche de dématérialisation globale des entreprises. En effet, il permet d’optimiser le processus de numérisation des documents afin de pouvoir les stocker électroniquement en toute sécurité.
A lire aussi :