Connexion

Connexion à votre compte

Identifiant
Mot de passe
Maintenir la connexion active sur ce site

Blog

LAD, RAD et OCR : un point d'entrée pour votre Ged

RAD (reconnaissance automatique du document)


Définition
Application qui permet de numériser un document à l'aide d'un scanner et d'un logiciel d'OCR en tenant compte du type de document et de ses contraintes (reconnaissance caractères numérique, alpha, codes barre).
Permet de trier automatiquement les documents à partir d’un modèle prédéfini et de l’utilisation d’OCR ou d’ICR.


Principe technologique
La technologie RAD consiste à reconnaitre le type du document à traiter. Ainsi après avoir analysé la mise en page du document comme l’emplacement d’image, d’encadré, le module RAD la compare à des modèles issus de sa base de données afin de déterminer s’il s’agit d’un devis, d’une facture, une commande ou tout autre document.
Selon la nature du document, l’utilisateur pourra vouloir y extraire différentes informations. Dès lors l’application LAD lance le module OCR (reconnaissance optique des caractères).


OCR (reconnaissance optique de caractères)


Définition
Matériel ou logiciel de conversion d'un document image (codé en mode image) en un document texte (codé en mode caractère), avec ou sans enrichissement typographique et conservation de la structure du document associé, exploitable par des programmes informatiques.
Les documents traités sont de diverses catégories d'écriture (dactylographiée, numérique, manuscrite, bâton et cursive) ; ils peuvent être multiécritures et hétérogènes (imprimés, dégradés, bruités). Plusieurs techniques de reconnaissance sont utilisées par les moteurs de reconnaissance optique de caractères, avec ou sans apprentissage.


Le principe technologique
Le principe d’une technologie OCR est de lire le document pour détecter les formes, puis les comparer à des bibliothèques de formes pour en faire correspondre un caractère. Si des erreurs surviennent lors de la reconnaissance d’un caractère, l’OCR compare alors le mot entier au contenu de son dictionnaire intégré pour en déduire l’équivalence la plus proche et ainsi corriger le caractère mal lu. Ainsi le texte pourra alors être segmenté selon l’information recherché.


Les principaux acteurs de l'OCR en 2009


ABBYY
http://france.abbyy.com/
IRIS
http://www.irislink.com
Nuance
http://www.nuance.fr/

N'oublions pas l'Open Source :


Tesseract ancien outil IBM mis récemment en Open Source par Google, le plus précis des OCR Open Source mais hélas uniquement en anglais
Tesseract sur Sourceforge.
C'est d'ailleurs le grand problème des OCR Open Source : ils sont en anglais !


Les paramètres qui doivent influencer un choix de logiciel d'OCR

 

  • Précision de la reconnaissance de caractère
  • Précision de la reconstruction de mise en page
  • Support de plusieurs langage
  • Rapidité
  • Interface utilisateur
  • Caractéristique spéciales pour des projets de niches

Rechercher sur le blog