Fonctionnement de l'image vers le texte (ou reconnaissance optique de caractères)

Fonctionnement de l'image vers le texte (ou reconnaissance optique de caractères) / La technologie expliquée

Extraire du texte dans les images n'a jamais été aussi facile qu'aujourd'hui grâce à la technologie de reconnaissance optique de caractères (OCR).

OCR nous permet de faire toutes sortes d’activités utiles, telles que la recherche d’images à l’aide de requêtes de texte, la reproduction de documents sans la saisie à la main, et même la conversion de texte manuscrit en texte numérique. Comment convertir une image en écriture manuscrite en utilisant OCR Comment convertir une image avec écriture manuscrite en texte avec OCR Pour convertir une image de texte manuscrit en texte numérique que vous pouvez éditer et rechercher, vous avez besoin d'un outil de ROC (reconnaissance optique de caractères). Essayez l’un de ces outils d’OCR pour numériser l’écriture manuscrite. Lire la suite .

Mais qu'est-ce que la reconnaissance optique de caractères? Comment ça marche réellement? Cela peut sembler une magie noire pour vous, mais à la fin de cet article, vous aurez une solide compréhension de la façon dont les ordinateurs peuvent reconnaître les lettres et les mots..

Comment fonctionne la reconnaissance optique de caractères

Pour comprendre comment le texte est extrait d'une image, nous devons d'abord comprendre ce que sont les images et comment elles sont stockées sur des ordinateurs..

UNE pixel est un seul point d'une couleur particulière. Un image est essentiellement une collection de pixels. Plus il y a de pixels dans une image, plus sa résolution est élevée. Un ordinateur ne sait pas que l'image d'un poteau indicateur est vraiment un poteau indicateur. Il sait simplement que le premier pixel est cette couleur, le prochain pixel est cette couleur et affiche tous ses pixels à la vue de l'utilisateur..

Cela signifie que le texte et le non-texte ne sont pas différents d'un ordinateur, et c'est pourquoi la reconnaissance optique des caractères est si difficile. Dans cet esprit, voici comment cela fonctionne.

Étape 1: pré-traitement de l'image

Avant que le texte ne puisse être extrait, l'image doit être masquée de certaines manières pour faciliter l'extraction et augmenter ses chances de réussite. Cela s'appelle un prétraitement, et différentes solutions logicielles utilisent différentes combinaisons de techniques..

Les techniques de prétraitement les plus courantes comprennent:

Binarisation
Chaque pixel de l'image est converti en noir ou en blanc. L'objectif est de préciser quels pixels appartiennent au texte et quels pixels appartiennent à l'arrière-plan, ce qui accélère le processus de reconnaissance optique des caractères.

Redressement
Les documents étant rarement numérisés avec un alignement parfait, les caractères peuvent être inclinés ou même inversés. Le but ici est d'identifier les lignes de texte horizontales, puis de faire pivoter l'image pour que ces lignes soient réellement horizontales..

Détruire
Que l'image ait été binarisée ou non, il peut y avoir des parasites pouvant gêner l'identification des caractères. Le détritus supprime ce bruit et essaie de lisser l'image.

Enlèvement de ligne
Identifie toutes les lignes et les marques qui ne sont probablement pas des caractères, puis les supprime afin que le processus de ROC ne soit pas dérouté. C'est particulièrement important lors de la numérisation de documents avec des tableaux et des boîtes.

Zonage
Sépare l'image en fragments de texte distincts, tels que l'identification de colonnes dans des documents à plusieurs colonnes.

Crédit d'image: WayneRay / Wikimedia

Étape 2: Traitement de l'image

Tout d’abord, le processus OCR essaie d’établir la ligne de base pour chaque ligne de texte de l’image (ou si elle a été zonée lors du pré-traitement, elle traitera chaque zone une à la fois). Chaque ligne de caractères identifiée est traitée un par un.

Pour chaque ligne de caractères, le logiciel OCR identifie l'espacement entre les caractères en recherchant des lignes verticales de pixels non textuels (ce qui devrait être évident avec une binarisation appropriée). Chaque bloc de pixels entre ces lignes non textuelles est marqué comme un “jeton” cela représente un personnage. Par conséquent, cette étape s'appelle tokenisation.

Une fois que tous les caractères potentiels de l'image sont marqués d'un jeton, le logiciel OCR peut utiliser deux techniques différentes pour identifier les caractères que ces jetons sont réellement:

La reconnaissance de formes
Chaque jeton est comparé pixel par pixel à un ensemble complet de glyphes connus, notamment des nombres, des signes de ponctuation et d'autres symboles spéciaux, et la correspondance la plus proche est sélectionnée. Cette technique est également appelée correspondance matricielle.

Il y a plusieurs inconvénients ici. Premièrement, les jetons et les glyphes doivent être de taille similaire, sinon aucun d'entre eux ne correspondra. Deuxièmement, les jetons doivent être dans une police similaire à celle des glyphes, ce qui exclut l'écriture manuscrite. Mais si la police du jeton est connue, la reconnaissance des formes peut être rapide et précise.

Extraction de caractéristiques
Chaque jeton est comparé à différentes règles décrivant son type de personnage. Par exemple, deux lignes verticales de même hauteur connectées par une seule ligne horizontale sont susceptibles de constituer un H majuscule..

Cette technique est utile car elle ne se limite pas à certaines polices ou à certaines tailles. Il peut également être plus nuancé dans la reconnaissance des différences subtiles entre une majuscule I, une minuscule L et le nombre 1. L'inconvénient? La programmation des règles est beaucoup plus complexe que la simple comparaison des pixels d’un jeton avec ceux d’un glyphe..

Étape 3: Post-traitement de l'image

Une fois que toutes les correspondances de jetons sont terminées, le logiciel OCR peut simplement l'appeler un jour et vous présenter les résultats. Mais généralement, un peu plus de confusion est nécessaire pour vous assurer de ne pas rouler des yeux lorsque vous obtenez des résultats chaotiques..

Restriction lexicale
Tous les mots sont comparés à un lexique de mots approuvés et tous ceux qui ne correspondent pas sont remplacés par le mot le plus proche. Un dictionnaire est un exemple de lexique. Cela peut aider à corriger les mots avec des caractères erronés, comme “épine” au lieu de “th0rn”.

Optimisations spécifiques à l'application
Lorsque l'OCR est utilisé dans des environnements de niche, tels que des documents médicaux ou légaux, un type spécial d'OCR peut être utilisé, spécialement conçu pour cet environnement. Dans ces cas, le logiciel OCR peut rechercher des équations mathématiques, des termes spécifiques à l’industrie, etc..

Langage naturel
Cette technique avancée corrige les phrases à l'aide d'un modèle de langage décrivant la probabilité que certains mots soient suivis par d'autres mots. C'est similaire à la technologie qui prédit quel mot vous voulez taper ensuite sur un clavier mobile.

Lorsque cela est bien fait, cela peut donner un texte remarquablement lisible.

Outils de reconnaissance optique de caractères recommandés

Maintenant que vous savez comment fonctionne l'OCR, il devrait être facile de voir que tous les outils OCR ne sont pas égaux. La précision de vos résultats dépendra dans une grande mesure de la manière dont le logiciel implémentera les différentes techniques de reconnaissance optique des caractères présentées dans cet article.

Nous recommandons vivement OneNote pour cela, ce qui est l'une des raisons pour lesquelles il bat Evernote pour la prise de notes Evernote contre OneNote: quelle application de prise de notes vous convient le mieux? Evernote vs OneNote: Quelle application de prise de notes vous convient le mieux? Evernote et OneNote sont des applications de prise de notes étonnantes. Il est difficile de choisir entre les deux. Nous avons tout comparé, de l’interface à l’organisation de la note, pour vous aider à choisir. Qu'est-ce qui fonctionne le mieux pour vous? Lire la suite . Si vous êtes prêt à payer pour une solution premium, envisagez OmniPage. Voir notre comparaison entre OneNote et OmniPage pour les logiciels OCR gratuit et payant: Microsoft OneNote et Nuance OmniPage Comparé les logiciels OCR gratuit et payant: Microsoft OneNote et Nuance OmniPage Le logiciel de numérisation OCR vous permet de convertir du texte sous forme d'images ou de PDF en texte modifiable. documents. Un outil de ROC gratuit comme OneNote est-il suffisant? Découvrons-le! Lire la suite . Pour les documents mobiles, vous voudrez peut-être consulter ces applications OCR pour les appareils Android. 6 Meilleures applications OCR Android pour extraire du texte à partir d'images. 6 Meilleures applications OCR Android pour extraire du texte à partir d'images. Avez-vous besoin de numériser du texte imprimé pour pouvoir conserver copie électronique de celui-ci? Dans ce cas, tout ce dont vous avez besoin est un outil de reconnaissance optique de caractères (OCR). Lire la suite .

Comment utilisez-vous OCR? Avez-vous des outils OCR préférés que nous n'avons pas mentionnés? Faites-nous savoir dans les commentaires ci-dessous!

Explorer plus sur: Image Converter, OCR.