Convertir un PDF numérisé en texte éditable avec l'OCR

Un PDF numérisé est essentiellement une collection d'images : les mots que vous voyez sont des pixels, pas du texte sélectionnable. Pour modifier, rechercher ou copier le contenu, vous devez convertir ces images en texte à l'aide de la reconnaissance optique de caractères (OCR). Ce guide vous montre comment transformer vos documents numérisés en fichiers pleinement éditables.

Convertir un document numérisé

  1. 1

    Vérifier la qualité du scan

    Assurez-vous que le document numérisé est net, bien contrasté et à une résolution d'au moins 300 DPI. Si la qualité est insuffisante, renumérisez le document.

  2. 2

    Importer dans UnblockPDF

    Téléversez votre PDF numérisé dans l'outil OCR d'UnblockPDF. Sélectionnez la langue du document pour activer le dictionnaire de correction approprié.

  3. 3

    Lancer la reconnaissance OCR

    Démarrez le processus OCR. Le moteur analyse chaque page, identifie les zones de texte et reconnaît les caractères.

  4. 4

    Vérifier et corriger

    Relisez le texte reconnu, en portant une attention particulière aux noms propres, aux chiffres et aux caractères spéciaux qui sont plus sujets aux erreurs.

PDF avec calque texte vs document éditable

L'OCR peut produire deux types de résultats. Le PDF avec calque texte conserve l'apparence visuelle du document original (l'image) et ajoute un calque texte invisible par-dessous. Ce mode préserve la mise en page exacte et permet la recherche et la copie de texte. C'est l'option recommandée pour les documents dont l'apparence visuelle doit être préservée. Le document éditable (Word, ODT) extrait le texte reconnu et tente de recréer la mise en page dans un format modifiable. Ce mode est préférable quand vous devez modifier significativement le contenu. La mise en page peut ne pas être parfaitement reproduite, surtout pour les documents complexes.

Conseils pour une conversion réussie

  • Numérisez toujours en couleur ou niveaux de gris, même pour les documents en noir et blanc, car le moteur OCR peut utiliser les informations de contraste.
  • Pour les documents en plusieurs langues, sélectionnez toutes les langues présentes dans les paramètres OCR.
  • Traitez les pages à problème individuellement avec des réglages différents plutôt que de relancer tout le document.
  • Conservez le PDF original numérisé en plus de la version OCR pour référence.

Preparer vos documents numerises pour de meilleurs resultats

La qualite de la numerisation a un impact direct sur la precision de l'OCR et la qualite du document editable resultant. Numerisez vos documents a une resolution minimale de 300 DPI pour les textes imprimes standard. Pour les documents a petits caracteres ou a faible contraste, augmentez la resolution a 400 ou 600 DPI. Utilisez le mode niveaux de gris ou couleur plutot que le mode noir et blanc strict, qui peut etre trop agressif pour certains documents. Placez vos documents bien a plat sur la vitre du scanner pour eviter les ombres et les deformations. Si vous numerisez avec un smartphone, utilisez une application de numerisation qui corrige automatiquement la perspective et ameliore le contraste. Nettoyez les pages du document avant la numerisation pour eliminer les taches, les traces de doigt et les debris qui pourraient etre interpretes comme des caracteres par l'OCR.

Limites de la conversion et post-traitement

La conversion de PDF numerises en documents editables a ses limites qu'il est important de connaitre. Les mises en page complexes avec des colonnes multiples, des encadres et des elements graphiques peuvent etre mal interpretees par l'OCR, produisant un document dont la structure ne correspond pas a l'original. Les tableaux complexes sont particulierement difficiles a reconstituer et peuvent necessiter une reconstruction manuelle. Les images de fond, les filigranes et les elements decoratifs peuvent interferer avec la reconnaissance du texte. Les documents en langues utilisant des scripts complexes (arabe, chinois, japonais) ou des polices decoratives peuvent avoir un taux de reconnaissance inferieur. Apres la conversion, une verification et un post-traitement sont generalement necessaires pour corriger les erreurs d'OCR et ajuster la mise en page.

Pages connexes

Questions fréquentes sur Convertir un PDF numérisé en texte éditable avec l'OCR

Outils associés