Besoin d'un programme pour aider à supprimer les informations des documents numérisés

thequantumguy01

2014-10-22 00:34:02 UTC

view on stackexchange narkive permalink

J'ai environ 200 scans PDF dont les informations doivent être systématiquement supprimées. Ces informations à supprimer comprennent un ensemble de chiffres dont la longueur peut varier.

Le plan actuel est d'imprimer chaque document, de supprimer les informations et de les numériser à nouveau. J'espérais qu'il y aurait un moyen d'automatiser ce processus.

J'ai essayé d'utiliser l'OCR d'Adobe Acrobat Pro, puis de trouver et de remplacer des fonctionnalités dans Word, mais j'ai rencontré quelques problèmes. Je ne sais pas comment rechercher un numéro dans plusieurs documents Word et lorsque j'utilise l'OCR sur les documents d'Adobe Acrobat, il trouve des images qui se trouvent sur la page et les convertit en texte.

tout logiciel capable d'automatiser cela serait vraiment utile.

Ces chiffres se trouvent-ils toujours au même endroit sur la page (par exemple dans le coin inférieur droit) ou sont-ils dans le texte?

Ils sont toujours à peu près au même endroit. Cependant, il s'agit de documents numérisés, il est donc impossible de garantir l'emplacement exact.

Je pensais que brouiller une sélection fixe dans toutes les images serait plus facile que l'impression et l'OCR