Question:
Besoin d'un programme pour aider à supprimer les informations des documents numérisés
thequantumguy01
2014-10-22 00:34:02 UTC
view on stackexchange narkive permalink

J'ai environ 200 scans PDF dont les informations doivent être systématiquement supprimées. Ces informations à supprimer comprennent un ensemble de chiffres dont la longueur peut varier.

Le plan actuel est d'imprimer chaque document, de supprimer les informations et de les numériser à nouveau. J'espérais qu'il y aurait un moyen d'automatiser ce processus.

J'ai essayé d'utiliser l'OCR d'Adobe Acrobat Pro, puis de trouver et de remplacer des fonctionnalités dans Word, mais j'ai rencontré quelques problèmes. Je ne sais pas comment rechercher un numéro dans plusieurs documents Word et lorsque j'utilise l'OCR sur les documents d'Adobe Acrobat, il trouve des images qui se trouvent sur la page et les convertit en texte.

tout logiciel capable d'automatiser cela serait vraiment utile.

Ces chiffres se trouvent-ils toujours au même endroit sur la page (par exemple dans le coin inférieur droit) ou sont-ils dans le texte?
Ils sont toujours à peu près au même endroit. Cependant, il s'agit de documents numérisés, il est donc impossible de garantir l'emplacement exact.
Je pensais que brouiller une sélection fixe dans toutes les images serait plus facile que l'impression et l'OCR
Un répondre:
user416
2014-10-22 12:52:39 UTC
view on stackexchange narkive permalink

D'après vos questions / commentaires, je suppose que les fichiers PDF contiennent uniquement des images.

1) Extrayez les images à l'aide d'un extracteur d'images PDF comme IweSoft PDF Image Extractor.

2) Brouiller le texte pertinent dans les images

3) Assembler les images dans un nouveau PDF en utilisant n'importe quel outil de votre choix (pour créer des PDF, il y en a des centaines options, donc je n'entrerai pas dans cela)

Le problème que j'ai trouvé avec ceci est que les fichiers PDF peuvent être plusieurs pages, et lorsqu'ils sont convertis en images, ils se divisent. Je ne trouve pas de programme qui reconnaîtra ces images dans le cadre d'un seul fichier et les reconvertira par lots en fichiers PDF.
Je supposais une image par page. J'avais l'habitude d'utiliser un extracteur (j'ai oublié le nom) qui nommait les images de manière séquentielle.


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...