Cómo aplicar ocr a un pdf y habilitar la selección y búsqueda de texto

Solo disponible en BuenasTareas
  • Páginas : 2 (258 palabras )
  • Descarga(s) : 7
  • Publicado : 6 de julio de 2010
Leer documento completo
Vista previa del texto
Supongamos que tenés un PDF que fue creado utilizando un scanner, o que te lo pasaron pero éste contiene la información en forma de imagen. Elprocedimiento al que debemos someter a nuestro querido PDF se llama OCR: un proceso que identifica automáticamente símbolos o caracteres que pertenecen a undeterminado alfabeto, a partir de una imagen para almacenarla en forma de datos con los que podremos interactuar mediante un programa de edición de texto osimilar.

pdfocr es una simple herramienta que crea un nuevo PDF con una capa de texto incrustada, lo que permite al usuario seleccionar texto ybuscar palabras en él, sin cambiar el aspecto final del PDF.

Para que NO sirve pdfocr:

Esto sirve solamente si el PDF contiene la información en formade imagen; si exportaste el PDF desde OpenOffice, ya tiene una capa de texto incrustada, por lo que este procedimiento es innecesario.

Cómo instalarpdfocr:

sudo add-apt-repository ppa:gezakovacs/pdfocrsudo apt-get updatesudo apt-get install pdfocr
Cómo usar pdfocr:

Abrí un terminal, andá aldirectorio donde se encuentra el PDF que querés convertir, e ingresá lo siguiente (reemplazando input.pdf por el PDF que querés convertir y output.pdfpor el nombre del nuevo archivo con la capa de texto incrustada)

pdfocr -i input.pdf -o output.pdf
Esperá a que se practique el OCR a cada una de laspáginas de tu PDF y que se cree el archivo final modificado. Ello debería llevar unos segundos por páginas, dependiendo en la resolución de tu PDF.
tracking img