Cómo aplicar ocr a un pdf y habilitar la selección y búsqueda de texto
pdfocr es una simple herramienta que crea un nuevo PDF con una capa de texto incrustada, lo que permite al usuario seleccionar texto ybuscar palabras en él, sin cambiar el aspecto final del PDF.
Para que NO sirve pdfocr:
Esto sirve solamente si el PDF contiene la información en formade imagen; si exportaste el PDF desde OpenOffice, ya tiene una capa de texto incrustada, por lo que este procedimiento es innecesario.
Cómo instalarpdfocr:
sudo add-apt-repository ppa:gezakovacs/pdfocrsudo apt-get updatesudo apt-get install pdfocr
Cómo usar pdfocr:
Abrí un terminal, andá aldirectorio donde se encuentra el PDF que querés convertir, e ingresá lo siguiente (reemplazando input.pdf por el PDF que querés convertir y output.pdfpor el nombre del nuevo archivo con la capa de texto incrustada)
pdfocr -i input.pdf -o output.pdf
Esperá a que se practique el OCR a cada una de laspáginas de tu PDF y que se cree el archivo final modificado. Ello debería llevar unos segundos por páginas, dependiendo en la resolución de tu PDF.
Regístrate para leer el documento completo.