Tecnologia Ocr
EL OCR: QUE ES Y PARA QUE SE PUEDE UTILIZAR.
El OCR (Optical character recognition) es un software de reconocimiento de texto que saca de una imagen el texto que contiene y lotransforma en cadenas de caracteres para guardarlos en un formato que se pueda utilizar en programas de edición de texto.
Cuando tenemos una imagen (ya sea una fotografía o un documento que hayamosescaneado), el texto que contiene forma parte de esa imagen, al igual que cualquier elemento de la misma (un dibujo o un esquema, por ejemplo). Pues bien, si necesitamos extraer ese texto para podereditarlo, necesitamos un programa de OCR que reconozca dicho texto y lo transforme en una cadena de caracteres (ya sea ASCII o Unicode) y posteriormente copiar esta cadena a un programa de ediciónpara ya poder trabajar con ella, con el consiguiente ahorro de tiempo al no tener que teclear este texto.
Básicamente, el sistema que utilizan es el siguiente:
El sistema usado hasta no hace muchoconsistía en que el OCR aislaba la imagen correspondiente a un carácter y la comparaba con una base de caracteres para determinar su correspondiente código ASCII o bien Unicode. Una vez reconocido lotransformaba y lo trasladaba al documento OCR resultante. Este sistema tenía el inconveniente de que trabajaba con un número limitado de fuentes, por lo que el resultado obtenido no siempre era eldeseado. Además, en textos muy largos y con inclusión de frases en cursiva, por ejemplo, el proceso era bastante lento.
Los programas actuales de OCR están basados en el análisis de característicasde los caracteres en vez de en la coincidencia de las matrices de estos, lo que permite una mayor velocidad en el proceso y el no tener que depender de una limitada base de fuentes.
Hay en elmercado bastantes programas de OCR, entre los que cabe destacar los conocidos OmniPage, Abbyy Fine Reader o READiris. Versiones reducidas de estos programas suelen contarse entre el software incluido en...
Regístrate para leer el documento completo.