Reconocimiento optico

Solo disponible en BuenasTareas
  • Páginas : 8 (1858 palabras )
  • Descarga(s) : 0
  • Publicado : 21 de diciembre de 2010
Leer documento completo
Vista previa del texto
08

Sistemas de Reconocimiento optico de Caracteres

OCR

artículo

OCR

Sistemas de Reconocimiento Óptico de Caracteres
Joaquim Arlandis Navarro - Investigador responsable del área OCR y Análisis de Documentos ITI - Instituto Tecnológico de Informática

Introducción: Digitalización+Ventajas de Automatización
La digitalización de la información (textos, imágenes, sonido, etc.) seha convertido en los últimos años en un punto de creciente interés para la sociedad. Por lo que respecta a los textos, existen y se generan continuamente grandes cantidades de información escrita, tipográfica o manuscrita en todo tipo de soportes. Especialmente en papel, soporte susceptible de ser digitalizado, para poder gozar de las ventajas que del procesamiento de datos por computador sederivan. En este contexto, automatizar la introducción de caracteres al sistema evitando la entrada por teclado, implica un importante ahorro de recursos para las empresas, incrementando la productividad al mismo tiempo que se preserva o mejora la calidad de los servicios ofrecidos a los clientes. Los sistemas de reconocimiento óptico de caracteres (OCR), así como los de reconocimiento de texto engeneral, tienen como objetivo ayudar en el desarrollo de estas tareas. Se presentan en forma de aplicaciones diversas dirigidas al tratamiento automático de textos, ofreciendo así, claros beneficios a la sociedad actual. De hecho, la tecnología OCR llega hoy en día, tanto a empresas directamente relacionadas con la digitalización y la gestión documental

con requerimientos de procesamiento de grandesvolúmenes de datos, como a la Administración Pública y a gran variedad de Pymes. Esto se debe en parte a la gran versatilidad de campos de aplicación y el coste asequible que presentan estos sistemas.

La Problemática Científico-Técnica
El reconocimiento óptico de caracteres u OCR (optical character recognition), consiste en la identificación automatizada de símbolos o caracterespertenecientes a un determinado alfabeto, a partir de una imagen recogida mediante la lectura óptica de un texto grabado en un apoyo real. El problema del reconocimiento óptico de caracteres es bien conocido y ha estado abordado de manera intensa por disciplinas científicas, como el Reconocimiento de Formas y Visión Artificial. Las características de este problema y las diversas vertientes que presenta, hacenque sea un proceso en continua investigación. Desde el reconocimiento de caracteres impresos, de uno o múltiples tipos de letra (considerado en la práctica un problema superado), como la escritura continua, restringida o no (de gran dificultad intrínseca), pasando por el reconocimiento de caracteres manuscritos aislados o la disposición fija o flotante del texto a reconocer, son hoy por hoy,objeto de estudio. Sin embargo, cabe distinguir el reconocimiento "off-line" versus "online", este último más sencillo porque recoge información temporal 09

Revista del Instituto Tecnológico de Informática

del proceso de escritura. La existencia de esta variedad de contextos hace que esta área de conocimiento aplicado siga abierta a múltiples vertientes hoy en día. En este sentido, se ha deresaltar la dificultad que implica el reconocimiento automático de la escritura humana. Por un lado, hay distintos patrones válidos para un mismo carácter y por otro, las distorsiones en los trazos hacen que la forma de un carácter se distinga radicalmente de cualquier patrón caligráfico, convirtiendo a veces los caracteres en irreconocibles. Así, nos podríamos preguntar, ¿Es posible que un sistemaautomático reconozca algún día las prescripciones de un médico?

En el caso de sistemas OCR para documentos, la problemática se enmarca en el campo del análisis de documentos. En este contexto, los sistemas pueden resolver tareas como: identificación de documentos, registro, segmentación del documento en bloques lógicos, texto, gráficos, tablas, títulos y columnas, entre otros. La detección en...
tracking img