Data cleansing

Solo disponible en BuenasTareas
  • Páginas : 17 (4119 palabras )
  • Descarga(s) : 0
  • Publicado : 7 de marzo de 2012
Leer documento completo
Vista previa del texto
Datos Introducción
Generalmente, las empresas no cuentan con aplicaciones únicas para cada parte operativa del negocio, sino que pueden tener replicaciones y, distintos sistemas para atender un mismo conjunto de operaciones. En esos casos, es probable que las bases de datos de los sistemas operacionales contengan datos duplicados, a veces erróneos, superfluos o incompletos. A esto, se le sumanlos posibles errores a la hora del ingreso de los datos a los sistemas de datos operacionales. En este fascículo abordaremos los conceptos y, las herramientas para garantizar que la información sea lo más limpia posible a la hora de interactuar con ella.

1

Conceptos previos
La velocidad con que se generan y almacenan datos, es muy superior a la velocidad con que se procesan y analizan.Existe un crecimiento exponencial en la cantidad de datos generados por diferentes empresas, gobiernos, instituciones educativas y personas individuales. Las razones para este incremento, principalmente son de índole tecnológica, esto es, el uso intensivo del computador, el incremento en la capacidad de los medios para almacenamiento de datos y sus bajos costos. Por otro lado, ha surgido lo que sedenomina flujo constante de datos, que se caracteriza porque los datos llegan de forma constante sin parar. Esta abundancia de datos, ha creado la necesidad de recurrir a metodologías para analizar y explotar la información contenida en esos datos y se caracteriza por tener muchas instancias. La principal preocupación que se tiene, es de cómo obtener conocimiento útil de esta avalancha de información.Fascículo No. 7 Semestre 3

Datos

Datos
Previamente, hemos abordado los conceptos de recolección y, almacenamiento de información ahora nos concentraremos en el análisis.

Mapa conceptual fascículo 7

Un almacén de datos (del inglés data warehouse) es una colección de datos orientada a un determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en eltiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza.

Lo s gro

Al finalizar el estudio del presente fascículo, el estudiante estará en capacidad de:  Construir medidas eficientes de la complejidad de los conjuntos de datos. • Desarrollar e implementar un algoritmo para identificar y eliminar el ruido en un conjunto de datos.
Fascículo No. 7 Semestre 3

Datos

2 Datos
• Combinar la detección y, eliminación de ruido, con la selección de variables e instancias con la finalidad de mejorar el rendimiento de los datos.

Data Cleansing
La Limpieza de datos, es el proceso de corregir o remover información incorrecta, con formato inapropiado o duplicado en una base de datos. Una empresa, una industria intensiva en información como la banca, los seguros, laventa al menudeo, las telecomunicaciones o el transporte, puede utilizar una herramienta de limpieza de datos para examinar sistemáticamente los datos y detectar fallas mediante el uso de reglas, algoritmos y tablas de búsqueda. Por lo general, una herramienta de limpieza de datos incluye programas que son capaces de corregir un número específico de tipos de errores como completar números telefónicoso encontrar registros duplicados. La utilización de una herramienta de limpieza de datos puede ahorrar un tiempo significativo al administrador de la base de datos y, puede ser menos costoso que arreglarlo a mano. En la siguiente Figura, se muestran algunos de los aspectos que contribuyen a la suciedad de los datos en un Data Warehouse.

Ejemplo: Suciedad de los datos (Fuente:Adaptación RalphKimball (2002) Data Warehouse Toolkit Segunda edición Editorial Wiley)
Fascículo No. 7 Semestre 3

3

Datos

Datos
La limpieza de datos se encuentra dentro del proceso de transformación de datos de un Datawarehouse. Esta, es mucho más que simple actualización de registros con datos buenos. Una limpieza de datos seria, involucra descomposición y reensamblaje de datos. La limpieza de datos...
tracking img