Data cleansing

Solo disponible en BuenasTareas
  • Páginas : 5 (1077 palabras )
  • Descarga(s) : 0
  • Publicado : 18 de octubre de 2010
Leer documento completo
Vista previa del texto
Conceptos de Data Cleansing

El Data cleansing o Data Scrubbing o Limpieza de datos, es el acto de descubrimiento, corrección o eliminación de datos erróneos de una base de datos. El proceso de data cleansing permite identificar datos incompletos, incorrectos, inexactos, no pertinentes, etc. y luego sustituir, modificar o eliminar estos datos sucios ("data duty"). Después de la limpieza, labase de datos podrá ser compatible con otras bases de datos similares en el sistema.
Las inconsistencias descubiertas, modificadas o eliminadas pueden haber sido causado por: las definiciones de diccionario de datos diferentes de entidades similares, errores de entrada del usuario y corrupción en la transmisión o el almacenaje.
La Limpieza de datos se diferencia de la validación de datos ("datavalidation"), en que la validación de datos cumple la función de rechazar los registros erróneos durante la entrada al sistema. El proceso de data cleansing incluye la validación y además la corrección de datos, para alcanzar datos de calidad ("Data quality").

Data de Calidad
La data de calidad debe cumplir con los siguientes requisitos:
• Exactitud: Los datos deben cumplir los requisitos deintegridad, consistencia y densidad.
• Integridad: Los datos deben cumplir los requisitos de Entereza y validez.
• Entereza: Alcanzado por la corrección de datos que contienen anomalías.
• Validez: Alcanzado por la cantidad de datos que satisfacen las restricciones de integridad
• Consistencia: Alcanzado por la corrección de contradicciones y anomalías sintácticas.
• Uniformidad:Relacionado con irregularidades.
• Densidad: Conocer el cociente de valores omitidos sobre el número de valores totales.
• Unicidad: Relacionado con datos duplicados.

Proceso de Limpieza de Datos
1. Auditoria de Datos: Los datos son revisados con el empleo de métodos estadísticos de descubrir anomalías y contradicciones. Esto tarde o temprano da una indicación de las características de lasanomalías y sus posiciones.
2. Definición de Workflow: La detección y el retiro de anomalías son realizados por una secuencia de operaciones sobre los datos sabidos como el workflow. Para alcanzar un workflow apropiado, se debe identificar las causas de las anomalías y errores. Si por ejemplo encontramos que una anomalía es un resultado de errores de máquina en etapas de entrada de datos, la disposicióndel teclado puede ayudar en la solución de posibles problemas.
3. Ejecución de Workflow: En esta etapa, el workflow es ejecutado después de que su especificación es completa y su corrección es verificada. La implementación del workflow debería ser eficiente aún sobre los juegos grandes de los datos que inevitablemente plantean una compensación, porque la ejecución de la operación limpiadora puedeser cara.
4. Post-Proceso y Control: Los datos que no podían ser corregidos durante la ejecución del workflow deberán ser corregidos manualmente, de ser posible. El resultado es un nuevo ciclo en el proceso de limpieza de datos donde los datos son revisados nuevamente para ajustarse a las especificaciones de un workflow adicional y realizar un tratamiento automático.

Métodos más usados
1.Análisis: El análisis en la limpieza de datos, es realizado para la detección de errores de sintaxis. Un analizador gramatical decide si una cuerda de datos es aceptable dentro de la especificación de datos permitida. Esto es similar al modo que un analizador gramatical trabaja con gramáticas y lenguas.
2. Transformación de Datos: La Transformación de Datos permite al trazar un mapa de datos, en elformato esperado. Esto incluye conversiones de valor o funciones de traducción así como normalización de valores numéricos para conformarse a valores mínimos y máximos.
3. Eliminación de duplicados: La detección de duplicados requiere un algoritmo para determinar si los datos contienen representaciones dobles de la misma entidad. Por lo general, los datos son ordenados por un dato "llave" o...
tracking img