Preparacion de datos

Solo disponible en BuenasTareas
  • Páginas : 8 (1846 palabras )
  • Descarga(s) : 0
  • Publicado : 12 de mayo de 2011
Leer documento completo
Vista previa del texto
PREPROCESAMIENTO DE LOS DATOS –Matilde Inés Césari

1

Los datos en el mundo real suelen presentarse incorrectos, incompletos e inconsistentes; las técnicas de preprocesamiento de datos colaboran al aumento de la calidad de los mismos, y por lo tanto, ayudan a mejorar la exactitud y eficiencia del subsecuente proceso de explotación de datos. De manera tal, que un adecuado preprocesamiento delos datos constituye un paso sumamente importante en el proceso de descubrimiento de conocimiento, ya que la calidad de las decisiones va a depender en gran medida de la calidad de los datos que originaron las mismas.

1 Limpieza de los datos

2 Integración de datos

3 Transformación de los datos

4 Reducción de los Datos

a) LIMPIEZA DE DATOS: intentan llenar los valores faltantes,suavizar el ruido mientras identifican valores fuera de rango y corregir inconsistencias en los datos. b) INTEGRACION Y TRANSFORMACIÓN DE DATOS: la explotación de datos requiere frecuentemente la integración de datos, esto implica juntar datos provenientes de múltiples almacenes, estos datos pueden necesitar ser transformados en formas apropiadas para ser óptima la explotación de datos. La integraciónde datos combina datos de múltiples fuentes para formar un almacenamiento coherente. Meta datos, análisis de correlación, detección de conflictos de datos y resolución de heterogeneidad semántica contribuyen a pulir la integración de datos. Las rutinas de transformación de datos convierten datos en formas apropiadas para la explotación conveniente de los mismos. c) REDUCCION DE DATOS: pueden seraplicadas para obtener una representación reducida del conjunto de datos que es mucho menor en volumen, pero mantiene la integridad de los datos originales. Esto significa que la explotación de datos en el conjunto de datos reducido va a ser más eficiente, pero va a producir los mismos (o casi los mismos) resultados analíticos. Técnicas, como la agregación a cubo de datos, reducción de dimensión,compresión de datos, reducción de cantidad y discretización. Las técnicas de discretización pueden ser usadas para reducir el número de valores para un atributo continuo dado dividiendo el rango del atributo en intervalos, las etiquetas de intervalos pueden luego ser utilizadas para reemplazar valores de datos actuales. La reducción del número de valores para un atributo es especialmentebeneficioso si se utilizan métodos de clasificación en explotación de datos basados en árboles de decisión en su etapa de preprocesamiento de datos.

PREPROCESAMIENTO DE LOS DATOS –Matilde Inés Césari

2

PREPROCESAMIENTO DE LOS DATOS –Matilde Inés Césari

3

PREPROCESAMIENTO DE LOS DATOS –Matilde Inés Césari

4

ENCAJADO (Binning): este método suaviza una clase de valores de datos porconsulta a su entorno (vecindario formado por los valores alrededor de él). Esta clase de valores son distribuidos dentro de un número de paquetes (buckets) o cajas. Debido a que los métodos de encajado consultan los valores de los vecinos, ellos realizan un suavizado local del ruido. Los datos son en un primer lugar ordenados y en segundo lugar son divididos en cajas equiprofundas de profundidad n(esto es cada una contiene n valores). En segundo lugar se reemplaza cada valor por caja: • En el suavizado por promedio de la caja, cada valor en una caja es reemplazado por el valor promedio de dicha caja. • De igual manera, el suavizado por mediana de la caja puede ser utilizado, donde cada valor es reemplazado por la mediana de la caja. • En la suavización mediante “cajas limitadas”(bin-boundaries), los valores mínimo y máximo en una caja dada son identificados como los limites de la caja, cada valor de la caja es luego reemplazado por el valor limite más cercano. En general, cuanto mayor sea la distancia entre ambos valores (el ancho), mayor es el efecto de la suavización. Alternativamente, las cajas pueden ser de igual ancho, donde el rango del intervalo de valores en cada caja es...
tracking img