Etl (extraer, transformar y cargar)

Solo disponible en BuenasTareas
  • Páginas : 23 (5640 palabras )
  • Descarga(s) : 0
  • Publicado : 23 de junio de 2010
Leer documento completo
Vista previa del texto
ETL
INDICE

Introducción……………………………………………………………………………………………………3

Contenido………………………………………………………………………………………………………4

Conclusión……………………………………………………………………………………………………15

Bibliografía………………………………………………………………………………………………….16

INTRODUCCION
En el presente trabajo de investigación se desarrolla el contenido sobre los procesos ETL (Extraer, transformar y cargar), y herramientas existentes enel mercado.
ETL, básicamente, es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, transformarlos, limpiarlos y cargarlos en otra base de datos, Data Mart, o Data WareHouse para analizar, o en otro sistema operativo para apoyar un proceso de negocio. También se pueden utilizar para integrar sistemas heredados a los nuevos sistemas emergentes en la organización.
Elobjetivo principal de ETL es transferir datos desde las aplicaciones de producción a los sistemas de Inteligencia de Negocio (BI), este proceso consta de tres etapas:
* Extracción de datos
* Transformación de datos
* Carga de datos
En la primera fase básicamente extrae los datos desde los sistemas de origen.
La fase de transformación aplica una serie de funciones o reglas de negociosobre los datos extraídos para convertirlos en datos que serán cargados. Cabe la posibilidad de que algunas fuentes de datos requieran alguna manipulación de los datos.
La fase de carga es el momento en el cual los datos de la fase de transformación se cargan en el sistema de destino. Dependiendo de los requerimientos de la organización, este proceso puede contener una amplia variedad deacciones. En algunas bases de datos se sobrescribe la información anterior con nuevos datos. Los Data WareHouse (repositorio de datos) mantienen un historial de los registros de manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo. Existen dos formas de desarrollar el proceso de carga Acumulación Simple o Rolling.
Entre lasherramientas ETL se destacan Ab Initio, Beneti, Data Integrator, Data Migration, IBM Websphere Data Stage, Informática Power Center, Microsoft DTS, Microsoft Integration Services, MySQL Migration Toolkit, Oracle Warehouse Builder, Oracle Data Integrator (ODI), Oracle Warehouse Builder (OWB), SAS Data Studio Integración, CloverETL, Elixir Repertorios, DecisionStream, Advantage Data Transformer,Enterprise Metadata Edition, WebFocus ETL Manager, MIS Import Master, Informática PowerCenter, Teradata Warehouse Builder, etc.

CONTENIDO
ETL
Los procesos ETL son los componentes más importantes y de valor añadido de una infraestructura de Business Intelligence (BI, inteligencia de negocios).
Recuperan los datos de todos los sistemas operativos y los preelaboran para las herramientas de análisisy de presentación de informes. La exactitud de la plataforma BI entera depende de los procesos ETL.
LIMPIEZA

La limpieza se realiza, si es posible, en cada fuente de datos de origen. Si no en la tarea de transformación.

La limpieza se efectúa en los datos incompletos (Data Dirty): atributos sin valor, falta de atributos interesantes para el contexto o el valor del atributo se tieneagregado.

* Con “ruido”: contienen errores o outliers
Ejemplo: salario = “-10”
* Inconsistentes: contienen discrepancias
Ejemplo: edad = “42” fecha_nacimiento = “03/07/1997”
Ejemplo: era rango “1,2,3”, y ahora “A, B, C”

Incompletos porque:

* No es necesario el dato cuando se registra
* Consideraciones diferentes cuando el dato es registrado y cuando es analizado
* Problemashumanos/hardware/software

Incorrectos debido a:

* Error humano o del programa al introducir los datos. Modelos de datos poco robustos.
* Errores en la transmisión de datos

Inconsistentes porque:

* Provienen de diferentes fuentes de datos
* Modelo de datos no normalizados (incumplen las FN)

Limpieza de datos (Cleaning)

Tareas
* Identificar y corregir outliers y...
tracking img