Estudio

Solo disponible en BuenasTareas
  • Páginas : 9 (2213 palabras )
  • Descarga(s) : 0
  • Publicado : 19 de octubre de 2010
Leer documento completo
Vista previa del texto
Informe Investigativo

Tema: Proceso de Extracción, Transformación y Carga.

Autora: Marla Camila Coll Glez

Introducción

ETL significa Extract, Transform and Load, los procesos que permite el traslado de datos de múltiples fuentes, cambiar el formato y lo limpiará, hacer lo que las conversiones de datos son necesarios, y cargarlo en otro archivo, base de datos, un data mart o en undepósito de datos para análisis, o en otro sistema, por ejemplo, un entorno de CMS como Drupal o Mambo Joomla

Desarrollo

Objtivo del proceso, características, herramientas.

Los procesos ETL son los componentes más importantes y de valor añadido de una infraestructura de Business Intelligence (BI). Aún pueden ser invisibles por los usuarios de la plataforma de BI, los procesos ETL recuperanlos datos de todos los sistemas operativos y les pre-elaboran para las herramientas de análisis y de reporting. La exactitud de la plataforma BI entera depende de los procesos ETL.

Los procesos de Extracción, Transformación y Carga constan de múltiples pasos, cuyo objetivo es transferir datos desde las aplicaciones de producción a los sistemas de Inteligencia de negocio :

• Extracción de losdatos desde las aplicaciones y bases de datos de producción (ERP, CRM, RDBMS, archivos, etc.)

• Transformación de estos datos para reconciliarlos en todos los sistemas source, realizar cálculos o análisis sintáctico de cadenas, enriquecerlos con información de búsqueda externa y, además, adaptarlos al formato preciso por el sistema objetivo (Third Normal Form, Star Schema, Slowly ChangingDimensions, etc.)

• Carga de los datos resultantes en las diversas aplicaciones de BI:Almacenes de datos históricos generales (data warehouse) o almacenes de datos empresariales, almacenes de datos históricos individuales (data mart), aplicaciones OLAP (Procesamiento analítico en línea) o “cubos”, etc

La latencia de los procesos ETL varía desde los lotes (a veces, de forma mensual o semanal,pero en la mayoría de los casos diariamente), al tiempo casi real con actualizaciones más frecuentes (cada hora, cada pocos minutos, etc.).[1]

1 Las más populares herramientas y aplicaciones ETL del mercado son:

• IBM Websphere DataStage (anteriormente Ascential DataStage y Ardent DataStage)
• Pentaho Data Integration (Kettle ETL) - Una herramienta Open Source Business Intelligence
• SASETL Studio
• Oracle Warehouse Builder
• Informatica PowerCenter
• Cognos Decisionstream
• Ab Initio
• BusinessObjects Data Integrator (BODI)
• Microsoft SQL Server Integration Services (SSIS)

Libres:

Kettle
Scriptella Open Source ETL Tool
Talend Open Studio
CloverETL Community

Fuentes de datos.

Existen múltiples fuentes de datos donde se encuentra almacenada lainformación en el momento de la fase de extracción. Las empresas almacenan los datos en disimiles fuentes como pueden ser las fuentes cooperativas y no cooperativas. Las fuentes no cooperativas son las fuentes específicas por ejemplo los archivos exel, dbf, etc, y las fuentes consultables como son las tablas SQL, etc. Las fuentes cooperativas son las fuentes de replicacion, las fuentes de Call Back y lasfuentes de cambios internos.

Limpieza.

Generalmente las empresas no cuentan con aplicaciones únicas para cada parte de la operativa del negocio, sino que pueden tener replicaciones y distintos sistemas para atender un mismo conjunto de operaciones, y en esos casos es probable que las bases de datos de los sistemas operacionales contengan datos duplicados, a veces erróneos, superfluos oincompletos. A esto se le suman los posibles errores a la hora de la entrada de datos a los sistemas de datos operacionales.

La limpieza de datos se encuentra dentro del proceso de transformación de datos. Esta, es mucho más que simplemente actualizar registros con datos buenos. Una limpieza de datos seria, involucra descomposición y reensamblaje de datos. La limpieza de datos se puede dividir en...
tracking img