Tutorial de pentaho data integration

Solo disponible en BuenasTareas
  • Páginas : 19 (4566 palabras )
  • Descarga(s) : 0
  • Publicado : 21 de enero de 2012
Leer documento completo
Vista previa del texto
PENTAHO DATA INTEGRATION (KETTLE)
INTRODUCCIÓN 2
PENTAHO DATA INTEGRATION (KETTLE) 3
Spoon 3
Kitchen 3
Pan 3
INSTALACION DE PENTAHO DATA INTEGRATION (KETTLE) 3
Requisitos para la instalación de PDI Kettle. 3
Descarga de PDI Kettle. 3
Instalación de PDI Kettle. 4
Ejecución de PDI Kettle. 4
Transformations, Jobs, Steps y Hops. 5
CREAR EL PRIMER EJEMPLO ETL 7
Objetivo7
Preparar el ambiente de trabajo 7
Crear la Transformation 7
Identificando Steps 8
Diseñar la Transformation 8
Configurar el comportamiento de los steps 9
Configurar Text File Input 9
Configurar Modified Java Script Value 12
Configurar XML Output 13
Guardar la transformation 14
Ejecutar la transformation 14
Ejecutar la transformation desde ventana de líneade comandos 15
Programar la ejecución de la transformation 15
CREAR EL SEGUNDO EJEMPLO ETL 17
Crear el Job 17
Diseñar el Job 17
Configurar el comportamiento de los steps 18
Configurar Check if files exists 18
Configurar Move Files 18
Configurar Transformation 19
Guardar el Job 19
Ejecutar el Job 19
Ejecutar el job desde ventana de línea de comandos 20Programar la ejecución del job 21
UTILIZANDO VARIABLES 21
Archivo de configuración Kettle.properties 21
Utilizando variables en Transformations y Jobs 22
Editar archivo de configuración 23
TRABAJANDO CON BASE DE DATOS 23
Crear Database Connection 24
Guardar registros en tabla de destino 26

INTRODUCCIÓN

ETL. Son las siglas en inglés de Extraer, Transformar y Cargar (Extract,Transform and Load). Es el proceso que permite mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.

Extraer. La primera parte del proceso ETL consiste en extraer los datos desde los sistemas de origen. La mayoría de los proyectos dealmacenamiento de datos fusionan datos provenientes de diferentes sistemas de origen. Por ejemplo la información del sistema de RRHH puede estar disponible en una base de datos SQL Server, mientras que la información de Ventas esté disponible en hojas de cálculo.

Transformar. La fase de transformación aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos queserán cargados. Algunas fuentes de datos requerirán alguna pequeña manipulación de los datos. No obstante en otros casos pueden ser necesarias aplicar algunas de las siguientes transformaciones:
• Seleccionar sólo ciertas columnas para su carga (por ejemplo, que las columnas con valores nulos no se carguen).
• Traducir códigos (por ejemplo, si la fuente almacena una "H" para Hombre y "M"para Mujer pero el destino tiene que guardar "1" para Hombre y "2" para Mujer).
• Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad * precio).
• Unir datos de múltiples fuentes (por ejemplo, búsquedas, combinaciones, etc.).
• Generación de campos clave en el destino.

Carga. La fase de carga es el momento en el cual los datos de la fase anterior(transformación) son cargados en el sistema de destino. Este proceso puede abarcar una amplia variedad de acciones diferentes. En algunas bases de datos se sobrescribe la información antigua con nuevos datos, en otras se agrega a la información ya existente. Todo depende del modelo y requerimientos del negocio.

La fase de carga interactúa directamente con la base de datos de destino. Al realizar estaoperación se aplicarán todas las restricciones y triggers que se hayan definido en ésta (por ejemplo, valores únicos, integridad referencial, campos obligatorios) y si están bien definidos contribuyen a que se garantice la calidad de los datos en el proceso ETL.
PENTAHO DATA INTEGRATION (KETTLE)

Kettle es un proyecto Open Source de origen belga, que incluye un conjunto de herramientas para...
tracking img