Kettle Recuperacion Y Procesado De Datos
•
Conocer cómo se realiza la integración de datos en un proceso de minería de datos.
Enunciado El objetivo de estatarea es utilizar una herramienta para recuperación y procesado de datos. Para ello vamos a trabajar con la herramienta Kettle (Pentaho Data Integration). La práctica se compone de los siguientespasos: 1. Descargar e instalar Kettle Community Edition ( http://kettle.pentaho.com/ ) 2. Crear un proceso que descargue en internet noticias en formato RSS de algún periódico español. Debe descargar trescategorías: cultura, economía y ciencia. 3. Procesar los datos para que guarde, por un lado, una hoja Excel para cada categoría que contenga el título, la fecha, el enlace y la descripción de lasnoticias de la categoría. 4. Por otro lado debe crear, para cada categoría, un directorio con archivos de texto plano (.txt). Cada archivo txt debe contener el título y la descripción de una noticia(debe haber un txt para cada noticia dentro de cada categoría).
Detalle de la solución La solución se ha desarrollado realizando las siguientes tareas: 1. Se han creado tres transformaciones deidénticas propiedades, una para las noticias de Cultura, otra para Economía y otra para Ciencia.
Actividad aplicación: recuperación y procesado de datos (Kettle)
1
Actividad aplicación: recuperacióny procesado de datos (Kettle)
2
2. Cada una de estas transformaciones tienen los siguientes elementos: a. Entrada: RSS Input b. Salida: Microsoft Excel Writer y Salida Fichero Texto RSS Inputse ha configurado de la siguiente forma: • La URL en cuestión de cada tipo de noticias se indica en la URL list
•
En el apartado Fields se obtiene los campos que forman parte de este tipo deentrada
Actividad aplicación: recuperación y procesado de datos (Kettle)
3
Microsoft Excel Writer se ha configurado de la siguiente forma: • • • Filename: contiene la ruta del fichero Excel...
Regístrate para leer el documento completo.