Kettle. Recuperación y Procesado de datos.2012

12
2012 Inteligencia Artificial. Actividad Académica Individual 3 Actividad de Aplicación. Recuperación y Procesado de Datos (Kettle) Guillermo Santos @gsantosgo

description

Uso Pentaho Data Integration 4.2.0 para recuperación y procesado de datos

Transcript of Kettle. Recuperación y Procesado de datos.2012

Page 1: Kettle. Recuperación y Procesado de datos.2012

2012

Inteligencia Artificial.

Actividad Académica

Individual 3 Actividad de Aplicación. Recuperación y

Procesado de Datos (Kettle)

Guillermo Santos

@gsantosgo

Page 2: Kettle. Recuperación y Procesado de datos.2012

AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle)

Inteligencia Artificial Página 2 de 12

Contenido 1. Objetivo ................................................................................................................................ 3

2. Enunciado ............................................................................................................................. 3

3. Plataforma de desarrollo ....................................................................................................... 3

4. Proceso de desarrollo de la solución...................................................................................... 3

4.1 Descargar e instalación Pentaho Data Integration 4.2.0 ................................................... 3

4.2 Proceso ETL ..................................................................................................................... 4

4.2.1 Extracción (E) ............................................................................................................... 6

4.2.2 Transformación (T) ....................................................................................................... 7

4.2.3 Carga(L) ........................................................................................................................ 8

4.2.4 Resultado Final ........................................................................................................... 11

5. Solución final transformación .............................................................................................. 12

Page 3: Kettle. Recuperación y Procesado de datos.2012

AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle)

Inteligencia Artificial Página 3 de 12

1. Objetivo Conocer cómo se realiza la integración de datos en proceso de minería de datos.

2. Enunciado El objetivo de esta es utilizar una herramienta para recuperación y procesado de datos. Para ello vamos a trabajar con la herramienta Kettle(Pentaho Data Integration). La práctica se compone de los siguientes pasos:

1. Descargar e instalar Kettle Community Edition (http://kettle.pentaho.com) 2. Crear un proceso que descargue en internet noticias en formato RSS de tres

periódicos españoles. Debe descargar tres categorías: cultura, economía y ciencia.

3. Procesar los datos para que guarde, por un lado, una hoja de Excel para cada categoría que contenga el título, la fecha, el enlace y la descripción de las noticias de la categoría.

4. Por otro lado debe crear, para cada categoría, un directorio con archivos de texto plano (*.txt). Cada archivo txt debe contener el título y la descripción de una noticia (debe haber un txt para cada noticia dentro de cada categoría).

3. Plataforma de desarrollo Para realización de esta práctica, se ha utilizado:

- Dell Inspiron 1525 Core 2 Duo

- Sistema Operativo Windows XP SP3 32Bits

- Java Runtime Environment 1.6.0_27

- Pentaho Data Integration Stable Release 4.2.0 Comunity Edition

4. Proceso de desarrollo de la solución

4.1 Descargar e instalación Pentaho Data Integration 4.2.0 Para la realización de esta práctica es necesario la instalación del producto Pentaho Data Integration también conocido con el nombre de Kettle. Su funcionalidad principal es que nos permite llevar a cabo un proceso de extracción de datos de fuentes de información, transformación de esos datos a un formato coherente y uniforme, y por último cargarlos en otra base de datos o herramientas para realizar un análisis posterior. Este proceso también es conocido como Extraction, Transformation y Loading (ETL).

Page 4: Kettle. Recuperación y Procesado de datos.2012

AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle)

Inteligencia Artificial Página 4 de 12

¿Dónde realizamos la descarga? Accedemos a la siguiente dirección web o U.R.I: http://sourceforge.net/projects/pentaho/files/Data%20Integration/4.2.0 -stable/ y procedemos a descargar el fichero pdi-ce-4.20.-stable.zip. Una vez, que ya tenemos descargado el fichero pdi-ce-4.20.-stable.zip, procedemos a extraerlo en nuestra unidad de disco, en concreto lo extraemos el directorio C:\data-integration. En la siguiente imagen podemos observar que ya tenemos realizada la instalación de este producto.

¿Cómo ejecutamos la aplicación? Para arrancar la ejecución de esta aplicación, se ejecuta el fichero spoon.bat.

4.2 Proceso ETL La creación del proceso ETL de esta práctica con la aplicación Pentaho Data Integration requiere la creación de lo que se denomina una nueva Transformación. En la siguiente imagen podemos observar las propiedades de nuestra transformación.

Nota. Para poder ejecutar la aplicación Pentaho Data Integraction 4.2.0 es necesario que

en nuestro equipo, ya se encuentre instalada la máquina virtual de Java de Oracle.

Page 5: Kettle. Recuperación y Procesado de datos.2012

AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle)

Inteligencia Artificial Página 5 de 12

El siguiente paso será la realización de tres procesos, uno para cada categoría de noticias. Las entradas de nuestros procesos será la entrada en formato RSS de los tres periódicos españoles seleccionados. Los periódicos españoles seleccionados son los siguientes:

- EL MUNDO - EL PAÍS - LA RAZÓN

A continuación, detallo las direcciones de acceso a los recursos de noticias en formato RSS, atendiendo a las categorías requeridas de los tres periódicos españoles seleccionados. Categoría CIENCIA

- http://elmundo.feedsportal.com/elmundo/rss/ciencia.xml

- http://ep00.epimg.net/rss/tags/c_ciencia.xml

- http://www.larazon.es/noticias/rss/ciencia-y-tecnologia

Categoría CULTURA - http://elmundo.feedsportal.com/elmundo/rss/cultura.xml

- http://ep00.epimg.net/rss/cultura/portada.xml

- http://www.larazon.es/noticias/rss/cultura

Categoría ECONOMÍA - http://elmundo.feedsportal.com/elmundo/rss/economia.xml

- http://www.elpais.com/rss/feed.html?feedId=1006

- http://www.larazon.es/noticias/rss/economia

Page 6: Kettle. Recuperación y Procesado de datos.2012

AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle)

Inteligencia Artificial Página 6 de 12

En los siguientes puntos voy a detallar como sería el proceso que se nos pide en esta práctica para la categoría de Ciencia, para el resto de procesos de las otras categorías la realización es exactamente igual. En esta imagen podemos observar cuál es el objetivo que pretendemos para la categoría de Ciencia.

4.2.1 Extracción (E) Aquí nosotros necesitamos configurar un primero paso (Entrada) en el que recuperamos las noticias de información en formato RSS, de la distintas URLs especificadas anteriormente. Detalles del Paso Entrada RSS Ciencia Se especifica todas las direcciones (URLs) fuentes de información.

Page 7: Kettle. Recuperación y Procesado de datos.2012

AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle)

Inteligencia Artificial Página 7 de 12

Detalles del Paso Entrada RSS Ciencia “Campos Seleccionados” Únicamente seleccionamos aquellos campos que queremos recuperar del fichero XML en formato RSS, y que son Titulo (Title), Enlace (Link), Descripción (Description as text) y FechaTmp (PubDate).

4.2.2 Transformación (T) Durante la transformación normalmente se unifica los formatos de aquellos campos

que queremos que sean homogéneos independientemente de la fuente de

información donde provengan. Para ello creamos un nuevo paso Transformación

Campo Fecha Ciencia que tendrá como campos de entrada los del paso anterior.

En esta práctica queremos que el campo FechaTmp (PubDate) pase a ser de tipo Date y

que además tenga el siguiente formato dd/MM/yy HH:mm, y además se renombre el

campo con el nombre de Fecha.

Detalles del Paso Transformación Campo Fecha Ciencia

Page 8: Kettle. Recuperación y Procesado de datos.2012

AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle)

Inteligencia Artificial Página 8 de 12

4.2.3 Carga(L) En este punto tenemos que generar dos salidas distintas. Para la generación de un fichero Excel de salida con los distintos campos de la noticias de la categoría Ciencia, tenemos que crear un nuevo paso “Salida Excel Ciencia” y configurar el nombre del archivo del fichero Excel, así como los campos que queramos que tenga el archivo de Excel. Detalles del Paso Salida Excel Ciencia

Detalles del Paso Salida Excel Ciencia “Campos Seleccionados”

Page 9: Kettle. Recuperación y Procesado de datos.2012

AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle)

Inteligencia Artificial Página 9 de 12

Para la generación de ficheros de textos salida con los distintos campos de la noticias de la categoría Ciencia, tenemos que crear un nuevo paso “Salida Fichero de Texto Ciencia” y configurar los nombres de los ficheros de ficheros de textos para cada noticia, así como los campos que queramos que tenga el archivo de texto. Detalles del Paso Salida Fichero de Texto Ciencia

Detalles del Paso Salida Fichero de Texto Ciencia “Contenido” Cómo se debe generar un fichero de texto (*.txt) para cada noticia, es necesario configurar el parámetro de configuración Separar cada … filas a 1.

Page 10: Kettle. Recuperación y Procesado de datos.2012

AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle)

Inteligencia Artificial Página 10 de 12

Detalles del Paso Salida Fichero de Texto Ciencia “Seleccionados”

Page 11: Kettle. Recuperación y Procesado de datos.2012

AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle)

Inteligencia Artificial Página 11 de 12

4.2.4 Resultado Final ¿Cuáles son los resultados obtenidos?

Detalles de Fichero Salida Excel En el fichero EXCEL (xls) de salida, podemos observar que las noticias se pueden ordenar correctamente por el campo fecha.

Page 12: Kettle. Recuperación y Procesado de datos.2012

AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle)

Inteligencia Artificial Página 12 de 12

Detalle de Fichero de Texto (Primera noticia)

5. Solución final transformación La transformación obtenida como solución final de esta práctica para distintas categorías de noticias se puede ver en esta imagen.