Rapid Miner

19
Presentado por: Pinedo Delgado, Fermín Orlando

description

Rapidminer

Transcript of Rapid Miner

Page 1: Rapid Miner

Presentado por:

Pinedo Delgado, Fermín Orlando

Page 2: Rapid Miner

¿Qué es RAPIDMINER?

RapidMiner (anteriormente, YALE, Yet Another Learning Environment) es un programa informático para el análisis y minería de datos. Permite el desarrollo de procesos de análisis de datos mediante el encadenamiento de operadores a través de un entorno gráfico. Se usa en investigación y en aplicaciones empresariales.La versión inicial fue desarrollada por el departamento de inteligencia artificial de la Universidad de Dortmund en 2001 y se distribuye bajo licencia GPL .

RapidMiner proporciona más de 500 operadores orientados al análisis de datos, incluyendo los necesarios para realizar operaciones de entrada y salida, pre -procesamiento de datos y visualización. También permite utilizar los algoritmos incluidos en Weka.

Page 3: Rapid Miner

¿Qué es Minería de Datos?

Es el descubrimiento de conocimiento en un conjunto de datos enormemente grande. El conocimiento que se obtiene viene dado en formade características (patrones) que no son triviales, que son previamente desconocidas y que tienen bastante posibilidades de ser útiles Otros nombres que se le dan a minería de datos son: Descubrimiento desconocimiento en bases de datos (KDD), extracción de conocimiento, análisis inteligente de datos.

Es el proceso para extraer un modelo de datos, normalmente se utiliza en marketing, detección de fraudes, vigilancia, etc.

Ejemplos de aplicación de Data Minig.-Hallar grupos de personas que padecen las mismas enfermedades.-Determinar las características de personas a las que se puede hacer un préstamo.-Determinar si hay mas oportunidades de enfermarse de cáncer cuando se vive cerca de líneas de alta tención.

Page 4: Rapid Miner
Page 5: Rapid Miner

CARACTERISTICAS DE RAPIDMINER

1) RapidMiner/Yale es un sistema prototipado para descubrimiento del

conocimiento DataMining.

2) Es un software de tipo Open –Source con licencia GNU GPL, basado en java.

3) Se presenta bajo tres versiones:

1- Versión Open-Source: permite su libre uso en todas las formas de la licencia GNU GPL.

2- Versión Libre: posee una interfaz grafica mejorada, pero no bajo la licencia GNU GPL.

3- Versión comercial.

4) Posee alrededor de 400 operadores que pueden ser combinados.

5) Usa el lenguaje de scripting XML para describir los operadores y su configuración.

6) La característica mas importante es la capacidad de jerarquizar cadenas de operador y de construir complejos arboles de operadores.

7) RapidMiner fácilmente puede ser invocado desde otra aplicación java.

8) El usuario puede leer la configuración de los procesos desde los archivos XML.

Page 6: Rapid Miner

INTERFAZ GRAFICA

PANTALLA DE BIENBENIDA CON POSIBILIDAD DE:

-Iniciar un nuevo proceso.

-Abrir procesos recientemente usados.

-Abrir un nuevo proceso.

-Abrir el tutorial en línea.

LA PANTALLA DE EDICION CONTIENE:

-Barra de menú.

-Barra de herramientas.

-Lengüeta de árbol de operadores.

-Lengüeta de edición (Parámetros, XML, Comentarios y Operadores).

-Visor de mensajes.

Page 7: Rapid Miner
Page 8: Rapid Miner

Crear Operadores:– Usando el icono de nuevo operador:– Usando el botón derecho del Mouse ubicándonos en la lengüeta del Árbol de Operadores sobre cualquier operador que lo permita, elegimos nuevo operador.

Reemplazar Operadores:– Usando el botón derecho del Mouse ubicándonos en la lengüeta del Árbol de Operadores sobre cualquier operador que lo permita, elegimos reemplazar operador.

Eliminar Operadores:– Usando el icono de remover operador:– Usando el botón derecho del Mouse ubicándonos en la lengüeta del Árbol de Operadores sobre cualquier operador que lo permita, elegimos remover operador.

Manejo de parámetros:– A partir de la lengüeta de parámetros y pudiendo acceder a mas si se pasa de modo normal a modo experto con los iconos:

Page 9: Rapid Miner

• Validación de la definición de Proceso:– Una vez que se agregaron todos los operadores necesarios para un proceso es posible chequear si estos fueron jerarquizados como corresponde y si tiene sus entradas correctas y sus propiedades seteadas.– Para esto usamos el icono de validación:– Los resultados se observan en el Visor de Mensajes y en caso de error aparece un signo de admiración junto al operador, en la lengüeta del Árbol de operadores, en el que surge el problema .

• Ejecución del Proceso:– Una vez validado el proceso, la ejecución consiste en clickear en el icono de ejecución:

• Agregados de Puntos de Corte (BreakPoint):– Si nos ubicamos en alguno de los operadores en la lengüeta del Árbol de operadores usando el botón derecho del mouse podemos elegir colocar un BreaKPoint para que cuando la ejecución se inicie podamos frenar la en algún punto y luego reanudarla.

Page 10: Rapid Miner

• Evaluación de Resultados:– Cuando la ejecución termino los resultados se observan en pantalla en lo que se denomina Modo de Resultados (Result Mode).– Desde esta pantalla también se puede volver a la pantalla de edición (Edit Mode) con la tecla <F9> (la cual sirve para cambiar de modo) o también con el icono:– El modo de Resultados se puede acceder usando el icono:

• Manejo de Gráficos para los resultados:– Desde la vista de resultados es posible dependiendo el tipo de resultados que arroja el modelo obtener gráficos de distintas formas.

Page 11: Rapid Miner

Ejemplo 1: Árbol de Decisión. 1. En el panel izquierdo seleccionar la pestana “Operators”.

Luego seleccionar el operador Repository

Access → Retrieve y arrastrarlo a la zona de trabajo.

2. En la pestana “Parameters” del panel derecho, utilizar el navegador a la derecha del parámetro repository entry para localizar el archivo //Samples/data/Golf.

Page 12: Rapid Miner
Page 13: Rapid Miner

En el panel izquierdo seleccionar el operador Modeling → Classification and Regression → Tree

Induction → Decision Tree y arrastrarlo a la zona de trabajo.

7 4. Conectar la salida del operador Retrieve a la entrada

del operador Decisión Tree, haciendo clic izquierdo en el conector out (output, salida) del primero y luego

otro clic en el conector tra (training set, conjunto de entrenamiento) del segundo. 5. De la misma forma, conectar la salida mod (model,

modelo) del operador Decisión Tree al puerto res de la zona de trabajo.

Page 14: Rapid Miner
Page 15: Rapid Miner

6. Presionar el icono “ejecutar” en la barra de iconos de la parte superior del marco. El proceso debería

comenzar y luego de un corto tiempo el visor de mensajes de la parte inferior del marco muestra el mensaje

de que el proceso finalizo correctamente. El marco principal cambia a la vista de "Resultados", que muestra

el árbol de decisión aprendido (una hipótesis que en RapidMiner se denomina Modelo).

7. Volver al modo edición ya sea por medio de la entrada del menú View → Perspectives → Design, el

icono de la barra de iconos, o presionando la tecla de función <F8>.

Page 16: Rapid Miner
Page 17: Rapid Miner

Ejemplo 2. Exportar una base de datos Excel.

Page 18: Rapid Miner

Se direcciona a la base de datos donde lo tenemos guardada.

Page 19: Rapid Miner

Obtenemos la base de datos de Excel en el Rapidminer