Weka

13
Aplicación de minería de datos a WEKA Juan P. Sandoval Armando Tapia Rolando Valenzuela Gerardo Zapata

Transcript of Weka

Page 1: Weka

Aplicación de minería de datos a WEKA

Juan P. Sandoval Armando Tapia

Rolando Valenzuela Gerardo Zapata

Page 2: Weka

Introducción

• Weka es un software programado en Java que está orientado a la extracción de conocimientos desde bases de datos con grandes cantidades de información.

• La implementación de los esquemas de aprendizaje son los recursos más valiosos de WEKA. Las herramientas para el preprocesamiento de datos, llamados filtros, WEKA centra su atención en los algoritmos de clasificación y filtro, sin embargo, también incluye la implementación de algoritmos para el aprendizaje de reglas de asociación y el agrupamiento de datos (clustering).

Page 3: Weka

Descubrimiento del software• En 1993, la Universidad de Waikato de Nueva Zelanda inició el

desarrollo de la versión original de Weka (en TCL/TK y C).• En 1997, se decidió reescribir el código en Java incluyendo

implementaciones de algoritmos de modelado.• En 2005, Weka recibe de SIGKDD2 3 (Special Interest Group on

Knowledge Discovery and Data Mining) el galardón "Data Mining and Knowledge Discovery Service".

• En 2006, Pentaho Corporation adquirió una licencia exclusiva para usar Weka para Inteligencia de negocio (Business Intelligence), dando lugar al componente de minería de datos y análisis predictivo del paquete de software Pentaho Business Intelligence.

Page 4: Weka

Descripción Del Software

• El paquete Weka contiene una colección de herramientas de visualización y algoritmos para análisis de datos y modelado predictivo, unidos a una interfaz gráfica de usuario para acceder fácilmente a sus funcionalidades. La versión original de Weka fue un front-end enTCL/TK para modelar algoritmos implementados en otros lenguajes de programación, más unas utilidades para pre procesamiento de datos desarrolladas en C para hacer experimentos de aprendizaje automático.

Page 5: Weka

Operaciones del software

Razones a favor de Weka

•Está disponible libremente bajo la licencia pública general de GNU.•Es muy portable porque está completamente implementado en Java y puede correr en casi cualquier plataforma.•Contiene una extensa colección de técnicas para preprocesamiento de datos y modelado.•Es fácil de utilizar por un principiante gracias a su interfaz gráfica de usuario.

Page 6: Weka

Interfaz del usuario

Page 7: Weka

La interfaz del usuario

• Simple CLI• Simple CLI es la abreviatura de Simple

Command-Line Interface (Interfaz Simple de Línea de Comandos); se trata de una consola que permite acceder a todas las opciones de Weka desde línea de comandos.

Page 8: Weka

• Explorer• La interfaz Explorer (Explorador) dispone de varios

paneles que dan acceso a los componentes principales del banco de trabajo:

• "Preprocess“• "Classify“• "Associate" • "Cluster“• "Selectedattributes"

Page 9: Weka

• Experimenter• La interfaz Experimenter (Experimentador)

permite la comparación sistemática de una ejecución de los algoritmos predictivos de Weka sobre una colección de conjuntos de datos.

Page 10: Weka

• Knowledge Flow• KnowledgeFlow (Flujo de Conocimiento) es

una interfaz que soporta esencialmente las mismas funciones que el Explorer pero con una interfaz que permite "arrastrar y soltar". Una ventaja es que ofrece soporte para el aprendizaje incremental.

Page 11: Weka

Ejercicio

• El fichero contiene una serie de filas, cada una de las cuales contiene un conjunto de factores meteorológicos de un determinado día y nos indica si se ha podido jugar o no al tenis. Nuestro objetivo será crear un árbol de decisión que nos ayude a predecir si, por ejemplo, hoy vamos a poder jugar al tenis.

Page 12: Weka
Page 13: Weka