mineria de datos

44
DATA WAREHOUSE & DATA MINING http://www.espol.edu.ec

Transcript of mineria de datos

Page 1: mineria de datos

DATA WAREHOUSE & DATA MINING

http://www.espol.edu.ec

Page 2: mineria de datos

INTEGRANTESINTEGRANTES

Bastidas Santos Washington Raúl

López Serrano Silvio Stephan

Montiel Salazar Marcos Xavier

Page 3: mineria de datos

DATA WAREHOUSE

Page 4: mineria de datos

INTRODUCCIÓNINTRODUCCIÓN

DW es una tecnología construida para optimizar el uso y análisis de información utilizado por las organizaciones para adaptarse a los cambios en los mercados.

Su función esencial es ser la base de un sistema de información gerencial. Debe cumplir el rol de integrador de información proveniente de fuentes funcionalmente distintas.

Page 5: mineria de datos

Se caracteriza por ser integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza

DATA WAREHOUSEDATA WAREHOUSE

Page 6: mineria de datos

DETALLESDETALLES

El DW se encuentra normalmente implementado dentro de una arquitectura de cliente/servidor.

Por la complejidad de los DW es común utilizar middleware entre los clientes y los servidores dando una arquitectura de 3 niveles (three tier).

Page 7: mineria de datos
Page 8: mineria de datos

ARQUITECTURAARQUITECTURA

Online Transaction Processing (OLTP) Consolidación Middleware Online Analytical Process (OLAP) Data Marts

Page 9: mineria de datos

OLTPOLTP

Consultas rápidas, escuetas y predecibles

Poco volumen de información e información disgregada

Transacciones rápidas Gran nivel de concurrencia Modo de actualización on-line Baja redundancia de datos

Page 10: mineria de datos

Consolidación Se encarga de producir el cambio de los sistemas

OLTP a las Bases de Datos OLAP. (comprobar validez, consistencia, actualización, propagación datos)

Middleware Es un término genérico que se utiliza para referirse a

todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogéneas

Page 11: mineria de datos

OLAPOLAP

Estructura de datos transparente al usuario Solo Consulta, trabajan sobre la información

operacional generada por los sistemas OLTP Consultas sobre grandes volúmenes de

datos no predecibles Información histórica Modo de actualización Batch Alta redundancia de datos para facilitar la

generación de consultas y obtener buenos tiempos de respuesta

Poderoso Back-end analítico para múltiples aplicaciones de usuarios

Page 12: mineria de datos

TIPOS DE SISTEMAS TIPOS DE SISTEMAS OLAPOLAP

ROLAPMotor relacional. Datos

detallados, tablas normalizadas. Los esquemas más comunes sobre los que se trabaja son estrella ó copo de nieve

MOLAPBase de datos

multidimensional. el resumen de la información es usualmente calculado por adelantado.

HOLAP (Hybrid OLAP)Almacena algunos datos en

un motor relacional y otros en una base de datos multidimensional

Page 13: mineria de datos

DATA MARTSDATA MARTS

Page 14: mineria de datos

DATA MARTSDATA MARTS

Es una versión especial de DW El Data Mart es un sistema orientado a la

consulta, en el que se producen procesos batch de carga de datos.

Es consultado mediante herramientas OLAP que ofrecen una visión multidimensional de la información.

Sobre estas bases de datos se pueden construir EIS y DSS.

Data Mining: Proceso no trivial de análisis de grandes cantidades de datos con el objetivo de extraer información útil.

Page 15: mineria de datos

IMPLEMENTACIONES DE IMPLEMENTACIONES DE DWDW

DW central: un solo nivel con un solo almacén que soporta los requerimientos de información de toda la empresa.

DW distribuido: estructura de un solo nivel que se particiona para distribuirlo a nivel departamental.

DW de dos niveles: soporta requerimientos de información tanto a nivel empresarial como departamental.

Page 16: mineria de datos

Extract, Transform and Extract, Transform and Load (ETL)Load (ETL)

Page 17: mineria de datos

EXTRACT, TRANSFORM AND EXTRACT, TRANSFORM AND LOAD (ETL)LOAD (ETL)

Extraer los datos desde los sistemas de origen (Normalmente en DB relacionales). Debe causar un impacto mínimo.

Transformación aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados.

Carga los datos de la fase anterior en el sistema de destino. Se aplicarán todas las restricciones y triggers definidos.

Page 18: mineria de datos

ETL – PROCESAMIENTO ETL – PROCESAMIENTO PARALELOPARALELO

De datos: dividir un único archivo secuencial en pequeños archivos de datos.

De segmentación (pipeline): Permitir el funcionamiento simultáneo de varios componentes en el mismo flujo de datos.

De componente: funcionamiento simultáneo de múltiples procesos en diferentes flujos de datos en el mismo puesto de trabajo.

Page 19: mineria de datos

ESQUEMA EN ESTRELLAESQUEMA EN ESTRELLA

• Modelo de datos que tiene una tabla de hechos (o tabla fact) que contiene los datos para el análisis, rodeada de las dimensiones estas tiene una clave primaria simple, mientras que en la tabla de hechos, la clave principal estará compuesta por las claves principales de las demás.

Page 20: mineria de datos

ESQUEMA EN COPO DE ESQUEMA EN COPO DE NIEVENIEVE

Un esquema en copo de nieve es una estructura algo más compleja que el esquema en estrella. Se da cuando alguna de las dimensiones se implementa con más de una tabla de datos. La finalidad es normalizar las tablas y así reducir el espacio de almacenamiento al eliminar la redundancia de datos

Page 21: mineria de datos

DATAWAREHOUSE – DATA DATAWAREHOUSE – DATA MININGMINING

Page 22: mineria de datos

DATA WAREHOUSEDATA WAREHOUSE

Page 23: mineria de datos

EXECUTIVE INFORMATION EXECUTIVE INFORMATION SYSTEM (EIS)SYSTEM (EIS)

Herramienta orientada a usuarios de nivel gerencial.

Permite a usuarios con perfil no técnico construir nuevos informes y navegar por los datos de la compañía para descubrir información relevante.

Provee acceso instantáneo al estado de los indicadores de negocio que le afectan.

Page 24: mineria de datos

DECISION SUPPORT DECISION SUPPORT SYSTEM (DSS)SYSTEM (DSS)

Sistema informático utilizado para servir de apoyo, más que automatizar, el proceso de toma de decisiones, realizando análisis de las diferentes variables del negocio.

Capacidad de análisis multidimensional (OLAP) que permite profundizar en la información hasta llegar a un alto nivel de detalle

Page 25: mineria de datos
Page 26: mineria de datos
Page 27: mineria de datos

DATA MINING

Page 28: mineria de datos

INTRODUCCIONINTRODUCCION

Proceso de extraer conocimiento útil y comprensible, previamente desconocido (Witten y Frank, 2000)

Que no es? Data warehousing SQL / Ad Hoc

Queries / Reporting

Software Agents Online Analytical

Processing (OLAP) Data Visualization

“Rico en datos, Pobre en información”

Conocimiento(patrones interesantes)

Page 29: mineria de datos

POR QUÉ MINERÍA DE POR QUÉ MINERÍA DE DATOS?DATOS?

Gran cantidad de datos para analizar de forma clásica

¿Cómo explorar millones de registros, decenas o cientos de campos, y encontrar patrones?

QUERY

RESULT

(Latitude, Longitude)1

(Latitude, Longitude)2

Page 30: mineria de datos

Knowledge Discovery in Knowledge Discovery in DatabasesDatabases

Proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles a partir de los datos”. Fayyad et al. 1996

Page 31: mineria de datos

Computational Knowledge Discovery

Page 32: mineria de datos

QUÉ TIPOS DE DATOSQUÉ TIPOS DE DATOS??

Data Warehouses Base de Datos

Transaccionales Sistemas de Base

de Datos Avanzado: Objetos

Relacionales Temporales y

Espaciales Serie de Tiempo Multimedia, Texto WWW

Structure - 3D Anatomy

Function – 1D Signal

Metadata – Annotation

Page 33: mineria de datos

MULTIPLES MULTIPLES DISCIPLINASDISCIPLINAS

?

20x20 ~ 2^400 10^120 patterns

Page 34: mineria de datos

CLASIFICACIÓN DE CLASIFICACIÓN DE ALGORITMOSALGORITMOS

Page 35: mineria de datos

CLASIFICACIÓNCLASIFICACIÓN

Encuentra modelos que describen y distinguen clases o conceptos.

El objetivo es describir los datos o para hacer el futuro de predicción.

Árbol de decisiones, la clasificación general, redes neuronales.

Page 36: mineria de datos

EJEMPLO CLASIFICACIÓNEJEMPLO CLASIFICACIÓN

Tid Refund MaritalStatus

TaxableIncome Cheat

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes10

cate

goria

cate

goria

Continuo

clas

e

Refund MaritalStatus

TaxableIncome Cheat

No Single 75K ?

Yes Married 50K ?

No Married 150K ?

Yes Divorced 90K ?

No Single 40K ?

No Married 80K ?10

Test SetTest Set

Training Set

ModeloModeloClasifica-

dor

Page 37: mineria de datos

REPRESENTACIÓNREPRESENTACIÓN: : ÁRBOL DE DECISIONESÁRBOL DE DECISIONES

Refund

MarSt

TaxInc

YESNO

NO

NO

Yes No

Married Single, Divorced

< 80K > 80K

Atributos DivididosTid Refund Marital

StatusTaxableIncome Cheat

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes10

cate

goria

cate

goria

contin

uo

clas

e

Page 38: mineria de datos

CLUSTERINGCLUSTERING

Divide la información en diferentes grupos.

A diferencia de la clasificación, no se sabe donde habrá clúster o con que atributos de los datos se harán los clústeres.

Algoritmo K-means y Mapas de Presentación de Kohonen

Clustering schemes Basado en Distancia

(Distancia entre vectores) Basado en Partición

(Enumera y valora) Basado en Modelo(

Page 39: mineria de datos

ALGORITMO K-MEANSALGORITMO K-MEANS

Initial seeds

Page 40: mineria de datos

ALGORITMO K-MEANSALGORITMO K-MEANS

Nuevos Centros

Page 41: mineria de datos

ALGORITMO K-MEANSALGORITMO K-MEANS

Centros Finales

Page 42: mineria de datos

MODELO LÓGICOMODELO LÓGICO

Mining ModelMining Model

Mining ModelMining Model

Training DataTraining Data

DB dataClient dataApplication data

DB dataClient dataApplication data

Data MiningEngine

Data MiningEngine

To PredictTo Predict

Predicted DataPredicted Data

Mining ModelMining Model

DB dataClient dataApplication data“Just one row”

DB dataClient dataApplication data“Just one row”

Data MiningEngine

Data MiningEngine

algorithm

Page 43: mineria de datos

Analysis ServicesAnalysis ServicesServerServer

Mining ModelMining Model

Data Mining AlgorithmData Mining Algorithm DataDataSourceSource

MODELO FÍSICOMODELO FÍSICO

Interfaz GráficaInterfaz Gráfica

OLE DB/ ADOMD/ XMLAOLE DB/ ADOMD/ XMLA

App DataApp Data

Resultado de laResultado de la EvaulacionEvaulacion

Page 44: mineria de datos

MINERIA DE DATOS MINERIA DE DATOS DISTRIBUIDADISTRIBUIDA

Hacer frente a plataformas heterogéneas, con múltiples bases de datos y (posiblemente) diferentes esquemas

Diseñar e implementar protocolos escalables y eficaces para la comunicación con los datos de los sitios.

Combine información recién adquiridos que previamente no estaban disponibles cuando los modelos se calcularon con los modelos existentes

La flexibilidad para incorporar nuevas técnicas de minería de datos