Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro...

24
Miner´ ıa de datos Conocimiento Introducci ´ on a la Miner´ ıa de Datos Pedro Larra˜ naga, I ˜ naki Inza Departamento de Ciencias de la Computaci ´ on e Inteligencia Artificial Universidad del Pa´ ıs Vasco Donostia-San Sebasti ´ an, 3 de Marzo de 2006

Transcript of Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro...

Page 1: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Introduccion a la Minerıa de Datos

Pedro Larranaga, Inaki Inza

Departamento de Ciencias de la Computacion e Inteligencia ArtificialUniversidad del Paıs Vasco

Donostia-San Sebastian, 3 de Marzo de 2006

Page 2: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Indice

1 Minerıa de datos

2 Proceso de extraccion de conocimiento

Page 3: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Indice

1 Minerıa de datos

2 Proceso de extraccion de conocimiento

Page 4: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Algunas definiciones

Data mining. Mineria de datos como el proceso de extraerconocimiento util y comprensible, previamentedesconocido, desde grandes cantidades de datosalmacenados en distintos formatos (Witten y Frank, 2000)Knowledge discovery in databases. Descubrimiento deconocimiento en bases como proceso no trivial deidentificar patrones validos, novedosos, potencialmenteutiles, y en ultima instancia, comprensibles a partir de losdatos (Fayyad y col. 1996)

Page 5: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Tipos de modelos

De datos a conocimiento a traves de modeloscomputacionalesModelos descriptivos: identifican patrones que explican oresumen los datos

Reglas de asociacion: expresan patrones decomportamiento en los datosClustering: agrupacion de casos homogeneos

Modelos predictivos: estiman valores de variables deinteres (a predecir) a partir de valores de otras variables(predictoras)

Regresion: Variable a predecir continuaClasificacion supervisada: Variable a predecir discreta(nominal u ordinal)

Page 6: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Tipos de datos

Bases de datos relacionales

Coleccion de relaciones (tablas). Tabla como conjunto de atributos(variables, columnas, campos) conteniendo tuplas (casos, filas, registros)Presentacion tabular: atributo-valor (vista minable)

Bases de datos espaciales: datos geograficos, imagenes medicas, redes detransporte o trafico, ....

Bases de datos temporales: distintos instantes o intervalos temporales

Bases de datos documentales: objetos son documentos de texto, variablesdesde palabras hasta resumenes

Bases de datos multimedia: imagenes, audio, video

La World Wide Web: repositorio de informacion mas grande y diverso en laactualidad

Minerıa del contenido: encontrar patrones en las paginas webMinerıa de la estructura: estudia los hipervınculos y URLsMinerıa del uso: analisis de la navegacion

Page 7: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Relacion con otras disciplinasEstadıstica. ”Madre”de la minerıa de datosAprendizaje automatico. El ordenador aprende a partir deejemplosReconocimiento de patrones. Clustering y clasificacionsupervisadaSistemas para la toma de decision. Herramientas ysistemas que asisten al directivoVisualizacion de datos. Descubrir, intuir o entenderBases de datos. Almacenes de datos. Acceso eficiente alos datosRecuperacion de la informacion. Datos textuales.Bibliotecas digitales. Busqueda por InternetComputacion paralela y distribuida. Procesamientoparalelo, distribuido o computacion en grid

Page 8: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Minerıa de datos versus estadıstica

Estadıstica (Analisis de datos)

Encorsetamiento: premisas, teoremas, independencia demuestras, modelos a veces crıpticosScore: verosimilitud de los datos dado el modeloBusqueda: modelizacion basada en el test de la razon deverosimilitud (hacia adelante, hacia atras, paso a paso)No funcionan bien en: bases de datos de gran tamano yalta dimensionalidad o con datos textuales, multimedia,variables nominales con gran numero de valores distintos,no se integran bien en sistemas de informacion

Minerıa de datos

Mayor libertad en la construccion de modelos.Interpretabilidad y comprensionScore: a veces mas directoBusqueda: metaheurısticos

Page 9: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Aplicaciones

FinancierasDeteccion de uso fraudulento de tarjetas de creditoPrediccion del gasto en tarjeta de credito por gruposAnalisis de riesgos en concesion de creditosIdentificacion de reglas de mercado a partir de datoshistoricosReconocimiento de clientes ”infieles”

Page 10: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Aplicaciones

ComercioAnalisis de la cesta de la compraEvaluacion de campanas publicitariasSegmentacion de clientesEstimacion de stocks, de costes, de ventas

Page 11: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Aplicaciones

SegurosDeterminacion de clientes potencialmente carosPrediccion de que tipo de clientes contratan nuevas polizasIdentificacion de patrones de comportamiento paraclientes con riesgoIdentificacion de comportamiento fraudulento

Page 12: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Aplicaciones

EducacionSeleccion o captacion de estudiantesDeteccion de abandonos o fracasosEstimacion del tiempo de estancia en la institucion

Page 13: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Aplicaciones

MedicinaDiagnostico de enfermedadesDeteccion de pacientes con riesgo de sufrir una patologıaconcretaGestion hospitalaria y asistencial. Predicciones temporalesde los centros sanitarios para el mejor uso de recursosTratamiento de imagenes medicas

Page 14: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Aplicaciones

BioinformaticaBusqueda de genes (regiones codificantes del genoma)Prediccion de la estructura secundaria de las proteinasBusqueda de biomarcadores a partir de datos demicroarrays o de datos de espectrometrıa de masas

Page 15: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Aplicaciones

Otras areasTelecomunicaciones: deteccion del fraudeCorreo electronico y agendas personales: clasificacion ydistribucion automatica de correo, deteccion de correospamHacienda: deteccion de fraude fiscalWeb: analisis del comportamienrto de los usuarios,analisis de los log de un servidor webDeportes: deteccion riesgo de lesiones a partir de datosmedicos

Page 16: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Indice

1 Minerıa de datos

2 Proceso de extraccion de conocimiento

Page 17: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Knowledge Discovery from Databases (KDD)

Fases del proceso iterativo e interactivo1 Integracion y recopilacion de datos2 Seleccion, limpieza y transformacion3 Minerıa de datos4 Evaluacion e interpretacion5 Difusion y uso

Page 18: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Knowledge Discovery from Databases (KDD)

Figura: Proceso de extraccion de conocimiento

Page 19: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Knowledge Discovery from Databases (KDD)

1. Integracion y recopilacion de datos

Procesamiento transaccional en lınea (On-Line TransactionProcessing, OLTP): suficiente para necesidades diarias(facturacion, control de inventario, ...)

Decisiones estrategicas basadas en el analisis, la planificacion yla prediccion: datos en varios departamentos

Cada fuente de datos distintos formatos de registro, diferentesgrados de agregacion, diferentes claves primarias, ....

Integracion de multiples bases de datos: almacenes de datos(data warehousing)

Almacen de datos aconsejable cuando el volumen deinformacion es grande. No estrictamente necesario (archivos detexto, hojas de calculo, ...)

Page 20: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Knowledge Discovery from Databases (KDD)

2. Seleccion, limpieza y transformacion

Calidad del conocimiento descubierto depende (ademas delalgoritmo de minerıa) de la calidad de los datos analizados

Presencia de datos que no se ajustan al comportamientogeneral de los datos (outliers)

Presencia de datos perdidos (missing values)

Seleccion de variables relevantes (feature subset selection)

Seleccion de casos aleatoria en bases de datos de tamanoingente. Muestreo aleatorio simple, por conglomerados,estratificado, polietapico

Construccion automatica de nuevas variables que faciliten elproceso de minerıa de datos

Discretizacion de variables continuas

Page 21: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Knowledge Discovery from Databases (KDD)

3. Minerıa de datosModelos descriptivos

Reglas de asociacionClustering: particional, probabilıstico, jerarquico, conceptual

Modelos predictivos:

Regresion: regresion lineal, regression tree, model tree,additive regressionClasificacion supervisada: clasificadores Bayesianos,regresion logıstica, redes neuronales, arboles declasificacion, induccion de reglas, K-NN, combinacion declasificadores

Page 22: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Knowledge Discovery from Databases (KDD)

4. Evaluacion e interpretacionTecnicas de evaluacion: validacion simple (training + test),validacion cruzada con k -rodajas, bootstrappingReglas de asociacion: cobertura (soporte), confianzaClustering: variabilidad intra y entreRegresion: error cuadratico medioClasificacion supervisada: porcentaje de bien clasificados,matriz de confusion, analisis ROCModelos precisos, comprensibles (inteligibles) einteresantes (utiles y novedosos)

Page 23: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Knowledge Discovery from Databases (KDD)

5. Difusion y usoDifusion: necesario distribuir, comunicar a los posiblesusuarios, integrarlo en el know-how de la organizacionMedir la evolucion del modelo a lo largo del tiempo(patrones tipo pueden cambiar)Modelo debe cada cierto tiempo de ser:

ReevaluadoReentrenadoReconstruido

Page 24: Introduccion a la Miner´ıa de Datos´ - UPV/EHU...Introduccion a la Miner´ıa de Datos´ Pedro Larranaga, I˜ naki Inza˜ Departamento de Ciencias de la Computacion e Inteligencia

Minerıa de datos Conocimiento

Introduccion a la Minerıa de Datos

Pedro Larranaga, Inaki Inza

Departamento de Ciencias de la Computacion e Inteligencia ArtificialUniversidad del Paıs Vasco

Donostia-San Sebastian, 3 de Marzo de 2006