Data Warehouse and Data MiningJos A. Royo http://www.cps.unizar.es/~jaroyo email: [email protected] Departamento de Informtica e Ingeniera de Sistemas
Por qu DW y DM? Mayor poder de procesamiento y sofisticacin de herramientas Demanda de mejora del acceso a datos Necesidad de informacin para la toma de decisiones Recopilacin de informacin Alto Coste
Sistemas de Informacin-2003
Jos Alberto Royo
2
Informacin en las empresas La Informacin proviene de fuentes internas (sistemas de produccin) y externas (hasta un 20%) Problemas Saturacin de informacin Difcil de acceder No selectiva
Data Warehouse
La informacin se necesita para: Competir (comparacin con otros productos) Personalizar (simular que cada cliente es nico)Sistemas de Informacin-2003 Jos Alberto Royo 3 Sistemas de Informacin-2003 Jos Alberto Royo 4
Data Warehouse Definicin: coleccin de datos orientados al tema, integrados, no voltiles e historiados, organizados para el apoyo de un proceso de ayuda a la decisin Se guarda toda la informacin til (proveniente de varia fuentes) en un nico lugarSistemas de Informacin-2003 Jos Alberto Royo 5
Data Warehouse Orientacin al tema Disponer de toda la informacin sobre un tema No organizar los datos segn los procesos funcionales
La informacin comn a varios temas no debe duplicarse Los Data Mart apoyan la orientacin al tema BD orientada al tema puesta a disposicin de los usuarios en un contexto de decisin descentralizadoSistemas de Informacin-2003 Jos Alberto Royo 6
Data Warehouse Datos integrados: Los datos deben formatearse y unificarse para llegar a un estado coherente Ej.: consolidar todas las informaciones respecto a un cliente
Data Warehouse Datos no voltiles: Consecuencia de la historilizacin = consulta en = periodo = resultado Sistemas de produccin no voltiles
Datos historiados Los datos no se actualizan nunca representan un valor en un momento concreto
Infocentro: similar al Data Warehouse pero centrado en el sistema de produccin
Los datos se referencian temporalmenteSistemas de Informacin-2003 Jos Alberto Royo 7 Sistemas de Informacin-2003 Jos Alberto Royo 8
Data Warehouse: Estructura Varia clases de datosDatos fuertemente agregados Nivel de sntesisTR2
Datos Matrices Multidimensionales o hipercubos Ej.: periodo impositivo, producto y regin Pivotacin: cambio de orientacin de los ejesREG5 REG1 REG2 REG3 REG4 REG5 TR2
Nivel de historial
Producto Tr im est re
Datos detallados historiados
ReginP2
P1
Datos: Representaciones Jerrquicas Exploracin ascendente (roll-up) Agrupacin de datos Ej.: Agrupar datos mensuales en trimestrales
Datos: Representacin fsica 2 Tablas Tabla de dimensiones Tabla de hechos
Exploracin Descendente (drill-down) Divisin de datos Ej.: Ventas nacionales provinciales
Tipos de esquema Esquema de estrella: Tabla de hechos con una nica tabla para cada dimensin
Esquema de copos Tablas dimensinales organizadas jerrquicamenteSistemas de Informacin-2003 Jos Alberto Royo 11 Sistemas de Informacin-2003 Jos Alberto Royo 12
P2
Sistemas de Informacin-2003
Jos Alberto Royo
9
Sistemas de Informacin-2003
Jos Alberto Royo
TR1
REG1
Estructura multidimensional
REG2 REG3
Metadatos
Datos agregados Datos detalladosTR1 P1
REG4
10
Construccin de un Data Warehouse Adquisicin: Recopilar informacin de varias fuentes y unificarla Extraccin Preparacin (formateo y limpieza) Carga
DW: CaractersticasSalvado de datos limpios OLAPDATOS
Limpieza Bases de Datos
Reformateo
DSS
METADATOS
Almacenamiento: basado en un SGBD El historial influir en la estructura fsicaOtras entradas de datos Actualizaciones/Nuevos Datos
MINERIA DE DATOS
Acceso: distintos grupos de usuarios requerirn distintas consultasSistemas de Informacin-2003 Jos Alberto Royo 13 Sistemas de Informacin-2003
Jos Alberto Royo
14
OLTP y OLAP OLTP (On-Line Transactionnel Processing): entorno donde las respuestas se darn en un tiempo aceptable y sern consistentes Transacciones predeterminadas Utiliza pocas tablas
DSS: Decision Support Systems EIS (Executive Information Systems o sistemas de informacin ejecutiva) Ayuda para la toma de decisiones Dan datos de nivel superior DW preparado para OLAP y DSS
OLAP (On-Line Analytical Processing): entorno de ayuda a la decisin (anlisis de datos) Transacciones muy variadas Manejan volmenes grandes de datos (+tiempo) Se relacionan datos aparentemente sin relacinSistemas de Informacin-2003 Jos Alberto Royo 15
Sistemas de Informacin-2003
Jos Alberto Royo
16
Factores de xito del DW Integra datos de produccin con datos externos y gestiona historiales Contiene la informacin til Los datos son coherentes, actualizados y documentados (calidad) Ofrece acceso directo a los usuarios Aumenta el nmero de accesos Da una flexibilidad que apoya el crecimiento De usuarios, herramientas y volumenSistemas de Informacin-2003 Jos Alberto Royo 17
Diferencias entre DW y vistas DW son un almacenamiento permanente Vistas Construidas cuando es necesario
DW son multidimensionales Vistas suelen ser relacionales
DW son indexados para optimizar su rendimiento Vistas son indexadas dependiendo de la BD subyacente
DW dan unas funcionalidades especificas Las vistas no
DW poseen grandes cantidades de datos integrados y temporales Vistas son extractos de la BDSistemas de Informacin-2003 Jos Alberto Royo 18
Errores a evitar Cargar datos solamente porque estn disponibles (podran ser no tiles) Crear el esquema de la BD de forma tradicional Crearlo pensando en la tecnologa usada Concentrarse en los datos internos Creer que los problemas acaban una vez instalado el Data WarehouseSistemas de Informacin-2003 Jos Alberto Royo 19
Implementacin: Dificultades Alto coste Urgente ayuda para la toma de decisiones Data Mart
Gran coste de mantenimiento Cambio de necesidades Nuevas fuentes de datos Cambio de la capacidad Cambio de tecnologa
Control de calidad de los datos Heterogeneidad e Integracin de datosSistemas de Informacin-2003 Jos Alberto Royo 20
Bibliografa J.M. Franco. EDS-Institut Promthus, El Data Warehouse. El Data Mining, Eyrolles,1997.
Data Mining
Sistemas de Informacin-2003
Jos Alberto Royo
21
Sistemas de Informacin-2003
Jos Alberto Royo
22
Data Mining Bsqueda de informacin relevante (conocimiento) en grandes volmenes de datos Descubrir de forma automtica las reglas estadsticas y pautas de un conjunto de datos Diferencia con machine learning? Grandes volmenes de datos grabados en disco Objetivo obtener un conjunto de reglas
Data Mining: Visin General Data Mining y Data Warehouse Bsqueda automtica de relaciones Extraccin de patrones
Descubrimiento de conocimiento (Fases) 23
Seleccin de datos Limpieza de datos Transformacin/Codificacin de datos Minera de Datos Presentacin visualizacinJos Alberto Royo 24
Sistemas de Informacin-2003
Jos Alberto Royo
Sistemas de Informacin-2003
Resultados del Data Mining Descubrir Reglas de asociacin Patrones secuenciales rboles de clasificacin
Objetivos del Data Mining Prediccin Ej.: que compraran los clientes bajo determinados descuentos
Identificacin Ej.: secuencia de nucletidos presencia gen
Presentacin de Resultados Listas Representaciones Grficas Tablas resumenSistemas de Informacin-2003 Jos Alberto Royo 25
Clasificacin Ej.: clientes que buscan descuentos, fieles y ocasionales
Optimizacin utilizacin de recursos limitados: tiempo, espacio, dinero, etc.Sistemas de Informacin-2003 Jos Alberto Royo 26
Conocimiento Descubierto Reglas de asociacin Ej.: Compra bolso Compra zapatos
Tipos de reglas X antecedente consecuente X: lista de una o varias variables con rangos asociados Ej.: transaccin T, compra(T,pan) compra(T,leche)
Jerarquas de clasificacin Ej.: Clasificacin de los clientes de un banco
Patrones secuenciales Ej.: Cmara digital Memorias MMC
Patrones de series de tiempo Ej.: Aumento de ventas de automviles antes del verano
Categorizacin y segmentacin Ej.: nios, jvenes, adultos y jubiladosSistemas de Informacin-2003 Jos Alberto Royo 27
Rango de las variables poblacin Soporte: porcentaje de la poblacin que cumple el antecedente o el consecuente Confianza: porcentaje con que el consecuente es cierto al serlo el antecedenteSistemas de Informacin-2003 Jos Alberto Royo 28
Data Mining Automtico Descubrimiento automtico de reglas Tcnicas de machine learning, adaptadas para grandes volmenes de datos Tres tipos de problemas: Clasificacin: reglas que dividan en grupos Asociaciones: X Y Correlaciones entre seriesSistemas de Informacin-2003 Jos Alberto Royo 29
Clasificacin Comienza con una muestra de datos de clasificacin conocida Los datos se dividen segn uno de sus atributos, sucesivamente Atributos enumerados un conjunto por valor Atributos con rango numrico intervalos
Resultado: rbol de clasificacin (taxonoma) Hasta usar todos los atributos o clasificar correctamente los datosSistemas de Informacin-2003 Jos Alberto Royo 30
Asociaciones Se genera un mapa de bits para cada transaccin (un bit para cada artculo a estudiar) Nos quedamos con los artculos ms adquiridos Se generan todos los subconjuntos posibles de artculos y se cuenta el nmero de transacciones Los subconjuntos con un numero alto de transacciones generan las reglas
Asociaciones negativas Ej.: el 60% de los clientes que compran patatas fritas no compran agua mineral Si no combinacin de elementos asociacin negativa Tenemos muchsimas reglas sin ningn inters
Utilizar conocimiento previo del problema Optimizaciones Muestreo
Sistemas de Informacin-2003
Jos Alberto Royo
31
Sistemas de Informacin-2003
Jos Alberto Royo
32
Data Mining Guiado por el Usuario El usuario plantea hiptesis El sistema comprueba si se verifica o no Las hiptesis se pueden ir refinando La visualizacin grfica de datos ayuda al usuario a examinar grandes volmenes de datos
Otras Tcnicas Regresin Estadstica Establecimiento de probabilidades
Redes neuronales Entrenar la red Reconocer los patrones segn el entrenamiento
Algoritmos genticos 33
Algoritmos probabilistas Poblacin inicial Sobreviven los mejores Obtenemos datos en cada iteracinJos Alberto Royo 34
Sistemas de Informacin-2003
Jos Alberto Royo
Sistemas de Informacin-2003
Aplicaciones Marketing Comportamiento del consumidor basado en patrones de compra
Bibliografa J.M. Franco. EDS-Institut Promthus, El Data Warehouse. El Data Mining, Eyrolles,1997. R.A. Elmasri, S.B. Navathe, Fundamentos de Sistemas de Bases de Datos, 3 ed., Addison-Wesley,2000.
Finanzas Anlisis de rendimiento de operaciones Solvencia de clientes Valoracin de opciones de financiacin
Fabricacin Optimizacin de recursos: maquinaria, mano de obra, materiales Optimizacin del proceso de fabricacinSistemas de Informacin-2003 Jos Alberto Royo 35
Sistemas de Informacin-2003
Jos Alberto Royo
36
Sist. de Inf. Geogrfica (GIS) Sistemas de Informacin GeogrficaJos Alberto Royo [email protected] Departamento de Informtica e Ingeniera de Sistemas Sistemas que relacionan, almacenan, manipulan y visualizan informacin referenciada geogrficamente Sistemas de informacin que manejan datos espaciales Algunos datos son referencias espaciales o coordenadas geogrficas Poseen operadores para manejar dichos datos espacialesSistemas de Informacin-2003 Jos Alberto Royo 38
GIS: Categoras1. Aplicaciones Cartogrficas Variedad de datos: caractersticas del suelo, densidad de cultivo,calidad del aire Representacin basada en campos Superposicin de capas
Informacin espacial Multidimensional (x,y,z,t,...) Voluminosidad Naturaleza inexacta (no hay representaciones exactas de la Tierra) Las preguntas combinan topologa, geografa y otros atributos, con informacin aproximada Combinan distintos contextos legales y econmicos (varan de un pas a otro)39 Sistemas de Informacin-2003 Jos Alberto Royo 40
2. Aplicaciones para el modelado digital de terrenos Variedad de datos Representacin basada en campos Objetos fsicos: centrales elctricas, hospitales, etc. Representacin basada en objetosJos Alberto Royo
3. Aplicaciones de Objetos geogrficosSistemas de Informacin-2003
Mapas Estructuracin Vectores (+verstil, -fcil de crear) Creados con paneles digitalizadores
GIS: Operaciones sobre los Datos Interpolacin Obtencin de datos de elevacin no obtenidos en la muestra
Interpretacin Cierre de polgonos Definicin, reduccin y mejora de detalles
Rasters (-verstil, +fcil de crear) Cada celda almacena el tipo de terreno Creados mediante scanning
Anlisis de proximidad Clculo de zonas de inters
Se puede pasar de un formato a otro (con un cierto error) Reconocimiento de formas en un raster vectores Pixelizacin de vectores rasterSistemas de Informacin-2003 Jos Alberto Royo 41
Procesamiento de imgenes en una matriz de puntos Integrar caractersticas geogrficas en distintas capas Anlisis digital de imgenesSistemas de Informacin-2003 Jos Alberto Royo 42
Otras funcionalidades Extensibilidad Continua evolucin de los sistemas GIS dnde estoy? Problema debido a la variedad de tipos de datos
Preguntas a los GIS Qu hay en cierta posicin? Dnde hay cierto elemento? Muestra zonas que cuyos atributos cumplen ciertas condiciones Generacin de nuevos grficos mapas de elevacin, densidad de poblacin, etc.
Control de calidad de los datos
Visualizacin1. Contorneado Isolneas Mtodo de iluminacin empleado para representar relieves Imgenes tridimensionalesJos Alberto Royo 43
2. Sombreado de montaas 3. Visualizaciones de perspectivasSistemas de Informacin-2003
Sistemas de Informacin-2003
Jos Alberto Royo
44
Utilidad de los GIS Generacin de mapas Seleccin de lugares Creacin de planes de emergencia Ante terremotos u otras catstrofes
GIS: Trabajo Futuro Nuevas arquitecturas: Distribucin de datos Separacin de datos espaciales y no espaciales
Versionado Ej.: Qu pasa si construimos una autopista?
Simulacin de transformaciones medioambientales Cambio en paisajes ante tneles, obras, urbanizaciones, etc.Sistemas de Informacin-2003 Jos Alberto Royo 45
Estndares de Datos Compartir de datos
Aplicaciones especficas Tipos de datos distintos
Ausencia de semntica en las estructuras de datos Vas de sentido nicoSistemas de Informacin-2003 Jos Alberto Royo 46
Bibliografa Keith C. Clarke, Getting Started with GIS, Prentice-Hall, 1997, ISBN 0-13-294786-2. http://www.usgs.gov/research/gis/title.html
Sistemas de Informacin-2003
Jos Alberto Royo
47
Data Warehouse and Data MiningJos A. Royo http://www.cps.unizar.es/~jaroyo email: [email protected] Departamento de Informtica e Ingeniera de Sistemas
Por qu DW y DM? Mayor poder de procesamiento y sofisticacin de herramientas Demanda de mejora del acceso a datos Necesidad de informacin para la toma de decisiones Recopilacin de informacin Alto Coste
Sistemas de Informacin-2003
Jos Alberto Royo
2
Informacin en las empresas La Informacin proviene de fuentes internas (sistemas de produccin) y externas (hasta un 20%) Problemas Saturacin de informacin Difcil de acceder No selectiva
Data Warehouse
La informacin se necesita para: Competir (comparacin con otros productos) Personalizar (simular que cada cliente es nico)Sistemas de Informacin-2003 Jos Alberto Royo 3 Sistemas de Informacin-2003 Jos Alberto Royo 4
Data Warehouse Definicin: coleccin de datos orientados al tema, integrados, no voltiles e historiados, organizados para el apoyo de un proceso de ayuda a la decisin Se guarda toda la informacin til (proveniente de varia fuentes) en un nico lugarSistemas de Informacin-2003 Jos Alberto Royo 5
Data Warehouse Orientacin al tema Disponer de toda la informacin sobre un tema No organizar los datos segn los procesos funcionales
La informacin comn a varios temas no debe duplicarse Los Data Mart apoyan la orientacin al tema BD orientada al tema puesta a disposicin de los usuarios en un contexto de decisin descentralizadoSistemas de Informacin-2003 Jos Alberto Royo 6
Data Warehouse Datos integrados: Los datos deben formatearse y unificarse para llegar a un estado coherente Ej.: consolidar todas las informaciones respecto a un cliente
Data Warehouse Datos no voltiles: Consecuencia de la historilizacin = consulta en = periodo = resultado Sistemas de produccin no voltiles
Datos historiados Los datos no se actualizan nunca representan un valor en un momento concreto
Infocentro: similar al Data Warehouse pero centrado en el sistema de produccin
Los datos se referencian temporalmenteSistemas de Informacin-2003 Jos Alberto Royo 7 Sistemas de Informacin-2003 Jos Alberto Royo 8
Data Warehouse: Estructura Varia clases de datosDatos fuertemente agregados Nivel de sntesisTR2
Datos Matrices Multidimensionales o hipercubos Ej.: periodo impositivo, producto y regin Pivotacin: cambio de orientacin de los ejesREG5 REG1 REG2 REG3 REG4 REG5 TR2
Nivel de historial
Producto Tr im est re
Datos detallados historiados
ReginP2
P1
Datos: Representaciones Jerrquicas Exploracin ascendente (roll-up) Agrupacin de datos Ej.: Agrupar datos mensuales en trimestrales
Datos: Representacin fsica 2 Tablas Tabla de dimensiones Tabla de hechos
Exploracin Descendente (drill-down) Divisin de datos Ej.: Ventas nacionales provinciales
Tipos de esquema Esquema de estrella: Tabla de hechos con una nica tabla para cada dimensin
Esquema de copos Tablas dimensinales organizadas jerrquicamenteSistemas de Informacin-2003 Jos Alberto Royo 11 Sistemas de Informacin-2003 Jos Alberto Royo 12
P2
Sistemas de Informacin-2003
Jos Alberto Royo
9
Sistemas de Informacin-2003
Jos Alberto Royo
TR1
REG1
Estructura multidimensional
REG2 REG3
Metadatos
Datos agregados Datos detalladosTR1 P1
REG4
10
Construccin de un Data Warehouse Adquisicin: Recopilar informacin de varias fuentes y unificarla Extraccin Preparacin (formateo y limpieza) Carga
DW: CaractersticasSalvado de datos limpios OLAPDATOS
Limpieza Bases de Datos
Reformateo
DSS
METADATOS
Almacenamiento: basado en un SGBD El historial influir en la estructura fsicaOtras entradas de datos Actualizaciones/Nuevos Datos
MINERIA DE DATOS
Acceso: distintos grupos de usuarios requerirn distintas consultasSistemas de Informacin-2003 Jos Alberto Royo 13 Sistemas de Informacin-2003
Jos Alberto Royo
14
OLTP y OLAP OLTP (On-Line Transactionnel Processing): entorno donde las respuestas se darn en un tiempo aceptable y sern consistentes Transacciones predeterminadas Utiliza pocas tablas
DSS: Decision Support Systems EIS (Executive Information Systems o sistemas de informacin ejecutiva) Ayuda para la toma de decisiones Dan datos de nivel superior DW preparado para OLAP y DSS
OLAP (On-Line Analytical Processing): entorno de ayuda a la decisin (anlisis de datos) Transacciones muy variadas Manejan volmenes grandes de datos (+tiempo) Se relacionan datos aparentemente sin relacinSistemas de Informacin-2003 Jos Alberto Royo 15
Sistemas de Informacin-2003
Jos Alberto Royo
16
Factores de xito del DW Integra datos de produccin con datos externos y gestiona historiales Contiene la informacin til Los datos son coherentes, actualizados y documentados (calidad) Ofrece acceso directo a los usuarios Aumenta el nmero de accesos Da una flexibilidad que apoya el crecimiento De usuarios, herramientas y volumenSistemas de Informacin-2003 Jos Alberto Royo 17
Diferencias entre DW y vistas DW son un almacenamiento permanente Vistas Construidas cuando es necesario
DW son multidimensionales Vistas suelen ser relacionales
DW son indexados para optimizar su rendimiento Vistas son indexadas dependiendo de la BD subyacente
DW dan unas funcionalidades especificas Las vistas no
DW poseen grandes cantidades de datos integrados y temporales Vistas son extractos de la BDSistemas de Informacin-2003 Jos Alberto Royo 18
Errores a evitar Cargar datos solamente porque estn disponibles (podran ser no tiles) Crear el esquema de la BD de forma tradicional Crearlo pensando en la tecnologa usada Concentrarse en los datos internos Creer que los problemas acaban una vez instalado el Data WarehouseSistemas de Informacin-2003 Jos Alberto Royo 19
Implementacin: Dificultades Alto coste Urgente ayuda para la toma de decisiones Data Mart
Gran coste de mantenimiento Cambio de necesidades Nuevas fuentes de datos Cambio de la capacidad Cambio de tecnologa
Control de calidad de los datos Heterogeneidad e Integracin de datosSistemas de Informacin-2003 Jos Alberto Royo 20
Bibliografa J.M. Franco. EDS-Institut Promthus, El Data Warehouse. El Data Mining, Eyrolles,1997.
Data Mining
Sistemas de Informacin-2003
Jos Alberto Royo
21
Sistemas de Informacin-2003
Jos Alberto Royo
22
Data Mining Bsqueda de informacin relevante (conocimiento) en grandes volmenes de datos Descubrir de forma automtica las reglas estadsticas y pautas de un conjunto de datos Diferencia con machine learning? Grandes volmenes de datos grabados en disco Objetivo obtener un conjunto de reglas
Data Mining: Visin General Data Mining y Data Warehouse Bsqueda automtica de relaciones Extraccin de patrones
Descubrimiento de conocimiento (Fases) 23
Seleccin de datos Limpieza de datos Transformacin/Codificacin de datos Minera de Datos Presentacin visualizacinJos Alberto Royo 24
Sistemas de Informacin-2003
Jos Alberto Royo
Sistemas de Informacin-2003
Resultados del Data Mining Descubrir Reglas de asociacin Patrones secuenciales rboles de clasificacin
Objetivos del Data Mining Prediccin Ej.: que compraran los clientes bajo determinados descuentos
Identificacin Ej.: secuencia de nucletidos presencia gen
Presentacin de Resultados Listas Representaciones Grficas Tablas resumenSistemas de Informacin-2003 Jos Alberto Royo 25
Clasificacin Ej.: clientes que buscan descuentos, fieles y ocasionales
Optimizacin utilizacin de recursos limitados: tiempo, espacio, dinero, etc.Sistemas de Informacin-2003 Jos Alberto Royo 26
Conocimiento Descubierto Reglas de asociacin Ej.: Compra bolso Compra zapatos
Tipos de reglas X antecedente consecuente X: lista de una o varias variables con rangos asociados Ej.: transaccin T, compra(T,pan) compra(T,leche)
Jerarquas de clasificacin Ej.: Clasificacin de los clientes de un banco
Patrones secuenciales Ej.: Cmara digital Memorias MMC
Patrones de series de tiempo Ej.: Aumento de ventas de automviles antes del verano
Categorizacin y segmentacin Ej.: nios, jvenes, adultos y jubiladosSistemas de Informacin-2003 Jos Alberto Royo 27
Rango de las variables poblacin Soporte: porcentaje de la poblacin que cumple el antecedente o el consecuente Confianza: porcentaje con que el consecuente es cierto al serlo el antecedenteSistemas de Informacin-2003 Jos Alberto Royo 28
Data Mining Automtico Descubrimiento automtico de reglas Tcnicas de machine learning, adaptadas para grandes volmenes de datos Tres tipos de problemas: Clasificacin: reglas que dividan en grupos Asociaciones: X Y Correlaciones entre seriesSistemas de Informacin-2003 Jos Alberto Royo 29
Clasificacin Comienza con una muestra de datos de clasificacin conocida Los datos se dividen segn uno de sus atributos, sucesivamente Atributos enumerados un conjunto por valor Atributos con rango numrico intervalos
Resultado: rbol de clasificacin (taxonoma) Hasta usar todos los atributos o clasificar correctamente los datosSistemas de Informacin-2003 Jos Alberto Royo 30
Asociaciones Se genera un mapa de bits para cada transaccin (un bit para cada artculo a estudiar) Nos quedamos con los artculos ms adquiridos Se generan todos los subconjuntos posibles de artculos y se cuenta el nmero de transacciones Los subconjuntos con un numero alto de transacciones generan las reglas
Asociaciones negativas Ej.: el 60% de los clientes que compran patatas fritas no compran agua mineral Si no combinacin de elementos asociacin negativa Tenemos muchsimas reglas sin ningn inters
Utilizar conocimiento previo del problema Optimizaciones Muestreo
Sistemas de Informacin-2003
Jos Alberto Royo
31
Sistemas de Informacin-2003
Jos Alberto Royo
32
Data Mining Guiado por el Usuario El usuario plantea hiptesis El sistema comprueba si se verifica o no Las hiptesis se pueden ir refinando La visualizacin grfica de datos ayuda al usuario a examinar grandes volmenes de datos
Otras Tcnicas Regresin Estadstica Establecimiento de probabilidades
Redes neuronales Entrenar la red Reconocer los patrones segn el entrenamiento
Algoritmos genticos 33
Algoritmos probabilistas Poblacin inicial Sobreviven los mejores Obtenemos datos en cada iteracinJos Alberto Royo 34
Sistemas de Informacin-2003
Jos Alberto Royo
Sistemas de Informacin-2003
Aplicaciones Marketing Comportamiento del consumidor basado en patrones de compra
Bibliografa J.M. Franco. EDS-Institut Promthus, El Data Warehouse. El Data Mining, Eyrolles,1997. R.A. Elmasri, S.B. Navathe, Fundamentos de Sistemas de Bases de Datos, 3 ed., Addison-Wesley,2000.
Finanzas Anlisis de rendimiento de operaciones Solvencia de clientes Valoracin de opciones de financiacin
Fabricacin Optimizacin de recursos: maquinaria, mano de obra, materiales Optimizacin del proceso de fabricacinSistemas de Informacin-2003 Jos Alberto Royo 35
Sistemas de Informacin-2003
Jos Alberto Royo
36
Sist. de Inf. Geogrfica (GIS) Sistemas de Informacin GeogrficaJos Alberto Royo [email protected] Departamento de Informtica e Ingeniera de Sistemas Sistemas que relacionan, almacenan, manipulan y visualizan informacin referenciada geogrficamente Sistemas de informacin que manejan datos espaciales Algunos datos son referencias espaciales o coordenadas geogrficas Poseen operadores para manejar dichos datos espacialesSistemas de Informacin-2003 Jos Alberto Royo 38
GIS: Categoras1. Aplicaciones Cartogrficas Variedad de datos: caractersticas del suelo, densidad de cultivo,calidad del aire Representacin basada en campos Superposicin de capas
Informacin espacial Multidimensional (x,y,z,t,...) Voluminosidad Naturaleza inexacta (no hay representaciones exactas de la Tierra) Las preguntas combinan topologa, geografa y otros atributos, con informacin aproximada Combinan distintos contextos legales y econmicos (varan de un pas a otro)39 Sistemas de Informacin-2003 Jos Alberto Royo 40
2. Aplicaciones para el modelado digital de terrenos Variedad de datos Representacin basada en campos Objetos fsicos: centrales elctricas, hospitales, etc. Representacin basada en objetosJos Alberto Royo
3. Aplicaciones de Objetos geogrficosSistemas de Informacin-2003
Mapas Estructuracin Vectores (+verstil, -fcil de crear) Creados con paneles digitalizadores
GIS: Operaciones sobre los Datos Interpolacin Obtencin de datos de elevacin no obtenidos en la muestra
Interpretacin Cierre de polgonos Definicin, reduccin y mejora de detalles
Rasters (-verstil, +fcil de crear) Cada celda almacena el tipo de terreno Creados mediante scanning
Anlisis de proximidad Clculo de zonas de inters
Se puede pasar de un formato a otro (con un cierto error) Reconocimiento de formas en un raster vectores Pixelizacin de vectores rasterSistemas de Informacin-2003 Jos Alberto Royo 41
Procesamiento de imgenes en una matriz de puntos Integrar caractersticas geogrficas en distintas capas Anlisis digital de imgenesSistemas de Informacin-2003 Jos Alberto Royo 42
Otras funcionalidades Extensibilidad Continua evolucin de los sistemas GIS dnde estoy? Problema debido a la variedad de tipos de datos
Preguntas a los GIS Qu hay en cierta posicin? Dnde hay cierto elemento? Muestra zonas que cuyos atributos cumplen ciertas condiciones Generacin de nuevos grficos mapas de elevacin, densidad de poblacin, etc.
Control de calidad de los datos
Visualizacin1. Contorneado Isolneas Mtodo de iluminacin empleado para representar relieves Imgenes tridimensionalesJos Alberto Royo 43
2. Sombreado de montaas 3. Visualizaciones de perspectivasSistemas de Informacin-2003
Sistemas de Informacin-2003
Jos Alberto Royo
44
Utilidad de los GIS Generacin de mapas Seleccin de lugares Creacin de planes de emergencia Ante terremotos u otras catstrofes
GIS: Trabajo Futuro Nuevas arquitecturas: Distribucin de datos Separacin de datos espaciales y no espaciales
Versionado Ej.: Qu pasa si construimos una autopista?
Simulacin de transformaciones medioambientales Cambio en paisajes ante tneles, obras, urbanizaciones, etc.Sistemas de Informacin-2003 Jos Alberto Royo 45
Estndares de Datos Compartir de datos
Aplicaciones especficas Tipos de datos distintos
Ausencia de semntica en las estructuras de datos Vas de sentido nicoSistemas de Informacin-2003 Jos Alberto Royo 46
Bibliografa Keith C. Clarke, Getting Started with GIS, Prentice-Hall, 1997, ISBN 0-13-294786-2. http://www.usgs.gov/research/gis/title.html
Sistemas de Informacin-2003
Jos Alberto Royo
47