Introducción a la Minería de Datos INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto...
-
Upload
cande-barragan -
Category
Documents
-
view
30 -
download
4
Transcript of Introducción a la Minería de Datos INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto...
Introducción a la Minería de Datos
INTRODUCCION A TECNICAS DE MINERIA DE DATOS
Mg. Samuel Oporto Díaz
22 /45/45
Tabla de Contenido
1. El Conocimiento
2. Minería de Datos
3. Necesidad de la Minería de Datos
4. Proceso de la Minería de Datos
5. Tareas de la Minería de Datos
6. Bibliografía
7. Preguntas de auto-evaluación
4
19
28
32
35
43
45
Mapa Conceptual – Minería de Datos
DataObjetivo
DataPre-procesada
DataTransformada Patrones
Fuentes de datos Pre-procesamientoExploración y
transformaciónReconocimiento de
PatronesEvaluación e Interpretación
DatacrudaDHW
DBMS
Texto
Evaluación y Entendimiento
Muestreo y Selección• Muestreo • Selección
Limpieza de Datos• Limpieza de datos• Datos que no existen• Datos no clasificados• Identificación de
extremos• Eliminación de Ruido
Transformación de Datos• Reducción de
Dimensionalidad• Creación de
Características• Normalización de Datos• Variables
Correlacionadas• Discretización
Reportes y VisualizaciónModelado• Descripción• Clasificación• Regresión• Agrupamiento• Asociación• Secuenciación
DataObjetivo
DataPre-procesada
DataTransformada Patrones
Fuentes de datos Pre-procesamientoExploración y
transformaciónReconocimiento de
PatronesEvaluación e Interpretación
DatacrudaDHW
DBMS
TextoTexto
Evaluación y Entendimiento
Muestreo y Selección• Muestreo • Selección
Limpieza de Datos• Limpieza de datos• Datos que no existen• Datos no clasificados• Identificación de
extremos• Eliminación de Ruido
Transformación de Datos• Reducción de
Dimensionalidad• Creación de
Características• Normalización de Datos• Variables
Correlacionadas• Discretización
Reportes y VisualizaciónModelado• Descripción• Clasificación• Regresión• Agrupamiento• Asociación• Secuenciación
44 /45/45
EL CONOCIMIENTO
55 /45/45
Niveles del Entendimiento
Datos
Información
Conocimiento
Entendimiento
Es humano. Es una apreciación del por qué. Es cuando se puede sintetizar nuevo conocimiento desde el conocimiento y la información
Es información útil, contextual, tácita. Es la aplicación de los datos y la información, responde a cómo. Se puede aprender.
Es la data con un significado por vía de una relación. El significa-do puede o no ser útil. Responde a quién, qué, donde, cuándo.
La data es cruda. Existe o no, pero no tiene significado por si misma. Es codificable y explicita, es fácil de ser transferida.
Es el nivel previo de la conciencia. Se relaciona con el futuro.Sabiduría
66 /45/45
Diagrama de transición
datos
información
conocimiento
entendimiento
sabiduría
entendimiento
relación
entendiendorelaciones
entendiendopatrones
entendiendoprincipios
crítica delentendimiento
Conocimiento Memorización.
Entendimiento Aprendizaje
77 /45/45
Niveles del Entendimiento
Dato.• Requiere un medio de
almacenamiento.• Se debe capturar (registrar)
y codificar.• Es muy abundante.
Información.• Se crea mediante la
relación de datos• Es abundante y barata.• Se puede distribuir.• Es el dato con significado.
Conocimiento.• Es la información útil.• Se forma desde los
patrones de comportamiento.
• Requiere de la vivencia del humano para ser aprendido.
• Es el ¿cómo?• No es fácilmente
codificable, por lo tanto no es fácilmente almacenable ni recuperable.
• Es caro.
88 /45/45
Conocimiento y Experiencia
Información para la acción
Para tener el conocimiento es necesario tener el contacto con el problema y saber resolver problemas. No basta con tener la
información
99 /45/45
Ejercicio 1
• ¿Para qué sirven los datos?
• ¿Para qué sirve la información?
• ¿Para qué sirve el conocimiento?
1010 /45/45
Ejercicio 2
• ¿Se puede encontrar información en los datos?
• ¿Se pueden encontrar conocimiento en los datos?
• ¿Se pueden encontrar conocimiento en la información?
1111 /45/45
Ejercicio 3
• ¿Cómo se puede averiguar a qué idioma corresponde un texto determinado?
• ¿El texto es dato o información?
1212 /45/45
Ejercicio 3
Inglés
0.0%
2.0%
4.0%
6.0%
8.0%
10.0%
12.0%
14.0%
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
Español
0.0%
2.0%
4.0%
6.0%
8.0%
10.0%
12.0%
14.0%
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
1313 /45/45
Ejercicio 4
Diga para las siguientes actividades, en qué casos es suficiente tener información para actuar y en que casos es indispensable la práctica para actuar:
1. Resolver un examen de matemáticas.
2. Comentar un libro.
3. Describir un accidente de tránsito.
4. Cambiarle el pañal a un bebe.
5. Participar en un juego de ajedrez.
6. Desarrollar un sistema de información.
7. Desarrollar un modelo que represente un sistema.
8. Limpiar la casa.
9. Armar una bicicleta con un manual.
1414 /45/45
Tipos de Conocimiento
- Tácito - Implícito - Explícito
Tácito
Inicio
Puede ser articulado
Es conciente
Explícito Implícito
si si
no
articulado = estructurado, esquematizado, se puede expresar
Tácito. IntuitivoImplícito. HábitoExplícito. Articulado
no
1515 /45/45
Tipos de ConocimientoExplícito.• Es el que sabemos que tenemos y somos concientes
cuando lo ejecutamos, se encuentra estructurado y esquematizado para su difusión. Se pueden transmitir y vender.
Implícito.• Sabemos que tenemos el K, pero no nos damos
cuenta que lo estamos utilizando, simplemente lo ejecutamos y ponemos en práctica de una manera habitual. Se puede explicar por qué. Se usa de manera habitual, pero no mecánicamente.
Tácito.• Permanece en un nivel inconsciente e intuitivo, se
encuentra desarticulado, lo implementamos y ejecutamos de una manera mecánica sin darnos cuenta. Se transmite mediante la observación y la imitación. Es difícil de extraer, pero es muy valioso.
• Esta transparencia. Un procedimiento de trabajo. Un correo electrónico expresan-do una situación
• Cualquier tarea habitual aprendida. Manejar el XLS, armar un presupuesto, hablar en inglés. Doctor que toma una decisión.
• La forma de escribir, de hablar, de caminar, de tomar una decisión, de relacionarse con otra persona.
1616 /45/45
Ejercicio 5
• ¿Indique qué medios (soporte) conoce para representar el conocimiento explícito?
• ¿Qué tipo de conocimiento se puede representar en un documento?
• ¿Todo el conocimiento que se puede representar en un documento se puede almacenar en un manejador de base de datos ?
1717 /45/45
Representación del Conocimiento
1818 /45/45
¿Cómo se descubre el conocimiento?
• El modelo del proceso de transmisión del conocimiento de Nonaka y Takeuchi (1995) describe el ciclo de generación de conocimiento en las organizaciones mediante cuatro fases:
1919 /45/45
MINERIA DE DATOS
DataData
Objetivo
Selección
ConocimientoConocimiento
DataPreprocesada
Patrones
Data Mining
Interpretación/Evaluation
Pre-procesamiento
2020 /45/45
¿Qué es la minería de datos?
• Es el proceso de descubrir conocimiento desde los datos.
• Es el proceso de descubrimiento de conocimiento en bases de datos, mediante un proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil.
• El conocimiento se puede manifestar como: patrones, reglas de conocimiento, restricciones, tendencias, etc.
2121 /45/45
¿Cómo se descubre el conocimiento?
• ¿Se puede tomar decisiones con datos?• ¿Se puede tomar decisiones con información?• ¿Se puede tomar decisiones con conocimiento?
• La información es equivalente a VERDADERO-FALSO• El conocimiento es equivalente a GRADO VERDAD
2222 /45/45
El Ciclo del Conocimiento
Conocimiento Consolidado
Generación de Teorías
Prueba y Aplicación
Observación y Análisis
Información ProblemasOportunidades
ResultadosMétodosEnfoque
Datos del medio ambiente
2323 /45/45
Ejercicio 6
• Se tiene los siguientes datos sobre una campaña de marketing. La empresa envió cierta promoción a varias casas y registró unos cuantos hechos sobre ellos y también si las personas respondieron o no.
• ¿Cómo se puede predecir la respuesta de la siguiente casa?
• Intente predecir la respuesta a los casos proporcionados por el profesor.
• Sugerencia: Diseñe un árbol de decisión.
2424 /45/45
Ejercicio 6Ubicación Tipo de casa Ingresos Cliente previo Resultado
Suburbano Separado Alto No Ninguno
Suburbano Separado Alto Si Ninguno
Rural Separado Alto No Respondió
Urbano Semi-Separado Alto No Respondió
Urbano Semi-Separado Bajo No Respondió
Urbano Semi-Separado Bajo Si Ninguno
Rural Semi-Separado Bajo Si Respondió
Suburbano Terraplén Alto No Ninguno
Suburbano Semi-Separado Bajo No Respondió
Urbano Terraplén Bajo No Respondió
Suburbano Terraplén Bajo Si Respondió
Rural Terraplén Alto Si Respondió
Rural Separado Bajo No Respondió
Urbano Terraplén Alto Si Ninguno
2525 /45/45
Ejercicio 6Ubicación Tipo de casa Ingresos Cliente previo Resultado
Suburbano Separado Alto No Ninguno
Suburbano Separado Alto Si Ninguno
Rural Separado Alto No Respondió
Urbano Semi-Separado Alto No Respondió
Urbano Semi-Separado Bajo No Respondió
Urbano Semi-Separado Bajo Si Ninguno
Rural Semi-Separado Bajo Si Respondió
Suburbano Terraplén Alto No Ninguno
Suburbano Semi-Separado Bajo No Respondió
Urbano Terraplén Bajo No Respondió
Suburbano Terraplén Bajo Si Respondió
Rural Terraplén Alto Si Respondió
Rural Separado Bajo No Respondió
Urbano Terraplén Alto Si Ninguno
2626 /45/45
Ejercicio 6
Ubicación
Cliente Previo
Ingresos R
N RN R
Suburbano Rural Urbano
55 4
SI NOAlto Bajo
23 32
2727 /45/45
¿Qué significa el nombre?
Minería de datos Minería de conocimiento
Descubrimiento de conocimiento en bases de datos
Arqueología de datos
Dragado de DatosMinería de base de datos
Extracción de conocimiento
Procesamiento de patrones de datos
Cosecha de información
Análisis de Información
Es el proceso de descubrir nuevos y significativos modelos, correlaciones y tendencias filtrándose grandes cantidades de datos almacenados, usando las tecnologías de reconocimiento de patrones y las técnicas estadísticas y matemáticas
2828 /45/45
NECESIDAD DE LA MINERIA DE DATOS
2929 /45/45
La necesidad para minería de datos• Gran cantidad de datos actuales e históricos son
almacenados– Una porción pequeña (~5-10%) es analizada.– Los datos que no pueden ser analizados, se siguen
almacenando.
• En grandes bases de datos la posibilidad de apoyar a la toma de decisiones se torna imposible.– “Buscar nuevas formas de clasificar a nuestros clientes”.– “Buscar casos de fraude”– “Buscar personas que desean comprar un auto”– “Buscar documentos semejantes”– “Identificar al pasajero que debe ser revisado”– “Buscar pares de productos que con frecuencia compran
los clientes”
3030 /45/45
La necesidad para minería de datos
• Problema de la explosión de los datos.– Las herramientas de captura automática de datos y
tecnologías maduras de base de datos permiten que grandes cantidades de datos sean almacenados en BD, DataMarts y otros repositorios de información.
• Estamos ahogados en datos, pero hambrientos de conocimiento.– Los sistemas de captura de datos son usados
intensamente y no existe tiempo para analizar los datos.
3131 /45/45
Algunos sitios Web• Buscar precios (www.ebay.com)• Comparar cotizaciones
(www.lendingtree.com)• Búsqueda de trabajos (www.monster.com) • Comparación de términos en Google
(www.onfocus.com/googlesmack/down.asp)
• Definición de términos(www. googlism.com/about.htm)
• Reservaciones (www.hotels.com) • Subastas (www.priceline.com)• Ciudades digitales (www.digitalcity.com) • Encontrar direcciones
(www.mapquest.com)• Evaluar Profesores
(www.ratemyprofessors.com/index.jsp)• Conocimiento en Google
(www.google.com/technology/index.html)• Búsqueda de Libros por contenido
(www.a9.com)
• Download de Libros (www.a9.com) • Cuidado de niños
(www.watchmegrow.com)• Servicios de webradio (www.live365.com)• Simbiósis tecnológica
(www.wired.com:80/wired/archive/8.02/warwick.html)
• Trabajos del futuro (www.time.com/time/
reports/v21/work/mag_ten_hottest_jobs.html)
• Corporación del futuro (www.businessweek.com/2000/00_35/b3696001.htm)
• El WWWW (wearable) (www.phonescoop.com/articles/moto_wearables/)
• Google en el Espacio(www.google.com/jobs/lunar_job.html)
• Reportero en Línea(http://uk.newsbot.msn.com/)
3232 /45/45
PROCESO DE LA MINERIA DE DATOS
3333 /45/45
Adaptado de:U. Fayyad, al de et. ( 1995)
El Proceso de la Minería de Datos
DataData
Objetivo
Selección
ConocimientoConocimiento
Patrones
Data Mining
Interpretación/Evaluación
Pre-procesamiento
DataPre-procesada
3434 /45/45
El Proceso de la Minería de Datos
• Recopilación. Desde diversas fuentes: BD, datamarts, texto, imágenes, video, sonido, etc. Uso de almacenes de datos multidimensionales organizados y estructurados.
• Selección de Datos. Selección de atributos relevantes. Selección de muestras.
• Pre-procesamiento. Mejora de la calidad de los datos, eliminación de atributos irrelevantes o eliminación de datos extremos, tratamiento de datos faltantes.
• Minería de Datos. Generación de modelos desde lo datos recopilados y seleccionados. Uso de varios modelos.
• Interpretación y evaluación. Evaluación y uso de los resultados obtenidos, reformulación del modelo.
5%
5%
30%
50%
10%
3535 /45/45
TAREAS DE LA MINERIA DE DATOS
3636 /45/45
Tipos de Aprendizaje
Tipos de Aprendizaje
Supervisado
Una especie de profesor sugiere una categoría para cada conjunto de entrenamiento. Se busca reducir el error de entrenamiento.
No Supervisado
No existe el profesor, el sistema realiza agrupamientos en forma natural sobre los patrones de entrada, para determinar la clase a la que pertenece.
3737 /45/45
Tareas de la Minería de Datos
Tareas
Predictiva
Descriptiva
ClasificaciónClasificación
RegresiónRegresión
AgrupamientoAgrupamiento
Reglas de AsociaciónReglas de Asociación
SecuenciaciónSecuenciación
3838 /45/45
Clasificación• Intenta clasificar algunos objetos en un
número finito de clases, en función a sus propiedades (características)
• Se intenta buscar un función de mapeo que permita separar la clase 1 de la clase 2 y esta de la clase 3…
• Las variables (atributos) son categóricos (no numéricos).
• El modelo se construye con datos completos, cada registro tiene una clase predefinida.
• Busca formas de separar la data en clases pre-definidos:
• Árboles de decisión.
• Redes Neuronales.
• Clasificador Bayesiano.
• Razonamiento basado en casos
3939 /45/45
Regresión
• Intenta determinar la función que mapea un conjunto de variables de entrada X (independiente), en una (o más) variables de salida Y (dependiente), .
• Es básicamente numérica.• Está basada en supuestos estadísticos.
• Árboles de decisión.
• Redes Neuronales.
• Regresión Logística
4040 /45/45
Agrupamiento (Clustering)
(Clasificación no supervisada)• Intenta agrupar una serie de objetos en
grupos.• Cada objeto es representado por un vector de
atributos n-dimensional.• Los objetos que forman cada grupo deben ser
disimilares.• La similaridad es medida del grado de
proximidad.• Luego cada grupo es etiquetado.
• K-means(agrupamiento exclusivo)
• Fuzzy C-means(agrupamiento con traslape)
• Angulo de distribución mínima
• Método de autoorganización (SOM)
• Razonamiento Adaptativo
4141 /45/45
Reglas de Asociación
• Analiza los datos para descubrir reglas que identifiquen patrones o comportamientos.
• Reglas de la forma A B.• Usa algoritmos intensivos en procesamiento.• Análisis de la cesta de la compra (market
basket analysis).
ID Declaración
2000 A,B,C
1000 A,C
4000 A,D
5000 B,E,F
Encuentre ¿qué grupos de ítems comúnmente se declaran juntos?
Haciendo el soporte mínimo del 50% y la confianza mínima del 50% , tenemos:
A C ( 50%, 66.6%)C A ( 50%, 100%)
D
YXYXsoporte
)(
X
YXYXconfianza
)(
• A priori
• A priori predictivo
4242 /45/45
Secuenciación
• Buscar secuencias que son usualmente probables.
• Requiere entrenamiento, lista de eventos, conocimiento de eventos interesantes.
• Debe ser robusto en la fase de adicionar eventos con ruido.
• Usado en el análisis de fallas y predicción.
• Modelo de Markov
• Agrupamiento MDD (Maximal Dependence
Decomposition Clustering)
A B
HTHHTHHttthtttHHTHHHHtthtthttht...
4343 /45/45
Bibliografía
• Introducción a la minería de datos. J. Hernández, J. Ramírez. Capítulo 1, Capítulo 2.
4444 /45/45
PREGUNTAS
4545 /45/45
Preguntas de auto-evaluación