Sesión 1 [Modo de...
Transcript of Sesión 1 [Modo de...
Fundamentos y Aplicaciones Prácticas
del Descubrimiento de Conocimiento
en Bases de Datos
- Sesión 1 -
Juan Alfonso Lara Torralbo 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
1
Índice de contenidos
• Presentación del docente
• Presentación de los estudiantes
• Guía docente
• Actividad. Evaluación inicial
• El proceso de KDD
• Visión de conjunto
2
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
Presentación del docente
3
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
Presentación de losestudiantes
4
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
Guía docente
5
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
Actividad – Evaluación inicial• Trabajo en grupo, sin Internet, para intentar definir los
siguientes términos:
• Data Mining
• Proceso de KDD (Knowledge Discovery in Databases)
• Data Warehouse
• Clustering
• Árbol de decisión
• Atípico
• Big Data, Open Data, Linked Data
Puesta en común6
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
El proceso de KDD (I)
• Knowledge Discovery in Databases
• Proceso extracción automatizada de conocimiento a partir de grandes volúmenes de datos
• Es un término más general que Data Mining
• Entonces, ¿por qué “nos suena” más Data Mining que KDD?
7
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
El proceso de KDD (II)
• ¿Cualquier tipo de conocimiento?
• NO.
• Características:• No trivial
• Implícito
• Previamente desconocido
• Útil8
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
El proceso de KDD (III)• Se encuentra oculto en los datos.
• De nada sirve extraer conocimiento que carezca de importancia.
• El conocimiento extraído deber servir para algo, de lo contrario no tiene ningún sentido invertir esfuerzos en extraerlo
• Nada nuevo se aporta si el conocimiento extraído ya había sido descubierto anteriormente.
• ¿Con qué características se relaciona cada definición anterior?
• No trivial
• Implícito
• Previamente desconocido
• Útil 9
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
El proceso de KDD (IV) - Fases
1.Recopilación de datos.
2.Selección, limpieza y transformación de Datos.
3.Data Mining.
4.Interpretación y evaluación de modelos.
10
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
El proceso de KDD (V) - Fases
11
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
El proceso de KDD (VI) - Fases
• Naturaleza secuencial e iterativa
12
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
El proceso de KDD (VII) - Fases
• Recopilación de Datos
• DW no sólo usado para DM. También para DSS, OLAP, Reporting
13
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
El proceso de KDD (VIII) - Fases• Selección, limpieza y transformación
• ¿Qué datos necesito?
• ¿Hay algo extraño en ellos que tenga que ser reparado?
• ¿El formato se adapta a lo que exigen los algoritmos posteriores? 14
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
El proceso de KDD (IX) - Fases• DATA MINING
• ¿Por qué se generaliza el término?
• Tareas predictivas � predecir el valor desconocido de uno o varios atributos.
• Tareas descriptivas � modelos que, de alguna forma, describen los datos. 15
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
El proceso de KDD (X) - Fases
• Interpretación y evaluación
• ¿Valen todos los modelos?
• NO � Deben ser Precisos, interesantes, comprensibles, … 16
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
Visión de conjunto• Data Mining : etapa de un proceso más general
• KDD: Proceso general de extracción de conocimiento
• Compuesto por fases
• En cada fase se aplican técnicas
• En la fase de DM se aplican técnicas para resolver tipos de problemas � tareas
• El resultado de resolver una tarea es un modelode data mining 17
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.