Proceso extraccion del conocimineto

39
Fases de la Extracción del conocimiento Mariuxi Maza Jonathan Yaguachi

Transcript of Proceso extraccion del conocimineto

Fases de la Extracción del conocimiento

• Mariuxi Maza• Jonathan Yaguachi

Itera

tivo

Inte

ract

ivo

Integración y Recopilación

• Facturación• Control de

Inventarios • Nominas…

• Análisis• Planeació

n• Predicción

Se determina las fuentes de información

Integración y Recopilación

Integración y Recopilación

Transformar todos los datos a un formato común

Selección, Limpieza y Transformación

Selección, Limpieza y Transformación

Outlier

s

Missing values

Elimina y corrige los datos incorrectos Decidir la estrategia según los datos

incompletos. Proyectar los datos

Selección, Limpieza y Transformación

Fase de Minería de Datos

Determinar que tipo de minería de datos es la mas apropiada.

Elegir el tipo de modelo. Elegir el algoritmo de minería que resuelva

tarea y obtenga el tipo de modelo que estamos buscando.

Clasificación: cada instancia pertenece a una clase formada por atributos discretos.

Tareas de minería de datos

Regresión:

Agrupación: consiste en obtener grupos “Naturales” a partir de los datos.Estos grupos se forman con datos con objetivos en común.

Correlación: Busca el grado de similitud entre dos variables numéricas.Una forma de realizar esto en con el coeficiente de correlación r.r: es un valor reala entre -1 y 1 1: perfectamente correlacionadas -1: perfectamente correlacionadas negativamente0: no existe correlación.

Las reglas de asociación: Si el atributo X toma el valor de “d” entonces el atributo Y toma el valor de “b”No implica una relación causa-efecto.

Estadísticos:

Las técnicas estadísticas no son útiles para la regresión sino que se utilizan para la discriminación (clasificación, agrupación).

Técnicas de Minería de Datos

Métodos basados en núcleos: Busca un discriminante lineal que maximice a la distancia a los ejemplos fronterizas de los distintos grupos o clases.

Métodos Bayesianos: Instancia edad hijos

practica_deporte salario

buen_cliente

1 joven si no alto si2 joven no no medio no3 joven si si medio no4 joven si no bajo si5mayor si no bajo si6mayor no si medio si7 joven no si medio si8 joven si si alto si9mayor si no medio si

10mayor no no bajo no

edad hijospractica_deporte salario

buen_cliente

mayor no no medio ?

Arboles de decisión:

Inducción de reglas:SI cond1 Y cond2 Y … Y condn ENTONCES pred. Las reglas son independientes y no tienen

por que formar un árbol. Las reglas generadas pueden o no cubrir

todas las situaciones posibles Las reglas pueden entrar en conflicto en sus

predicciones

Redes neuronales artificiales:

Aprendizaje basado en instancias o casos.

Las instancias se almacenan en memoria.Cuando llega una nueva instancia con un valor desconocido se intenta relacionar esta con otra instancia.

Algoritmos Evolutivos:Dado un problema de potenciales soluciones a un problema expande esta solución con nueva y mejores soluciones.

Construcción del modelo

FASE DE EVALUACION E INTERPRETACIÓN

Los patrones descubiertos deben tener tres cualidades:

- Precisos- Comprensibles- Interesantes.

Se utilizan conjuntos de entrenamiento y conjuntos de prueba.

Modelos predictivos. Método de evolución básica – Validación

Simple. Método usado normalmente – Validación

cruzada con n pliegues. Técnica de bootstrapping.

Técnicas de evaluación

Clasificación Reglas de asociación Regresión. Agrupamiento.

Medidas de evaluación

Evalúa la calidad de los patrones encontrados, respecto a su precisión predictiva.

Se calcula con el numero de instancias del conjunto de prueba.

CLASIFICACIÓN

Evalúa de forma separada cada una de las reglas.

Nos restringe aquellas q puedan aplicarse a un mayor número de instancias, con una gran precisión (cobertura y confianza).

REGLAS DE ASOCIACIÓN

Si la salida del modelo es un valor numérico, se evalúa mediante el error cuadrático medio del valor predicho respecto al utilizado como validación.

Promedia los errores, teniendo en cuenta los errores q se desvían al valor predicho.

REGRESIÓN

Suelen ser la fusión de la cohesión de cada grupo y la separación entre grupos.

Con la utilización de la distancia media al centro del grupo de los miembros de un grupo y la distancia media entre grupos respectivamente.

AGRUPAMIENTO

En la clasificación y las reglas de asociación usar la precisión tiene como desventaja:

No toma en cuenta que tiene distribuciones de clases no balanceadas, habitual en fraudes y diagnósticos médicos.

Y sus problemas son tratados con:Matriz de confusión: muestra el recuentro de las clases predichas y valores actuales.

Matriz de coste: si se dispone de información sobre el coste de cada error.

Análisis ROC: cuando los costes son desconocidos para otras aplicaciones.

Se debe contrastar el conocimiento proporcionado con el previo, sobre el problema y resolver con ello posibles conflictos.

Interpretación y contextualización

Un analista recomienda acciones basándose en el modelo y sus resultados.

Tanto en el caso de una aplicación manual como automática del modelo, es necesario su difusión.

Es importante medir la evolución del modelo.

Se debe continuar con las prestaciones, aun cuando este funcione bien.

Fase de difusión, uso y monitorización