TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE...

23
TEMA 1: INTRODUCCI TEMA 1: INTRODUCCI Ó Ó N AL N AL PROCESADO Y AN PROCESADO Y AN Á Á LISIS DE LISIS DE DATOS DATOS Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Transcript of TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE...

Page 1: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

TEMA 1: INTRODUCCITEMA 1: INTRODUCCIÓÓN AL N AL PROCESADO Y ANPROCESADO Y ANÁÁLISIS DE LISIS DE

DATOSDATOS

Procesado y Análisis de Datos Ambientales.Curso 2009-2010.

José D. Martín, Emilio Soria, Antonio J. Serrano

Page 2: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

ÍÍNDICENDICE

• Introducción.

• Selección de variables.

• Preprocesado.

• Clases de modelos

• Generalización y sobreajuste.

• Extracción de conocimiento.

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 3: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

ÍÍNDICENDICE

• Introducción.

• Selección de variables.

• Preprocesado.

• Clases de modelos

• Generalización y sobreajuste.

• Extracción de conocimiento.

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 4: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

INTRODUCCIINTRODUCCIÓÓNN

Gran cantidad de datos: Generación de conocimiento.

DATOSEXPERIMENTALES

Análisis y procesado MODELO MATEMÁTICO

ANÁLISIS Y PROCESADO

DE DATOS

VALIDACIÓN DEL MODELO

OBTENCIÓNDE NUEVAS

CONCLUSIONES

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 5: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

Tipos de problemas a resolverTipos de problemas a resolver

• Clasificación.

• Modelado.

• Predicción.

• Agrupamiento.

• Estimación de densidades de probabilidad.

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 6: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

Pasos a seguirPasos a seguirADQUISICIÓN DE DATOS

PREPROCESADO DE LOS DATOS

DESARROLLO DEL MODELO

VALIDACIÓN DEL MODELO

OBTENCIÓN DE CONCLUSIONES

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 7: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

ÍÍNDICENDICE

• Introducción.

• Selección de variables.

• Preprocesado.

• Clases de modelos

• Generalización y sobreajuste.

• Extracción de conocimiento.

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 8: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

SELECCISELECCIÓÓN DE VARIABLESN DE VARIABLES

• Relación entre el número de parámetros y el de patrones.

• El número de entradas al modelo afecta a la complejidad

de los modelos.

• Las entradas no necesarias acaban siendo “ruido”.

• Extracción de conocimiento.

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 9: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

ÍÍNDICENDICE

• Introducción.

• Selección de variables.

• Preprocesado.

• Clases de modelos

• Generalización y sobreajuste.

• Extracción de conocimiento.

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 10: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

PREPROCESADO DE LOS DATOSPREPROCESADO DE LOS DATOS

• Preparación de los datos.

• Análisis exploratorio de los datos.

• Reducción de la dimensionalidad.

• Filtrado de los datos.

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 11: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

PreparaciPreparacióón de los datosn de los datos

1. Eliminación / Interpolación de datos incompletos.

2. Codificación de los datos.

3. Normalización:

k

kkk

xxyσ−

= Media cero y desviación estándar unidad

k

k

x

x

k eeay ·

·

11· β

β

+−

= Reducción de rango

( ) yyyxx

xkk mmM

mMmxy +−⎟⎟

⎞⎜⎜⎝

⎛−−

= · Transformación de rango

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 12: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

AnAnáálisis exploratorio de los datoslisis exploratorio de los datosDistribución de probabilidad conocida Tests estadísticos

Distribución de probabilidad desconocida:

• Parámetros estadísticos.

• Detección de outliers.

Histogramas.

Diagramas de dispersión.

Agrupamiento (clustering).

Gráfico de probabilidad normal.

Autocorrelación.

Correlación cruzada.

REPRESENTACIONES ÚTILES

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 13: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

ReducciReduccióón de la dimensionalidadn de la dimensionalidad1. Selección de características.

2. Extracción de características.

ANÁLISIS DECOMPONENTES

PRINCIPALES (PCA)

ANÁLISIS DISCRIMINANTE

LINEAL (LDA)

Problemas de clasificación

Mín. distancia intraclase y

máx. interclase

MATRICES DE COVARIANZA

TÉCNICASGEOMÉTRICAS

ANÁLISIS DE FOURIER

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 14: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

Filtrado de los datosFiltrado de los datos

• Eliminar interferencias del proceso de medida. Ej: ruido de 50 Hz en señales eléctricas.

• Continua realimentación de todo el preprocesado de datos (por ej., nuevos outliers debido a la reducción de la dimensionalidad) hasta llegar a una convergencia del proceso.

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 15: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

ÍÍNDICENDICE

• Introducción.

• Selección de variables.

• Preprocesado.

• Clases de modelos

• Generalización y sobreajuste.

• Extracción de conocimiento.

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 16: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

CLASES DE MODELOSCLASES DE MODELOSModelos lineales y no lineales:

• Complejidad / Interpretabilidad.

• Plasticidad / Estabilidad.

• Precisión / Generalización.

• Complejidad en la obtención de los parámetros.

• Capacidad de modelado.

Lineal en parámetros y variablesde entrada

Lineal solamente en parámetros

No lineal

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 17: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

Modelos Modelos paramparaméétricostricos y no y no paramparaméétricostricos

Modelos paramétricos:

• Modelo conocido.

• Ajuste a un polinomio de un cierto grado.

Modelos no paramétricos:

Los datos definen el modelo: árboles de decisión, histogramas, etc. Se utilizan ante un total desconocimiento del problema abordado, con muchos datos o con pocas variables de entrada.

Modelos semiparamétricos:

El modelo tiene una forma funcional que no es necesario definir de manera estricta.Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 18: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

ÍÍNDICENDICE

• Introducción.

• Selección de variables.

• Preprocesado.

• Clases de modelos

• Generalización y sobreajuste.

• Extracción de conocimiento.

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 19: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

GENERALIZACIGENERALIZACIÓÓN Y N Y SOBREAJUSTE (I)SOBREAJUSTE (I)

Ajuste polinómico de mayor grado se ajusta mejor a los

datos

¡¡ Como hay 7 puntos un polinomio de grado 7 se ajustaría perfectamente!!

¡¡ Un polinomio de grado 7 generalizaría mal!!

¡¡ Mejor solución el polinomio de grado 2!!

SOBREAJUSTE (SOBREAJUSTE (OVERFITTINGOVERFITTING). CONTROL DEL N). CONTROL DEL NÚÚMERO DE PARMERO DE PARÁÁMETROSMETROS

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 20: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

GENERALIZACIGENERALIZACIÓÓN Y N Y SOBREAJUSTE (II)SOBREAJUSTE (II)

UtilizaciUtilizacióón de un conjunto de datos de generalizacin de un conjunto de datos de generalizacióónn

SOBREENTRENAMIENTO (SOBREENTRENAMIENTO (OVERTRAININGOVERTRAINING). ). CONTROL DEL NCONTROL DEL NÚÚMERO DE ITERACIONESMERO DE ITERACIONES

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 21: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

ÍÍNDICENDICE

• Introducción.

• Selección de variables.

• Preprocesado.

• Clases de modelos

• Generalización y sobreajuste.

• Extracción de conocimiento.

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 22: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

EXTRACCIEXTRACCIÓÓN DE CONOCIMIENTON DE CONOCIMIENTO• Análisis de relevancia de las entradas.

• Obtención de reglas.

• Representación del mapeo entrada-salida.

��

��

��

��

��

��

���

���

���

��

��

��

��

��

��� ���

������� ����� �����

��������� ��������

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano

Page 23: TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOSocw.uv.es/ingenieria-y-arquitectura/2/1intro.pdf · TEMA 1: INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis

RESUMENRESUMEN

• Proceso realimentado.

• Número de entradas al modelo y EDA juegan un papel

muy importante.

• Es necesario comprobar capacidad de generalización.

• Buen ajuste no es sinónimo de buen modelo.

• La elección del modelo debe ser adecuada a la

complejidad del problema.

Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano