Comparación de cuatro técnicas de selección de características envolventes para procesos de...
-
Upload
ximen-calistro -
Category
Documents
-
view
5 -
download
0
Transcript of Comparación de cuatro técnicas de selección de características envolventes para procesos de...
![Page 1: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/1.jpg)
Comparación de cuatro técnicas de selección de características envolventes
para procesos de clasificación.
Samuel Oporto DíazIván Aquino Morales
Jacqueline Chávez CuzcanoCésar Pérez Pinche
erro
r d
el c
lasi
ficad
or
número de características
número de ejemplos
![Page 2: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/2.jpg)
22/45/45
PLANTEAMIENTO DEL PROBLEMA
![Page 3: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/3.jpg)
33/45/45
Selección de Características
La selección de características se encuentra dentro de la etapa de preparación de datos dentro de un proceso de minería de datos.
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelación
Evaluación
Despliegue de resultados
DATOS
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelación
Evaluación
Despliegue de resultados
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelación
Evaluación
Despliegue de resultados
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelación
Evaluación
Despliegue de resultados
DATOS
![Page 4: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/4.jpg)
44/45/45
Selección de Características
Encontrar un subconjunto de características Sm’ del conjunto inicial de características Sm tal que logren minimizar el error de un clasificador.
Se trata de reducir la dimensionalidad de los patrones de entrada Sm.
Sm’ se construye eliminando las variables redundantes o las que no aportan suficiente información al clasificador.
![Page 5: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/5.jpg)
55/45/45
Selección de Características
• Si se evalua todo el espacio de posibles combi-naciones, el costo computacional es muy alto
• Si n es la cantidad de características identificadas y m es la cantidad de características deseadas, el número total de posibles subconjuntos a evaluar es:
Si n = m; 2n
n 2n
10 1,02420 1,048,57630 1,073,741,82440 1,099,511,627,776
![Page 6: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/6.jpg)
66/45/45
PROCEDIMIENTO DE SOLUCION
![Page 7: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/7.jpg)
77/45/45
Proceso de Selección de Características
FiltroEnvolventeHíbrido
e: error del clasificador
B. OptimaB. Sub-optimaB. AleatoriaB. Heurística
Clasificador
![Page 8: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/8.jpg)
88/45/45
Generación del Sub-Conjunto
• Búsqueda exhaustiva
• Búsqueda secuencial hacia delante.• Búsqueda secuencial hacia atrás.
• Búsqueda Aleatoria (BA).• Búsqueda Aleatoria Optimizada (BAO)
• Búsqueda Mejor Primero (BMP)• Búsqueda Genética (BG)
Optima
Sub-optima
Aleatoria
Heurística
![Page 9: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/9.jpg)
99/45/45
Evaluación del Sub-Conjunto
• Filtro. Independientes del algoritmo de aprendizaje.
• Componente principal, entropía.
• Envolvente. Usan el mismo algoritmo para escoger el sub-conjunto como para el aprendizaje.
• Búsqueda Aleatoria, Búsqueda Aleatoria Optimizada, Búsqueda Mejor Primero, Búsqueda Genética.
• Híbridos. Filtro + Envolvente.
![Page 10: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/10.jpg)
1010/45/45
Criterio de Paro
¿Cuándo detener la búsqueda? :
error del clasificador
![Page 11: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/11.jpg)
1111/45/45
ALGORITMOS
![Page 12: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/12.jpg)
1212/45/45
Algoritmos de Búsqueda
• BUSQUEDA ALEATORIA (BA)• Realiza una búsqueda sobre un porcentaje de
todo el espacio de sub-conjuntos posibles, seleccionados aleatoriamente. Es una búsqueda de tipo exhaustivo.
• BUSQUEDA ALEATORIA OPTIMIZADA (BAO)• Dado un subconjunto de características, si al
quitar una característica.– error sube relevante <fracaso>– error baja irrelevente <exito>
• Se pretende eliminar las irrelevantes.
![Page 13: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/13.jpg)
1313/45/45
Algoritmos de Búsqueda
• BUSQUEDA MEJOR PRIMERO (BMP)• Usa un árbol de búsqueda, de tal forma que la
característica de mejor evaluación inicial sea la primera en ser considerada como parte del subconjunto óptimo de características.
• BUSQUEDA GENÉTICA (BG)• Hace uso de un algoritmo genético. El objetivo
consiste en encontrar el sub-conjunto de características (individuos) óptimas mediante la minimización de una función objetivo (tasa de error del clasificador).
![Page 14: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/14.jpg)
1414/45/45
Criterio de Paro
Búsqueda Aleatoria (BA) gradiente error < umbral
Búsqueda Aleatoria Optimizada (BAO) fracasos consecutivos < umbral
Búsqueda Mejor Primero (BMP) error (l) < error (l + k) k = [1, 2, 3, 4, 5]
Búsqueda Genética (BG) minimizar el error del clasificador.
![Page 15: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/15.jpg)
1515/45/45
Algoritmos de Clasificación
Desarrollado por Quinlan. Es un árbol de regresión.Es recursivo, y se basa en la estrategia "divide y vencerás“Mejora del ID3.
Árbol de Decisión C4.5 Naive Bayesian
Aprendizaje probabilístico:Incremental: Cada ejemplo puede incrementar / decrementar la probabilidad de que una hipótesis sea correcta.La predicción probabilística predice múltiples hipótesis ponderadas
Tiempo P N Humedad P Nsoleado 2/9 3/5 alta 3/9 4/5cubierto 4/9 0 normal 6/9 1/5lluvia 3/9 2/5Temperatura Vientocalor 2/9 2/5 si 3/9 3/5suave 4/9 2/5 no 6/9 2/5fresco 3/9 1/5
![Page 16: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/16.jpg)
1616/45/45
Algoritmos de Clasificación
Presentadas en 1992. Vapnik y Chervonenkis.Crea nuevas características linealmente separables.Busca un hiperplano que puede separar el espacio en dos partes
Maquinas de Vector Soporte
Red de Retropropagación
Trabaja con datos continuos o discretosLa salida puede ser vector de valores reales o discretos.Aprende por modificación de los pesos.Largo tiempo de entrenamiento Es difícil entender el significado de los pesos.
![Page 17: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/17.jpg)
1717/45/45
FUENTES DE DATOS
![Page 18: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/18.jpg)
1818/45/45
Datos
Nombre inst
anci
as
cara
cter
ístic
as
clases % nom % num 1% 0%ADULT 48,842 14 2 57 43 23.5 76.5BANDS 512 39 2 50 50 35.5 64.5MUSHROOM 8,124 22 2 100 0 37.3 62.7
UCI Repository of Machine Learning DatabaseUniversity of California
![Page 19: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/19.jpg)
1919/45/45
DISEÑO DE EXPRIMENTO
![Page 20: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/20.jpg)
2020/45/45
Diseño de Experimentos
DATOS
AL
GO
RIT
MO
D
E B
US
QU
ED
AC
LA
SIF
ICA
DO
RE
S
ADULT, BANDS, MUSHROOM
• Árbol de Decisión C4.5
• Naive Bayesian
• Maquinas de Vector Soporte
• Red de Retropropagación
• Búsqueda Aleatoria
• Búsqueda Aleatoria Optimizada
• Búsqueda Mejor Primero
• Búsqueda Genética
48experimentos
K-fold
K = 10
Validación cruzadaANOVAVoting
![Page 21: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/21.jpg)
2121/45/45
RESULTADOS EXPERIMENTALES
![Page 22: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/22.jpg)
2222/45/45
Resultados Experimentales
![Page 23: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/23.jpg)
2323/45/45
BANDS BA BAO BMP BG Puntaje ( e )BA 0 1 2 2 5
BAO 3 0 3 4 10BMP 2 1 0 3 6BG 2 0 1 0 3
ADULT BA BAO BMP BG Puntaje ( e )BA 0 0 2 1 3
BAO 4 0 1 1 6BMP 2 3 0 1 6BG 3 3 3 0 9
MUSHROOM BA BAO BMP BG Puntaje ( e )BA 0 1 1 1 3
BAO 3 0 3 3 9BMP 3 1 0 3 7BG 3 1 1 0 5
Tablas de Votación (error)Puntajes en función a la tasa de error promedio del clasificador
![Page 24: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/24.jpg)
2424/45/45
Tablas de Votación (reducción)Puntajes en función al porcentaje de reducción promedio de las características de las bases de datos
BANDS BA BAO BMP BG Puntaje ( % red )BA 0 3 2 1 6
BAO 1 0 2 1 4BMP 2 2 0 2 6BG 3 3 2 0 8
ADULT BA BAO BMP BG Puntaje ( % red )BA 0 4 2 3 9
BAO 0 0 2 0 2BMP 2 2 0 2 1BG 1 4 2 0 7
MUSHROOM BA BAO BMP BG Puntaje ( % red )BA 0 3 2 1 6
BAO 1 0 0 0 1BMP 1 4 0 1 6BG 3 4 3 0 10
![Page 25: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/25.jpg)
2525/45/45
Conclusión Voting
Reducción del error• No se puede concluir quién es el peor (2BA y 1BG)• No se puede concluir quién es el mejor (2 BAO y 1BG)
Reducción de la dimensionalidad.• El peor es BAO para la data usada (3 BAO)• No se puede concluir quién es el mejor (2 BG, 1 BA)
![Page 26: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/26.jpg)
2626/45/45
ANOVA: Error
24,4 22,4 23,4 26,275BA BAO BMP BG
24,4 BA 0,93680459 0,1475422 2,10833222,4 BAO 0,6632365 2,7093123,4 BMP 1,919958
26,275 BG
ERROR (%)
4,125 2,5 2,7 2,6BA BAO BMP BG
4,125 BA 0,88402 0,79302 1,292422,5 BAO 0,04872 0,064872,7 BMP 0,067022,6 BG
ERROR (%)
t(5%,6)=1.9432
23,6 22,4 23,4 26,275BA BAO BMP BG
23,6 BA 1,692829 0,277184 3,3248622,4 BAO 1,961948 6,2333323,4 BMP 4,51995
26,275 BG
ERROR (%)
BANDS
ADULT
MUSHROOM
![Page 27: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/27.jpg)
2727/45/45
ANOVA: Reducción t(5%,6)=1.9432
BANDS
ADULT
MUSHROOM 48,8635 28,409 51,13625 60,2275BA BAO BMP BG
48,8635 BA 2,17217 0,26262 1,8678028,409 BAO 0,93658 3,0430151,1363 BMP 0,9300360,2275 BG
REDUCCIÓN (%)
44,9998 20,0000 23,3335 31,6668BA BAO BMP BG
44,9998 BA 3,38232 1,832351 1,7597220,0000 BAO 0,333352 2,7815323,3335 BMP 0,82231,6668 BG
REDUCCIÓN (%)
50,8065 49,1935 57,25825 61,29025BA BAO BMP BG
50,8065 BA 0,25132383 0,8193583 1,03313449,1935 BAO 1,1840049 1,294193
57,25825 BMP 0,38766261,29025 BG
REDUCCIÓN (%)
![Page 28: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/28.jpg)
2828/45/45
Conclusión ANOVA
Reducción del error• El peor es el BG para la data usada• Los mejores son BAO y BA para la data usada,
pero entre los no se de puede concluir una diferencia.
Reducción de la dimensionalidad.• El peor es el BAO para la data usada• Los mejores son BA y BG para la data usada,
pero entre los no se de puede concluir una diferencia.
![Page 29: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.](https://reader033.fdocuments.es/reader033/viewer/2022061215/54a5bea64979592a738b4bd7/html5/thumbnails/29.jpg)
2929/45/45
GRACIAS