Tratamiento de Valores Faltantes en Newton...

28
Tratamiento de Valores Faltantes en Newton Trees Vicent Estruch Cèsar Ferri Ramirez José Hernández Orallo Fernando Martínez Plumed María José Ramírez Quintana TAMIDA 2010 Valencia, España 1

Transcript of Tratamiento de Valores Faltantes en Newton...

Page 1: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Tratamiento de

Valores

Faltantes en

Newton Trees

Vicent Estruch

Cèsar Ferri Ramirez

José Hernández Orallo

Fernando Martínez Plumed

María José Ramírez Quintana

TAMIDA 2010Valencia, España

1

Page 2: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

ÍNDICE

1. Introducción

2. Newton Trees

3. Valores Faltantes

4. Experimentación

5. Conclusiones y Trabajo Futuro

2

Page 3: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Introducción

1.1 Problema

1.2 Árboles de Decisión

1.3 PET´s

1.4 DBDT

1

3

Page 4: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

1.1 Resumen

Presentación de nuestro método deinducción de árboles de decisión másreciente, los Newton Trees.

Problema a resolver:

Tratamiento de instancias con valoresfaltantes en las fases de construcción, usoy representación de este tipo de árboles.

Introducción4

Page 5: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

1.2 Árboles de Decisión

Los árboles de decisión son una de las técnicasmás populares y potentes en KDD.

Se basan en la idea de particionarrecursivamente el conjunto de entrenamientoen conjuntos cada vez más pequeños hasta queel conjunto es puro.

Nodos Condiciones (atributo seleccionado).

ID3 , C4.5 o C5.0 [Quinlan], CART [Breiman].

Buenos resultados en Accuracy.

Introducción5

Page 6: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

1.3 PETs Variación de los árboles de decisión clásicos

donde la salida proporcionada es unaprobabilidad.

No modifican la manera de construir losárboles: usan criterios, particiones y métodosde poda diseñados para otras tareas o medidas.

Buenos resultados en términos del AUC (AreaUnder the Curve) y MSE (Mean Squared Error).

Aunque los PETs retornan probabilidades, noson probabilísticos en términos de cómo se usael árbol y si los ejemplos descienden por unarama o varias ramas a la vez.

Introducción7

Page 7: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

1.4 DBDT“Distance-Based Decision Trees”

Uso de distancias y funciones de similitudpara diseñar árboles de decisión másflexibles.

Permite tratar cualquier tipo de datos en elque se puedan definir distancias.

Devuelve un árbol de prototipos de clase(nodos en el árbol).

Un ejemplo caerá en un nodo dadodependiendo de su proximidad al prototipode clase.

Introducción8

Page 8: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

1.4 DBDT

Introducción

dnum(x,y) diferencia absolutadnom(x,y) función identidad

9

Page 9: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Newton Trees

2.1 Newton Trees

2.2 Particiones Gravitacionales

2.3 Generación del Árbol

2.4 Cálculo Estocástico de la Probabilidad

2.5 Comprensibilidad

2

10

Page 10: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Newton Trees Particiones

Gravitacionales Árboles de Estimación Estocástica de Probabilidades.

Tratamiento homogéneo de cualquier tipo de datos.

Construcción, uso y representación del árbol basadosen el principio de atracción. Las probabilidades sederivan también a partir de dicho principio.

Árbol de prototipos.

Representación gráfica del árbol sencilla deinterpretar.

Los árboles son univariantes, pero sus particiones noson necesariamente paralelas a los ejes.

2.1 Newton Trees

Newton Trees11

Page 11: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Newton Trees Particiones

Gravitacionales Particiones nodo/cluster por clase.

Cada nodo/cluster es caracterizado por unprototipo (medioide).

A partir de los medioides calculados losdatos se distribuyen de acuerdo a lasiguiente función de atracción:

2.2 Particiones Gravitacionales

Newton Trees12

Page 12: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Newton Trees Particiones

Gravitacionales1. Para cada atributo Xr y cada clase i, se

calcula un prototipo πr,i.

2. Seleccionar el atributo que maximicealgún criterio de partición (Gain Ratio).

3. Se asocia cada instancia deentrenamiento a su prototipo máspróximo.

4. Si la partición es impura ir a 1, si noFin.

2.3 Generación del árbol

Newton Trees13

Page 13: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Newton Trees Particiones

Gravitacionales1. Computar, desde la raíz a las hojas, la

probabilidad de caer en cada nodo.

2. Calcular el vector de probabilidad encada hoja.

2.4 Cálculo estocástico de la probabilidad

Newton Trees14

Page 14: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Newton Trees Particiones

Gravitacionales3. Propagar hacia arriba este vector para

obtener en la raíz el vector total de

probabilidad p(root,e)

2.4 Cálculo estocástico de la probabilidad

Newton Trees15

Page 15: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Instancia a clasificar:

(FEMALE,NO)

Newton Trees

2.4

16

Page 16: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

ValoresFaltantes

3.1 Valores Faltantes

3.2 Valores Faltantes en C4.5

3.3 Valores Faltantes en Newton Trees

3.4 Ejemplo

3

17

Page 17: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

¿Qué pasa cuando parte de los datos estánincompletos como ocurre generalmente concualquier conjunto de datos de la vida real?

Descartar una proporción importante de los datos por incompletos y declarar algunos casos como inclasificables.

Adaptar los algoritmos para poder trabajar con atributos con valores faltantes.

Valores Faltantes

3.1 Valores Faltantes

18

Page 18: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Quinlan mostró que la combinación de todos losposibles resultados con un valor faltante en elejemplo de test en la fase de clasificaciónproporciona una mejor precisión general queotros enfoques.

Para clasificar un ejemplo e, éste se propagapor todas las ramas para calcular suprobabilidad de forma proporcional al númerode instancias de entrenamiento (con valoresconocidos para el atributo de partición).

El algoritmo C4.5 adopta esta aproximación.

Valores Faltantes

3.2 Valores Faltantes en C4.5

19

Page 19: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Aproximación en Newton Trees: paraatributos con valores faltantes se asume quela distancia a cualquier prototipo es igual,tal que:

Se ignoran los valores faltantes en la fase deaprendizaje .

Se establece constante (igual a 1) el valor dela distancia a cualquier.

Valores Faltantes

3.3 Valores Faltantes en Newton Trees

20

Page 20: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Instancia de Test:

(FEMALE,?)

Valores Faltantes

3.4 Ejemplo

21

Page 21: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Experimentación

4.1 Configuración

4.2 Resultados

4

22

Page 22: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Newton Trees vs J48 (sin poda y con suavizado de Laplace en las hojas) implementado en WEKA.

Gain Ratio.

30 Datasets extraídos del repositorio UCI.

20 repeticiones x 5 folds Cross Validation.

Métricas de evaluación: Accuracy, AUC y MSE.

4.1 Configuración

Experimentación23

Page 23: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Tabla 1. Comparativa

(30 Datasets)

Newton TreesUnpruned Laplace

J48

Acc. AUC MSE Acc. AUC MSE

Media 81,7 0,86 0,1 80,6 0,83 0,11

Media (No Faltantes)

81,1 0,86 0,1 79,7 0,82 0,11

Media (Faltantes)

83,9 0,87 0,09 83,6 0,86 0,1

4.2 Resultados

24

Page 24: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Conclusiones y Trabajo Futuro

5.1 Conclusiones

5.2 Trabajo futuro

5

25

Page 25: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Se ha analizado el comportamiento delalgoritmo de clasificación, los Newton Trees,ante conjuntos de datos con valoresfaltantes obtenidos del repositorio UCI.

Los Newton Trees pueden tratar todas lasinstancias uniformemente (sean con valoresfaltantes o no) de la misma manera que elC4.5 trata los valores faltantes, es decir,estocásticamente.

Conclusiones

5.1 Conclusiones

26

Page 26: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Esta caracterización ha proporcionado los resultados esperados (en concordancia con los Newton Trees originales).

Se cumplen nuestras expectativas en cuanto a homogeneidad (en el tratamiento de los tipos de datos), transparencia (tratamiento de los datos inteligible), eficiencia (con un coste bajo) y eficacia (con resultados equiparables a los que los Newton Trees han demostrado para datasets sin valores faltantes).

Conclusiones

5.1 Conclusiones

27

Page 27: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

Debido al limitado número de datasets con valores faltantes utilizados (7), es necesaria una experimentación más amplia y exhaustiva del problema para certificar los buenos resultados obtenidos.

Experimentación con tipos de datos estructurados.

Conclusiones

5.2 Trabajo Futuro

28

Page 28: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo

¡Gracias!

30