3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Post on 10-Mar-2016

227 views 7 download

description

los falsos testimonio, las blasfemias ” Jesucristo “ Porque del corazón salen los malos pensamientos, los homicidios, los adulterios, las fornicaciones, los hurtos, formal casual camina camina Fin de semana? precipita compras? Ropa? maneja camina maneja si Temp > 90? lluvia •Evaluación en los nodos puede ser de la forma •Divida el espacio en rectángulos alineados al eje ( El conjunto de rectángulos y sus valores de salida constituyen nuestra hipótesis) xj > constante

Transcript of 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Aprendizaje con atributos no booleanos

“Porque del corazón salen los malos pensamientos, los homicidios, los adulterios, las fornicaciones, los hurtos, los falsos testimonio, las blasfemias”Jesucristo

Recordando el árbol de decisión

• Use todos los datos para construir un árbol de preguntas con respuestas en las hojas

precipita

lluvia

ningunanieva

formalcasual

compras?

sisi

siFin de

semana?Temp > 90?

camina

camina camina

maneja

maneja

manejamaneja

Ropa?

Atributos numéricos• Evaluación en los nodos puede ser de la forma

xj > constante

• Divida el espacio en rectángulos alineados al eje (El conjunto de rectángulos y sus valores de salida constituyen nuestra hipótesis)

Atributos numéricos• Evaluación en los nodos puede ser de la forma xj > constante• Divida el espacio en rectángulos

F1 2

f1

f2

1no si

1

2

Atributos numéricos• Evaluación en los nodos puede ser de la forma xj > constante• Divida el espacio en rectángulos alineados al eje

F1 > 2

f2

2 f1

1

11 F2>4

no si

2

4

no

1

Atributos numéricos• Evaluación en los nodos puede ser de la forma xj > constante• Divida el espacio en rectángulos alineados al eje

F1 > 2

f2

2 f1

4

1

1

01 F2>4

1 0

La hipótesis sin alineamiento al eje puede ser más pequeña pero

difícil de encontrar

si

si

no

no

Considerando particiones• Considere una separación entre cada punto en cada dimensión

0 0.5 1 1.5 2 R

8765

L 43210

Si No

Considerando particiones• Considere una separación entre cada punto en cada dimensión

0 0.5 1 1.5 2 R

8765

L 43210

Si No

9 divisiones

Tendría que ser m-1

Considerando particiones• Considere una separación entre cada punto en cada dimensión

0 0.5 1 1.5 2 R

8765

L 43210

Si No

6 divisiones

Considerando particiones• Escoger el separador que minimiza el promedio de entropía de cada nodo hijo

0 0.5 1 1.5 2 R

8765

L 43210

Si No

Ejemplo de la bancarrota

8765

L 43210

0 0.5 1 1.5 2 R

Si No

AE 1.00 1.00 0.98 0.98 0.94 0.98 0.92 0.98 0.92

R< x 0.25 0.40 0.60 0.85 1.05 1.15 1.35 1.60 1.80

L<y NI PI ND PD AE

6.5 7 6 0 1 0.93

5.0 7 4 0 3 0.74

3.5 6 3 1 4 0.85

2.5 5 2 2 5 0.86

1.5 4 0 3 7 0.63

0.5 1 0 6 7 0.93

# d e p os a d er

# d e n eg a d er

# d e p ost a izq

# d e n eg a i zq

Ejemplo de la bancarrota

8765

L 43210

0 0.5 1 1.5 2 R

Si No

AE 1.00 1.00 0.98 0.98 0.94 0.98 0.92 0.98 0.92

R< x 0.25 0.40 0.60 0.85 1.05 1.15 1.35 1.60 1.80

L<y NL

PL

NR

PR

AE

6.5 7 6 0 1 0.93

5.0 7 4 0 3 0.74

3.5 6 3 1 4 0.85

2.5 5 2 2 5 0.86

1.5 4 0 3 7 0.63

0.5 1 0 6 7 0.93

Ejemplo de la bancarrota

8765

L 43210

0 0.5 1 1.5 2 R

Si No

AE 1.00 1.00 0.98 0.98 0.94 0.98 0.92 0.98 0.92

R< x 0.25 0.40 0.60 0.85 1.05 1.15 1.35 1.60 1.80

L<y NL

PL

NR

PR

AE

6.5 7 6 0 1 0.93

5.0 7 4 0 3 0.74

3.5 6 3 1 4 0.85

2.5 5 2 2 5 0.86

1.5 4 0 3 7 0.63

0.5 1 0 6 7 0.93

L >1.5sino

??0

Ejemplo de la bancarrota

8765

L 43210

0 0.5 1 1.5 2 R

Si No

L >1.5sino

??0

L<y NL PL NR PR AE

6.5 6 3 0 1 0.83

5.0 4 3 0 3 0.69

3.5 3 2 4 1 0.85

2.5 2 1 5 2 0.88

AE 0.85 0.88 0.79 0.60 0.69 0.76 0.83

R< x 0.25 0.40 0.60 0.90 1.30 1.60 1.80

Ejemplo de la bancarrota

8765

L 43210

0 0.5 1 1.5 2 R

Si No

L >1.5sino

R >0.90

L<y NL PL NR PR AE

6.5 6 3 0 1 0.83

5.0 4 3 0 3 0.69

3.5 3 2 4 1 0.85

2.5 2 1 5 2 0.88

AE 0.85 0.88 0.79 0.60 0.69 0.76 0.83

R< x 0.25 0.40 0.60 0.90 1.30 1.60 1.80

1??sino

Ejemplo de la bancarrota

8765

L 43210

0 0.5 1 1.5 2 R

Si No

L >1.5sino

R >0.90

1?? AE 1.00 0.92 1.00

R< x 0.25 0.40 0.60

L<y NL PL NR PR AE6.5 3 2 0 1 0.815.0 3 0 0 3 0.003.5 2 0 1 3 0.542.5 1 0 2 3 0.81

Ejemplo de la bancarrota

8765

L 43210

0 0.5 1 1.5 2 R

Si No

L >1.5sino

R >0.90

1L>5.0AE 1.00 0.92 1.00

R< x 0.25 0.40 0.60

L<y NL PL NR PR AE6.5 3 2 0 1 0.815.0 3 0 0 3 0.003.5 2 0 1 3 0.542.5 1 0 2 3 0.81

0 1

Ejemplo de la bancarrota

8765

L 43210

0 0.5 1 1.5 2 R

Si No

L >1.5sino

R >0.90

1L>5.0

0 1

Enfermedades cardíacas• El desempeño del árbol de decisión(.77) no es tan bueno

como el vecino más cercano (.81)

0 10 20 30 40

1

0.8

0.6

0.4

0.2

0

Prec

isió

n

Tamaño de hoja mínima

Enfermedades cardíacas

Thal= 1 : examen normal de la evaluación del thallum

sinoThal= 1

Enfermedades cardíacas

Thal= 1 ; examen para evaluar la presencia de un stress llamado thallum Ca= 0; no hay arterias bloqueadas

sinoThal= 1

Ca =0

sino

Enfermedades cardíacas

Thal= 1 ; examen normal del ejercicio thallum sintigrafyCa= 0; ninguna arteria fue coloreadas por fluroscopio

sinoThal= 1

Ca =0

sino

1Tiene enfermedad

cardiaca

Enfermedades cardíacas

Thal= 1 : examen normal del ejercicio thallum sintigrafyCa= 0 : arterias no coloreadas por fluroscopioExang : ejercicio de angina inducido

sinoThal= 1

Ca =0

sino

1

0 1

exang

Enfermedades cardíacas

Thal= 1 : examen normal del ejercicio thallum sintigrafyCa= 0 : arterias no coloreadas por fluroscopioExang : ejercicio de angina inducido

sino

Thal= 1

Ca =0

sino

1

0 1

exang

Ca = 0

sino

Enfermedades cardíacas

Thal= 1 : examen normal del ejercicio thallum sintigrafyCa= 0 : arterias no coloreadas por fluroscopioExang : ejercicio de angina inducido

sino

Thal= 1

Ca =0

sino

1

0 1

exang

Ca = 0sino

Dolor-pecho

10

Enfermedades cardíacas

Thal= 1 : examen normal del ejercicio thallum sintigrafyCa= 0 : arterias no coloreadas por fluroscopioExang : ejercicio de angina inducido

sino

Thal= 1

Ca =0

sino

1

0 1

exang

Ca = 0sino

Dolor-pecho

10

Edad < 57.5

0

Enfermedades cardíacas

Thal= 1 : examen normal del ejercicio thallum sintigrafyCa= 0 : arterias no coloreadas por fluroscopioExang : ejercicio de angina inducidoOldpk: atributo del cardiograma

sino

Thal= 1

Ca =0

sino

1

0 1

exang

Ca = 0sino

Dolor-pecho

10

Edad < 57.5

0

0 1

Oldpk<3.2

Auto que hace 22 MPG?

0

0

1

1

1

Peso >2775

Año > 78.5

Peso >2224.5

Desplazamiento> 189. 5

sino

si

si

Regresión

• La salida es un valor numérico continuo• Promediando pesos localmente (vecino + cercano)• Árboles de regresión (árboles de decisión)

Promediando localmente

x

y

• Recordando todos los datos

Promediando localmente

x

y

•Recordando todos los datos•Cuando alguien hace una pregunta,

•Encontrar los k puntos de datos viejos

Promediando localmente

x

y

•Recordando todos los datos•Cuando alguien hace una pregunta,

•Encontrar los k puntos de datos viejos•Regrese el promedio de las respuestas asociadas con ellos

y = 1/K (Σ yk ) k

Kernel Epanechnikov

• D es la distancia Euclidiana

K(x, xk) = max 3 1 - D(x, xk)2 , 0 4 2

• X=5,5• =4

Promediando localmente los pesos

• Encuentre todos los puntos dentro de la distancia λ de la meta al punto

• Promedie las salidas, usando como peso la distancia que se encuentran de la meta

Promediando localmente los pesos

Árboles de regresión

• Como árboles de decisión pero con valores reales en las hojas.

Árboles de regresión

• Como los árboles de decisión, pero con salida real valuada en las hojas.

X>2

Y < 4

no si

no si3.2

-1.9 2.42

4

2.4

3.2

-1.9

Valores en las hojas

• Asigne un nodo hoja al promedio de los valores “y” de los puntos datos que caen ahí

Valores en las hojas

• Asigne un nodo hoja el promedio de los valores “y” de los puntos datos que caen aquí

• Nos gustaría tener grupos de puntos en una hoja que tiene similares valores “y”(porque entonces el promedio es una buena representación)

Varianza• Medida de cuan extendidos están los

números de un conjunto

Varianza• Medida de la cantidad de números de un conjunto es

extendido• El promedio de m valores, z1 hasta zm :

m

kkz

m 1

1

Varianza• Medida de la cantidad de números de un conjunto es

extendido• El promedio de m valores, z1 hasta zm :

• Varianza: promedio de las distancias al cuadrado entre los valores individuales z’s y la media.

m

kkz

m 1

1

2

1

2 (1

1

m

kkz

m

Déjenos separarD: -2, 9, 12, -40, 11, 10, -1 (valores y)

σ2 =40.5

Déjenos separarD: -2, 9, 12, -4

0, 11, 10, -1σ2 =40.5

-2, 1, -4, 0, -1

9, 12, 11, 10

-2, 9, 1, 12, -4

0, 11, 10, -1

f3 f20 01 1

σ2 =3.7 σ2 =1.67 σ2 =48.7 σ2 =40.67

Déjenos separarD: -2, 9, 12, -4

0, 11, 10, -1σ2 =40.5

-2, 1, -4, 0, -1

9, 12, 11, 10

-2, 9, 1, 12, -4

0, 11, 10, -1

f3 f20 01 1

σ2 =3.7 σ2 =1.67 σ2 =48.7 σ2 =40.67

AV(j)=pj σ2 (D+j )+ (1 + pj ) σ2 (D-

j )

% de D con fj Subconjunto de D con fj =1

Déjenos separarD: -2, 9, 12, -4

0, 11, 10, -1σ2 =40.5

-2, 1, -4, 0, -1

9, 12, 11, 10

-2, 9, 1, 12, -4

0, 11, 10, -1

f3 f20 01 1

σ2 =3.7 σ2 =1.67 σ2 =48.7 σ2 =40.67

AV=(5/8)*3.7+(4/9)*1.67 =2.8

AV= (5/9)*48.7+(4/9)*40.67 =45.13

Deteniéndose

• Deténgase cuando la varianza en una hoja sea suficientemente pequeño

• O cuando tenga menos que umbral hoja-min en una hoja

Deteniendo• Detenga cuando la varianza en una hoja sea

suficientemente pequeño• O cuando tenga mucho menos que umbral hoja-min en

una hoja• Haga “y” una hoja teniendo el promedio de los

valores “y” de los elementos.

-2, 1-4, 0, -1

9, 12,11, 10

-1.2 10.5

f30 1

• Tomado del Instituto Tecnológico de Massachusetts www.owc.mit.edu6.034 Artificial Intelligence 2004

Archivo: ch6-mach1.pdf

Ejercicios

• •

• 1 2 3 4 5 6 7 8 9 10 11 12 13 f

•Usando este conjunto de datos, muestre el árbol de decisión que seria construido con ellos. Asuma que las evaluaciones en el árbol son de la forma f ≤ c. Para cada evaluación muestre el valor aproximado del promedio de desorden para cada pregunta. Para ayudarle a calcular esto, use la tabla de valores de –(x/y)*log(x/y).