Taller Clasificacion 2702361

MINERIA DE DATOS

Taller 4 Clasificacin PROFESORA ELIZABETH LEON GUZMN

Luis Andrade Cd. 2702361

ACTIVIDADES

1. Dado el siguiente conjunto de datos:

A B C clase

0 0 1 -

1 0 1 +

0 1 0 -

1 0 0 -

1 0 1 |

0 0 1 |

1 1 0 -

0 0 0 -

0 1 0 +

1 1 1 +

a) Estime la probabilidad condicional para P(A=1|+), P(B=1|+)P(C=1|+), P(A=1|), P(B=1|) y P(C=1|)

P(A=1|+) = P(A=1 Clase=+)/P(Clase=+) = 2/3 = 0,667

P(B=1|+) = P(B=1 Clase=+)/P(Clase=+) = 2/3 = 0,667

P(C=1|+) = P(C=1 Clase=+)/P(Clase=+) = 2/3 = 0,667

P(A=1|) = P(A=1 Clase=+)/P(Clase=-) = 2/3 = 0,4

P(B=1|) = P(B=1 Clase=+)/P(Clase=-) = 2/3 = 0,4

P(C=1|) = P(C=1 Clase=+)/P(Clase=-) = 2/3 = 0,4

b) Use las probabilidades calculadas para predecir la clase para el siguiente ejemplo z =< 1, 1, 1 >,

usando Naive Bayes

B=1

0,4

A=1

C=1

0,5 0,5

Clase = + Clase = - Clase = |

A=1 0,66666667 0,4 0,5 A=0 0,33333333 0,5 0,5 B=1 0,66666667 0,4 0 B=0 0,33333333 0,6 1 C=1 0,66666667 0,2 1 C=0 0,33333333 0,8 0

P(Clase = +) P(Clase = -) P(Clase = |)

0,3 0,5 0,2

A B C Clase

1 1 1 +

A B C Clase = + Clase = - Clase = |

1 1 1 0,0888889 0,016 0

Se encontr que la prediccin corresponde a la clase = +

c) Compare P(A = 1), P(B = 1), y P(A = 1,B = 1). Existe relacin entre A y B? explique.

P(A = 1) = 5/10 = 0,5

P(B = 1) = 4/10 = 0,4

P(A = 1,B = 1) = 2/10 = 0,2 Dado que P(A = 1)*(B = 1)=P(A = 1,B = 1) se puede deducir que son independientes.

d) Compare P(A = 1), P(B = 0), y P(A = 1,B = 0). Existe relacin entre A y B? explique.

P(A = 1) = 5/10 = 0,5

P(B = 0) = 6/10 = 0,6

P(A = 1,B = 0) = 3/10 = 0,3

Dado que P(A = 1)*(B = 0)=P(A = 1,B = 0) se puede deducir que son independientes

e) Compare P(A = 1,B = 1 | clase = +) con P(A = 1 | clase = +) y P(B = 1 | clase = +). Son las variables condicionalmente independientes dada la clase?

P(A = 1,B = 1 | clase = +) = 1/3 = 0,333

P(A = 1 | clase = +) = 2/3 = 0,667

P(B = 1 | clase = +) = 2/3 = 0,667

P(A = 1 | clase = +) * P(B = 1 | clase = +) = 4/9 = 0,444

Dado que P(A = 1,B = 1 | clase = +) es diferente a P(A = 1 | clase = +) * P(B = 1 | clase = +) se puede deducir que no son condicionalmente independientes de la clase.

2. Dado el siguiente conjunto de datos que describe seis sesiones de usuarios visitando un sitio Web con 4 URLs:

URL1 URL2 URL3 URL4: clase

si si si si

si si no no

si no no no

si no si si

no si no no

no si si no

a) Construir un rbol de decisin para predecir si un usuario visita o no la URL4 (tratada como la clase). Usar el criterio de informacin Gain para seleccionar los nodos. Colocar los detalles de los calculos de la entropa y Gain por cada atributo y por cada uno de los subconjuntos que se vayan generando. Ir dibujando el arbol a mediada que se va particionando. Explicar cual nodo es raiz y por que.

La entropa de la Clase:

=-0,33*LOG(0,33;2)-0,66*LOG(0,66;2)

URL4

SI NO

2 4

Entropa 0,9234

La entropa y la ganancia del atributo URL1 con respecto a la clase:

E(URL4,URL1)=P(SI)*E(2,2)+P(NO)*E(0,2)

URL4

SI NO

URL1 SI 2 2 4

NO 0 2 2

Total: 6

Entropa 0,66666 Gain 0,25674



URL4

SI NO

URL2 SI 1 3 4

NO 1 1 2

Total: 6

Entropa 0,874185416 Gain 0,049214584



URL4

SI NO

URL3 SI 2 1 3

NO 0 3 3

Total: 6

Entropa 0,459147917 Gain 0,464252083

Para el rbol, se toma como nodo raz el atributo URL3 que tiene la Mayor ganancia calculada, ya que es el atributo con la mayor relacin con respecto a la clase. Se continua evaluando los valores del subconjunto que ahora genera.

Para determinar los valores del atributo Si Los valores de entropa para el siguiente subconjunto:

URL1 URL2 URL3 URL4

SI SI SI SI

SI NO SI SI

NO SI SI NO

URL4

SI NO

2 1

ENTROPA 0,918295834

URL4

SI NO

URL1 SI 2 0 2

NO 0 1 1

Total: 3

Entropa 0 Gain 0,918295834

URL4

SI NO

URL2 SI 1 1 2

NO 1 0 1

Total: 3

Entropa 0,666666667 Gain 0,251629167

URL4

SI NO

URL3 SI 2 1 3

NO 0 0 0

Total: 3

Entropa 0,918295834 Gain 0

Dado el subconjuto anterior se calcularon los valores como Entropa y Ganancia, para continuar con la construccin del rbol, se selecciona el nodo URL1, el cual es que tiene la mayor Ganancia:

2). La URL2, no es relevante para predecir el comportamiento de navegacin de la clase objetivo. 3). Visita la URL4, si URL3 = Si => URL1 = 1 =>Visita URL4 = Si. R:/ IF (URL3 == Si AND URL1 ==Si) THEN Visita URL4 = Si 4). Predecir si el siguiente patrn visitar la URL4. URL1 = no; URL2 = no; URL3 = yes.

R:/ De acuerdo al rbol de decisin el patrn no visita la URL4, ya que UR1 = No.

a) Calcular:

VERDAD HIPTESIS

URL1 URL2 URL3 URL4 Visita URL4?

SI NO NO NO NO

SI SI SI SI SI

NO SI NO SI NO

NO NO SI NO NO

NO SI SI SI NO

i) Matriz de Confusin

Verdad

SI NO

Hiptesis SI 1 0

NO 2 2

ii) Tasa de deteccin = 3/5 iii) Falsa Alarma = 0/2

iv) Precisin

1 VP/(VP+FP)

v) Recall

0,333333 VP/(VP+FN)

vi) F1

0,5 2/((1/r)+(1/p))

3. Nearest Neighbor. Suponga que los ejemplos categricos de 5 dimensiones:

Xl X2 X3 X4 X5

A 1 0 1 1 0

B 1 1 0 1 0

C 0 0 1 1 0

D 0 1 0 1 0

E 1 0 1 0 1

F 0 1 1 0 0

estn distribuidos en dos grupos: Ci {A,B,E} Y C2 {C,D,F}

a) Use el algoritmo de k-nearest neighbor para encontrar la clasificacin de los siguientes

ejemplos: Y {1,1,0,1,1] usando K 1 Y {1,1,0,1,1] usando K 3 Y {0,1,0,0,0] usando K 1 Y {0,1,0,0,0] usando K 5

b) Discuta los resultados

4. SVM (Taller)

5. Se tiene la siguiente tabla correspondiente a 10 registros con su clase (5 y 5 -), la clase corresponde a la segunda columna. La tercera columna corresponde a la probabilidad Posterior P(+ ) generada por un clasificador Naive Bayes ordenados. Las otras columnas corresponden a TP, FP, TN y FN cuando se clasifican todos los registros mayores a la P( x) del registro actual como clase , y los que son menores a P( x) como clase -. Por ejemplo, los valores de la primera fila indican que los 10 registros fueron clasificados como pero 5 son de la clase - (FP); los valores de la segunda fila indican que 9 registros fueron clasificados como , y 1 como - (5 son de la clase -); los valores de la tercera fila indican que 8 registros fueron clasificados como , de los cuales 4 son de la clase -.

clase P(+|x) TP FP TN FN TPR FPR

1 + 0.25 5 5 0 0

2 - 0.43 4 5 0 1

3 + 0.53 4 4 1 1

4 - 0.76 3 4 1 2

5 - 0.85 3 3 2 2

6 - 0.85 3 2 3 2

7 + 0.85 3 1 4 2

8 - 0.87 2 1 4 3

9 + 0.93 2 0 5 3

10 + 0.95 1 0 5 4

1.00 0 0 5 5

a) Calcular la TPR y FPR TPR = TP , FPR = FP . TP + FN TN + FP

clase P(+|x) TP FP TN FN TPR FPR

1 + 0.25 5 5 0 0 1 1 2 - 0.43 4 5 0 1 0,8 1 3 + 0.53 4 4 1 1 0,8 0,8 4 - 0.76 3 4 1 2 0,6 0,8 5 - 0.85 3 3 2 2 0,6 0,6 6 - 0.85 3 2 3 2 0,6 0,4

7 + 0.85 3 1 4 2 0,6 0,2 8 - 0.87 2 1 4 3 0,4 0,2 9 + 0.93 2 0 5 3 0,4 0 10 + 0.95 1 0 5 4 0,2 0 1.00 0 0 5 5

b) Dibujar la curva Receiver Operating Characteristics (ROC)

Taller Clasificacion 2702361

Documents

Transcript of Taller Clasificacion 2702361