Taller Clasificacion 2702361

7
MINERIA DE DATOS Taller 4 Clasificación PROFESORA ELIZABETH LEON GUZMÁN Luis Andrade Cód. 2702361 ACTIVIDADES 1. Dado el siguiente conjunto de datos: A B C clase 0 0 1 - 1 0 1 + 0 1 0 - 1 0 0 - 1 0 1 | 0 0 1 | 1 1 0 - 0 0 0 - 0 1 0 + 1 1 1 + a) Estime la probabilidad condicional para P(A=1|+), P(B=1|+)P(C=1|+), P(A=1|), P(B=1|) y P(C=1|) P(A=1|+) = P(A=1 Clase=+)/P(Clase=+) = 2/3 = 0,667 P(B=1|+) = P(B=1 Clase=+)/P(Clase=+) = 2/3 = 0,667 P(C=1|+) = P(C=1 Clase=+)/P(Clase=+) = 2/3 = 0,667 P(A=1|—) = P(A=1 Clase=+)/P(Clase=-) = 2/3 = 0,4 P(B=1|—) = P(B=1 Clase=+)/P(Clase=-) = 2/3 = 0,4 P(C=1|—) = P(C=1 Clase=+)/P(Clase=-) = 2/3 = 0,4 b) Use las probabilidades calculadas para predecir la clase para el siguiente ejemplo z =< 1, 1, 1 >, usando “Naive Bayes” B=1 0,4 A=1 C=1 0,5 0,5 Clase = + Clase = - Clase = |

description

Mineria de Datos

Transcript of Taller Clasificacion 2702361

  • MINERIA DE DATOS

    Taller 4 Clasificacin PROFESORA ELIZABETH LEON GUZMN

    Luis Andrade Cd. 2702361

    ACTIVIDADES

    1. Dado el siguiente conjunto de datos:

    A B C clase

    0 0 1 -

    1 0 1 +

    0 1 0 -

    1 0 0 -

    1 0 1 |

    0 0 1 |

    1 1 0 -

    0 0 0 -

    0 1 0 +

    1 1 1 +

    a) Estime la probabilidad condicional para P(A=1|+), P(B=1|+)P(C=1|+), P(A=1|), P(B=1|) y P(C=1|)

    P(A=1|+) = P(A=1 Clase=+)/P(Clase=+) = 2/3 = 0,667

    P(B=1|+) = P(B=1 Clase=+)/P(Clase=+) = 2/3 = 0,667

    P(C=1|+) = P(C=1 Clase=+)/P(Clase=+) = 2/3 = 0,667

    P(A=1|) = P(A=1 Clase=+)/P(Clase=-) = 2/3 = 0,4

    P(B=1|) = P(B=1 Clase=+)/P(Clase=-) = 2/3 = 0,4

    P(C=1|) = P(C=1 Clase=+)/P(Clase=-) = 2/3 = 0,4

    b) Use las probabilidades calculadas para predecir la clase para el siguiente ejemplo z =< 1, 1, 1 >,

    usando Naive Bayes

    B=1

    0,4

    A=1

    C=1

    0,5 0,5

    Clase = + Clase = - Clase = |

  • A=1 0,66666667 0,4 0,5 A=0 0,33333333 0,5 0,5 B=1 0,66666667 0,4 0 B=0 0,33333333 0,6 1 C=1 0,66666667 0,2 1 C=0 0,33333333 0,8 0

    P(Clase = +) P(Clase = -) P(Clase = |)

    0,3 0,5 0,2

    A B C Clase

    1 1 1 +

    A B C Clase = + Clase = - Clase = |

    1 1 1 0,0888889 0,016 0

    Se encontr que la prediccin corresponde a la clase = +

    c) Compare P(A = 1), P(B = 1), y P(A = 1,B = 1). Existe relacin entre A y B? explique.

    P(A = 1) = 5/10 = 0,5

    P(B = 1) = 4/10 = 0,4

    P(A = 1,B = 1) = 2/10 = 0,2 Dado que P(A = 1)*(B = 1)=P(A = 1,B = 1) se puede deducir que son independientes.

    d) Compare P(A = 1), P(B = 0), y P(A = 1,B = 0). Existe relacin entre A y B? explique.

    P(A = 1) = 5/10 = 0,5

    P(B = 0) = 6/10 = 0,6

    P(A = 1,B = 0) = 3/10 = 0,3

    Dado que P(A = 1)*(B = 0)=P(A = 1,B = 0) se puede deducir que son independientes

    e) Compare P(A = 1,B = 1 | clase = +) con P(A = 1 | clase = +) y P(B = 1 | clase = +). Son las variables condicionalmente independientes dada la clase?

    P(A = 1,B = 1 | clase = +) = 1/3 = 0,333

    P(A = 1 | clase = +) = 2/3 = 0,667

    P(B = 1 | clase = +) = 2/3 = 0,667

    P(A = 1 | clase = +) * P(B = 1 | clase = +) = 4/9 = 0,444

    Dado que P(A = 1,B = 1 | clase = +) es diferente a P(A = 1 | clase = +) * P(B = 1 | clase = +) se puede deducir que no son condicionalmente independientes de la clase.

    2. Dado el siguiente conjunto de datos que describe seis sesiones de usuarios visitando un sitio Web con 4 URLs:

  • URL1 URL2 URL3 URL4: clase

    si si si si

    si si no no

    si no no no

    si no si si

    no si no no

    no si si no

    a) Construir un rbol de decisin para predecir si un usuario visita o no la URL4 (tratada como la clase). Usar el criterio de informacin Gain para seleccionar los nodos. Colocar los detalles de los calculos de la entropa y Gain por cada atributo y por cada uno de los subconjuntos que se vayan generando. Ir dibujando el arbol a mediada que se va particionando. Explicar cual nodo es raiz y por que.

    La entropa de la Clase:

    =-0,33*LOG(0,33;2)-0,66*LOG(0,66;2)

    URL4

    SI NO

    2 4

    Entropa 0,9234

    La entropa y la ganancia del atributo URL1 con respecto a la clase:

    E(URL4,URL1)=P(SI)*E(2,2)+P(NO)*E(0,2)

    URL4

    SI NO

    URL1 SI 2 2 4

    NO 0 2 2

    Total: 6

    Entropa 0,66666 Gain 0,25674

    La entropa y la ganancia del atributo URL2 con respecto a la clase:

    E(URL4,URL2)=P(SI)*E(1,3)+P(NO)*E(1,1)

    URL4

    SI NO

    URL2 SI 1 3 4

    NO 1 1 2

    Total: 6

    Entropa 0,874185416 Gain 0,049214584

    La entropa y la ganancia del atributo URL3 con respecto a la clase:

    E(URL4,URL2)=P(SI)*E(2,1)+P(NO)*E(0,3)

    URL4

    SI NO

    URL3 SI 2 1 3

    NO 0 3 3

  • Total: 6

    Entropa 0,459147917 Gain 0,464252083

    Para el rbol, se toma como nodo raz el atributo URL3 que tiene la Mayor ganancia calculada, ya que es el atributo con la mayor relacin con respecto a la clase. Se continua evaluando los valores del subconjunto que ahora genera.

    Para determinar los valores del atributo Si Los valores de entropa para el siguiente subconjunto:

    URL1 URL2 URL3 URL4

    SI SI SI SI

    SI NO SI SI

    NO SI SI NO

    URL4

    SI NO

    2 1

    ENTROPA 0,918295834

    URL4

    SI NO

    URL1 SI 2 0 2

    NO 0 1 1

    Total: 3

    Entropa 0 Gain 0,918295834

    URL4

    SI NO

    URL2 SI 1 1 2

    NO 1 0 1

    Total: 3

    Entropa 0,666666667 Gain 0,251629167

    URL4

    SI NO

    URL3 SI 2 1 3

  • NO 0 0 0

    Total: 3

    Entropa 0,918295834 Gain 0

    Dado el subconjuto anterior se calcularon los valores como Entropa y Ganancia, para continuar con la construccin del rbol, se selecciona el nodo URL1, el cual es que tiene la mayor Ganancia:

    2). La URL2, no es relevante para predecir el comportamiento de navegacin de la clase objetivo. 3). Visita la URL4, si URL3 = Si => URL1 = 1 =>Visita URL4 = Si. R:/ IF (URL3 == Si AND URL1 ==Si) THEN Visita URL4 = Si 4). Predecir si el siguiente patrn visitar la URL4. URL1 = no; URL2 = no; URL3 = yes.

    R:/ De acuerdo al rbol de decisin el patrn no visita la URL4, ya que UR1 = No.

    a) Calcular:

    VERDAD HIPTESIS

    URL1 URL2 URL3 URL4 Visita URL4?

    SI NO NO NO NO

    SI SI SI SI SI

    NO SI NO SI NO

    NO NO SI NO NO

    NO SI SI SI NO

    i) Matriz de Confusin

    Verdad

    SI NO

    Hiptesis SI 1 0

    NO 2 2

    ii) Tasa de deteccin = 3/5 iii) Falsa Alarma = 0/2

    iv) Precisin

  • 1 VP/(VP+FP)

    v) Recall

    0,333333 VP/(VP+FN)

    vi) F1

    0,5 2/((1/r)+(1/p))

    3. Nearest Neighbor. Suponga que los ejemplos categricos de 5 dimensiones:

    Xl X2 X3 X4 X5

    A 1 0 1 1 0

    B 1 1 0 1 0

    C 0 0 1 1 0

    D 0 1 0 1 0

    E 1 0 1 0 1

    F 0 1 1 0 0

    estn distribuidos en dos grupos: Ci {A,B,E} Y C2 {C,D,F}

    a) Use el algoritmo de k-nearest neighbor para encontrar la clasificacin de los siguientes

    ejemplos: Y {1,1,0,1,1] usando K 1 Y {1,1,0,1,1] usando K 3 Y {0,1,0,0,0] usando K 1 Y {0,1,0,0,0] usando K 5

    b) Discuta los resultados

    4. SVM (Taller)

    5. Se tiene la siguiente tabla correspondiente a 10 registros con su clase (5 y 5 -), la clase corresponde a la segunda columna. La tercera columna corresponde a la probabilidad Posterior P(+ ) generada por un clasificador Naive Bayes ordenados. Las otras columnas corresponden a TP, FP, TN y FN cuando se clasifican todos los registros mayores a la P( x) del registro actual como clase , y los que son menores a P( x) como clase -. Por ejemplo, los valores de la primera fila indican que los 10 registros fueron clasificados como pero 5 son de la clase - (FP); los valores de la segunda fila indican que 9 registros fueron clasificados como , y 1 como - (5 son de la clase -); los valores de la tercera fila indican que 8 registros fueron clasificados como , de los cuales 4 son de la clase -.

    clase P(+|x) TP FP TN FN TPR FPR

    1 + 0.25 5 5 0 0

    2 - 0.43 4 5 0 1

    3 + 0.53 4 4 1 1

    4 - 0.76 3 4 1 2

    5 - 0.85 3 3 2 2

    6 - 0.85 3 2 3 2

    7 + 0.85 3 1 4 2

    8 - 0.87 2 1 4 3

    9 + 0.93 2 0 5 3

    10 + 0.95 1 0 5 4

    1.00 0 0 5 5

  • a) Calcular la TPR y FPR TPR = TP , FPR = FP . TP + FN TN + FP

    clase P(+|x) TP FP TN FN TPR FPR

    1 + 0.25 5 5 0 0 1 1 2 - 0.43 4 5 0 1 0,8 1 3 + 0.53 4 4 1 1 0,8 0,8 4 - 0.76 3 4 1 2 0,6 0,8 5 - 0.85 3 3 2 2 0,6 0,6 6 - 0.85 3 2 3 2 0,6 0,4

    7 + 0.85 3 1 4 2 0,6 0,2 8 - 0.87 2 1 4 3 0,4 0,2 9 + 0.93 2 0 5 3 0,4 0 10 + 0.95 1 0 5 4 0,2 0 1.00 0 0 5 5

    b) Dibujar la curva Receiver Operating Characteristics (ROC)