Clasificación Supervisada

62
Santiago González Tortosa

description

Clasificación Supervisada. Santiago González Tortosa. Contenidos. Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de Validación Resustitución Hold-out N fold cross-validation Leave one out 0.632 Bootstrap. - PowerPoint PPT Presentation

Transcript of Clasificación Supervisada

Page 1: Clasificación Supervisada

Santiago González Tortosa

Page 2: Clasificación Supervisada

IntroducciónIntroducción◦ Clasificación Supervisada

Algoritmos de clasificación supervisada◦ KNN◦ Naive Bayes◦ ID3

Métodos de Validación◦ Resustitución◦ Hold-out◦ N fold cross-validation◦ Leave one out◦ 0.632 Bootstrap

Medidas de Validación◦ Brier Score◦ Log Likelihood◦ AURC◦ Hosmer Lemeshow

Mecanismos filter Mecanismos wrapper Referencias

Clasificación Supervisada Página 2

Page 3: Clasificación Supervisada

Clasificación◦ El problema general se basa en clasificar N individuos

(instancias) procedentes de una muestra, en función de una serie de n variables (atributos) (X1, X2,...,Xn).

Tipos de variables o atributos:◦ DiscretosDiscretos: son aquellos para los que se dan, de modo inherente,

separaciones entre valores observables sucesivos. Ejemplos: medios de transporte, tipologías de enfermedad, etc.

◦ ContinuosContinuos: Su propiedad nos indica que 2 cualesquiera valores observables, hay otro valor observable. Toma valores a lo largo de un espacio continuo. Ejemplos: longitudes, pesos, etc.

Clasificación Supervisada Página 3

Page 4: Clasificación Supervisada

Ejemplo

Clasificación Supervisada Página 4

instanciaso

individuos

variables o atributos

variable continua

variable discreta

Page 5: Clasificación Supervisada

Discretización de variables continuas◦ Divide el rango de atributos continuos en

Intervalos ◦ Almacena solo las etiquetas de los intervalos◦ Importante para reglas de asociación y

clasificación, algunos algoritmos solo aceptan datos discretos.

Clasificación Supervisada Página 5

Page 6: Clasificación Supervisada

Discretización por igual amplitud

Clasificación Supervisada Página 6

Page 7: Clasificación Supervisada

Discretización por igual frecuencia

Clasificación Supervisada Página 7

Page 8: Clasificación Supervisada

Dos criterios de clasificación:◦ Clasificación supervisada◦ Clasificación no supervisada (siguiente tema)

Clasificación Supervisada Página 8

Page 9: Clasificación Supervisada

Clasificación Supervisada◦ Se parte de un conjunto de M clases conocido a

priori.◦ Estas clases deben caracterizarse en función

del conjunto de variables (atributos) mediante la medición de las mismas en individuos.

◦ Cada individuo debe pertenecer, al menos, a una clase.

◦ A partir de un conjunto de individuos con clase asignada (conjunto de entrenamiento) se debe estimar las clases de los individuos de otro conjunto (conjunto de test)

Clasificación Supervisada Página 9

Page 10: Clasificación Supervisada

Clasificación Supervisada

Clasificación Supervisada Página 10

Page 11: Clasificación Supervisada

Clasificación Supervisada

◦ Tasa de acierto: (a+d)/Suma◦ Tasa de error: (c+b)/Suma◦ Verdaderos positivos (sensibilidad): a/a+c◦ Verdaderos negativos (especificidad): d/b+d◦ Falsos positivos: b/a+c◦ Falsos negativos: c/b+d

Clasificación Supervisada Página 11

Page 12: Clasificación Supervisada

Ejemplo

◦ Tasa de acierto: 4/6◦ Tasa de error: 2/6◦ Verdaderos pos: 2/3 ◦ Verdaderos neg: 2/3◦ Falsos pos: 1/3◦ Falsos neg:1/3

Clasificación Supervisada Página 12

Page 13: Clasificación Supervisada

Introducción◦ Clasificación Supervisada

Algoritmos de Algoritmos de clasificación clasificación supervisadasupervisada◦ KNN◦ Naive Bayes◦ ID3

Métodos de Validación◦ Resustitución◦ Hold-out◦ N fold cross-validation◦ Leave one out◦ 0.632 Bootstrap

Medidas de Validación◦ Brier Score◦ Log Likelihood◦ AURC◦ Hosmer Lemeshow

Mecanismos filter Mecanismos wrapper Referencias

Clasificación Supervisada Página 13

Page 14: Clasificación Supervisada

Clasificación Supervisada Página 14

Page 15: Clasificación Supervisada

Algoritmos lazy◦ El aprendizaje del conjunto de aprendizaje se realiza a la vez que se

estima las clases del conjunto de test. Algoritmos probabilísticos

◦ Uso de la probabilidad y estadística para el aprendizaje y estimación de clases.

◦ Nuevo concepto: probabilidad de que un individuo pertenezca a una clase u otra.

Arboles de decisión◦ Representación del conocimiento y relación de los atributos y la clase

usando arboles (binarios o no). Redes neuronales

◦ Uso del concepto de neurona artificial (simula la neurona del cerebro)◦ Se entrena una red de neuronas interconectadas con los individuos para

cada clase. ◦ Con esto, al presentarle un individuo nuevo en sus entradas, la red dará

como resultado la clase a la cual pertenece.

Clasificación Supervisada Página 15

Page 16: Clasificación Supervisada

Algoritmos presentados en clase:◦ Algoritmo lazy: KNN (K Nearest Neighbour)◦ Algoritmo probabilístico: Naive Bayes◦ Árbol de decisión: ID3 (Induction Decision Trees)

Objetivo común:◦ Obtener y estimar las clases del conjunto de test

de individuos◦ Obtener la menor tasa de error en las clases

estimadas

Clasificación Supervisada Página 16

Page 17: Clasificación Supervisada

Idea: basarse en los K individuos “más cercanos” al individuo al que se desea obtener su clase.

Es necesario calcular la distancia entre individuos para saber cuales son más cercanos (euclidea, manhattan, etc.)

Variables iniciales necesarias:◦ Numero de vecinos: K◦ Calculo de distancia: d(x,y)◦ Conjunto de datos de aprendizaje◦ Individuo del conjunto de test

Clasificación Supervisada Página 17

Page 18: Clasificación Supervisada

Distancia euclidea

Distancia Manhattan◦ Muy parecida a la distancia euclidea◦ Diferencia: eliminando de la ecuación la raiz

cuadrada y sustituyendo el cuadrado de cada valor (pi-qi) por su valor absoluto.

Clasificación Supervisada Página 18

Page 19: Clasificación Supervisada

Ejemplo representado con K = 3, dos atributos y distancia euclidea

Clasificación Supervisada Página 19

Page 20: Clasificación Supervisada

Pseudocódigo del algoritmo

Clasificación Supervisada Página 20

Page 21: Clasificación Supervisada

Teorema de Bayes

◦ Siendo D los datos y H la hipótesis, ambos discretos: p(H | I ) se denomina probabilidad prior y representa el nivel

de confianza en la hipótesis sin utilizar los datos p(D | H, I ) se denomina verosimilitud y representa lo

verosímiles que son los datos si la hipótesis es cierta◦ La verosimilitud sirve para transformar la probabilidad

prior en posterior: p(H | D, I ) se denomina probabilidad posterior y representa el

nivel de confianza en la hipótesis a la luz de los datos p(D| I ) se denomina evidencia y en muchas aplicaciones solo

cumple una función de normalización, pues no depende de H

Clasificación Supervisada Página 21

Page 22: Clasificación Supervisada

Ejemplo:◦ Un taxi golpea a una persona de noche y huye.

En la ciudad operan don compañías de taxis: la verde y la azul. El 85% de los taxis de la ciudad son verdes y el 15% restante, azules. Una testigo identifica el taxi como azul. El jurado estima la fiabilidad de la testigo en un 80%. ¿Cuál es la probabilidad de que el taxi del accidente fuera azul?

Clasificación Supervisada Página 22

Page 23: Clasificación Supervisada

Las probabilidades a priori sin disponer del testimonio de la testigo son:

P(H=verde) = 0.85P(H=azul) = 0.15

Buscamos la probabilidad a posteriori de que la compañía sea azul, conociendo la identificación de la testigo:

¿¿P(H=verde|D=azul)??

Clasificación Supervisada Página 23

Page 24: Clasificación Supervisada

La verosimilitud es fácil de calcular:P(D = azul | H = verde) = 0.20P(D = azul | H = azul) = 0.80

El dato de que disponemos es que la testigo afirma que la compañía responsable es la azul.

Este dato es más verosímil cuando aceptamos la hipótesis de que la compañía azul es responsable (80% frente a 20%).

Si nuestro criterio fuera optimizar la verosimilitud, concluiríamos que la compañía responsable es la azul.

Clasificación Supervisada Página 24

Page 25: Clasificación Supervisada

Concluimos:

P(H=verde|D=azul) = P(D=azul|H=verde) x P(H=verde) / P(D=azul)

P(D=azul) = P(D=azul|H=azul) x P(H=azul) + P(D=azul|H=verde)x P(H=verde)

P(D=azul) = 0.2 x 0.85 + 0.8 x 0.15 = 0.17 + 0.12 = 0.29

P(H=verde|D=azul) = 0.2 x 0.85 / 0.29 = 0.59

Clasificación Supervisada Página 25

Page 26: Clasificación Supervisada

El método conocido como Naive Bayes aproxima el valor de la verosimilitud suponiendo que los atributos son independientes:

La aproximación es distinta, puesto que no se fija la hipótesis:

Clasificación Supervisada Página 26

Page 27: Clasificación Supervisada

Cuando las hipótesis son varias:

Clasificación Supervisada Página 27

Page 28: Clasificación Supervisada

Objetivo: Construir un árbol de decisión que explique cada instancia de la secuencia de entrada de la manera más compacta posible a partir de una tabla de inducción.

Crear un árbol de decisión como un método para aproximar una función objetivo de valores discretos, que es resistente al ruido en los datos y que es capaz de hallar o aprender de una disyunción de expresiones.

El resultado puede expresarse como un conjunto de reglas Si-entonces.

Intenta encontrar el árbol más sencillo que separa mejor los ejemplos.

Es recursivo. Utiliza la ganancia para decidir que atributo es mejor en

cada iteración del algoritmo.

Clasificación Supervisada Página 28

Page 29: Clasificación Supervisada

Clasificación Supervisada Página 29

Page 30: Clasificación Supervisada

El atributo mas discriminativo es aquel que tiene más ganancia:

G (C,Attr1) = E (C) - ∑ P(C|Attr1=Vi) * E (Attr1)

donde

E (Attr1) = - ∑ P(Attr1=Vi ) * log2(P(Attr1=Vi )) =

= - ∑ P(Attr1=Vi ) * ln(P(Attr1=Vi )) / ln(2)

Clasificación Supervisada Página 30

Page 31: Clasificación Supervisada

Ejemplo

Clasificación Supervisada Página 31

Page 32: Clasificación Supervisada

Ganancia(AdministrarTratamiento,Gota) = G(AT,G)G(AT,G) = E(AT) – P(G=Si) x E(G=Si) – P(G=No) x E(G=No)

E(G=Si) = - P(AT=Si|G=Si) * log2(P(AT=Si|G=Si)) - P(AT=No|G=Si) * log2(P(AT=No|G=Si)) =

= - 3/7 * log2 (3/7) – 4/7 * log2 (4/7) = 0.985 E(G=No) = - P(AT=Si|G=No) * log2(P(AT=Si|G=No)) - P(AT=No|

G=No) * log2(P(AT=No|G=No)) =- 6/7 * log2 (6/7) – 1/7 * log2 (1/7) = 0.592

E(AT)=- P(AT=Si)* log2(P(AT=Si)) - P(AT=No)* log2(P(AT=No)) == - 9/14 * log2(9/14) - 5/14 * log2(5/14) = 0.940

P(AT,G) = 0.94 – P(G=Si) x 0.985 – P(G=No) x 0.592 = = 0.94 – (7/14) x 0.985 – (7/14) x 0.592 = 0.151

Clasificación Supervisada Página 32

Page 33: Clasificación Supervisada

Que atributo tiene mayor ganancia??

Clasificación Supervisada Página 33

Page 34: Clasificación Supervisada

Una vez seleccionado el atributo “Presión Arterial”:

Clasificación Supervisada Página 34

Page 35: Clasificación Supervisada

Después de varias iteraciones, el árbol resultante sería:

Clasificación Supervisada Página 35

Page 36: Clasificación Supervisada

Introducción◦ Clasificación Supervisada

Algoritmos de clasificación supervisada◦ KNN◦ Naive Bayes◦ ID3

Métodos de ValidaciónMétodos de Validación◦ Resustitución◦ Hold-out◦ N fold cross-validation◦ Leave one out◦ 0.632 Bootstrap

Medidas de Validación◦ Brier Score◦ Log Likelihood◦ AURC◦ Hosmer Lemeshow

Mecanismos filter Mecanismos wrapper Referencias

Clasificación Supervisada Página 36

Page 37: Clasificación Supervisada

Para poder validar los resultados obtenidos en el aprendizaje de algoritmos de clasificación supervisada, es necesario disponer de mecanismos y medidas de validación.

Métodos de validación:◦ Resustitución◦ Hold-out◦ Leave one out◦ N fold cross-validation◦ 0.632 Bootstrap

Clasificación Supervisada Página 37

Page 38: Clasificación Supervisada

Resustitución

Clasificación Supervisada Página 38

Page 39: Clasificación Supervisada

Hold-out

Clasificación Supervisada Página 39

Page 40: Clasificación Supervisada

N-fold cross validation

Clasificación Supervisada Página 40

Page 41: Clasificación Supervisada

Leave-one-out◦ N-cross fold validation cuando N = dim(Datos)

Clasificación Supervisada Página 41

Page 42: Clasificación Supervisada

0.632 Bootstrap

Clasificación Supervisada Página 42

Page 43: Clasificación Supervisada

Introducción◦ Clasificación Supervisada

Algoritmos de clasificación supervisada◦ KNN◦ Naive Bayes◦ ID3

Métodos de Validación◦ Resustitución◦ Hold-out◦ N fold cross-validation◦ Leave one out◦ 0.632 Bootstrap

Medidas de Medidas de ValidaciónValidación◦ Brier Score◦ Log Likelihood◦ AURC◦ Hosmer Lemeshow

Mecanismos filter Mecanismos wrapper Referencias

Clasificación Supervisada Página 43

Page 44: Clasificación Supervisada

Las medidas de validación nos cuantifica como de bueno es el algoritmo de clasificación frente a los datos, utilizando un método de validación.

Calibración y Discriminación Medidas:

◦ PBC o Accuracy◦ Brier Score◦ Log Likelihood◦ AURC◦ Hosmer Lemeshow

Clasificación Supervisada Página 44

Page 45: Clasificación Supervisada

Calibración◦ Estima la distancia entre los valores observados

(reales) y los predichos. Valores continuos [0,∞) Discriminación

◦ Estima la probabilidad de clasificación. Valores continuos [0,1]

En una clasificación, se desea tener la menor calibración posible y la mayor discriminación posible

Clasificación Supervisada Página 45

Page 46: Clasificación Supervisada

Ejemplo de Calibración y Discriminación:◦ Clase real: 1◦ Clase estimada: 0.6

◦ Discriminación: 1 (maxima) suponiendo que Si Cestimada > 0.5 entonces Cestimada = 1

◦ Calibración: 0.4 (1-0.6)

Clasificación Supervisada Página 46

Page 47: Clasificación Supervisada

Brier Score◦ Medida de calibración para un clasificador que

asigne, para cada patrón, probabilidades a posteriori a cada valor de la clase.

◦ Cuanto menor valor de Brier, mejor clasificador (más seguro en predicciones)

Clasificación Supervisada Página 47

Page 48: Clasificación Supervisada

Log Likelihood◦ Función de Máxima verosimilitud (negativa)◦ Se utiliza para estimar coeficientes de un modelo

de “regresión logística”◦ Calcula la calibración del clasificador.◦ Tiene cierta relación con la discriminación.◦ Cuanto mayor log likehood, menor calibración.

Clasificación Supervisada Página 48

Page 49: Clasificación Supervisada

AURC (Area Under ROC Curve)◦ Calcula discriminación del clasificador◦ Comportamiento de clasificación

independientemente del error.◦ Cuanto mayor AURC, mejor discrimina el

clasificador

Clasificación Supervisada Página 49

TPR: Ciertos positivosFPR: Falsos positivos

Page 50: Clasificación Supervisada

Ejemplo AURC

Clasificación Supervisada Página 50

Page 51: Clasificación Supervisada

Hosmer Lemeshow◦ Dividir la muestra en X grupos del mismo número

de individuos◦ Comparativa entre clase real y predicha

Yj es la suma de los valores 1 de cada grupo Pj es la media de los valores predichos en cada

grupo

Clasificación Supervisada Página 51

Page 52: Clasificación Supervisada

Hosmer Lemeshow VSVS Log Likelihood◦ Aparentemente distintos◦ Resultados empíricamente iguales◦ Por tanto, utilizaremos el Log Likelihood

Clasificación Supervisada Página 52

Page 53: Clasificación Supervisada

Introducción◦ Clasificación Supervisada

Algoritmos de clasificación supervisada◦ KNN◦ Naive Bayes◦ ID3

Métodos de Validación◦ Resustitución◦ Hold-out◦ N fold cross-validation◦ Leave one out◦ 0.632 Bootstrap

Medidas de Validación◦ Brier Score◦ Log Likelihood◦ AURC◦ Hosmer Lemeshow

Mecanismos filterMecanismos filter Mecanismos wrapper Referencias

Clasificación Supervisada Página 53

Page 54: Clasificación Supervisada

Mecanismo para filtrar y eliminar cierta información del conjunto de datos inicial, con el fin de eliminar posible ruido del mismo

Mejora la clasificación supervisada ¿Qué se necesita previamente?

◦ Conjunto de datos de aprendizaje/test◦ Criterio de evaluación de información

Clasificación Supervisada Página 54

Page 55: Clasificación Supervisada

Uso de mecanismos filter: Ranking de atributos◦ Evalua cada uno de los atributos según un criterio

específico, indicado previamente◦ Se realiza un ranking con todos los atributos

evaluados, ordenados de mayor a menor.◦ Se seleccionan los X mejores atributos,

eliminando aquellos atributos que generan mas ruido en el conjunto de datos

Clasificación Supervisada Página 55

Page 56: Clasificación Supervisada

Introducción◦ Clasificación Supervisada

Algoritmos de clasificación supervisada◦ KNN◦ Naive Bayes◦ ID3

Métodos de Validación◦ Resustitución◦ Hold-out◦ N fold cross-validation◦ Leave one out◦ 0.632 Bootstrap

Medidas de Validación◦ Brier Score◦ Log Likelihood◦ AURC◦ Hosmer Lemeshow

Mecanismos filter Mecanismos wrapperMecanismos wrapper Referencias

Clasificación Supervisada Página 56

Page 57: Clasificación Supervisada

Mecanismo iterativo consistente en la modificación de distintas características que influyen directamente en la clasificación, con el fin de mejorar la estimación de clases.

Trata de mejorar la medida de validación Posibilidad de usar algoritmos de optimización ¿Qué se necesita previamente?

◦ Conjunto de datos de aprendizaje/test◦ Seleccionar un algoritmo de aprendizaje supervisado◦ Seleccionar una técnica de validación◦ Seleccionar una medida de validación◦ Decidir que característica se desea modificar

Clasificación Supervisada Página 57

Page 58: Clasificación Supervisada

Usos de mecanismos wrapper: Selección de variables o atributos (Feature Subset Selection)◦ Seleccionar aquellas variables importantes en el

aprendizaje supervisado◦ En cada iteración se seleccionan distintos

atributos, y se realizan aprendizaje y validación (dependiendo de las técnicas y medidas seleccionadas)

◦ Nos quedamos con aquella selección de atributos que obtenga la mejor medida de validación.

Clasificación Supervisada Página 58

Page 59: Clasificación Supervisada

Algoritmos de optimización◦ aquellos que permiten optimizar una función

objetivo de forma iterativa, a partir de ciertos parámetros de entrada.

◦ Algoritmos típicos: Métodos estocásticos

Simulated Annealing, etc. Métodos heurísticos

Tabu search, etc. Métodos evolutivos

Algoritmos genéticos, EDAs, etc.

Clasificación Supervisada Página 59

Page 60: Clasificación Supervisada

Introducción◦ Clasificación Supervisada

Algoritmos de clasificación supervisada◦ KNN◦ Naive Bayes◦ ID3

Métodos de Validación◦ Resustitución◦ Hold-out◦ N fold cross-validation◦ Leave one out◦ 0.632 Bootstrap

Medidas de Validación◦ Brier Score◦ Log Likelihood◦ AURC◦ Hosmer Lemeshow

Mecanismos filter Mecanismos wrapper ReferenciasReferencias

Clasificación Supervisada Página 60

Page 61: Clasificación Supervisada

Han, J., Kamber, M.; Data Mining: Concepts and Techniques Morgan Kaufman Publishers; 2000

Hernández-Orallo J y otros; Introducción a la Minería de datos Pearson Education; 2004

Ian H. Witten, Eibe Frank; Data Mining: Practical Machine Learning Tools and Techniques Morgan Kaufmann; 2005

Mitchell, T.; Machine Learning McGraw-Hill Science/Engineering/Math; 1997

Soukup, T.; Visual Data Mining: Techniques and Tools for Data Visualization and Mining John Wiley & Sons; 2002

David L. Olson and Yong Shi; Introduction to Business Data Mining Mc-Graw-Hill; 2005

Clasificación SupervisadaPágina

61

Page 62: Clasificación Supervisada

Santiago González Tortosa