Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de...

30
Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales, Instituto Nacional de Astrofísica, Óptica y Electrónica

Transcript of Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de...

Page 1: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Representando para Aprender

Consideraciones para el proyecto

Luis Villaseñor Pineda

Laboratorio de Tecnologías del LenguajeCoordinación de Ciencias Computacionales,

Instituto Nacional de Astrofísica, Óptica y Electrónica

Page 2: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 2

Objetivo del proyecto

Nuestro proyecto trata sobre la clasificación de textos Se trata de una clasificación no-temática binaria

Movie Review Data http://www.cs.cornell.edu/People/pabo/movie-review-data/ Subjectivity datasets

Utilizar diferentes representaciones: Dos tipos de representación de la función objetivo Diversas representaciones de las instancias

Page 3: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 3

Conceptos relacionados

Clasificación temática Noticias sobre: deportes, política, economía, etc. Artículos sobre: medicina, biología, computación, leyes, etc.

La presencia y frecuencia de los términos nos da elementos suficientes para su identificación y/o discriminación Mientras más se repite un término más sabemos sobre el tema

que aborda el texto

Page 4: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 4

Conceptos relacionados

Clasificación no-temática Subjetividad, estilo, autoría, etc.

¿podemos hacer la misma suposición? Distinguir un autor vs Distinguir el tema Distinguir objetividad vs subjetividad

Page 5: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 5

Algunos conceptos básicos en la clasificación de textos

El conjunto de formas gráficas es el vocabulario word-type ó formas léxicas

El número total de ocurrencias en un texto es su tamaño word-tokens u ocurrencias

Estas nociones son la base para el cálculo de riqueza de vocabulario Tamaño del vocabulario entre el tamaño del documento

Page 6: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 6

Un ejemplo

Proponer un método para la atribución de autoría

Determinar los atributos adecuados para la clasificación por autor

Poeta Instancias Vocabulario

Octavio Paz 1914 - 1998 75 13.031Rosario Castellanos 1925 - 1974 80 12,156Rubén Bonifaz Nuño 1923 - 70 12,890Jaime Sabines 1926 - 1999 80 12.885Efraín Huerta 1914 - 1982 48 12.423

Page 7: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 7

Experimentos

Caracterizando las instancias: Todas las palabras con excepción de palabras vacías (método tradicional) Con únicamente palabras vacías Todas las palabras incluyendo las palabras vacías

En todos los casos aplicando Ganancia de Información como método de selección de atributos

Page 8: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 8

Al clasificar por autoría (5 clases)

Palabras (sin palabras vacías)Atributos 9,909

70.5382%

IG > 0 158 Atributos

sólo palabras vacíasAtributos 224

56.3739%

IG > 0 50 Atributos

todas las palabrasAtributos 10,133

71.1048%

IG > 0 213 Atributos

Page 9: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 9

Escogiendo los mejores atributos

Los escogeremos a partir de una propiedad estadística llamada Ganancia de Información

Para empezar necesitamos introducir el concepto de Entropía

Conceptos asociados desorden, número de estados, información entre otros

Media del desorden ¿Qué es el desorden? el número de estados posibles de un sistema

Page 10: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 10

Entropía

Ejemplo: tu escritorio tiene un número de estados posibles – donde colocas

los apuntes, los libros, los lápices, etc. Idealmente un sólo estado “cada cosa en un sitio” pero la realidad

es otra! existen muchos estados posibles… en ocasiones más de los que tu supones!!!

Mientras más estados posibles – más desorden

Page 11: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 11

Entropía en la teoría de la información

En la Teoría de la información la entropía es una medida de magnitud de la información contenida en un flujo de datos

¿Un mismo mensaje puede aportarnos cantidades de información distintas? Depende de los estados posibles en que puede encontrarse

nuestro sistema “La calle está mojada”

Dado que ha llovido es un estado posible Si no ha llovido la información que aporta este mensaje es diferente !!

Page 12: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 12

Entropía en la teoría de la información

Entonces mientras menos probable se presente un evento, mayor información traerá consigo La información debe estar en función de la probabilidad del

evento

E(X) = - Σ p(i) log p(i)

La entropía es medida en función de bits

Page 13: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 13

Entropía en la teoría de la información Ejemplo de Cover & Thomas

Nuestra chamba es recibir apuestas y transmitirlas al hipódromo

Tenemos un sistema automático para ello, cada caballo está codificado (usando una representación binaria) Caballo 1 – 001, caballo 2 – 010

Sabemos que sólo tenemos 8 caballos así que usaremos 3 bits para codificarlos a todos

Sin embargo, conocemos las probabilidades de ganar de cada caballo El mensaje más común será el del caballo con más probabilidades de ganar Entonces por que no cambiar la codificación y usar un sólo bit 0 para el caballo

más probable, 1 para el que le sigue 10, para el siguiente, 11, 100, etc.

Page 14: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 14

Probabilidades p(c1)=0.5, p(c2)=0.25, p(c3)=0.125 , p(c4)=0.06 , p(c5)=0.015,

p(c6)=0.015, p(c7)=0.015, p(c8)=0. 015

E(X) = - Σ p(i) log p(i)E(X) = 2 bits

Entropía en la teoría de la información Ejemplo de Cover & Thomas

Page 15: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 15

Aplicamos esto a atributos Tomado de Rob Callan

Para el caso de c clases y un atributo a en que para todos los ejemplos se tiene un valor de v, la entropía la definimos así:

Donde pi es la probabilidad de que el valor v ocurra en la categoría i

Así una distribución de frecuencias no uniforme nos permitirá reducir el número de bits necesarios

Page 16: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 16

Ganancia de Información

La ganancia de información de un atributo es la reducción esperada en entropía si los ejemplos son particionados de acuerdo a dicho atributo:

Donde T es un conjunto de ejemplos de entrenamiento y Tj es el subconjunto de ejemplos con el valor j para el atributo A.

Page 17: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 17

Por ejemplo

Supongamos que tenemos 20 instancias, y tenemos dos categorías {POS, NEG} donde tenemos 11 instancias clasificadas como POS y 9 instancias como NEG.

La clasificación deseada la podemos tratar como un atributo con dos valores entonces la entropía es:

Page 18: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 18

Por ejemplo

La ganancia para cada atributo será entonces:

Page 19: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 19

Algunas medidas de evaluación

La exactitud – nos da una idea general del comportamiento del clasificador.

Es el porcentaje de instancias correctamente clasificadas Supongamos un problema de dos clases con 31 instancias a clasificar Ex = (11 + 6) / 31 = 55%

Sin embargo, que pasa si tenemos esto: Ex = (17 + 0) / 31 = 55%

Page 20: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 20

Algunas medidas de evaluación

Precisión El porcentaje de instancias correctamente clasificadas de entre

todas las que se predijo que pertenecían a la clase. Recall/Recuerdo (evocación, cobertura, recubrimiento, alcance)

porcentaje de instancias clasificadas correctamente de entre todas las instancias de la clase

F-mesure alcanceprecisión

alcancepresiciónF

2

21

Page 21: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 21

Sobre la evaluación en el aprendizaje

Las instancias a + b son de la clase A, el sistema predice que a instancias pertenecen a la clase A y que las b restantes son de la clase B.

Las instancias c + d son de la clase B, el sistema predice que c instancias pertenecen a la clase A y que las d restantes son de la clase B.

Clase Predicción A Predicción B

A a b

B c d

Page 22: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 22

Sobre la evaluación en el aprendizaje

El número de instancias correctamente clasificadas es a + d c + b es el número de instancias clasificadas incorrectamente.

Esta es una matriz de confusión, donde b recibe el nombre de Falsos Negativos y c son los Falsos Positivos.

Clase Predicción A Predicción B

A a b

B c d

Page 23: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 23

Relación precisión - recuerdo

Tenemos dos clases ( A = 21; B = 10)

Clase Predicción A Predicción B

A a b

B c d

Page 24: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 24

Relación precisión - recuerdo

El sistema predice que algunos objetos como pertenecientes a la clase A

Clase Predicción A Predicción B

A 11 10

B 4 6

Page 25: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 25

Relación precisión - recuerdo Precisión - porcentaje de instancias correctamente clasificadas entre todas las que se predijo que

pertenecían a la clase.

P = a / (a+c) = 11/15 = 73%

Clase Predicción A Predicción B

A 11 10

B 4 6

Page 26: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 26

Relación precisión - recuerdo Recuerdo - porcentaje de instancias clasificadas correctamente de entre todas las instancias de la

clase.

R = a / (a+b) = 11/21 = 52%

Clase Predicción A Predicción B

A 11 10

B 4 6

Page 27: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 27

Relación precisión - recuerdo

Normalmente mientras más alto sea nuestro recuerdo nuestra precisión será menor.

Page 28: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 28

Relación precisión - recuerdo

Normalmente mientras más alto sea nuestro recuerdo nuestra precisión será menor.

Page 29: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 29

Relación precisión - recuerdo Normalmente mientras más alto sea nuestro recuerdo nuestra precisión será menor.

P = a / (a+c) = 21/31 = 68% R = a / (a+b) = 21/21 = 100%

Clase Predicción A Predicción B

A 21 0

B 10 0

Page 30: Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 30

Consideraciones en la evaluación

El modelo construido es dependiente de las instancias usadas durante el entrenamiento

¿Cómo asegurar que nuestra evaluación es correcta? Dividir el conjunto de instancias en un conjunto de entrenamiento

y otro de prueba Utilizar una técnica de validación cruzada en pliegues