Post on 22-Jan-2016
PLN-PMT Conditional Random Fields
Sergi Fernandez
AI Master. UPC 06
Conditional Random Fields. Introducción
• Relational Learning
– Dependencias entre entidades– Atributos que ayudan para la clasificación
• Ejemplo. Clasificación de documentos Web– Contenido – Relaciones con otros documentos (links)
Conditional Random Fields. Introducción. Modelos Gráficos
• Uso de modelos gráficos para explotar la estructura de dependencias entre entidades
• Son una familia de distribuciones de probabilidad que factorizan de acuerdo a un grafo subyacente
• Representa una distribución sobre un gran numero de variables aleatorias a través del producto de funciones locales que dependen de un subconjunto reducido de variables
Conditional Random Fields. Introducción. Modelos Gráficos
• Modelo gráfico dirigido (Bayesian Network)
– Basado en un grafo dirigifo
– Representa una familia de
distribuciones
Vv
vvpyxp ))(|(),(
),( EVG
Conditional Random Fields. Introducción. Modelos Gráficos
• Modelo gráfico no dirigido (Factor Graph)
– Basado en un grafo bipartito
– Factoriza siguiendo la formula
),,( EFVG
),(1
),( yaxaZ
yxpA
A
Conditional Random Fields. Introducción. Modelos Gráficos
),(1
),( yaxaZ
yxpA
A
Factor de normalización
Funciones locales
Conditional Random Fields. Introducción. Classificación
• Predecir una clase Y dado un vector de atributos X=x1..xk– Si asumimos que dada la etiqueta de la clase los
atributos son independientes podemos usar classificador naive Bayes.
Vv
vvpyxp ))(|(),(
Conditional Random Fields. Introducción. Classificación
• Classificador de maxima entropia o regresión logística. Distribucion condicional
Conditional Random Fields. Introducción.Modelos de Secuencia
• Problema: Name Entity Recognition – Solución
• Clasificar cada palabra independientemente, asumiendo que dado un input, las etiquetas de las entidades son independientes
• Si estudiamos los datos vemos que existen dependencias entre entidades!! New York = LOC, pero NY Times, NY Journal, NYPD,... son ORGs
Conditional Random Fields. Introducción.Modelos de Sequencia
• Relajamos la presunción de independencia colocando las salidas en una cadena – Observaciones X = x1..xT– Estados Y=y1..yT
• HMM hace dos asunciones de independencia– Un estado solo depende de su antecesor– Cada observacion xt depende de el estado actual yt
Conditional Random Fields. Introducción.Modelos de Sequencia
• Podemos especificar un HMM usando tres distribuciones de probabilidad:
• p( y1 ), distribución sobre estados iniciales• p( yt | yt-1), distribución de las transiciones• p( xt | yt ), distribución de las observaciones
• La probabilidad de una secuencia y de estados y una secuencia x de observaciones factoriza como:
Conditional Random Fields. Introducción.Modelos Generativos vs. Discriminativos• Modelos generativos:
– Modelo gráfico dirigido donde los outputs siempre preceden a los inputs topológicamente.
– Aprenden un modelo de la probabilidad de la union p(x,y)de los inputs x y de la etiqueta y
– Obtienen las predicciones usando Bayes para calcular p(y|x) y escogen la y mas probable.
• Modelos discriminativos:– Modelan la probabilidad p(y|x) directamente o aprenden un
mapping directo de inputs a etiqueta de la classe• Razon por la que usar modelos discriminativos:
– “Se debe resolver un problema [de clasificación] directamente, y nunca resolver un problema mas general como paso intermedio [por ejemplcomo modelar p(x|y)]”
Conditional Random Fields. De HMM a CRF
Conditional Random Fields. De HMM a CRF
Aplicando Bayes
Conditional Random Fields. • Lafferty et al. Definen la probabilidad de una sequencia
de etiquetas y dada una secuencia de observaciones x como un producto normalizado de funciones potenciales, cada una con la forma:
• Para definir feature functions, creamos funciones que expresan alguna caracteristica de la información
• Transition feature function
Conditional Random Fields. Estimación de parametros
• La estimacion de parametros consiste en encontrar un vector que maximice la conditional log likelihood del conjunto de training
Conditional Random Fields. Estimación de parametros
– Iterative methods• Iterative scaling• Gradient decent• Gradient tree boosting
– Newton’s method– Quasi-Newton methods
• BFGS• Limited memory BFGS
– Conjugate gradient
Conditional Random Fields. Aplicaciones. POS tagging Lafferty, McCallum, Pereira 2002
Conditional Random Fields. Aplicaciones. POS tagging
Add a small set of orthographic features: whether a spelling begins with a number or upper case letter, whether it contains a hyphen, and if it contains one of the following suffixes: -ing, -ogy, -ed, -s, -ly, -ion, -tion, -ity, -iesoov = out-of-vocabulary (not observed in the training set)
Conditional Random Fields. Aplicaciones. Shallow Parsing
• Sha and Pereira 2003
Conditional Random Fields. Aplicaciones. Semantic Role Labeling
• Roth and Yith 05• Descubrir la estructura de los argumentos del
verbo• Los argumentos no son superpuestos ->
sequence labeling problem
Conditional Random Fields. Aplicaciones. Semantic Role Labeling
• Data: Secuencias de chunks, con un POS tag y una palabra, correspondientes al nucleo del chunk
• Features:– State f: Word, pos, chunk type, verb’s pos, verb’s
lemma, verb’s voice (activa pasiva),position, chunk path, verb class, named entity,...
– Transition: word, pos, chunk type (+2,-2), edge (current and previous label ), start, end
Conditional Random Fields. Aplicaciones. Semantic Role Labeling
Referencias• Integer Linear Programming Inference for Conditional
Random Fields. Dan Roth, Wen-tau Yih. ICML’05
• Shallow Parsing with conditional Randomn Fields. Sha, Pereira. 2003
• Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. Lafferty, McCallum, Pereira. 2002
• Conditional Random Fields: An Introduction. Wallach 2004
• An Introduction to Conditional Random Fields for Relational Learning. Sutton, McCallum
• On Discriminative vs. Generative classifiers: A comparison of logistic regression and naive Bayes. 2001