Presentación de PowerPoint -...
Transcript of Presentación de PowerPoint -...
![Page 1: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/1.jpg)
Análisis,
Parsing GRAMÁTICAS FORMALES
![Page 2: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/2.jpg)
U: U n i v e r s o d e t o d a s
l a s p o s i b l e s
c a d e n a s d e t e x t o
EL LENGUAJE NATURAL Y LAS
GRAMÁTICAS FORMALES
L: S u b c o n j u n t o
e s p e c í f i c o q u e
c o n f o r m a
p a l a b r a s c o n
s i g n i f i c a d o
G(L): G r a m á t i c a
f o r m a l q u e
d e s c r i b e u n
l e n g u a j e
f o r m a l
![Page 3: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/3.jpg)
U: U n i v e r s o d e t o d a s
l a s p o s i b l e s
c a d e n a s d e t e x t o
EL LENGUAJE NATURAL Y LAS
GRAMÁTICAS FORMALES
L: S u b c o n j u n t o
e s p e c í f i c o q u e
c o n f o r m a
p a l a b r a s c o n
s i g n i f i c a d o
LN: E v o l u c i o na , s e
a d a p t a , t i e n e
e x c e p c i o ne s e n
s u d e f i n i c i ó n
f o r m a l
G(L): G r a m á t i c a
f o r m a l q u e
d e s c r i b e u n
l e n g u a j e
f o r m a l
![Page 4: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/4.jpg)
U: U n i v e r s o d e t o d a s
l a s p o s i b l e s
c a d e n a s d e t e x t o
EL LENGUAJE NATURAL Y LAS
GRAMÁTICAS FORMALES
L: S u b c o n j u n t o
e s p e c í f i c o q u e
c o n f o r m a
p a l a b r a s c o n
s i g n i f i c a d o
LN: E v o l u c i o na , s e
a d a p t a , t i e n e
e x c e p c i o ne s e n
s u d e f i n i c i ó n
f o r m a l
G’(L): G r a m á t i c a s
f o r m a l e s q u e
a p r o x i me n u n
l e n g u a j e n a t u r a l
![Page 5: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/5.jpg)
Los algoritmos de análisis de lenguaje natural no se pueden
basar en gramáticas que tengan características fijas definibles
como las de los lenguajes de programación.
…PERO… Algunos formalismos gramaticales son muy difíciles de analizar
computacionalmente, por lo que, se usa una aproximación libre
de contexto incluso si la estructura no es libre de contexto para
obtener una primera simplificación.
SIMPLIFICACIÓN
U n r i o d e s a n g re , V i o l e t a P a r r a .
![Page 6: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/6.jpg)
Tipo 3: (regulares, RG) Tienen la estructura más sencilla.
No describen lenguajes sino morfologías de los componentes del lenguaje (tokens).
Tipo 2: ( l ibres del contexto, CFG) Se restringe la liber tad de la formación de reglas gramaticales.
El signif icado de una palabra es totalmente independiente de su posición en la frase.
Describen completamente lenguajes formales (ar tif iciales).
Tipo 1: (sensibles al contexto) Introducen algunas limitaciones en la formación de frases.
El signif icado de las palabras depende de su posición en la frase (contexto).
Muchos lenguajes ar tif iciales y naturales per tenecen realmente a este grupo, aunque gran par te de las reglas de su gramática pueden reducirse al tipo 2 más práctico.
Tipo 0: (recursivos) A estas gramáticas no se les impone restricción alguna.
El conjunto de los lenguajes de tipo 0 coincide con todos los posibles.
Computacionalmente más complejos de expresar y procesar.
h t t p : / / e s . w i k i p e d i a . o r g / w i k i / J e r a r q u % C 3 % A D a _ d e _ C h o m s k y
JERARQUÍA LENGUAJES
DE CHOMSKY
![Page 7: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/7.jpg)
GRAMÁTICAS, LENGUAJES Y
MÁQUINAS
![Page 8: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/8.jpg)
MAPA CONCEPTUAL
JERARQUÍA DE CHOMSKY
![Page 9: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/9.jpg)
PROPIEDADES DE LAS GRAMÁTICAS
![Page 10: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/10.jpg)
Análisis léxico: Identificación de tokens (unidades léxicas).
Gramáticas de tipo 3.
Indicado mediantes Expresiones Regulares.
Análisis sintáctico: Identificación de sentencias.
Creación de estructura de árbol.
Gramáticas de tipo 2 (o 1 simplificadas).
Indicado mediante reglas Backus-Naur Form (BNF).
FASES DEL ANÁLISIS
![Page 11: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/11.jpg)
Los interpretas autómatas finitos.
Se describen con expresiones regulares.
Práctica:
Instalar Ultrapico Expresso (solo Windows)
http://www.ultrapico.com/Expresso.htm
Alternativa en la web:
http://gskinner.com/RegExr/
ANALIZADORES LÉXICOS
![Page 12: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/12.jpg)
Un analizador sintáctico determina si una entrada puede ser
derivada desde el símbolo inicial, usando las reglas de una
gramática formal. Existen dos aproximaciones:
Descendente LL(k) (Top-Down-Parser):
Empiezan con el símbolo inicial para alcanzar la entrada, Ej: ANTLR,
JavaCC.
Ascendente LR, SLR, LALR (Bottom-Up-Parser):
Empezar con la entrada para alcanzar el símbolo inicial, Ej: Gold
Parser, Yacc.
Mixto (Earley, CYK, Chart): (demo CYK)
Es un Top-Down con momentos de Bottom-Up, Ej: NLTK.
ANALIZADORES SINTÁCTICOS
![Page 13: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/13.jpg)
TOP-DOWN EN PROFUNDIDAD
![Page 14: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/14.jpg)
TOP-DOWN EN ANCHURA
![Page 15: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/15.jpg)
BOTTOM-UP
![Page 16: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/16.jpg)
Top-Down (LL)
Ventajas:
No explora árboles que pueden llegar a ser S.
Los subárboles encajan entre si bajo S.
Desventajas:
Se pueden explorar demasiados árboles de manera infructuosa.
Puede “divagar” en el proceso.
Bottom-Up (LR)
Ventajas:
Todos los árboles explorados son consecuentes con la entrada.
Suele ser más directo.
Desventajas:
Se realiza la exploración aun cuando es imposible alcanzar S.
Se pueden desarrollar subárboles que puede que no acaben por combinar.
COMPARACIÓN DE APROXIMACIONES
![Page 17: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/17.jpg)
Left-Corner
Ventajas:
Ambas aproximaciones puras tienen deficiencias.
Soluciona muchos de sus problemas.
Desventajas:
Recursividad por la izquierda (S-> S and S, NP->NP PP)
Parsing sobre el mismo subarbol varias pasadas.
Ambigüedad.
Dinámicos (Chart, EARLEY, …)
Ventajas:
Son Top-Down con lef t -corner o Bottom-up parciales.
Evita repetir la misma pasada (parsing sobre el mismo subárbol) .
Reduce t iempo de proceso.
Desventajas:
Es un reconocedor no un parser porque los pasos que real iza no apuntan a las reglas aplicadas.
COMPARACIÓN DE APROXIMACIONES
![Page 18: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/18.jpg)
PARSING SOBRE MISMO SUBÁRBOL
![Page 19: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/19.jpg)
[Old men] and women vs. Old [men and women]
Se desambigüiza con métodos estadísticos, semánticos o
conocimiento pragmático del contexto.
AMBIGÜEDAD
![Page 20: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/20.jpg)
Argumenta cada regla con una probabilidad condicionada
A → α (p) P(A → α)
p representa la probabilidad de que dado un no terminal A
pueda ser expandido con la secuencia α .
La probabilidad del árbol de derivación es el producto de las
probabilidades de las reglas usadas en su construcción.
http://en.wikipedia.org/wiki/Stochastic_context-free_grammar
http://web.media.mit.edu/~havasi/MAS.S60/pcfg.pdf
GRAMÁTICAS LIBRES DE CONTEXTO
PROBABILÍSTICAS (PCFG)
![Page 21: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/21.jpg)
GRAMÁTICAS LIBRES DE CONTEXTO
PROBABILÍSTICAS (PCFG)
![Page 22: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/22.jpg)
EJEMPLO
P(T l) = 0.15*0.40*0.05* 0.05*0.35*0.75* 0.40*0.40*0.30* 0.40*0.50= 3.78*10 -7
P(Tr) = 0.15*0.40*0.40* 0.05*0.05*0.75* 0.40*0.40*0.30* 0.40*0.50= 4.32*10 -7
![Page 23: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/23.jpg)
¿Cuál es la probabilidad
del árbol de derivación
alternativo?
GRAMÁTICAS LIBRES DE CONTEXTO
PROBABILÍSTICAS (PCFG)
![Page 24: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/24.jpg)
GRAMÁTICAS LIBRES DE CONTEXTO
PROBABILÍSTICAS (PCFG)
![Page 25: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/25.jpg)
GRAMÁTICAS LIBRES DE CONTEXTO
PROBABILÍSTICAS (PCFG)
![Page 26: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/26.jpg)
EJEMPLO DE GRAMÁTICA
PROBABILÍSTICA
S → NP VP S → Aux NP VP S → VP NP → Pronoun NP → Proper-Noun NP → Det Nominal Nominal → Noun Nominal → Nominal Noun Nominal → Nominal PP VP → Verb VP → Verb NP VP → VP PP PP → Prep NP
Orig
inal
Gram
ma
r
Ch
om
sky N
orm
al
Form
S → NP VP S → X1 VP X1 → Aux NP S → book | include | prefer 0.01 0.004 0.006 S → Verb NP S → VP PP NP → I | he | she | me 0.1 0.02 0.02 0.06 NP → Houston | NWA 0.16 .04 NP → Det Nominal Nominal → book | flight | meal | money 0.03 0.15 0.06 0.06 Nominal → Nominal Noun Nominal → Nominal PP VP → book | include | prefer 0.1 0.04 0.06 VP → Verb NP VP → VP PP PP → Prep NP
0.8 0.1 0.1 0.2 0.2 0.6 0.3 0.2 0.5 0.2 0.5 0.3 1.0
0.8 0.1 1.0 0.05 0.03 0.6 0.2 0.5 0.5 0.3 1.0
![Page 27: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/27.jpg)
PROBABILISTIC CKY PARSER
27
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
![Page 28: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/28.jpg)
PROBABILISTIC CKY PARSER
28
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
![Page 29: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/29.jpg)
PROBABILISTIC CKY PARSER
29
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
S:.05*.5*.054
=.00135
![Page 30: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/30.jpg)
PROBABILISTIC CKY PARSER
30
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
S:.05*.5*.054
=.00135
None
None
None
Prep:.2
![Page 31: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/31.jpg)
PROBABILISTIC CKY PARSER
31
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
S:.05*.5*.054
=.00135
None
None
None
Prep:.2
NP:.16
PropNoun:.8
PP:1.0*.2*.16
=.032
![Page 32: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/32.jpg)
PROBABILISTIC CKY PARSER
32
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
S:.05*.5*.054
=.00135
None
None
None
Prep:.2
NP:.16
PropNoun:.8
PP:1.0*.2*.16
=.032
Nominal:
.5*.15*.032
=.0024
![Page 33: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/33.jpg)
PROBABILISTIC CKY PARSER
33
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
S:.05*.5*.054
=.00135
None
None
None
Prep:.2
NP:.16
PropNoun:.8
PP:1.0*.2*.16
=.032
Nominal:
.5*.15*.032
=.0024
NP:.6*.6*
.0024
=.000864
![Page 34: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/34.jpg)
PROBABILISTIC CKY PARSER
34
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
S:.05*.5*.054
=.00135
None
None
None
Prep:.2
NP:.16
PropNoun:.8
PP:1.0*.2*.16
=.032
Nominal:
.5*.15*.032
=.0024
NP:.6*.6*
.0024
=.000864
S:.05*.5*
.000864
=.0000216
![Page 35: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/35.jpg)
PROBABILISTIC CKY PARSER
35
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
S:.05*.5*.054
=.00135
None
None
None
Prep:.2
NP:.16
PropNoun:.8
PP:1.0*.2*.16
=.032
Nominal:
.5*.15*.032
=.0024
NP:.6*.6*
.0024
=.000864
S:.0000216
S:.03*.0135*
.032
=.00001296
![Page 36: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/36.jpg)
PROBABILISTIC CKY PARSER
36
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
S:.05*.5*.054
=.00135
None
None
None
Prep:.2
NP:.16
PropNoun:.8
PP:1.0*.2*.16
=.032
Nominal:
.5*.15*.032
=.0024
NP:.6*.6*
.0024
=.000864
S:.0000216 Pick most probable
parse, i.e. take max to
combine probabilities
of multiple derivations
of each constituent in
each cell.
![Page 37: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/37.jpg)
PCFG: CUANDO LO EVIDENTE NO LO
ES TANTO
![Page 38: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/38.jpg)
LEXICAL PGFG (LPCFG): PROB. COND.
A PAPELES TEMÁTICOS (FILLMORE)
![Page 39: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/39.jpg)
PCFG: TREE BANKS
Mediante aprendizaje supervisado, pasamos las
reglas de la gramática por un conjunto de
sentencias de aprendizaje y estimamos los
parámetros de probabilidad, con cierto suavizado.
.
.
.
Tree Bank
Supervised
PCFG
Training
S → NP VP
S → VP
NP → Det A N
NP → NP PP
NP → PropN
A → ε
A → Adj A
PP → Prep NP
VP → V NP
VP → VP PP
0.9
0.1
0.5
0.3
0.2
0.6
0.4
1.0
0.7
0.3
English
S
NP VP
John V NP PP
put the dog in the pen
S
NP VP
John V NP PP
put the dog in the pen
![Page 40: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/40.jpg)
ESTIMACIÓN DE PROBABILIDADES
CONDICIONADAS
)count(
)count(
)count(
)count()|(
P
Dado un conjunto de sentencias, buscamos la gramática que
maximice la probabilidad de que haya sido generada por ella
misma.
![Page 41: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/41.jpg)
Se realiza a nivel de:
1. Palabra: Yo lo haré mañana -> I will do it tomorrow
2. Frase: Yo lo haré mañana -> I will do it tomorrow
3. Árbol: Busca que la unidad léxica mantenga el mismo papel
sintáctico. Lo visto en el capítulo,
4. Significado: Doing -> do verb (does; doing; past did; past
part. done). Perform or carry out (an action), work on
(something) to bring it to completion or to a required state .
Busca la semántica de la unidad léxica para comprender su
función así identificar las papeles que intervienen.
TRADUCCIÓN (MT)
![Page 42: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/42.jpg)
Jurafsky,D . & Mar t in , J . (2007) :
Speech and Language Processing
An Int roduct ion to Speech Recogni t ion , Computat ional L inguis t ics and Natural Language Processing ,
Second Edi t ion, New York , Pearson.
SUMARIO EN LA
BIBLIOGRAFÍA
![Page 43: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/43.jpg)
I n m a ny la n g u a g es , g ro u p s o f c o n sec u t i ve wo r d s a c t a s a g ro u p o r a c o n s t i t u en t , w h ic h c a n b e
m o d e led by c o n tex t - f r ee g r a m m ar s ( a l so k n ow n a s p h r a se - s t r u c t u r e g r a m m a r s ) .
A c o n tex t - f r ee g r a m m a r c o n s i s t s o f a s e t o f r u les o r p ro d u c t io n s , ex p r essed ove r a set o f n o n -
te r m in a l s y m b o ls a n d a set o f te r m in a l s y m b o ls . Fo r m a l l y, a p a r t i c u la r c o n tex t - f r ee l a n g u ag e i s t h e
set o f s t r in g s w h ic h c a n b e d e r i ved f ro m a p a r t i c u la r c o n tex t - f r ee g r a m m a r.
A g e n er at i ve g r a m m a r i s a t r a d i t i o n a l n a m e in l i n g u is t i c s fo r a fo r m a l la n g u a g e w h ic h i s u sed to
m o d e l t h e g r a m m a r o f a n a t u r a l l a n g u a g e .
T h er e a r e m a ny s e n ten ce - leve l g r a m m a t ica l c o n s t r uc t io ns in E n g l i sh ; d ec la r a t ive , im p er a t i ve , yes -
n o - q u es t io n , a n d w h - q u es t io n a r e fo u r ve r y c o m m o n t y p es , w h ic h c a n b e m o d e led w i t h c o n tex t - f r ee
r u l es .
A n E n g l i sh n o u n p h r a se c a n h ave d ete r m in er s , n u m b er s , q u a n t i f i e r s , a n d a d jec t i ve p h r a ses
p r ec ed in g t h e h ea d n o u n , w h ic h c a n b e fo l l owed by a n u m b er o f p o s t m o d i f i e r s ; g e r u n d ive ,
i n f in i t i ves , a n d p a s t p a r t i c ip ia l a r e c o m m o n p o ss ib i l i t i es .
Tr ee b a n ks o f p a r sed sen ten c es ex i s t fo r m a ny g en r es o f E n g l i sh a n d fo r m a ny la n g u a g es . Tr ee
b a n k s c a n b e sea r c h ed u s in g t r ee - sea r c h to o l s .
A ny c o n tex t - f r ee g r a m m a r c a n b e c o nve r ted to C h o m sky n o r m a l f o r m , in w h ic h t h e r i g h t - h a n d - s ide
o f ea c h r u le h a s e i t h e r t wo n o n - te r m in a ls o r a s in g le te r m in a l .
SUMARIO CAPÍTULO 12
![Page 44: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/44.jpg)
P a r s in g c a n b e v iewed a s a s e a r c h p r o b lem .
To p - down ( s t ar t in g w i t h t h e ro o t S a n d g row in g t r ees d ow n to t h e in p u t wo r d s ) a n d B o t to m -u p
( s t a r t in g w i t h t h e wo r d s a n d g row in g t r ees u p towa r d t h e ro o t S ) .
A m b ig u i t y a n d r ep ea ted p a r s in g o f su b - t r ees p o se p r o b lem s fo r s im p le b a c k t r a c k in g a lg o r i t h m s .
A sen ten c e i s s t r u c t u r a l l y a m b ig u o us i f t h e g r a m m a r a ss ig n s i t m o r e t h a n o n e p o ss ib le p a r se .
T h e d y n am ic p r o g r am m i n g p a r s i n g a l g o r i t h m s u se a t a b le o f p a r t ia l - p a r ses to e f f i c ien t ly p a r se
a m b ig u o u s sen ten c es . T h e C KY, E a r ley, a n d C h a r t - Pa r s in g a lg o r i t h m s a l l u se d y n a m ic p ro g r a m m in g
to so l ve t h e r ep ea ted p a r s in g o f su b t r ees p ro b lem .
T h e C K Y a l g o r i t hm r es t r i c t s t h e fo r m o f i t s g r a m m a r to C h o m sk y -No r m a l Fo r m ; t h e E a r l ey a n d C h a r t -
p a r se r s a c c ep t u n r es t r i c ted c o n tex t - f r ee g r a m m a r s .
P r a c t i c a l p ro b lem s in c lu d in g in fo r m a t io n ex t r a c t io n p ro b lem s c a n b e so l ved w i t h o u t f u l l p a r s in g .
P a r t ia l p a r s in g a n d c h u n k i n g a r e m et h o d s fo r i d en t i f y ing sh a l low sy n t a c t i c c o n s t i t u en t s in a tex t .
S h a l low p a r s i n g i s a n a n a l y s i s o f a sen ten c e w h ic h id en t i f i es t h e c o n s t i t u en t s ( n o u n g ro u p s , ve r b s ,
ve r b g ro u p s , e t c . ) , b u t d o es n o t sp ec i f y t h e i r i n te r n a l s t r u c t u r e , n o r t h e i r ro le in t h e m a in sen ten c e .
Ac c u r a c y p a r t ia l p a r s in g c a n b e a c h ieved e i t h e r t h ro u g h r u le - b a sed o r m a c h in e - lea r n in g m et h o d s .
SUMARIO CAPÍTULO 13
![Page 45: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/45.jpg)
CONCLUSIONES SOBRE
PARSING ESTADÍSTICO
Consiguen una resolución adecuada de la ambigüedad.
Son un recurso a nuestro alcance en forma de Treebanks.
Necesita de una buena fase previa de “lexicalización”
(head words) para resolver ambigüedades y obtener
buenos resultados.
Los resultados actuales son adecuados pero no llegan al
nivel de un experto humano.
45
![Page 46: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/46.jpg)
HERRAMIENTAS
![Page 47: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/47.jpg)
JFLAP:
CYK
LL(1)
SLR(1)
GoldParser Builder:
Introducción
Gramáticas
ANTLR:
Introducción
FAQ
PARSERS
![Page 48: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/48.jpg)
NLTK:
PARSERS
import n l tk
mygrammar = n l tk . parse_cfg ("" "
S -> N P VP
PP -> P N P
N P -> Det N | Det N PP | ' I '
VP -> V N P | VP PP
Det -> ' an ' | ' my ' | ' a ' | ' the '
N -> ' e lephant ' | 'pa jamas ' | 'dog ' | ' cat ' | ' cookie '
V -> ' shot ' | ' saw ' | 'ate '
P -> ' in ' | ' o n ' | 'by ' | 'w i th '
" "" )
sent = " I shot an e lephant in my pa jamas " .sp l i t ( )
parser = n l tk .ChartParser (mygrammar )
t rees = parser.nbest_parse (sent )
for t ree in t rees :
pr int t ree
parser = nl tk . Shi f tReduceParser (mygrammar, t race=2) sent = ‘ I saw a dog ' . sp l i t ( ) pr int parser.parse (sent ) parser = nl tk . Recurs iveDescentParser (mygrammar )
![Page 49: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/49.jpg)
RESULTADO
![Page 50: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/50.jpg)
Realizar con NLTK, Gold Parser, o ANTLR una gramática con reglas que
definan una estructura básica de frase. Capítulo 13 del libro de
referencia.
Recursos:
Phrase structure rules
Introduction to Syntactic Parsing (Roxana Girju)
Ayuda NLTK
EJERCICIO
![Page 51: Presentación de PowerPoint - Iniciocesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master_pln_1... · Un analizador sintáctico determina si una entrada puede ser ... La probabilidad](https://reader031.fdocuments.es/reader031/viewer/2022022023/5baa3d8f09d3f260698bb5c2/html5/thumbnails/51.jpg)
http://www.ibm.com/developerworks/linux/library/l -
cpnltk/index.html
http://nltk.googlecode.com/svn/trunk/doc/book/ch08.html#
sec-context-free-grammar
http://nltk.googlecode.com/svn/trunk/doc/howto/parse.html
http://nltk.googlecode.com/svn/trunk/doc/book/ch10.html#
chap-semantics