Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda...

32
Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales, Instituto Nacional de Astrofísica, Óptica y Electrónica

Transcript of Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda...

Page 1: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Descubriendo las reglas para construir nuevas

palabras

Morfología

Luis Villaseñor Pineda

Laboratorio de Tecnologías del LenguajeCoordinación de Ciencias Computacionales,

Instituto Nacional de Astrofísica, Óptica y Electrónica

Page 2: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 2

Morfología

Entrada: Secuencia de fonemas (letras)

Salida: Secuencia de pares (lema, tag(s))

Estudia: Composición de fonemas/grafemas en formas léxicas (palabras) a

partir de sus raíces (lema) + categorías morfológicas (inflexión, derivación, composición).

Page 3: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 3

Contenido

¿Cómo construimos nuevas palabras? ¿Qué es una palabra? Funciones de la Morfología

Inflexión Derivación y Composición

Algunos enfoques para su resolución

Page 4: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 4

¿Para qué la morfología?

Usos corrientes Corrigiendo la ortografía

*presición => inherente a la palabra Yo caminabas => concordancia número y género termino / término => contexto / categoría gramatical sólo / solo => contexto / categoría gramatical

Separando en sílabas ta-re-a trans-crip-ción dí-a

Page 5: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 5

¿Para qué la morfología?

Recuperando su origen – significado Para clasificación de textos: mientras más se mencione una

palabra (un significado) con mayor seguridad el texto versa sobre ese tema huracán, huracanes lluvia, lluvias

Como primer paso de un analizador sintáctico

Page 6: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 6

¿Para qué la morfología?

Recordemos: Recuperación de información: recopilación de documentos

pertinentes Extracción de información: extracción de piezas de información

de interés a partir de documentos Minería de texto: descubriendo nuevas asociaciones entre las

piezas de información extraídas

Page 7: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 7

Morfología computacional Trata con el procesamiento de las palabras tanto en su forma escrita

(grafemas) como su forma hablada (fonemas). Sistematización para la creación de nuevas palabras así como formas

léxicas a partir de unidades más pequeñas.

Nuevas palabras deberán considerar la fonología del lenguaje déjà vu bougambillia – bugambilia computadora – ordenador

Page 8: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje

Conceptos básicos Morfemas - los bloques básicos, entidades

abstractas expresando características básicas

Conceptos semánticos (raíces) Puerta, lápiz

Características abstractas Puerta-s plural

Page 9: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 9

Conceptos básicos

¿qué es una palabra? “algo” entre blancos – ¿entonces en el habla? “algo” con significado –

Dímelo - una sola palabra pero son tres “algos”

Page 10: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 10

Conceptos básicos

¿qué es una palabra? “algo” entre blancos – ¿entonces en el habla? “algo” con significado –

Dímelo - una sola palabra pero son tres “algos”

Unidades a partir de las cuales se forman oraciones Las palabras se agrupan por su función estructurando

una frase (parte de la oración)

Page 11: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 11

Funciones de la morfología

• Varía considerablemente entre idiomas:

• Inglés/Español • I speak – hablo --- I will speak –hablaré

• Náhuatl• Popocatépetl

• Popocitlali

Page 12: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 12

Funciones de la morfología I

Inflexión Cambia su categoría gramatical pero no su categoría de parte de

la oración. comeré – comiste ladrón – ladronzuelo

Tres clases en función de su inflexión Partículas o palabras sin inflexión (conjunciones, artículos, etc.) Verbos – admiten la conjugación Nominales – palabras con declinación (adjetivos, adverbios, etc.)

Page 13: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 13

Funciones de la morfología II

Derivación Proceso para crear nuevas palabras. Cambia su categoría

gramatical y cambia su categoría de parte de la oración. Comer - comestible

La derivación es incompleta no se puede aplicar a todas las palabras de una determinada clase Correr – *corrible

Depende de su origen (es una raíz latina o griega) Triste – tristeza Feo – *feeza

Page 14: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 14

Funciones de la morfología III

Composición Proceso para crear nuevas palabras. A partir de dos palabras

(dos raíces) creamos una nueva Cabizbajo Maniatado malhablado

No es claro donde termina la derivación y empieza la composición

Dinosaurio Televisión

Page 15: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 15

¡Los límites no son claros! Pasta – pasto Foco – foca Campana – campanilla Raya – rayo Velo – vela Taza – tazo Punto – punta Marco – marca Fila – filo Pilón – piloncillo Manzana – manzanilla Manzano – manzanillo

Page 16: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 16

Construyendo palabras

Una palabra es una secuencia / concatenación de morfemas

El morfema principal o libre es la raíz Un afijo es un morfema secundario o atado

Prefijo – afijo concatenado frente a la raíz Feliz – infeliz

Sufijo – afijo concatenado al final de la raíz Marca – marcas Árbol – árboles

Page 17: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 17

Ejemplos

Pseudohospitalización Pseudo – hospitalización Hospitalizar – hospitalización Hospital – hospitalizar

Destruir Mano Capital Sucio

Page 18: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 18

Restricciones sobre los afijos

Tenemos restricciones semánticas, por ejemplo, no es posible adjetivar negativamente un nombre que ya tiene una carga negativa: Feliz – infeliz Triste – *intriste Correcto – incorrecto Errado – *inerrado

Existen muchas más incluyendo restricciones fonológicas Propio – impropio Tonantzintla – Tonanzintla Cempoaxochitl – Cempaxúchil

Page 19: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 19

Etiquetando en partes de la oración

Usamos las características morfológicas de las palabras junto con su contexto para determinar su parte de la oración (su función gramatical)

La ayuda desinteresada de mi parte La – artículo femenino singular Ayuda – sustantivo femenino singular Desinteresada – adjetivo femenino singular De – preposición Mi – adjetivo posesivo primera persona singular Parte – sustantivo femenino singular

Page 20: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 20

El contexto es indispensable

*parte ayuda mi desinteresada de la

¿Qué pasa con estas frases? dímela Él ayuda a su madre Las notas son: do, re, mi, fa, sol La muy desinteresada se fue con otro Dé el nombre de un árbol Él parte el pastel con cuidado

Page 21: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 21

El contexto y nuestra expectativa

¿Qué tanto leemos y que tanto “inventamos”?

Page 22: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 22

El contexto y nuestra expectativa

¿Qué tanto leemos y que tanto “inventamos”?

"Sgeun un etsduio de una uivenrsdiad ignlsea, no ipmotra el odren en el que las ltears etsan ersciats, la uicna csoa ipormtnate es que la pmrirea y la utlima ltera esten ecsritas en la psiocion cocrrtea. El rsteo peuden estar ttaolmntee mal y aun pordas lerelo sin pobrleams. Etso es pquore no lemeos cada ltera por si msima snio la paalbra cmoo un tdoo. Pesornamelnte me preace icrneilbe..."

Page 23: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 23

¿Qué hay detrás de un etiquetador?

Un sistema de reglas aplicadas a un lexicón de base Junto con un proceso estocástico para incluir el

contexto (Modelos Ocultos de Markov)

Sistema con el que trabajaremos FreeLing LingPipe

Page 24: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 24

Aplicación: clasificación de preguntas

Objetivo: agrupar las preguntas por el tipo de respuesta esperada ¿Dónde nació Benito Juárez? – LUGAR ¿Quién inventó el teléfono? – PERSONA ¿Cuándo cayó la primera bomba atómica? – FECHA

¿Quién invadió a Kuwait?

Page 25: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 25

Solución con aprendizaje automático

Caracterizamos las preguntas:1. Los pesos de las palabras objetivo de la pregunta con respecto

al tipo de pregunta Usamos la Web

”President is a person” ”President is a place” ”President is a date” ”President is a measure” ”President is an organization”

2. Las palabras de la pregunta (bolsa de palabras)

Page 26: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 26

¿Cómo obtener las palabras objetivo?

Las obtenemos al consultar sobre la Web: Por ejemplo: Who is the President of the French Republic?

1. Eliminamos las palabras vacías (partículas sin contenido)2. Eliminamos los adverbios o pronombres interrogativos3. Reformulamos la consulta con el resto de las palabras:

”President French Republic is a si” donde si є {Person, Organization, Place, Date, Measure}.

Si el motor de búsqueda no regresa ningún resultado entonces eliminamos palabras de derecha a izquierda: ”President French is a si” ”President is a si”

En particular, para este último caso tenemos respuesta para todas las clases semánticas excepto FECHA

Page 27: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 27

Usando la Web para caracterizar una pregunta

Page 28: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 28

Usando las palabras de la pregunta

Usamos todas las palabras de la pregunta La presencia de una palabra caracteriza una pregunta

Problema: los plurales, las conjugaciones !! Quién, Quienes Es, eran, fue Cuánto, Cuántas

Solución: un analizador morfológico

Page 29: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 29

Usando las palabras de la pregunta

Problema: depende del idioma Solución: truncado

Quién – quienes A 4 caracteres >quie< A 5 caracteres >quien<

Se hicieron cálculos para tres idiomas: Español, italiano e inglés

Page 30: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 30

Resultados al clasificación usando palabras, prefijos y la Web

Page 31: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 31

Resultados al clasificación usando palabras, prefijos y la Web

Page 32: Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias.

Laboratorio de Tecnologías del Lenguaje 32

Resultados al clasificación usando palabras, prefijos y la Web