PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

67
PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN CONTRERAS ACEVEDO CÓDIGO 200411103 PROYECTO DE GRADO Asesor Ing. Germán Bravo Profesor Asociado Universidad de los Andes Ing. José Bermeo Estudiante Doctoral Universidad de los Andes UNIVERSIDAD DE LOS ANDES FACULTAD DE INGENIERÍA DEPARTAMENTO DE INGENIERÍA DE SISTEMAS JUNIO 2008

Transcript of PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

Page 1: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

PLATAFORMA DE ANÁLISIS DE TEXTOS PAST

JUAN SEBASTIÁN CONTRERAS ACEVEDO CÓDIGO 200411103

PROYECTO DE GRADO

Asesor Ing. Germán Bravo

Profesor Asociado Universidad de los Andes Ing. José Bermeo

Estudiante Doctoral Universidad de los Andes

UNIVERSIDAD DE LOS ANDES

FACULTAD DE INGENIERÍA

DEPARTAMENTO DE INGENIERÍA DE SISTEMAS

JUNIO 2008

Page 2: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

2

Índice de contenido ÍNDICE DE FIGURAS ............................................................................................................................... 4

ÍNDICE DE TABLAS ................................................................................................................................ 5

1 INTRODUCCIÓN .............................................................................................................................. 6

2 DESCRIPCIÓN DEL PROBLEMA: INTERPRETACIÓN DE ENSAYOS .................................... 8

2.1 CONTEXTO ........................................................................................................................................ 8 2.2 NECESIDAD ....................................................................................................................................... 8

3 DESCRIPCIÓN GENERAL DE LA SOLUCIÓN .......................................................................... 10

4 MARCO TEÓRICO ......................................................................................................................... 12

4.1 DISTINCIÓN, OBSERVACIÓN Y TEXTO ............................................................................................. 13 4.2 LA CORRIENTE ESTRUCTURALISTA ................................................................................................. 14 4.3 LA CORRIENTE COGNITIVA DEL LENGUAJE .................................................................................... 18 4.4 LENGUAJE ESCRITO, ESTRUCTURALISMO LINGÜÍSTICO Y COGNICIÓN .......................................... 20

5 PAST: UNA SOLUCIÓN PARA LA REPRESENTACIÓN SEMÁNTICA DE TEXTOS A PARTIR DE LA COGNICIÓN Y LA SINTAXIS .................................................................................... 23

5.1 LA SEMÁNTICA DESDE EL ESTRUCTURALISMO ............................................................................... 24 5.2 LA SEMÁNTICA DESDE LA COGNICIÓN ............................................................................................ 25 5.3 UN MODELO CONJUNTO PARA LA REPRESENTACIÓN SEMÁNTICA DE TEXTOS ............................... 26

6 DESCRIPCIÓN DETALLADA DE LA SOLUCIÓN – PAST ANÁLISI S ..................................... 27

6.1 PAST UN PROCESO CONSTRUIDO A PARTIR DE REGLAS DEFINIDAS POR EL USUARIO ................ 27 6.2 USUARIOS ....................................................................................................................................... 31 6.3 MÓDULO DE ANÁLISIS SINTÁCTICO Y MORFOLÓGICO .................................................................... 32 6.4 MÓDULO DE REGLAS DE COMPOSICIÓN MORFOLÓGICA Y TRANSFORMACIÓN ............................. 32 6.5 MÓDULO DE CREACIÓN DE GRAFOS DE RELACIONES MORFOLÓGICAS ........................................ 33 6.6 MÓDULO DE ANÁLISIS DE DISTANCIA ENTRE CONCEPTOS Y SIMILITUD MORFOLÓGICA ................ 35

7 LAS REGLAS DE TRANSFORMACIÓN Y ANÁLISIS ............................................................... 36

7.1 UNA TOPOLOGÍA DE FILTRADO ....................................................................................................... 36 7.2 EXTRACCIÓN DE ÁRBOLES DE RELACIONES MORFOLÓGICAS ........................................................ 41 7.3 ANÁLISIS DE BAJA PROFUNDIDAD ................................................................................................... 43 7.4 ANÁLISIS DE ALTA PROFUNDIDAD ................................................................................................... 44

8 ANÁLISIS Y DISEÑO DE LA HERRAMIENTA DE SOFTWARE PAS T ................................... 48

8.1 CASOS DE USO ............................................................................................................................... 48 8.2 REQUERIMIENTOS IDENTIFICADOS ................................................................................................. 49 8.3 ANOTACIONES SOBRE EL DISEÑO ................................................................................................... 53 8.4 DIAGRAMAS DE CLASE .................................................................................................................... 53

Page 3: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

3

8.5 ARQUITECTURA GENERAL ............................................................................................................... 55

9 RESULTADOS DE APLICACIÓN AL CURSO CIBERNÉTICA DE LA CIBERNÉTICA ......... 56

9.1 PROCEDIMIENTO ............................................................................................................................. 56 9.2 DESCRIPCIÓN DE LOS RESULTADOS .............................................................................................. 56 9.3 ANÁLISIS DE LOS RESULTADOS ...................................................................................................... 59

10 CONCLUSIONES Y TRABAJO FUTURO ............................................................................... 61

10.1 CONCLUSIONES .............................................................................................................................. 61 10.2 TRABAJO FUTURO Y POSIBLES APLICACIONES .............................................................................. 62

11 BIBLIOGRAFÍA .......................................................................................................................... 65

12 ANEXOS ..................................................................................................................................... 67

12.1 API .................................................................................................................................................. 67 12.2 MANUAL DE USUARIO ...................................................................................................................... 67 12.3 MANUAL DE INSTALACIÓN Y MANTENIMIENTO ................................................................................. 67 12.4 MODELOS DE CLASE ....................................................................................................................... 67 12.5 GRAFOS Y TEXTOS FUENTE CASO CIBERNÉTICA............................................................................ 67

Page 4: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

4

Índice de Figuras Figura 1: Proceso general de la solución propuesta ................................................................. 10

Figura 2: Mapa conceptual que ilustra los principio s lingüísticos utilizados ......................... 12

Figura 3: Triángulo Semántico de Ogden y Richards ............................................................... 14

Figura 4: Árbol de dependencias lingüísticas de la frase "Este es un ejemplo de dependencia gramatical" ............................................................................................................... 16

Figura 5: Árbol de dependencias de la frase "El ratón es un mamífero roedor" .............................. 21

Figura 6: Árbol de dependencia de la frase “El conejo es un mamífero roedor”. ............................ 21

Figura 7: Mapa conceptual de la solución propuesta en PAST .............................................. 23

Figura 8: Modelo sobre la construcción de un texto desde la perspectiva Estructuralista del lenguaje ............................................................................................................................................ 24

Figura 9: Modelo sobre la construcción de un texto desde la perspectiva Cognitiva del lenguaje ............................................................................................................................................ 25

Figura 10: Modelo conjunto para la definición de un a representación de la semántica del texto .................................................................................................................................................. 26

Figura 11: Árbol de dependencias lingüísticas de la frase “Este es un ejemplo de dependencia gramatical” ............................................................................................................... 28

Figura 12: Ejemplo de categorización morfológica para la frase “Este es un ejemplo de dependencia gramatical” .................................................................................................................. 29

Figura 13: Árbol de categorías morfológicas asociab le a varias frases................................. 30

Figura 14: Varias reglas aplicadas en un mismo árbo l de dependencias de una misma frase .................................................................................................................................................. 30

Figura 15: Resultado de generar el árbol de depend encias para la frase “El juego es la herramienta utilizada para incorporar la metodología” ............................................................. 32

Figura 16: Ejemplo de regla asociada a una jerarquí a de dependencias ............................. 33

Figura 17: Grafo generado para la frase “El juego e s la herramienta para incorporar la metodología”.................................................................................................................................... 34

Figura 18: Grafo generado para la frase “El juego e s la herramienta para incorporar la metodología”.................................................................................................................................... 34

Figura 19: Grafo de relaciones morfológicas (izquie rda) y grafo de proximidad conceptual con profundidad 0 (derecha) ......................................................................................................... 36

Figura 20: Grafo de relaciones morfológicas párrafo sección 7.1 .......................................... 42

Page 5: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

5

Figura 21: Análisis de profundidad del texto del re cuadro de la sección 7.3 ........................ 44

Figura 22: Análisis con profundidad 2 de la sección 2.2 .......................................................... 46

Figura 23: Análisis con profundidad 4 de la secció n 2.2 ......................................................... 47

Figura 24: Caso de uso general para la aplicación ................................................................... 48

Figura 25: Modelo de clases del mundo ..................................................................................... 54

Figura 26: Modelo de clases de la interfaz ................................................................................. 55

Figura 27: Utilización de PAST en el curso de Ciber nética de la Cibernética ...................... 56

Figura 28: Grafo resultado G1 ...................................................................................................... 57

Figura 29: Grafo resultado G2 ...................................................................................................... 58

Figura 30: Grafo resultado G3 ...................................................................................................... 58

Índice de Tablas

Tabla 1: Tabla de Etiquetas EAGLE tomado de: (TALP Research Center, Universidad Politécnica de Cataluña, 2008)..................................................................................................... 17

Tabla 2: Reglas de Filtrado ........................................................................................................... 41

Page 6: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

6

1 Introducción La interpretación de un texto es un proceso cognit ivo que involucra, entre otros, el conocimiento, experiencia y expectativas, tanto del autor del texto como del lector del mismo. El caso ideal es cuando el texto es comp rendido tal como esperaba el autor que fuera entendido, pero esta es situación q ue no siempre se cumple. Una inapropiada interpretación de un texto puede ser re sponsabilidad del autor del texto, pero también del lector.

Moriello establece que para comunicarnos es importa nte definir muy bien las palabras que se van a utilizar porque es frecue nte otorgar interpretaciones levemente distintas de las palabra s que dificultan el entendimiento mutuo. (Moriello, y otros, 2006). En un sentido más estricto Boyle establece que la comunicación solo es posible en el contexto de un conjunto de palabras y sentidos comunes.

“Dado el carácter arbitrario del lenguaje, sólo es posible la comunicación si los agentes, tanto emisores como receptores, dan sentido al entorno de la misma manera y expresan ese sentido con las m ismas palabras”. (Boyle, 1977)

Esta relación es típica en los ambientes académicos en el escenario de varios alumnos escribiendo ensayos para un profesor el cua l se encarga de hacer las realimentaciones concernientes. La lectura, interpretación y eventual evaluación de estos ensayos, se espera debe corresponder a una interpretación semántica igual o muy cercana a la del autor. Sin embargo, es ta precisión suele perderse cuando el volumen de ensayos es considerable, debid o a la calidad de los textos, al cansancio y a las distracciones a las que está e xpuesto el revisor.

Las circunstancias enunciadas permiten definir la n ecesidad de diseñar una herramienta que permita representar un texto a part ir de las relaciones de las palabras sin involucrar el proceso interpretativo d el lector con el fin de ofrecer una interpretación alternativa enmarcada en la semántic a de autor.

Este trabajo de grado presenta PAST (Plataforma par a el Análisis de Textos), una herramienta computacional que mediante las reglas d e sintaxis, la semántica, la lingüística y reglas de representación semántica re aliza un conjunto de transformaciones al texto con el fin de obtener una representación del mismo a manera de redes semánticas (o parte de estas).

El desarrollo de la herramienta ocurre en el contex to del Curso de Cibernética de la Cibernética (Zarama, y otros, 2007), en el marco del cual se definió la necesidad y la herramienta PAST. Luego se muestran las bases teóricas que permiten la transformación del texto. Luego se describe la solu ción propuesta y cómo es la

Page 7: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

7

herramienta computacional que la soporta. Luego se presenta el proceso asociado a la definición formal de la herramienta de softwar e. Por último, se enuncian las conclusiones y se proponen algunos trabajos futuros .

Page 8: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

8

2 Descripción del Problema: Interpretación de ensay os

2.1 Contexto El desarrollo y la necesidad básica que dio origen la herramienta de software, se construye en el contexto del curso de maestría de l a Universidad de los Andes, Cibernética de la Cibernética.

El curso de cibernética de la cibernética se desarr olla en torno al cuestionamiento y la reflexión del observador del observador. De ma nera específica la pregunta que constituye el trasfondo del curso es ¿Cuál es e l observador del observador que yo soy? El proceso de aprendizaje que está sopo rtado en la realización de lecturas juegos y ensayos (Zarama, y otros, 2007). Estos ensayos constituyen las entradas del programa y son el motivo del diseño de la aplicación.

2.2 Necesidad 1En la revisión cualitativa de los ensayos producido s por los alumnos se plantea la necesidad de crear una plataforma de análisis de te xtos que ayude a la revisión de los ensayos pero que a su vez conserve la identidad y la relación con la que el autor (alumno) construye su ensayo.

El problema con la identidad y las relaciones plasm adas por el autor en el texto está fundamentado en la tendencia que se tiene a pa rcializar la interpretación cuando se analiza un texto (el profesor analiza los ensayos de los alumnos) bajo el dominio cognitivo del revisor. Adicionalmente, el c urso tiene como trasfondo, dar respuesta a los alumnos sobre la pregunta menciona da anteriormente ¿cuál es el observador del observador que soy? ampliando la nec esidad de obtener un análisis imparcial de los ensayos en contribución a la respuesta de dicha pregunta en conjunto con los demás elementos del curso. Fin almente se adicionan requerimientos implícitos como usabilidad y eficien cia (se busca facilitar el proceso de interpretación no complicarlo).

Para hacer un acercamiento acerca de cómo los ensa yos se constituyen en una herramienta para dar respuesta a la pregunta del cu rso, es necesario analizar los tipos de ensayos y el propósito de los mismos

Los ensayos del curso de cibernética son clasificad os en dos tipos: Argumentativos y Expositivos (Zarama, y otros, 2007 ). Un ensayo argumentativo se caracteriza por el enunciado de una tesis frent e a un tema determinado y la exposición de uno o más argumentos que apoyen dicha tesis. Los estudiantes deben presentar ensayos de este tipo en tres ocasio nes. Estos ensayos son

1 Este texto se muestra enmarcado porque es el que va a ser utilizado como fuente para los análisis realizados por la herramienta PAST. Los ot ros textos enmarcados dentro del documento cumplen el mismo objetivo .

Page 9: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

9

autocontenidos (el segundo ensayo es una versión en riquecida del primero y así sucesivamente) y la extensión de los mismos corresp onde a 3000, 4000 y 5000 palabras respectivamente.

Análogamente los ensayos expositivos contienen la o pinión del autor acerca de un tema determinado, partiendo de la disposición que e ste tiene en relación a la temática descrita. Por consiguiente estos ensayos c ontienen la interpretación que el autor da a la temática y sus opiniones personale s al respecto. Estos ensayos tienen una extensión entre 800 y 1200 palabras y es presentado en seis ocasiones por los estudiantes.

En el contexto del curso, los ensayos expositivos t ienen como propósito reflejar las emociones que tiene el estudiante en relación con e l estudio de las temáticas del curso. Según Plutchik, las emociones pueden ser dif ícilmente descritas en el lenguaje hablado, pues no es muy clara la diferenci a entre lo que consideramos angustia o ansiedad (Plutchik 2001). Por tal motivo , el contenido de estos ensayos no constituye un medio apropiado para observar el o bservador desde el punto de vista lingüístico. Adicionalmente estos ensayos inv olucran el estado emocional del individuo, en cuyo caso, la observación que realiza este sobre la temática se construye a partir de sus emociones condicionando l a observación que hace explicita en el texto. Finalmente al no ser autocon tenidos, los ensayos expositivos constituyen una serie de observaciones que reflejan disposiciones aisladas (el ensayo se entrega una vez y solo se vuelve a trabaj ar sobre él en la realimentación que da el profesor) y en consecuenci a no son observadas desde la perspectiva del observador del observador.

Por otro lado, los ensayos argumentativos sí consti tuyen un medio apropiado para el observador del observador. La primera caracterís tica radica en que estos ensayos se construyen a partir de argumentos. En es e orden de ideas, las opiniones no fundamentadas del autor del ensayo no son tenidas en cuenta y el ensayo se construye a partir de las distinciones q ue hace el autor del texto y no a partir de emociones y disposiciones. Las distincion es se convierten en el medio por el cual el observador (autor del ensayo) constr uye su observación. Hasta este momento los ensayos argumentativos son representado s como un conjunto de distinciones que enmarcan una argumentación en rela ción a una temática.

Al ser autocontenidos, la escritura de un ensayo si guiente (el segundo o el tercero) conduce a la observación del observador, en la medi da en que el autor del ensayo observa el conjunto de distinciones que escribió e n la versión anterior del documento y adiciona nuevos contenidos. Por consig uiente, se hace explicita la necesidad de ofrecer una representación alterna de las distinciones en el texto que permita al autor del ensayo, realizar una observaci ón adicional que enriquezca la observación del observador que hace, en aras de res olver la pregunta central del curso.

Page 10: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

10

3 Descripción General de la Solución La solución que es implementada en la herramienta d e software, propone un conjunto de transformaciones que resultan en una re presentación del texto a manera de grafo conceptual.

El proceso de transformación es ilustrado en la Fig ura 1. Para realizar la transformación se hace uso de reglas lingüísticas, las cuales permiten observar el texto de manera estructural con el fin de proporcio nar nuevas formas de visualizar la información del texto de manera conjunta. Esta t ransformación se puede generar y repetir para textos de uno o más autores simultáneamente (Característica que satisface el requerimiento de u sabilidad).

El proceso asociado a la transformación del texto s ugiere una secuencia de estructuras que representan el contenido del texto de diferentes formas, cada una de las cuales permite evidenciar algunas de sus car acterísticas. En esta sección se muestran globalmente las transformaciones obteni das en cada fase del proceso.

Figura 1: Proceso general de la solución propuesta

Se parte del texto original del autor, escrito con algún editor de texto. Se genera entonces un archivo en texto plano del documento (1 ), que no contiene estilos, figuras, tablas, índices, referencias, etc.

La primera trasformación (T1) busca crear una repre sentación del texto, que conserva las relaciones de las palabras, que no inc luye estructuras lingüísticas adicionales a las existentes en el texto y que es m anipulable computacionalmente. Mediante un analizador sintáctico se obtiene un con junto de arboles de dependencia lingüística, uno por cada frase del tex to (2). Cada nodo del árbol contiene una palabra, su lema asociado su categoría gramatical y su categoría

Page 11: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

11

morfológica, representada mediante etiquetas EAGLE, su categoría sintagmática y su forma gramatical; los arcos representan las depe ndencias sintácticas, del estilo "sustantivo - adjetivo", "verbo - sustantivo", etc.

La segunda transformación (T2) busca la representac ión íntegra del texto y no de sus frases por separado, teniendo en cuenta las rel aciones existentes en los árboles de dependencia. La transformación de estas relaciones se realiza con base en las reglas de composición morfológica y tra nsformación (R1), que al ser aplicadas a cada uno de los árboles generan un graf o de estructuras morfológicas (3).

Las reglas de composición morfológica y transformac ión (R1) definen la traducción de las relaciones de dependencia sintáctica, jerárq uicas por naturaleza, en nodos y arcos de un grafo. Estas reglas tienen dos compon entes: el primero es una estructura de dependencia sintáctica, representada como un árbol, y el segundo es su representación a manera de grafo.

Los árboles de las reglas se buscan como subárboles en los árboles de dependencia de cada frase del texto, y cada vez que se encuentra una ocurrencia de un subárbol, se adiciona al grafo resultado, las palabras de la frase, siguiendo el esquema de traducción definido por la regla.

En este momento, es posible extraer palabras y rela ciones del texto para construir una representación del mismo que evidencia la maner a como se relacionan las palabras como conceptos en el texto. Para esto se p arte del principio de centralizar el análisis en los sustantivos de las f rases, haciendo que las únicas palabras que no se repiten como resultado de la apl icación de las reglas sean los sustantivos. Asumiendo que la frecuencia en el uso de las palabras y la forma de relacionarlas pone en evidencia lo que el autor des ea expresar, a los nodos y los arcos del grafo se les asignan pesos, basados en el número de ocurrencias de las reglas en el texto. La visualización del grafo, bas ada en los pesos de los nodos (código de colores) y de los arcos (grosor) permite al analista identificar como concepto aquellos sustantivos que están relacionado s de manera conjunta en muchas frases, pues están representados por nodos d e palabras de gran peso y con numerosos arcos incidentes.

Así, los nodos del grafo de estructuras morfológica s son las palabras del texto que ocurrieron en al menos una regla de composición; lo s arcos, dirigidos, representan las relaciones de dependencia sintáctica presentes en el texto, según las traducciones definidas en el conjunto de reglas que aplicaron durante el análisis.

La tercera transformación (T3) busca poner en relev ancia las relaciones entre los conceptos, permitiendo un análisis semántico con ba se en la estructura sintáctica de las frases del texto. El proceso sugerido contem pla la realización de un análisis de frontera y relevancia en los nodos del grafo: se explora el grafo de estructuras morfológicas relacionando únicamente los sustantivos, hasta una distancia dada como parámetro por el analista y se dejan aquellos que tienen un número importante de relaciones, el cual es también pasado como parámetro. La distancia

Page 12: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

12

define la cantidad de arcos entre dos sustantivos e n el grafo; el número de relaciones de un sustantivo define la relevancia de l mismo en el discurso. El resultado final de este análisis de distancia es el grafo, no dirigido, de proximidad conceptual del texto (4). Los nodos representan los conceptos en el texto; el peso de los nodos es el orden de los mismos; los arcos r epresentan la relación entre dos conceptos y el peso del arco representa la dist ancia estructural entre los dos conceptos.

Dependiendo del análisis deseado, es posible defini r nuevas transformaciones, siguiendo un proceso similar al mostrado.

4 Marco Teórico Con base en la solución propuesta, los conceptos an alizados en el marco teórico se desenvuelven en varias áreas del conocimiento pa rticulares analizadas y estructuradas para ofrecer un panorama general y lo s conceptos que fundamentan a la herramienta. Estas áreas son la ci bernética de segundo orden por el Curso Cibernética de la Cibernética y la lin güística en general, con algunos elementos de lingüística computacional. Una visión de las relaciones conceptuales se ilustra en el mapa conceptual de la Figura 2.

Figura 2: Mapa conceptual que ilustra los principios lingüíst icos utilizados

La aproximación teórica de la solución hace una int roducción a los conceptos de distinción y observación en el contexto del curso d e Cibernética de la Cibernética. El concepto de distinción es aplicado en el lenguaj e por medio de la introducción del triángulo semántico (4.1). Posteriormente estud ia los principios de dos corrientes lingüísticas: La corriente estructuralis ta (4.2) y la corriente cognitiva del lenguaje (4.3).

Page 13: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

13

Estas corrientes adoptan diferentes posturas frente al lenguaje, sin embargo, el triángulo semántico es común a las dos teorías, por lo cual, se estudia en un principio los fundamentos que las caracterizan y po steriormente su visión conjunta en el significado como base para estructurar la sol ución propuesta. Para el caso de la corriente estructuralista se analiza su postu ra frente al aprendizaje de una lengua (4.2.1), la gramática sintagmática y de depe ndencias lingüísticas (4.2.2) y se hace una introducción a las etiquetas EAGLE como herramientas para la clasificación morfológica de las palabras (4.2.3).

Para el caso de la corriente cognitiva del lenguaje , se estudia la discusión que se genera en contraste a la visión estructuralista del significado (4.3.1) y la interpretación del triángulo semántico subyacente a cada corriente. Posteriormente se introduce el concepto de <<concepto>> y se hace una introducción a las redes semánticas de los individuos (4.3.2).

Finalmente y como conclusión del marco teórico, se incorporan las dos corrientes (Estructuralista y cognitiva) en el marco de los ár boles de dependencia, para estudiar cómo se relacionan las redes semánticas y los árboles de dependencia lingüística (4.4).

4.1 Distinción, Observación y Texto Para que la herramienta propuesta pueda construir u na representación basada en reglas que dé como resultado una estructura que evi dencie las distinciones dadas por el autor del ensayo, es necesario hacer un acer camiento a las corrientes semánticas tenidas en cuenta y cómo se relaciona la idea de lenguaje escrito en el contexto del curso de cibernética.

4.1.1 El concepto de distinción

Spencer- Brown considera que el punto de partida de todo conocer requiere de inventar y trazar una distinción: "un universo se e ngendra cuando se separa o aparta un espacio y los límites pueden trazarse en cualquier lugar que nos plazca" (Spencer-Brown, G., 1973, p.v). La distinción insta ura el acto observador por el cual se constituye una frontera que divide el espac io en dos sub espacios, dos continentes complementariamente delimitados (Spencer-Brown, 1973). De la definición de Spencer- Brown podemos resaltar tres elementos constitutivos de las distinciones: el concepto de borde o frontera que e s el encargado de diferenciar el espacio de lo que se quiere separar y consecuenteme nte los dos elementos separados por el borde.

Partiendo de la definición de distinción, un acerca miento aplicado en el lenguaje es observado en los procesos de cognición asociados a la construcción de significados. Para dar una justificación de esta as ociación, se toman elementos concernientes a diferentes corrientes del análisis del lenguaje.

Page 14: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

4.1.2 Distinción y Referente

El fundador de la lingüísticasigno lingüístico. Una visión general de este autor propone la defin ición del signo lingüístico como aquello que unOgden y Richards exponen de manera análoga el trián gulo semántico. El proceso descrito por Ogden y lenguaje (Ogden y Richards

El triángulo semántico de Ogden y Richards es el principio ra íz para el análisis del problema del significado de las palabras. A la dere cha del triángulo está el referente. El referente se refiere al objeto actual u operación a la cual la palabra aplica. En la parte superior del triángulo está la referencia. La refer encia es el proceso de pensamiento que ocurre en el cerebro cua ndo vemos algo o algo llama nuestra atención. En la esquina inferrefleja el producto de la acontiene base, reflejando el hecho queel referente y el objeto sin pasar por el proceso d e referencia.referencia es lo que constituye el trazo de

Figura

Adicionalmente, Lacobellison construidas de la misma formacognitivos (Lacobelli, 1949)

4.2 La corriente estructuralistaDesde la perspectiva estructuralistala sintaxis dentro de una gramática objetos formales (Estructura Paprincipio cognitivo considerando el aprendizaje de una lengua como el proceso de seleccionar una gramática de la forma apropiada que relasignificados de manera consistente con los datos di sponibles y que es evaluada tan altamente en términos de la medida de evaluació n como cualquier otra gramática que satisfaga esas condiciones empíricasConsiderando por supuesto a la gramática del castel lano como una de las gramáticas que satisface dichas condiciones empíric as (La teoría fue traducida el

14

Distinción y Referente

lingüística moderna Saussure expone las primeras ideas del . Una visión general de este autor propone la defin ición del signo

como aquello que une el significado con el significanteOgden y Richards exponen de manera análoga el trián gulo semántico. El proceso

y Richards involucra el acto de trazar una distinción en el Richards citado en (Lacobelli, 1949)).

o semántico de Ogden y Richards es el principio ra íz para el análisis del problema del significado de las palabras. A la dere cha del triángulo está el referente. El referente se refiere al objeto actual u operación a la cual la palabra

superior del triángulo está la referencia. La refer encia es el proceso de pensamiento que ocurre en el cerebro cua ndo vemos algo o algo llama nuestra atención. En la esquina infer ior izquierda del triángulo estárefleja el producto de la a sociación pensada. Obsérvese que el triangulo no

reflejando el hecho que no puede haber una relación directa entre el referente y el objeto sin pasar por el proceso d e referencia.referencia es lo que constituye el trazo de la distinción mencionada.

Figura 3: Triángulo Semántico de Ogden y Richards

Lacobelli resalta la existencia de construcciones abstractas que de la misma forma pero pertenecientes a otros dominios

(Lacobelli, 1949).

La corriente estructuralista estructuralista, la visión del lenguaje relaciona la semántica y

la sintaxis dentro de una gramática independiente de contexto constituida porobjetos formales (Estructura Patente, Estructura Latente). Chomsky retoma el principio cognitivo considerando el aprendizaje de una lengua como el proceso de seleccionar una gramática de la forma apropiada que relasignificados de manera consistente con los datos di sponibles y que es evaluada tan altamente en términos de la medida de evaluació n como cualquier otra gramática que satisfaga esas condiciones empíricas (Chomsky, 19Considerando por supuesto a la gramática del castel lano como una de las gramáticas que satisface dichas condiciones empíric as (La teoría fue traducida el

ure expone las primeras ideas del . Una visión general de este autor propone la defin ición del signo

el significado con el significante (Guiraud, 1960). Ogden y Richards exponen de manera análoga el trián gulo semántico. El proceso

involucra el acto de trazar una distinción en el

o semántico de Ogden y Richards es el principio ra íz para el análisis del problema del significado de las palabras. A la dere cha del triángulo está el referente. El referente se refiere al objeto actual u operación a la cual la palabra

superior del triángulo está la referencia. La refer encia es el proceso de pensamiento que ocurre en el cerebro cua ndo vemos algo o algo llama

ior izquierda del triángulo está el símbolo que sociación pensada. Obsérvese que el triangulo no

no puede haber una relación directa entre el referente y el objeto sin pasar por el proceso d e referencia. Este proceso de

la distinción mencionada.

resalta la existencia de construcciones abstractas que pero pertenecientes a otros dominios

, la visión del lenguaje relaciona la semántica y independiente de contexto constituida por

tente, Estructura Latente). Chomsky retoma el principio cognitivo considerando el aprendizaje de una lengua como el proceso de seleccionar una gramática de la forma apropiada que relaciona sonidos y significados de manera consistente con los datos di sponibles y que es evaluada tan altamente en términos de la medida de evaluació n como cualquier otra

(Chomsky, 1985). Considerando por supuesto a la gramática del castel lano como una de las gramáticas que satisface dichas condiciones empíric as (La teoría fue traducida el

Page 15: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

15

español con tal fin), podemos atribuir procedimient os de evaluación formal que construyen representaciones con base en la informac ión disponible en el hablante como lo son el análisis sintagmático del lenguaje ( gramática constitutiva) y el análisis de dependencias lingüísticas (gramática de dependencias). Estos análisis serán explicados posteriormente y son parte esencia l del procedimiento realizado por la herramienta de software. Sin embargo es pert inente estudiar la visión que precede a estas herramientas de análisis con respec to al lenguaje.

4.2.1 La racionalidad del Lenguaje

Al igual que la gramática conceptual, la gramática sintagmática y la gramática de dependencias lingüísticas son metodologías de análi sis del lenguaje cuya complejidad y extensión sobrepasan los límites de aplicación de la herramienta de software. Sin embargo existen elementos comunes que fueron tenidos en cuenta para el diseño de la solución.

Un elemento crítico de la corriente estructuralista y de las gramáticas previamente mencionadas es la capacidad de analizar el lenguaje a partir de los elementos presentes en las frases, es decir, los elementos di sponibles referidos por Chomsky, se refieren en este tipo de análisis a las palabras y la forma en que estas se relacionan en las frases para estructurar uno o más significados, caracterizando el análisis como autosuficiente y ra cional.

En palabras de Otero (1979)

“Chomsky marca la diferencia entre la psicología co gnoscitiva y la lógica (entre una mente humana y un ingenio o máquina de p ensar universal). De ahí que frente a la tendencia de tratar de reducir el análisis del lenguaje a problemas logico-linguísticos, típica de la filosof ía empiricística del siglo XX, la filosofía de Chomsky, que es racionalística (no empiricística) y de base empírica (no especulativa), ponga el énfasis, no en el análisis semántico de oraciones particulares (parte reducida de la empres a), sino en las generalizaciones empíricas sobre propiedades esenciales del lenguaje humano [...] introduciendo dos innovaciones capital es: La universalidad de los principios (no de las reglas) y la inconscienci a” (Otero, 1985).

Esta inconsciencia se refiere al proceso lingüístic o subyacente a la estructura de las frases (sintaxis) como herramienta fundamental en el análisis semántico, motivo y razón de la obra sintáctica y semántica en la gramática generativa de Chomsky.

La evolución de esta corriente en lo concerniente a l desarrollo de herramientas computacionales de análisis de textos resulta en la creación de herramientas como Freeling (TALP Research Center, Universidad Po litécnica de Cataluña), WordNet (Cognitive Science Laboratory, Princetown U niversity, 2006) y procedimientos asociados al análisis de texto de us o cotidiano como los correctores gramaticales los generadores de resúmen es etc.

Page 16: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

16

4.2.2 Análisis de Dependencias Lingüísticas

Al estudiar las propiedades estructurales del lengu aje humano, es importante reconocer que estas propiedades pueden ser estudiad as desde dos perspectivas principales. La primera de estas consiste en estudi ar las unidades discretas de distintos tipos y la segunda consiste en el estudio de las reglas y principios que gobiernan la manera como estas unidades discretas p ueden ser combinadas: La sintaxis. (Akmajian, y otros, 1992). La Gramática G enerativa es la rama de la lingüística que adopta como punto de vista que lo i mportante es el modo de generar oraciones. Chomsky establece que lo que con ocemos es una colección de palabras y de reglas con las que generamos cadenas de esas palabras, llamadas oraciones de nuestra lengua. Sin embargo, a pesar d e haber un número finito de elementos en aquella colección (del orden de miles de palabras y de cientos de reglas), se puede generar un número infinito de or aciones, pues algunas de las reglas son recursivas. Finalmente resalta que no po r ser recursivas las oraciones pueden ser infinitas, es decir no puede haber una f rase que contenga todas las palabras de la colección (Chomsky, 1957).

Para describir la estructura de una frase en lengua je natural, se utilizan dos aproximaciones: La gramática constitutiva y la gram ática de dependencias. En la gramática constitutiva se parte la frase en varios constituyentes, los cuales a su vez se parten en constituyentes más pequeños, hasta llegar a las palabras. En la gramática de dependencias, una palabra es el núcleo de la frase y las otras palabras de la frase son, o bien dependientes del n úcleo o bien dependientes de otra palabra de la frase. (Manning, y otros, 1999). Las dependencias representan las reglas de producción de la gramática y son del estilo "El verbo principal de la frase es el núcleo", "un adjetivo depende del susta ntivo que afecta". El análisis de dependencias tiene como objetivo obtener un árbol d e análisis de la frase según una gramática de dependencias, llamado el árbol de dependencias, como el mostrado la Figura 4, para la frase Este es un ejemplo de dependencia gramatical.

Figura 4: Árbol de dependencias lingüísticas de la frase "Est e es un ejemplo de dependencia gramatical"

Page 17: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

17

Una de las ventajas más importantes del análisis de dependencias descrito en (Covington, 1994) es que las dependencias son cerca nas a las relaciones semánticas necesarias para un siguiente paso de int erpretación del texto.

4.2.3 Estructuración por categorías morfológicas - Etiquetas EAGLES

Una aproximación desde la óptica estructural puede aplicarse no solamente en las frases sino también al nivel de las palabras. Esta estructuración se puede realizar a partir de las categorías morfológicas de las pala bras. Las etiquetas propuestas por el Expert Advisory Group on Language Engineerin g Standards sirven para clasificar las palabra de todas las lenguas europea s morfológicamente. Estas etiquetas definen una jerarquía morfológica de tres niveles, donde en el primer nivel están las categorías morfológicas principales (verbo (V), adjetivo(A), sustantivo(N), etc.), en el segundo nivel están los atributos de la categoría (para los adjetivos se tiene: Tipo, grado, género, número y función) y en el tercer nivel están los valores para cada atributo (por ejemplo, el género de los adjetivos puede ser masculino, femenino o común) (Expert Advisory G roup on Languaje Engineering Standards, 2008).

Por ejemplo, la palabra "alegres" tiene la etiqueta "AQ0CP0", que indica que es un adjetivo(A), calificativo (Q), sin grado (0), géner o común(C), plural (P) y sin función (0). La siguiente tabla ilustra la categoría de los adjetivos y ejemplos para cada caso:

ADJETIVOS

Pos. Atributo Valor Código

1 Categoría Adjetivo A

2 Tipo Calificativo Q

Ordinal O

- 0

3 Grado - 0

Aumentativo A

Diminutivo C

Superlativo S

4 Género Masculino M

Femenino F

Común C

5 Número Singular S

Plural P

Invariable N

6 Función - 0

Participio P

Tabla 1: Tabla de Etiquetas EAGLE tomado de: (TALP Research Center, Universidad Politécnica de Cataluña, 2008)

Page 18: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

18

4.3 La Corriente Cognitiva del Lenguaje Aunque la teoría de Chomsky ha sido reconocida como una de las más importantes, el divorcio entre la psicología cognit iva (enfoque empiricísta) y la lógica sintáctica (enfoque racionalista) resulta en una teoría orientada a la cognición con respecto al análisis del lenguaje. Es ta teoría análoga a la corriente estructuralista, se fundamenta en la teoría de graf os, la psicología y la cognición para entender como los individuos entienden su ento rno (Young, 1993). Uno de los ejemplos más representativos de la aplicación d e esta corriente de análisis del lenguaje son las redes semánticas. Las redes semánt icas se presentan como estructuras que representan relaciones entre concep tos y son aplicadas en el campo de la toma de decisiones, redes semánticas co mputacionales para categorización, búsqueda y clasificación de conteni dos, negociación y otras áreas (Young, 1993).

4.3.1 La Cognición del Lenguaje

Los principios de la corriente cognitiva del lengua je se remontan a finales de la primera mitad del siglo XX (Lacobelli, 1949). Sin e mbargo gran parte de esos principios (contemporáneos a los de Chomsky) son el fundamento de aplicaciones como las redes semánticas. Una de las diferencias p rincipales entre la visión cognitiva del lenguaje y la teoría Chomskiana radic a en la concepción que se tiene del hablante de la lengua, tal y como lo expresa. ( LADEVÉZE, 1987 pág. 5)

"No nos preguntamos por lo que el hablante aporta ( que es la cuestión chomskiana) sino por lo que recibe al ponerse en co ntacto con una lengua natural, es decir, al formar parte de una «comunida d de lengua»" (LADEVÉZE, 1987 pág. 6)

En esta postura frente al hablante, el entorno tom a un papel fundamental en la concepción de los procesos de significación en el l enguaje, resaltando aún más las diferencias entre las corrientes mencionadas y realzando la importancia de estudiar dicho entorno para realizar un acercamient o a los procesos cognitivos del individuo. Esta percepción del lenguaje externo, ma rca una diferencia entre el enfoque cognitivo y el enfoque estructuralista.

"Naturalmente hay un esencial desacuerdo con el pun to de vista Chomskiano, pues él distingue un Lenguaje E de un L enguaje I («externalized language» frente a «internalized lan guage»). Según Chomsky, la condición creativa del lenguaje depende del «internalized language», mientras que considera que el «externali zed language» no puede dar cuenta del hecho empírico y constatable d e la creatividad. [...] «is no corresponding real-world object», mientras que e l Lenguaje I adoptado como hipótesis implica en palabras de Chomsky «a sh ift toward realism» "( (LADEVÉZE, 1987 pág. 5)

EL problema debate frente a estas dos corrientes ra dica como consecuencia en la posición que tienen las distintas posturas frente a l significado, donde el triángulo

Page 19: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

19

de Ogden y Richards (Figura 1) se constituye en núc leo común. Sin embargo cabe resaltar que la relación tripartita que se ilustra en el triangulo de Ogden-Richards recibe dos interpretaciones distintas en cada corri ente.

"[...] el mentalismo de Chomsky no coincide con el mentalismo predecesor, por ejemplo, el implicado en el denominado triángulo si gnificativo de Ogden-Richards. Sólo indirectamente cuando se desarrolla las semá nticas interpretativa y generativa puede discutirse acerca del nivel de rep resentación de los significados léxicos (que corresponde a los «conceptos» de Ogden -Richards)" (LADEVÉZE, 1987 pág. 6).

Hasta este punto para la corriente cognitiva la int erpretación del triángulo semántico, consiste en definirlo como el proceso as ociado a la construcción de un concepto. Esta definición es retomada posteriorment e por Harcourt Brace y Satori2. Se tiene como consecuencia una corriente fundamen tada en el estudio de los <<conceptos>> y como se comportan en relación a los procesos cognitivos de los seres humanos.

4.3.2 Las Redes Conceptuales Individuales

Dentro del proceso de significación descrito en el triangulo semántico (Figura 3) el elemento referente es asociado a la percepción de u n objeto. Un acercamiento a los objetos nos permite explorar la construcción de las estructuras cognitivas a partir de la experiencia interpretativa del individ uo.

Lo que se denomina un “objeto” o un “suceso” es sim plemente una configuración particular, una pauta dinámica, un de terminado patrón dentro de una red inseparable de relaciones ilimitadas. Son creaciones del cerebro-mente, una abstracción producida como resultado de una pa rcial interpretación del mundo real; algo relativo, limit ado e ilusorio, limitado por la experiencia ordinaria del mundo físico (Capra, y otros, 1993 pág. 121) (El resaltado es mío).

Esta visión del proceso cognitivo es adecuada para la introducción de redes conceptuales arguyendo la definición de conceptos d e Fritz en la cual se expone a los conceptos como constructos que se generan y exi sten en el cerebro-mente del ser vivo y son los elementos básicos a partir d e los cuales va a construir todo su edificio cognitivo (Fritz, 2008). La interpretación metafórica de es te edificio cognitivo puede interpretarse como una red insepar able de conceptos. En este orden de ideas podemos hablar de una red de concept os como una representación (parcial) de la realidad percibida por un individuo. La creación de redes conceptuales es la motivación fundamental par a la definición y validez de la herramienta PAST. Las connotaciones de las redes c onceptuales serán retomadas con más detalle en el contexto de la ci bernética.

2 Nota de pie de página de (Guerring, 1999 pág. 358)

Page 20: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

20

4.3.3 Relacionamiento de conceptos

A partir de los conceptos, por encadenamientos e in terrelaciones sucesivas (y de manera progresiva a lo largo del tiempo), el ser vi vo va formando una estructura interrelacionada e interdependiente (una especie de red conceptual cognitiva), que utiliza para elegir acciones y predecir situaciones . Es así que, prácticamente, ningún concepto puede tener sentido por sí mismo si no es en relación con otros conceptos ya conocidos (Minsky, 1986 pág. 66).

La aproximación de Minsky es aplicable al texto en lo concerniente al proceso de escritura. En la escritura del texto, el autor expo ne parte de esa red conceptual cognitiva al plasmar relaciones entre conceptos. P ara acercar esta idea se puede pensar en el hecho de escribir una palabra o frase referente a un objeto particular (acto que de por sí contempla hacer una distinción) y visualizar la red de conceptos asociados. Esta asociación puede observar se como un proceso de abstracción.

Moriello expone que a partir de un proceso progresi vo de abstracción, el ser vivo es capaz de construir conceptos más y más abst ractos. Por ejemplo, el concepto “árbol” está conectado al concepto más abs tracto –más general– “vegetal”; es decir, un árbol es un caso particular de vegetal. De forma similar, el concepto abstracto “animal” está conect ado con el más concreto –más específico– “mamífero” y éste al más concreto –más específico– “ratón” (Moriello, y otros, 2006).

En la medida en que se agregan más conceptos a la r ed conceptual (proceso resultante de interactuar con el entorno) la red in crementa su consistencia y coherencia (Capra, y otros, 1994). Esta red concept ual es ilustrada por Moriello como una red finita y dinámica de conceptos interco nectados e interrelacionados. En palabras de Moriello como “una totalidad organizada, que modifica su topología a medida que se van incorporando progresi vamente nuevos conceptos”. (Moriello, y otros, 2006).

4.4 Lenguaje Escrito, Estructuralismo lingüístico y Cognición Al estudiar las estructuras cognitivas como redes f initas y dinámicas de conceptos interconectados, se puede pensar en un relacionamie nto teórico con la visión estructuralista.

Page 21: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

21

Retomando la idea de Chomsky en la cual establece que lo que conocemos es una colección de palabras y de reglas con las que generamos cadenas de esas palabras, llamadas oraciones de nuestra lengua donde a pesar de haber un número finito de elementos en aquella colección (del orden de miles de palabras y de cientos de reglas), se pueden generar un número infinito de oraciones (Chomsky, 1957), es posible hacer una analogía entre el relacionamiento descrito por Chomsky y la visión de red finita (tanto las

palabras como las reglas son finitas) asociando un modelo híbrido de cognición que exponga desde la

perspectiva estructural algunas de las relaciones c onceptuales del individuo.

Si se recrea un escenario particular como por ejemp lo un texto que contenga la frase “El ratón es un mamífero roedor” se pueden ob servar el proceso de abstracción al relacionar conceptualmente las palab ras y parte de la red de conceptos interrelacionados, cuya topología corresponde a una concepción primariamente biológica de los conceptos.

Análogamente una representación estructural de dependencias lingüísticas de la frase (Figura 2) 3 nos muestra una jerarquía que sirve de modelo para ilustrar la manera en que se relacionan los conceptos en el lenguaje desde la óptica sintáctica. Los detalles de interpretación de este tipo de estructuras serán tratados posteriormente, sin embargo, lo que se quiere resaltar es que cada frase puede ser representada como una estructura que relaciona conceptos con base en la manera como está escrita la frase. Un ejemplo de este

3 Figura obtenida del programa DEMO del analizador s intáctico Freeling (TALP Research Center, Universidad Politécnica de Cataluña) disponible en Web en http://garraf.epsevg.upc.es/freeling/demo.php

Figura 5: Árbol de dependencias de la frase "El ratón es un mamífero roedor"

Figura 6: Árbol de dependencia de la frase “El conejo es un mamífero roedor”.

Page 22: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

22

comportamiento resulta de escribir la frase “El con ejo es un mamífero roedor” (Figura 3)4.

Como se puede observar la jerarquía corresponde a l a misma de la figura 2, sin embargo nada limita la creación de una frase como “ el perro es un mamífero roedor” la cual contiene una estructura válida sint ácticamente hablando (Igual que la de la figura 2 y 3) y una connotación semántica no evidente o inválida, al menos desde la taxonomía de la zoología.

Como se puede observar la jerarquía corresponde a l a misma de la figura 2, sin embargo nada limita la creación de una frase como “ el perro es un mamífero roedor” la cual contiene una estructura válida sint ácticamente hablando (Igual que la de la figura 2 y 3) y una connotación semántica no evidente o inválida, al menos desde la taxonomía de la zoología.

En conclusión podemos utilizar la visión estructura lista en el contexto de cómo escribimos y la visión cognitiva en el contexto de por qué lo escribimos.

4 Figura obtenida del programa DEMO del analizador sintáctico Freeling (TALP Research Center, Universidad Politécnica de Cataluña) disponible en Web en http://garraf.epsevg.upc.es/freeling/demo.php

Page 23: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

23

5 PAST: Una solución para la representación semánti ca de textos a partir de la Cognición y la Sintaxis

A partir de las consideraciones epistemológicas exp uestas en el marco teórico, es posible estructurar a grandes rasgos y bajo la ópti ca de la lingüística, una solución al problema de la representación semántica de los t extos que es aplicable para el caso del curso cibernética de la cibernética.

Para exponer la relación entre las corrientes expue stas en el marco teórico y el observador que escribe, se muestra el mapa conceptu al de la Figura 7 que busca ilustrar los conceptos asociados al proceso de repr esentar el texto como un grafo semántico.

Figura 7: Mapa conceptual de la solución propuesta en PAST

La aproximación a la solución que da la herramienta se estructura inicialmente mediante la representación de las dos corrientes de análisis de lenguaje estudiadas (Estructuralista y Cognitiva) desde la p erspectiva del observador, es decir, se construye una representación de la observ ación que hace cada una de las corrientes identificando el papel del autor y c omo se refleja la semántica en cada una de las corrientes.

Finalmente se estructuran las dos observaciones en un modelo desarrollado que constituye una representación alternativa de las di stinciones en el texto y

Page 24: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

24

representa el fundamento de la transformación propu esta en la solución. Una vez expuesta la transformación se estudia la definición de las reglas como el fundamento operativo de la herramienta y se explica los procesos asociados a la construcción y utilización de las reglas.

5.1 La Semántica desde el Estructuralismo La aproximación desde la óptica estructuralista nos sugiere que un observador5 (hablante de una lengua) realiza una observación y conoce el significado de un conjunto de palabras como significados, relacionada s con el objeto observado. Posteriormente al momento de escribir, el observado r relaciona el conjunto de significados mediante el uso inconsciente de reglas de sintaxis para construir un texto que, en la semántica asociada a su sintaxis, constituye un mensaje autocontenido sobre el objeto observado. La compren sión del texto radica en tener el mismo conjunto de palabras del autor y que media nte el mismo proceso inconsciente de reglas de sintaxis (al leer) se (re )construye la observación. Una ilustración del proceso se observa en la Figura 8.

Figura 8: Modelo sobre la construcción de un texto desde la p erspectiva Estructuralista del lenguaje

Existen sin embargo, complicaciones en la comunicac ión desde la perspectiva estructuralista del lenguaje. Estas complicaciones están relacionas con el uso inadecuado de las reglas de sintaxis evidente en un a mala redacción y la consecuente introducción de significados ambiguos. Los significados ambiguos resultan de la incapacidad del autor para expresar las relaciones que observa entre las palabras a partir de estructuras sintácti cas simples, lo que representa una gran dificultad a la hora de entender el texto. Cuando el autor expresa las relaciones del texto utilizando estructuras complej as (estas estructuras sintácticas son recursivas) la manera de interpretarlas involuc ra un proceso inconsciente de clasificación en estructuras más simples (este comp ortamiento puede observarse al mostrar el árbol de dependencias lingüísticas de una frase compleja).

5 La literatura reporta diversas definiciones del concepto de observador una de ellas es la de que: “ el observador es el que crea un universo, el que hace una distinción" (von Foerster citado en Watzlawick y Krieg, 1994, p.32). Tomado de cartilla del curso de Cibernética de la Cibernética 2007.

Page 25: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

25

5.2 La Semántica desde la Cognición Desde la óptica de la cognición, cuando el autor ha ce una observación está interactuando con la realidad. En consecuencia, el autor asocia el objeto observado dentro de su red de conceptos clasificán dola en un orden topográfico conceptual. Posteriormente el autor plasma en el te xto las relaciones más evidentes para reflejar los conceptos próximos a la red conceptual en el contexto de la observación. Es importante resaltar que no se involucran todos los conceptos de la red semántica lo que tiene como consecuencia la suposición de ciertas relaciones conceptuales para poder entender el text o. Una representación gráfica del proceso se encuentra en la Figura 9.

Figura 9: Modelo sobre la construcción de un texto desde la p erspectiva Cognitiva del lenguaje

De la misma manera, en que existen complicaciones d esde la óptica estructural, existen dificultades asociadas a la corriente cogni tiva en particular en lo relacionado a la imposibilidad de plasmar en un tex to todas las relaciones conceptuales del autor en lo concerniente a una obs ervación. Esta limitación obliga al autor a construir una o varias abstraccio nes que permitan definir un orden topográfico en la red semántica. Este orden topográ fico responde a clasificaciones como pertenencia, comparación, metáfora etc. Cuand o el lector construye un orden topográfico distinto para observar las relaci ones del texto, es probable que necesite de los conceptos que no están el texto y q ue el autor dio por sentados (conceptos en rojo en la figura 6) lo cual se prest a para interpretaciones incompletas de la intención del autor o relacionami entos incorrectos a nivel conceptual6.

6 “En el caso del ser humano, los modelos mentales han sido profundamente arraigados, “precableados”, a lo largo de la evolución y son hi pótesis, supuestos y creencias internas, tácitas y subconscientes (por eso raramente son sometidos a v erificación y examen). Modelan y afectan los actos, las percepciones, los sentimientos y las emo ciones de la persona; y son modelados y afectados –a su vez– por la cultura, los valores (p ersonales y sociales), las experiencias, el aprendizaje y los estados fisiológicos, anímicos y emocionales. Así, dos personas (o la misma persona en diferentes contextos o en distintas etap as de su vida) pueden presenciar el mismo hecho y describirlo de manera diferente, porque tie nen modelos mentales distintos y, en consecuencia, prestan atención a aspectos y detalle s diferentes” (Moriello, y otros, 2006).

Page 26: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

26

5.3 Un modelo conjunto para la representación semán tica de textos Según von Foerster, la historia de la cibernética s e puede observar como un proceso que se desarrolla entre diferentes niveles de complejidad: el primero es el nivel de la cibernética de orden implícita; luego, la cibernética de 1er orden (o cibernética de los sistemas observados) y por últim o una cibernética de 2do orden (o cibernética de los sistemas observantes). En ese orden de ideas, el propósito de la cibernética de segundo orden se fundamenta en el estudio del observador del observador (como sistemas observados) donde cad a observación que hacemos del mundo o de un sistema se ve afectada po r el observador que la hace (Glanville, 2004).

Partiendo de esta breve aproximación a la cibernéti ca de segundo orden, es posible observar a la corriente estructuralista y a la corriente cognitiva como sistemas observados.

Analizando los dos sistemas observados descritos en la Figura 8 y la Figura 9, se construye un observador que tiene una red conceptua l como mecanismo de percepción del mundo y que hace uso inconsciente de las reglas de sintaxis para construir un mensaje autocontenido que refleja táci tamente las relaciones de los conceptos asociados a la topología de la red asocia da.

Figura 10: Modelo conjunto para la definición de una represent ación de la semántica del texto

La solución radica en vincular las dos perspectivas de manera conjunta para construir un proceso de transformación que disminuy a la influencia de los factores críticos para el entendimiento de la intención del autor en el escrito. Para esto se vincula un proceso de análisis consciente de las es tructuras sintácticas presentes en las frases del texto que permite transformar las representaciones de estas estructuras (árboles de dependencia de cada frase) en grafos de palabras que buscan dar un acercamiento a la red conceptual del autor mediante la construcción de una topología construida a partir d e reglas definidas por el usuario. Esta transición se justifica en la idea Ch omskiana que involucra el aprendizaje de una lengua como el conjunto de palab ras y de reglas de sintaxis (en el contexto de la gramática generativa) que co nstituyen una gramática válida.

En este orden ideas, y como aplicación adicional, c uando la solución se aplica al conjunto de textos de un grupo de personas, se evid encian las palabras y relaciones que tiene el grupo con respecto a la tem ática, partiendo de unas reglas de análisis de sintaxis comunes.

Page 27: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

27

Es que, dentro de un proceso comunicacional, el con tenido semántico de una palabra depende del relativo consenso que una c omunidad le otorga. (Moriello, y otros, 2006)

Finalmente, como conclusión de este capítulo, es im portante visualizar como el proceso de observación propuesto corresponde a la v isión de la solución general propuesta en el capítulo 1.

Esta solución propone una serie de transformaciones sucesivas, encaminadas hacia la construcción de un grafo semántico, por lo tanto, el proceso consciente de análisis sintáctico resaltado en la Figura 10, corr esponde a la definición de las reglas que constituyen en sí, el proceso de análisi s consciente de la semántica del texto. Dada la importancia de las reglas como el fu ndamento del análisis consciente de sintaxis, se aparta la siguiente secc ión para abordar el tema a profundidad.

6 Descripción detallada de la solución – PAST Análi sis PAST (Plataforma de Análisis Sintáctico de Textos) es una aplicación que se encarga de realizar los procesos asociados a la con strucción de grafos conceptuales basados en relaciones de dependencia s intáctica de un texto completo.

6.1 PAST un proceso construido a partir de Reglas d efinidas por el Usuario

Una de las ventajas asociadas al proceso de transfo rmación realizado por PAST, consiste en la posibilidad que ofrece para que el u suario construya la lógica subyacente a la definición de la topología semántic a de los grafos a partir de reglas. Esta posibilidad representa una ventaja par a construir diversos análisis asociados a un mismo texto, es decir, distintas rep resentaciones como resultado de aplicar distintas reglas. Estas reglas son aplic adas en las fases R1 y R2 del proceso de transformación descrito en la Figura 1.

6.1.1 Definición de Reglas de Transformación

El proceso de definición de las reglas consiste en la definición de un subárbol de dependencias lingüísticas a partir de categorías mo rfológicas, categorías sintagmáticas o formas gramaticales y su correspond iente subgrafo. Sin embargo, el procedimiento sugerido para la construcción de r eglas en PAST está sujeto a consideraciones estructurales de los árboles de dep endencia sintáctica, que facilitan su interpretación y manejo.

Page 28: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

28

6.1.2 Lectura del árbol de dependencia

El primer aspecto está relacionado con la manera de interpretar las relaciones de los árboles de dependencia. Para esto, es importan te tener en cuenta que los arboles de dependencia son estructuras jerárquicas compuestas únicamente por las palabras de la frase, es decir, los nodos del árbol constituyen en su totalidad el conjunto de palabras que conforman la frase. Un ejemplo de árbol de dependencia se observa en la Figura 11.

Para poder extraer la frase del árbol de dependenci a es importante reconocer que las relaciones de dependencia corresponden a anális is recursivos de las estructuras sintácticas presentes en la frase.

El recorrido para extraer la frase del árbol no es general. Sin embargo, un recorrido preorden ofrece un acercamiento a la line alidad de la frase. Esta linealidad es el elemento principal para definir la s reglas.

Uno de los requerimientos básicos para la definició n de las reglas consiste en la capacidad que tiene el usuario para personalizar la forma en que la información es extraída del árbol de dependencias.

El proceso de elaboración de reglas tiene dos etapa s: La etapa de definición de jerarquías morfológicas y la etapa de enlaces por l inealidad. Una manera de visualizar el proceso, consiste en asignar a la pri mera etapa lo concerniente a la herencia en el árbol y la segunda con las relacione s entre las ramas hermanas.

Figura 11: Árbol de dependencias lingüísticas de la frase “Este es un

ejemplo de dependencia gramatical”

Page 29: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

29

6.1.3 Definición de jerarquías de categorías Morfol ógicas (etapa1)

Cada palabra en el árbol de dependencias, tiene aso ciada una categoría morfológica utilizando las etiquetas EAGLE, una for ma gramatical y una categoría sintagmática. Por consiguiente cada árbol de depend encias sintácticas contiene una jerarquía tanto de las palabras como de las cat egorías de estas palabras. Un ejemplo de esto es el árbol de jerarquías correspon diente al árbol mostrado en la Figura 12.

A diferencia de las palabras del árbol anterior, la s categorías corresponden a conjuntos de palabras, es decir, el mismo árbol de categorías morfológicas podría corresponder a una frase conformada por un conjunto de palabras asociadas a una frase diferente. Por ejemplo la frase “Este es un ejemplo de dependencia sintagmática” tiene la misma jerarquía de dependencias morfológicas que la frase “Este es un ejemplo de dependencia gramatical” y es mostrado en la Figura 13.

Esta posibilidad de generar estructuras generales, es lo que motiva la definición de jerarquías como herramienta para la extracción de información en el grafo.

Una jerarquía de categorías morfológicas es un árbol cuyos nodos están constituidos por etiquetas EAGLE o parte de estas (la información sobre cómo construir las reglas se encuentra en la descripción

detallada de la plataforma). El papel de las estruc turas jerárquicas en el texto, es el de identificar relaciones de dependencia y extra er los nodos que las componen para construir subgrafos. Siendo subárboles de cate gorías morfológicas es de esperarse que la coincidencia de estas estructuras con el árbol de dependencia se realice a lo largo de las ramas como lo muestra la Figura 13.

De la misma manera en que se construyen árboles de dependencia sintáctica, es posible definir jerarquías con base en los grupos g ramaticales, las categorías sintagmáticas o mezclas de los mismos, es decir, se puede construir una jerarquía donde algunos nodos utilicen categorías morfológica s y otros nodos utilicen estructuras gramaticales o sintagmas.

Figura 12: Ejemplo de categorización morfológica para la frase “Este es un ejemplo de dependencia gramatical”

Page 30: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

30

Figura 13: Árbol de categorías morfológicas asociable a varias frases

6.1.4 Enlaces por Linealidad (etapa 2)

Como se observa en la Figura 14, es posible que en un subárbol existan tantas coincidencias como relaciones de dependencia en el mismo. Sin embargo al ser subárboles, muchas de las coincidencias (líneas ana ranjadas) presentes en los mismos quedan reducidas a las relaciones del subárb ol y no se relacionan con las de los demás subárboles. La solución que sugiere el prototipo es la de unir estas relaciones de los subárboles a partir del criterio de linealidad.

Figura 14: Varias reglas aplicadas en un mismo árbol de depend encias de una misma frase

La linealidad en el contexto del árbol de dependenc ias, se refiere a la manera de relacionar las palabras del nodo, de tal forma que estas conformen la frase que dio origen al árbol. Como se menciona anteriormente, la s relaciones de linealidad corresponden a recorridos que varían según las estr ucturas de dependencia presentes en el árbol. Sin embargo, de manera gener alizada, puede asociarse un sentido de la linealidad en la estructura general d el árbol.

Esta asociación se basa en la forma en que están ub icadas las palabras en el árbol. Una aproximación a dicha ubicación sugiere q ue el árbol puede leerse de manera general de arriba hacia abajo y de izquierda a derecha sucesivamente. Por consiguiente, es de esperarse que la linealidad entre dos ramas relacione el nodo inferior derecho de la primera rama, con el no do superior de la segunda. Con

Page 31: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

31

base en esta manera de vincular linealmente los nod os de las diferentes ramas el algoritmo relaciona aquellos nodos de distintas ram as que coincidieron de las jerarquías de dependencias morfológicas y que fuero n utilizados para relacionar los subgrafos asociados a cada jerarquía. Un ejempl o de cómo relacionar las coincidencias de las jerarquías es ilustrado en la Figura 14. (Más ejemplos de reglas y resultados en la descripción detallada de la solución).

6.2 Usuarios El proceso asociado a la transformación del texto, requiere de la definición de tres tipos de usuarios. Los roles asociados a los usuari os son llamados respectivamente profesor, analista y autor.

El profesor, es la persona que propone y estructura la temática sobre la que se desarrolla el texto, por consiguiente es el más apr opiado para definir las reglas de composición morfológica a partir de las cuales se realiza el análisis. Para que el usuario pueda definir las reglas es importante que conozca las estructuras asociadas a los árboles de pendencia sintáctica y q ue tenga claro el tipo de análisis que quiere realizar. Lo primero se logra m ediante un acercamiento a la gramática de dependencias lingüísticas y lo segundo le permite definir la estructura deseada del grafo resultado.

El analista se encarga del análisis del texto con la ayuda de los árboles y grafos generados. En el contexto del caso de estudio el a nálisis implica la comparación de los diferentes grafos, el análisis de las relaci ones pertinentes a uno o varios nodos en un mismo grafo, el análisis de nod os comunes a una o varias versiones de un mismo texto, la definición de pauta s para interpretar los grafos y la generación de conclusiones, siendo la más important e, la retroalimentación al autor de los textos. En un contexto más amplio, el proceso puede aplicarse al análisis conjunto de textos de varios autores, opin iones abiertas, estudios a partir de un concepto en particular, entre otros.

El autor es el que escribe el texto. En cooperación con el a nalista, el autor estudia la retroalimentación basada en el análisis y reescr ibe el texto teniendo en cuenta la información representada en el grafo y las pauta s para su interpretación establecidas por el analista. Este proceso se puede realizar más de una vez con el fin de observar las representaciones asociadas a la s diferentes versiones del texto en un momento dado.

Dependiendo del contexto, una misma persona puede d esempeñar varios de estos roles. Es de esperar que el profesor y el ana lista sean la misma persona y que un autor pueda desempeñar también el rol de ana lista. Es complicado y no deseable que una misma persona desempeñe los tres r oles, pues la "objetividad" de los resultados ya no puede ser garantizada.

En lo concerniente a la plataforma, PAST se compone de 5 módulos principales. Su descripción y funcionamiento se muestran a conti nuación, tomando como ejemplo la frase, "el juego es la herramienta para incorporar la metodología",

Page 32: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

32

excepto para el último módulo cuyo ejemplo de aplic ación se muestra en el caso de estudio.

6.3 Módulo de Análisis Sintáctico y morfológico Este módulo es el encargado de realizar la primera transformación del texto. En este módulo el usuario importa un archivo de texto plano, el cual es procesado por Freeling para obtener los resultados de los árboles de dependencias para cada frase. Finalmente las oraciones y el árbol de depen dencia asociado a cada una son mostrados. El análisis de dependencias entregad o por Freeling, asocia además a cada palabra la etiqueta EAGLE correspondi ente. Ej. La ejecución del módulo para la frase ejemplo se observa en la Figur a 15.

Figura 15: Resultado de generar el árbol de dependencias para la frase “El juego es la herramienta utilizada

para incorporar la metodología”

6.4 Módulo de Reglas de Composición Morfológica y T ransformación Este módulo ofrece un conjunto de herramientas para construir reglas. Estas reglas de composición morfológica y transformación, se entienden como subárboles de dependencias en cuyos nodos se asocia n etiquetas EAGLE, formas gramaticales o categorías sintagmáticas. La asociac ión a etiquetas EAGLE puede ser parcial, es decir, puede contener por ejemplo l a letra V, obteniendo de tal forma un match para todas las palabras cuya etiquet a empiece por V, es decir todos los verbos. Así mismo, una hoja que contenga asociada una etiqueta VI coincide con todos los verbos en infinitivo.

Page 33: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

33

Adicionalmente, cada nodo de un subárbol que repres enta una regla posee un identificador numérico, por medio del cual se defin e la estructura de transformación para dicha regla. El conjunto de reg las así definido es una de las entradas al módulo de creación de grafos de relacio nes morfológicas, que realiza la siguiente transformación del texto. En PAST, es posible definir todas las reglas que el usuario considere necesarias, tan complejas como se requiera. En particular, se define la etiqueta ANY como etiqueta que acepta cualquier categoría morfológica, sintagmática y gramatical.

Un ejemplo de una regla es la que relaciona de mane ra jerárquica un verbo aplicado a dos nombres y se ilustra en

Figura 16.

Figura 16: Ejemplo de regla asociada a una jerarquía de depend encias

La estructura asociada consiste en relacionar el pr imer nombre con el segundo ignorando el verbo.

6.5 Módulo de creación de Grafos de Relaciones Morf ológicas Este módulo es el encargado de fusionar todos los á rboles de dependencia en una sola estructura. La fusión se basa en la aplicación de todas y cada una de las reglas de composición morfológica a todos y cada un o de los árboles y agrupar las equivalencias encontradas alrededor de los sustanti vos existentes en el texto.

La estructura resultante es un grafo dirigido, en e l cual los nodos representan las palabras del texto, con la característica de no ten er sustantivos repetidos; los arcos representan las relaciones de las estructural es asociadas a cada regla. Al estar analizando todo el texto, es posible (y frecu ente) encontrar repeticiones

Page 34: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

34

tanto en los sustantivos como en las reglas de equi valencia encontradas. El número de repeticiones en cada caso se utiliza para darle peso a los nodos y a los arcos del grafo, pues reflejan la importancia de la s palabras como conceptos en la estructura general del texto, independientement e de las intenciones semánticas del autor.

Se muestran los grafos resultado de aplicar dos con juntos de reglas para el caso de la frase ejemplo: "El texto es la herramienta pa ra incorporar la metodología" Figura 17 y Figura 18.Los dos conjuntos de reglas p oseen las mismas dependencias sintácticas, pero diferentes estructuras de transformación en una de ellas.

Figura 17: Grafo generado para la frase “El juego es la herram ienta para incorporar la metodología”

Figura 18: Grafo generado para la frase “El juego es la herram ienta para incorporar la metodología”

El número asociado a cada palabra en los grafos cor responde al número de veces que alguna regla se cumplió al pasar por dicho nodo . El grosor de las líneas representa el promedio de los números del nodo orig en y el nodo destino. El color de los arcos está asociado a la frase; para el eje mplo, como se trata de una sola

Page 35: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

35

frase, todos los arcos tienen el mismo color. En el caso de estudio se muestra un ejemplo con varias frases.

El color de los nodos es función de la frecuencia d e aparición de la palabra en el texto. Los nodos con mayor frecuencia son rojos, lo s siguientes amarillos y los menores grises. La distribución de estos colores re presenta el peso relativo del nodo con respecto a todo el grafo.

6.6 Módulo de Análisis de Distancia entre conceptos y similitud morfológica

El grafo dirigido, resultado del módulo de asociaci ón de estructuras equivalentes, es una estructura compleja, que a simple vista resu lta difícil de interpretar, sobre todo cuando el número de palabras del texto es cons iderable (superior a 1000 palabras). Por tal motivo, el módulo de análisis de distancia proporciona un mecanismo de abstracción que permite analizar las r elaciones del primer grafo a partir de la "distancia gramatical" y la similitud morfológica de los sustantivos en el texto. En términos del grafo, el concepto utilizado para realizar este análisis es el de frontera de un nodo a una distancia dada.

La distancia hace referencia a la cantidad de explo raciones que se hacen desde un nodo referencia, entendiendo exploración como el paso de un nodo a otro a través de un arco. Una exploración de nivel 2 sugie re entonces el análisis de los nietos de dicho nodo.

La similitud morfológica hace referencia a la etiqu eta que el usuario define como base del análisis. Así, por ejemplo, un análisis de distancia de nivel 5 sobre la etiqueta o parte NC, bidirecciona las aristas del g rafo, busca por cada nodo cuya etiqueta empezara por NC (nombres comunes) la conco rdancia en su descendencia (nodos afines a dicha etiqueta), con u na profundidad menor o igual a la quinta generación.

Finalmente es posible incluir un parámetro de motri cidad el cual permite filtrar y mostrar únicamente los nodos cuyo número de hijos s ea superior al dado por el usuario, esto con el fin de obtener una aproximació n gráfica manejable de la estructura general del grafo.

En la Figura 19 se ilustran dos grafos. El primer g rafo consiste en aplicar las reglas de la topología definida en la sección de resultado s y el segundo grafo corresponde al análisis de profundidad con nivel d e profundidad 2 y un parámetro de motricidad de 0.

El texto fuente analizado es: “En el curso de CC consideramos que el aprendizaje es la adquisición y la conexión de diversos concept os y que los conceptos se entrañan corporalmente. Para el caso del curso, el proceso de aprendizaje y de entrañamiento se realiza en el ejercicio recurrente de hacer lecturas y ensayos

Page 36: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

36

relacionados con las lecturas, así como en el diseñ o de juegos y en el juego de juegos”.

Figura 19: Grafo de relaciones morfológicas (izquierda) y graf o de proximidad conceptual con profundidad 0

(derecha)

7 Las Reglas de Transformación y Análisis Como se menciona anteriormente, una de las caracter ísticas principales de PAST, consiste en que el usuario puede definir las reglas y parámetros asociados a cada una de las transformaciones en el proceso. Esta sec ción ilustra un conjunto de reglas que definen una topología semántica, y se es tudian varios casos asociados al uso y manejo de los parámetros.

7.1 Una topología de Filtrado

Una de las posibles orientaciones que puede tener e l conjunto de reglas que define la topología es la de filtrado. El filtrado consiste en la eliminación paulatina de preposiciones, conjunciones, signos de puntuació n entre otras. Esta eliminación es realizada con el fin de crear una re presentación que de una guía sobre la semántica del texto conformada únicamente por adjetivos, verbos, adverbios y nombres.

Page 37: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

37

Page 38: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

38

Page 39: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

39

Page 40: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

40

Page 41: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

41

Tabla 2: Reglas de Filtrado

7.2 Extracción de árboles de relaciones morfológica s En esta sección se ilustra el resultado de aplicar las reglas de filtrado para construir el grafo de relaciones morfológicas. El t exto analizado corresponde al párrafo señalado en la sección 7.1.

El grafo asociado al párrafo y a las reglas de tran sformación definidas, puede observarse en la Figura 20.

Page 42: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

42

Figura 20: Grafo de relaciones morfológicas párrafo sección 7. 1

Como se puede observar en la gráfica, el filtrado d e conjunciones es representado como la unión de los elementos involucrados en los listados. Por ejemplo cuando se refiere a “eliminación paulatina de preposiciones, conjunciones, signos de puntuación entre otras” se observan las relaciones entre las palabras eliminación, preposiciones, consiste, signos, puntuación y conjunciones. De la misma manera, las palabras asociadas en “ la semántica del texto conformada únicamente por adjetivos, verbos, adverbios y nombres” pueden ser observadas en la parte superior del grafo. Es importante resaltar algunos elementos previamente mencionados sobre la manera de interpretar los graf os. El primero de estos

Page 43: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

43

elementos se relaciona con el color de los arcos el cual tiene como significado mostrar la pertenencia que tiene un nodo en una fra se del texto. Como puede observarse, el texto analizado estaba conformado po r tres frases, de ahí la presencia de tres colores distintos de arcos. Una conclusión importante del tipo de análisis realizado por PAST es que las reglas que d efinen la semántica pueden contener errores o incoherencias a la hora de estru cturar el grafo, por esta razón es importante el componente empírico en la construc ción de los subgrafos de representación, así como la interpretación asociada a la topología y el nivel de detalle con el que trabajan las reglas.

7.3 Análisis de baja Profundidad

El análisis de profundidad es un modelo de abstracc ión propuesto para la representación del grafo que consiste en la estruct uración del mismo a partir de los nombres y el análisis de frontera descrito ante riormente. El análisis de profundidad puede ser estudiado a dos escalas: Anál isis de baja profundidad y Análisis de alta profundidad. Una motivación para r ealizar el análisis de profundidad es la de construir una representación d e las relaciones entre los nombres involucrados que sea acoplable a la red con ceptual del analista y que involucre todos los nombres escritos en el texto. U na utilidad para este tipo de representaciones está asociada a la idea de reconst ruir el significado a partir de distintos puntos de observación de las relaciones e n el grafo. Finalmente, se propone como sugerencia, realizar este análisis en textos cortos, dado que la cantidad de nombres puede ser considerable y el eje rcicio de reconstrucción semántica puede dificultarse.

Para ilustrar este tipo de análisis, se ilustra la transformación del grafo a baja profundidad del texto del párrafo enmarcado en el r ecuadro de la sección 7.3. Los parámetros utilizados fueron:

• Profundidad = 3 • Cantidad mínima de relaciones del nodo para estar en el grafo (Motricidad)

= 0 • Prefijo de la etiqueta EAGLE que deben tener los n odos = N

El grafo resultado se ilustra en la Figura 21.

Como se puede observar, en el modelo de abstracción sugerido en las relaciones del grafo, la palabra representación juega un papel importante en la estructuración del párrafo. Para facilitar la visualización de lo s grafos PAST repite aquellos nodos que tengan muchas relaciones, de ahí, que la palabra representación se encuentre en 3 ocasiones. Una sugerencia para recon struir la semántica del texto en el grafo, consiste en analizar las relaciones di rectas e indirectas que tienen asociados los nodos con más relaciones. Para el cas o de la palabra representación, un ejemplo se encuentra las relaciones { idea, significado, puntos, observación, relaciones, grafo}, las cuales se asocian a la idea de reconstruir el significado a partir de diferentes puntos de observ ación de las relaciones en el grafo. Esta reconstrucción obedece a la idea concep tual que se tiene del párrafo y

Page 44: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

44

es propia del lector. De ahí la sugerencia de prop oner al lector la reconstrucción de las relaciones que considere pertinentes en el e squema de la estructura del grafo y evaluar la pertinencia de dicho análisis.

Figura 21: Análisis de profundidad del texto del recuadro de l a sección 7.3

7.4 Análisis de alta Profundidad Análogo al análisis de la sección anterior, el Anál isis de alta profundidad tiene como propósito resaltar la idea de representar dist intos niveles de abstracción de un texto a partir de la eliminación de nodos que no cumplan con ciertos criterios mínimos para estar en el grafo. Esta eliminación se fundamenta en la idea de

Page 45: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

45

conservar en la representación, únicamente aquellos conceptos que estructuran la idea de una manera general. Por lo tanto, la repres entación sugerida en este análisis puede aplicarse en textos de mayor extensi ón y los parámetros de eliminación para ser tenidos en cuenta, son definid os por el usuario.

Para ilustrar esta representación del texto se anal iza la sección 2.2 en su totalidad. La primera representación ilustrada en la Figura 22 tiene las siguientes características:

• Profundidad = 3 • Cantidad mínima de relaciones del nodo para estar en el grafo (Motricidad)

= 2 • Prefijo de la etiqueta EAGLE que deben tener los n odos = N

La segunda representación ilustrada en la Figura 23 tiene las siguientes características:

• Profundidad = 3 • Cantidad mínima de relaciones del nodo para estar en el grafo (Motricidad)

= 4 • Prefijo de la etiqueta EAGLE que deben tener los n odos = N

Page 46: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

46

Figura 22: Análisis con profundidad 2 de la sección 2.2

Page 47: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

47

Figura 23: Análisis con profundidad 4 de la sección 2.2

Como se puede observar en la Figura 22 y la Figura 23, la cantidad de nodos descartados está relacionada con el parámetro de pr ofundidad en el análisis. Una manera de hacer un análisis de los resultados de la s figuras, consiste en asociar los nodos descartados, con el nivel de abstracción que se tiene del texto. Un ejemplo de este tipo de abstracciones es observable en lo relacionado al estado emocional del autor como estudiante en el ensayo . En el grafo de la Figura 22, el nodo estado_emocional asocia directamente la abstracción mencionada como ejemplo y relaciona una mayor cantidad de nodos en referencia a la abstracción. Por su parte, el grafo de la Figura 23 no contiene específicamente una referencia de estado emocional. Sin embargo, existe una relaci ón análoga en términos de emociones, estudiantes, autor y relación . Esta comparación sugiere la utilización adecuada del parámetro de profundidad en relación a los grafos generados. Si bien el grafo de la Figura 22 contiene relaciones m ás precisas, su extensión dificulta la capacidad de interpretación semántica del mismo. Análogamente el grafo de la Figura 23 es más pequeño, pero requiere de una abstracción conceptual mayor por parte del analista del grafo.

Page 48: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

48

Finalmente, los resultados de analizar textos de ma yor extensión pueden ser observados en la sección 1 en el contexto del caso del curso de Cibernética de la Cibernética (ver anexos) y se analiza la opinión po r parte del autor de los textos.

8 Análisis y Diseño de la Herramienta de Software P AST

8.1 Casos de Uso El sistema expresado en casos de uso, para realizar la transformación descrita en la solución general del problema es.

Figura 24: Caso de uso general para la aplicación

Page 49: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

49

8.2 Requerimientos Identificados

TIPO Requerimiento funcional

NOMBRE Generar árboles de dependencia por cada frase en el archivo de texto

ENTRADAS El archivo de texto plano debe contener únicamente las frases del texto, es decir, no debe contener enumer aciones ni estilos ni imágenes.

DESCRIPCIÓN Permite que el profesor introduzca un texto plano e n el sistema para ser analizado por Freeling y generar el archivo de persistencia

CRITERIO SATISFACCIÓN

El programa genera los árboles de persistencia por cada frase introducida en el texto del archivo.

CASOS EXCEPCIÓN

El archivo no puede ser procesado por Freeling. En ese caso se genera una excepción.

TIPO Requerimiento funcional

NOMBRE Generar Regla de Composición Morfológica

ENTRADAS El usuario debe ingresar el nombre de la regla, la categoría Morfológica, sintagmática y/o gramatical asociada a la cabeza del subárbol de la regla. Consecuentemente e l usuario agrega los hijos del subárbol asociando las categorías que considere pertinentes. Finalmente ag rega los enlaces que constituyen el subgrafo asociado al subárbol.

DESCRIPCIÓN El programa proporciona al usuario, herramientas pa ra crear una regla, darle un identificador, definir una jera rquía a partir de categorías morfológicas, gramaticales y/o sintag males y definir un subgrafo asociado a la jerarquía.

CRITERIO SATISFACCIÓN

Se construyen las reglas que definen la topología.

CASOS EXCEPCIÓN

Se construye una regla con identificador repetido, entonces no se genera la regla.

Page 50: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

50

TIPO Requerimiento funcional

NOMBRE Generar árboles de dependencia por cada frase en el archivo de texto

ENTRADAS El archivo de texto plano debe contener únicamente las frases del texto, es decir, no debe contener enumer aciones ni estilos ni imágenes.

DESCRIPCIÓN Permite que el profesor introduzca un texto plano e n el sistema para ser analizado por Freeling y generar el archivo de persistencia

CRITERIO SATISFACCIÓN

El programa genera los árboles de persistencia por cada frase introducida en el texto del archivo.

CASOS EXCEPCIÓN

El archivo no puede ser procesado por Freeling, en caso tal se genera una excepción.

TIPO Requerimiento funcional

NOMBRE Generar grafo de estructuras morfológicas

ENTRADAS El conjunto de reglas válidas y cargadas en el sist ema

DESCRIPCIÓN Permite que el analista genere el grafo de estructu ras morfológicas

CRITERIO SATISFACCIÓN

El grafo resultante debe ser un grafo dirigido en e l cual todos los árboles de dependencia se unifican en una estru ctura que tiene la característica de no tener sustantivos rep etidos

CASOS EXCEPCIÓN

No se encuentra archivo de árboles de dependencia, no se encuentra archivo con reglas cargadas

TIPO Requerimiento funcional

NOMBRE Generar Grafo de Profundidad conceptual

PRECONDICIONES Debe haber un grafo de relaciones morfológicas carg ado

Page 51: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

51

ENTRADAS El usuario debe ingresar la magnitud de frontera, e l número mínimo de dependencias asociada a los nodos y la et iqueta EAGLE para el filtrado

DESCRIPCIÓN El programa realiza el análisis de profundidad y a partir de análisis de frontera, genera un grafo bidireccionad o con nodos cuya etiqueta es pasada por parámetro. Los no dos tienen igual o mayor cantidad de enlaces que los da dos por parámetro por el usuario.

CRITERIO SATISFACCIÓN

El archivo resultante contiene un grafo bidireccion ado con los nodos correspondientes a los parámetros dados por e l usuario.

CASOS EXCEPCIÓN

No hay nodos que cumplan con las características da das por parámetro

TIPO Requerimiento de Persistencia

NOMBRE Guardar archivo de conjunto de reglas de composició n morfológica

DESCRIPCIÓN Permite que el profesor guarde las reglas que se de sean utilizar para ejecutar el programa

CRITERIO SATISFACCIÓN

Las reglas seleccionadas se encuentran almacenadas en un archivo del programa

CASOS EXCEPCIÓN

No se encuentran reglas, las reglas no poseen forma to establecido, las reglas no poseen una etiqueta EAGL E asociada, las reglas no posee un identificador numé rico

TIPO Requerimiento de Persistencia

NOMBRE Cargar archivo de conjunto de reglas de composición morfológica

DESCRIPCIÓN El archivo de reglas previamente establecidas es ll amado para ser utilizado en el sistema

Page 52: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

52

CRITERIO SATISFACCIÓN

El archivo de reglas se encuentra listo para ser ej ecutado en el programa

CASOS EXCEPCIÓN

No se encuentra el archivo de reglas guardado

TIPO Requerimiento de Persistencia

NOMBRE Exportar imagen del grafo de estructuras morfológic as

DESCRIPCIÓN Permite que el analista guarde la imagen del grafo generado

CRITERIO SATISFACCIÓN

El grafo generado previamente es guardado en el sis tema, listo para ser utilizado para generar el grafo de p roximidad conceptual

CASOS EXCEPCIÓN

El sistema no genera ningún grafo

TIPO Requerimiento de Persistencia

NOMBRE Cargar archivo de árboles de dependencia en el text o

DESCRIPCIÓN Permite al analista llamar al archivo de árboles de dependencia en el texto para ser utilizado

CRITERIO SATISFACCIÓN

El archivo de texto con árboles de dependencia se e ncuentra listo para ser ejecutado por el programa

CASOS EXCEPCIÓN

No se encuentra un archivo de árboles de dependenci a

Page 53: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

53

TIPO Requerimiento de Persistencia

NOMBRE Guardar archivo de estructuras de datos de árboles del texto

DESCRIPCIÓN Permite al profesor almacenar el archivo que contie ne los árboles construidos por PAST a partir del análisis del resultado dado por Freeling

CRITERIO SATISFACCIÓN

El archivo que contiene los árboles de dependencia para cada frase del texto es guardado para ser utilizado posteriormente por el sistema

CASOS EXCEPCIÓN

No se encuentra archivo de estructuras de datos de árboles del texto

8.3 Anotaciones sobre el diseño Para estructurar una herramienta de análisis que se estructure bajo el esquema de transformaciones en textos a partir de reglas lingü ísticas, se parte del esquema de una herramienta cuyos módulos estén bajamente acopl ados. Por tal motivo dentro de los principios de diseño es importante la clasif icación de los procesos bajo un esquema de representación, procesamiento y control. Esta clasificación hace que el diseño general de la aplicación contemple el uso del patrón MVC.

8.4 Diagramas de clase Los diagramas de clase corresponden al modelo MVC, sin embargo se expone de manera separada el modelo en la sección 8.4.1 y las vistas y controladores en la sección 8.4.2.

8.4.1 Modelo del Mundo

Este modelo representa las clases y métodos más imp ortantes para el desarrollo del mundo. El modelo completo puede encontrarse en los anexos.

Una descripción general del modelo consiste en iden tificar el modelo del programa (partiendo del patrón MVC) con la clase DepManager. La clase DepManager es observada por las vistas y manejada desde los contr oladores descritos en el modelo de la interfaz.

Como puede observarse en el modelo de clases, la cl ase DepManager es la encargada de ejecutar Freeling, ejecutar las reglas en los grafos, realizar de modo general el análisis de profundidad y manejar todo l o relacionado con las reglas. Sin embargo, por estrategia de cohesión y acoplamiento, cada estructura de datos asociada a la solución, es representada en una clas e, es decir (existe una clase Grafo que está conformada por Arcos y por NodoGrafo s) una clase Documento

Page 54: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

54

que contiene un conjunto de Frases las cuales a su vez contienen la raíz del árbol de dependencia que es un Nodo. Las Reglas están con stituidas por un subárbol de jerarquías de tipo Nodo y por un conjunto de equ ivalencias que son los enlaces que constituyen el subgrafo y son manejadas desde e l Manejador de Reglas que las almacena y controla.

Figura 25: Modelo de clases del mundo

8.4.2 Modelo de la interfaz

Este modelo de clases corresponde a una visión gene ral de las vistas y controladores del modelo MVC. Las ventanas y compon entes gráficos fueron construidos a partir de JavaSwing y de Jgraph. Los métodos que construyen visualmente las vistas no fueron incluidos, pero un a visión del diagrama completo puede encontrarse en los anexos.

Como se puede observar existen dos tipos de control adores. La clase Controlador se asocia con las vistas de la ventana principal (P rincipalFreeling mostrada al

Page 55: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

55

inicio del programa) y maneja los eventos como impo rtar los archivos de texto etc. El controlador ControladorReglas es el encargado de manejar las vistas de las ventanas de edición y manejo de reglas (PanelRegla s), los controladores asociados a las barras de herramientas de los grafo s (PanelBarraDistinciones, BarraDibujoGrafo). Las vistas asociadas a la repres entación de los grafos son PanelDiagrama (Grafo de relaciones Morfológicas), P anelGrafoDistinciones (Grafo de Análisis de Profundidad) y panelDibujoGrafo (Gra fos utilizados para otros análisis).

Figura 26: Modelo de clases de la interfaz

8.5 Arquitectura general Esta versión de la aplicación es StandAlone, aunque al utilizar el modelo MVC puede ser separada en módulos.

Page 56: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

56

9 Resultados de Aplicación al Curso Cibernética de la Cibernética

9.1 Procedimiento El procedimiento asociado a la utilización de PAST dentro del contexto, hace referencia a la entrega de los tres ensayos argumen tativos. A cada ensayo argumentativo se asocia un grafo resultado del anál isis de dependencias de PAST, es decir, el grafo bidireccional que contiene algunas de las palabras a manera de las distinciones principales sobre las qu e se estructura el texto. La figura 14 ilustra el procedimiento.

Figura 27: Utilización de PAST en el curso de Cibernética de l a Cibernética

Para el caso de los tres grafos se optó por un crit erio de filtrado de sustantivos con una profundidad de 2 y un criterio de filtrado de 7 , es decir, nodos con menos de 7 aristas eran rechazados.

Con lo anterior se obtuvieron 3 grafos (G1, G2, G3) los cuales están asociados a cada texto (T1, T2, T3) correspondientemente.

9.2 Descripción de los Resultados Los textos fueron escritos por el estudiante de mae stría David Cepeda en el segundo semestre de 2007. La extensión de los ensay os después de la corrección de formato es:

T1: 2805 palabras

T2: 3878 palabras

T3: 4620 palabras

Los grafos de distinciones, con las condiciones de filtrado aplicadas dieron como resultado conjuntos de nodos de los siguientes tama ños:

G1: 42 nodos

G2: 62 nodos

G3: 67 nodos

Page 57: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

57

NOTA: Es importante recordar que los grafos pueden contener nodos repetidos, esto se debe a un algoritmo de representación de lo s grafos que repite instancias de los mismos cuando estos contienen muchas relacio nes con el fin de facilitar la interpretación del grafo.

A continuación se ilustran los grafos analizados. E n los anexos se encuentran los ensayos fuente y los grafos en tamaño real para fac ilitar su comprensión y entendimiento.

Figura 28: Grafo resultado G1

Page 58: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

58

Figura 29: Grafo resultado G2

Figura 30: Grafo resultado G3

Page 59: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

59

9.3 Análisis de los Resultados

9.3.1.1 Observación del Observador como resultado d e la percepción de niveles de abstracción

El primer aspecto para analizar los resultados, con siste en identificar los grafos como una representación de las distinciones explici tas en el texto, es decir, el grafo no puede contener palabras que no estén prese ntes en el escrito y por consiguiente, acorde a los niveles de abstracción q ue maneja el individuo, el grafo puede dar pistas sobre dichas abstracciones en las distinciones.

Para dar un acercamiento a la idea anteriormente ex puesta, se toma el siguiente párrafo textual, del testimonio escrito por el estu diante David Cepeda en relación a la figura del grafo de distinciones del ensayo 1.

A primera vista, la identificación de palabras clav es ubica palabras que utilizo. Sin embargo, considero que existe un aspec to muy puntual en mi primer ensayo, y es el de INCERTIDUMBRE. En el diag rama, no aparece ninguna referencia a dicho término, de modo que puede estar faltando esa parte[..] ya que si bien el tema de la incertidumbre aparece muchas veces (casi que en la totalidad del ensayo), la palabra propiamente no figura con tanta regularidad. Por ej emplo, me refiero a incertidumbre cuando menciono.

a) ... Por el contrario, las disposiciones diabólic as (Angustia, Envidia, Nihilismo, Confusión, Aburrimiento, Adicción) no go zan de las mismas características de las anteriores. Aquí no aparece la palabra, pero se hace alusión a que no gozan de la misma certidumbre que las simbólicas.

b) ... debido a que no gozamos de una certeza hacia un hecho futuro, que de otra manera causaría seguridad. Igualmente, no menciono incertidumbre, pero se sobreentiende que se refiere a este concepto.

Este testimonio, resalta el propósito de la herrami enta como un mecanismo que facilita la observación del observador. Si bien, no es objetivo discutir o resaltar las relaciones de las distinciones que de algún modo ha cen referencia no implícita a la “incertidumbre”, es posible afirmar que la observa ción de los grafos, contrasta los diferentes tipos de abstracción que tiene el autor, de tal forma que al observar las palabras (nodos) y sus relaciones (explicitas o no, consecuencia del análisis de profundidad) se motiva la realización de un proceso autorreferente en las diferentes escalas de abstracción conceptual que ti ene el individuo, constituyendo dicho proceso en una observación del observador. Es te proceso autorreferente en las escalas de abstracción es lo que explica la per cepción de “ausencia del concepto” <<incertidumbre>> como nodo.

Page 60: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

60

9.3.1.2 Observación del Observador como resultado d e la influencia de las distinciones durante la evolución de los ensayos

Otra manera de analizar los resultados, consiste en evaluar el aumento o disminución de apariciones y/o relaciones que tiene n los nodos en los grafos de ensayos autocontenidos. Una manera de observar esta percepción de variación se puede observar en el testimonio de David cuando com enta acerca de las ventajas del uso de la herramienta:

Lograr reconocer nuevas palabras o conceptos en gen eral CUANDO LOS ENSAYOS EVOLUCIONAN. Considero que esto ocurrió en la transición entre el primer y segundo ensayo. El con cepto de JUEGO tenía participación superficial, sin embargo, en el segundo ensayo me dediqué a desarrollar mi idea y esto se ve plasmado en el segundo diagrama.

Este comportamiento de los grafos se debe principal mente a la inclusión de nuevas palabras (alrededor de 1000). Adicionalmente el desarrollo de argumentos en los ensayos hace que conjuntos de estas nuevas p alabras contengan un buen número de relaciones y de apariciones como el caso de la palabra juego.

9.3.1.3 Observación del Observador como resultado d e una observación holística

Para analizar los resultados concernientes a una ob servación holística, es necesario reconocer que en la última iteración (ens ayo 3) el estudiante autor de los ensayos, tiene una idea más estructurada y desa rrollada que obedece al trabajo de todo un semestre. Por tal motivo, se esp era que el grafo refleje las relaciones más evidentes (dado que es el grafo con mayor numero de palabras, alrededor de 5000) mostrando únicamente aquellos no dos que contienen un mayor número de relaciones.

Lejos de asegurar que el grafo refleja la semántic a idéntica del texto, el proceso de enfrentar al observador con una tercera observac ión7 es más cercano a reflejar un aprendizaje por parte del mismo en lo concernien te a la interpretación de los grafos y a la asociación de un modelo mental de con ceptos que facilita la comprensión de una representación del texto a maner a grafo.

Sin embargo, el autor del ensayo no es plenamente c onsciente de la construcción conceptual que permite asociar el grafo al escrito y en consecuencia se pueden observar testimonios como el de David al observar e l grafo de su tercer escrito.

El tercer grafo me parece sorprendente. Creo que es una buena esquematización de lo que mi escrito trata de refle jar. Pienso que la mejora es en parte a que en la medida en que haya m ás conceptos,

7 Es importante recordar que esta tercera observació n involucra el trabajo continuo de organizar las ideas y argumentos en dos ocasiones anteriores y a la observación previa de los grafos 1 y 2

Page 61: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

61

considero la herramienta se hace más poderosa. Se m e ocurre hacer la analogía con un mapa conceptual: Pienso que es rele vante en la medida en que tenga conceptos bien diferenciados y bien re lacionados. No tiene sentido realizar un mapa conceptual de una cuartill a, ya que si duda es más funcional utilizarlo cuando las ideas estén cla ras y completas. De la misma forma, pienso que la herramienta es funcional en la medida en que el ensayo se encuentre terminado, ya que es SÓL O allí cuando uno ha tenido la oportunidad de refinar sus conceptos y apreciaciones.

Finalmente, se puede agregar al análisis de esta ob servación, la consecuencia de presentar los grafos a los estudiantes como el resu ltado de aplicar una herramienta de caja negra, es decir, los estudiante s tienen únicamente una idea general de cómo funciona la herramienta. El hecho d e no tener acceso a las reglas que definen la topología de la semántica del grafo, representa una dificultad inicial para los estudiantes, lo que en consecuencia reflej a una mejor percepción de los mismos en la medida que se van familiarizando con l a topología.

10 Conclusiones y Trabajo Futuro

10.1 Conclusiones

• Un buen entendimiento de la topología semántica def inida en las reglas constituye una herramienta de observación al ternativa de los escritos (propios y ajenos) . La percepción que tuvo el autor del ensayo acerca del grafo como una “buena” esquematiz ación apropiada, responde a una asociación entre lo representado y l a percepción sobre lo mismo permitiendo entender la observación del obser vador como un proceso que involucró no solamente el refinamiento de los conceptos, sino el aprendizaje sobre la interpretación de la topolo gía del grafo que permite explorar su semántica. En el contexto del curso de la cibernética PAST constituye una herramienta para la observación del observador a partir de las distinciones en el lenguaje escrito plasmadas p or el autor en su texto y el proceso de reescritura sobre el mismo en tres oc asiones.

• La topología definida en las reglas es útil para ob servar los conceptos comunes en textos de varios autores . Observando la topología definida en las reglas utilizadas, es pos ible utilizar dicha topología en el análisis de varios textos como archivo entrad a para un grafo (varios textos escritos en un solo archivo para ser analiza dos en un solo grafo) obteniendo una visión general sobre los conceptos u tilizados por los autores y las relaciones comunes entre los mismos. Es útil unir textos cortos y utilizar un criterio de filtrado para orga nizar el grafo.

• PAST una herramienta que puede utilizarse para hace r otro tipo de observaciones relacionadas con el lenguaje. El proceso de entendimiento de las relaciones de los grafos a man era de distinciones por

Page 62: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

62

parte del autor del ensayo, involucra necesariament e un proceso de acercamiento al lenguaje del mismo. Un ejemplo de e stas observaciones fue la realizada en relación al grafo del texto del génesis versículos 1 al 23, presentada en el curso de antropología de pregrado La Condición Humana, donde se utilizó para soportar los argumentos sobre la estructura general del texto presentados por el profesor Carlos Uribe director del curso.

• Es posible confrontar a un mismo texto con diferent es topologías de grafos, lo que constituye un proceso no determinístico ideal para el análisis de textos des de una perspectiva pluralista. Esto se debe a la capacidad de definir conjuntos de reglas distintos y poder aplicarlos en un mismo texto.

• PAST obtiene una ventaja en el análisis cualitativo de los textos en relación con otras herramientas como AtlasTi por que no involucra la percepción del revisor en párrafos o f rases específicas del texto . Al definir la topología de manera indirecta sobre el escrito (las reglas aplican sobre parámetros sintác ticos, mas no sobre palabras o frases) el proceso realizado por PAST af ecta de una manera menos radical en la semántica del texto.

10.2 Trabajo Futuro y Posibles Aplicaciones Los grafos semánticos obtenidos a partir de la ejec ución de PAST, pueden ser aplicados en diferentes contextos como la antropolo gía, la clasificación de información de historias clínicas, el análisis de t endencias de consumo etc. Estas posibles aplicaciones requieren en consecuencia, la definición de trabajo futuro en relación a tres problemas principales: La mejora de las transformaciones realizadas por PAST,la difusión de la herramienta y el uso de PAST en el contexto de las posibles aplicaciones.

10.2.1 Mejoras en las Transformaciones de PAST

En el contexto de los análisis de textos, la precis ión de los resultados obtenidos a partir de la ejecución de PAST, presenta dificultad es en lo concerniente al análisis del lenguaje. A continuación se enuncian las dificu ltades identificadas hasta el momento y se hace una introducción de la problemáti ca asociada a las mismas.

10.2.1.1 El sujeto Implícito

La creación de grafos morfológicos en PAST, respond e al uso de reglas de transformación definidas a partir de categorías mor fológicas, gramaticales y estructuras de dependencia. Sin embargo, las relaci ones que construyen los grafos, son realizadas a partir del análisis de una frase a la vez. Al realizar el análisis frase por frase, la existencia de un sujet o implícito representa una falla en el sistema al no relacionar adecuadamente los nombr es. Un ejemplo de la situación se ilustra en las siguientes dos frases.

Page 63: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

63

El ratón recorría la pradera en un soleado día de v erano. Este sin embargo, no sospechaba que estaba siendo asechado por un fer oz gato.

Como se puede observar, al realizar el análisis fra se por frase, la relación entre el gato y el ratón no puede ser construida a partir de la transformación definida en PAST dado que la palabra ratón no aparece en la seg unda frase. Una aproximación a la solución se creó a partir de la c reación de variables globales en las reglas de definición, sin embargo, es necesario seguir investigando al respecto para obtener una solución apropiada del problema.

10.2.1.2 Estilos de Redacción

En relación a los estilos de redacción, la transfor mación propuesta por PAST requiere de la creación de mecanismos que permitan definir reglas asociadas al manejo de expresiones como: sin embargo, a pesar de , etc. En el análisis actual, la repetición constante de este tipo de expresiones , resulta en la creación de relaciones no deseables. Por ejemplo en el caso de la expresión sin embargo el nombre embargo aparece como un nodo y si es utiliza do en más de una ocasión tiene a obtener una relevancia mayor a la asociada en el contexto semántico del autor. El manejo de esta problemática es propuesto en el esquema de trabajo futuro.

10.2.1.3 Visualización de los grafos

Los grafos dibujados por PAST poseen varios problem as asociados al modo de representación de los mismos. Uno de los problemas principales, está relacionado con la cantidad de información que es dada al usuar io en un momento dado. Por esta razón, se propone como trabajo futuro, el dise ño y la implementación de esquemas de visualización alternos que permitan rea lizar filtrados dinámicamente, con el fin de proveer al usuario una representación gráfica de la información específica buscada por el usuario.

10.2.2 La difusión de la Herramienta

El uso de PAST como herramienta para la construcció n de representaciones alternativas de texto, requiere para su aprovechami ento, de mecanismos de difusión apropiados que permitan a los potenciales usuarios conocer las transformaciones realizadas de tal forma que puedan obtener el mayor beneficio de la herramienta con el fin de despertar el interé s general sobre las potenciales aplicaciones y mejoras. Para esto, es sugerido como trabajo futuro, la construcción de una versión online, que permita presentar las ca racterísticas de la herramienta al público en general presentando los resultados e n formatos de información estándar como XML e imágenes SVG. Esta versión onli ne requiere de la reestructuración de la arquitectura de la aplicaci ón en términos de una versión orientada a servicios y su construcción está defini da como trabajo futuro.

10.2.3 Uso de la herramienta en el contexto de las posibles aplicaciones

Page 64: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

64

Para observar los requerimientos que definen el tra bajo futuro de PAST en el contexto de las diferentes aplicaciones, se describ e la situación problemática que ofrece una alternativa de solución basada en la apl icación de la herramienta y se asocian los requerimientos necesarios para llevar a cabo dicha aplicación.

10.2.3.1 Clasificación de la información de Histor ias Clínicas

En Colombia el manejo de las historias críticas no está estandarizado en términos de formato y contenidos manejados. Una de las princ ipales problemáticas está relacionada con la claridad de la información, pues to que los médicos tienen libertad de escritura sobre el contenido de la his toria clínica (Guzmán, 1999). Una aplicación de PAST en este contexto consiste en la aplicación del análisis sintáctico a estas historias clínicas, con el fin d e extraer una síntesis que sea clasificable dentro de los sistemas centralizados d e historias clínicas como GoogleHealth (Google, 2008). Para esto es necesari o implementar una interfaz de PAST que permita integrarlo en el contexto de los s ervicios Web y realizar los cambios pertinentes a la realización de esquemas de representación distintos al gráfico.

10.2.3.2 Análisis de Mercado a partir del Lenguaje del Consumidor

Las investigaciones cualitativas de mercadeo y publ icidad se basan en la importancia de lo que expresan las personas para to mar decisiones frente a los productos. El inconveniente principal es que estas decisiones solo toman en cuenta las afirmaciones directas y la mayoría de la s veces se pierde información que no es subrayada por el consumidor. Poder llevar un análisis más profundo es una necesidad tanto para los investigadores como pa ra el usuario que no se siente escuchado, a pesar de todo lo que dice.

La comunicación del individuo con el medio se da a partir de constructos sociales con los que se desenvuelve con los demás. Estos con structos se manifiestan de diferentes formas: con palabras, gestos e incluso e l tono de voz. Debido a la dificultad que se presenta al intentar evaluar los tres aspectos en un mismo ejercicio, una alternativa consiste en evaluar de f orma precisa, profunda y pertinente el lenguaje escrito de los sujetos evalu ados. El potencial de PAST en este contexto, consiste en proveer esquemas de repr esentación construidos a partir de reglas de sintaxis y no a partir de repre sentaciones arbitrarias que apoyen el análisis cualitativo de los textos de los consu midores en relación a los adjetivos, metáforas y demás elementos del lenguaje.

Page 65: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

65

11 Bibliografía

Akmajian A [y otros] Linguistics An introduction to Language and Commun ication [Artículo] // MIT Press Third Edition. - 1992.

Boyle D Lenguaje y Pensamiento en el Desarrollo Humano [Li bro]. - Buenos Aires : Editorial Troquel, 1977.

Bravo Germán, Bermeo José y Contreras Juan Sebastiá n PAST - A ... [Conferencia] // WMSCI. - Orlando, FL : [s.n.], 2008.

Capra y Fritjof Sabiduría Insólita. Conversaciones con Personajes Notables [Libro]. - Barcelona : Editorial Cairos, 1994.

Capra, Fritjof y Steindl-Rast David Pertenecer al Universo [Libro]. - Buenos Aires : Editorial Planeta, 1993.

Chomsky Noam Sintactic Structures [Libro]. - Berlín : Die Deuts che Bibliothek, 1957.

Chomsky Noam Sintáctica y semántica en la gramática generativa [Libro]. - México DF : Siglo Vintiuno Editores, 1985.

Cognitive Science Laboratory, Princetown University About WordNet [En línea] // WordNet a Lexical Database for the English Language . - 2006. - 23 de Marzo de 2008. - http://wordnet.princeton.edu/.

Covington M. A. An empirically interpretetation of dependency gram mars, ResearchReport AI-1994-01 [Libro]. - [s.l.] : Unive rsity of Georgia, 1994.

Expert Advisory Group on Languaje Engineering Stand ards The essentials of Eagles [En línea] // Instituto de Linguística Computaciona l. - Marzo de 22 de 2008. - 24 de Marzo de 2008. - http://www.ilc.cnr.it/EAGLES/intro.html.

Fritz Walter Sistemas Inteligentes y sus Sociedades [En línea] // Sistemas Inteligentes y sus Sociedades Libro Electrónico Gratuito. - 7 de M arzo de 2008. - 1 de Mayo de 2008. - http://www.intelligent-systems.com.ar/intsyst/indexSp.htm.

Glanville Ranulph The purpose of second-order cybernetics [Publicaci ón periódica] // Kybernetes: The International Journal of Systems & Cybernetics. - 2004. - págs. 1379-1386.

Guerring John What Makes a Concept Good? A Criterial Framework f or Understanding Concept Formation in the Social Sciences [Publicaci ón periódica] // Palgrave Macmillan Journals, Polity, Vol. 31, No. 3 . - 1999. - págs. 357-393.

Guiraud Pierre La Semántica [Libro]. - México DF : Brevarios del Fondo de la Cultura Económica, 1960.

Lacobelli Michael The Semantic Discipline [Publicación periódica] // The Modern Language Vol 33. - 1949. - págs. 16-22.

LADEVÉZE Luis NÚÑEZ LA DEFINICIÓN COMO SIGNIFICADO TEXTUAL [Publicació n periódica] // Anuario filosófico, Vol. 20, Nº 1. - 1987. - págs. 167-198.

Page 66: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

66

Manning C y Schütze H Foundations of Statistical Natural Language Proces sing [Publicación periódica] // The MIT Press. - 1999.

Minsky Marvin La Sociedad de la Mente [Libro]. - Buenos Aires : Ediciones Galápago, 1986.

Moriello Sergio y Flirtz Walter La Realidad es una compleja red de interconexiones [En línea] // Revista Tendencias. - 11 de Junio de 2006 . - 2 de Abril de 2008. - http://www.tendencias21.net/index.php?action=article&id_article=389106.

Otero Carlos-Peregrín introducción, notas y apéndices [Sección del libro ] // Sintáctica y semántica en la gramática generativa / aut. libro Chomsky Noam. - Mexico DF : Siglo Veintiuno, 1985.

TALP Research Center, Universidad Politécnica de Ca taluña An Open Source Suite of Language Analyzers [En línea] // Freeling 2.0. - 2 de Octubre de 2007. - http://www.lsi.upc.edu/~nlp/freeling/.

TALP Research Center, Universidad Politécnica de Ca taluña INTRODUCCIÓN A LAS ETIQUETAS EAGLES (v. 2.0) [En línea] // Freeling 2. 0. - 21 de Marzo de 2008. - 21 de Marzo de 2008. - http://garraf.epsevg.upc.es/freeling/doc/userman/parole-es.html.

Young Michael D. Cognitive Mapping Meets Semantic Networks [Publica ción periódica] // The Journal of Conflict Resolution Vol. 40, No. 3. - 1993. - págs. 395-414.

Zarama Roberto y Bermeo José Programa del Curso Cibernética de la Cibernética [Libro]. - Bogotá : Universidad de los Andes, 2007.

Page 67: PLATAFORMA DE ANÁLISIS DE TEXTOS PAST JUAN SEBASTIÁN ...

67

12 Anexos Los anexos se encuentran en la carpeta de anexos CD adjunto. Los anexos contenidos corresponden al API, manual de usuario, grafos, modelos de clases, y manual de instalación y mantenimiento.

12.1 API

Ver carpeta de anexos directorio API/.

12.2 Manual de usuario

Ver carpeta de anexos ruta doc/manual/index.html.

12.3 Manual de instalación y mantenimiento

Ver carpeta de anexos ruta doc/manual/manual de In stalación .doc.

12.4 Modelos de clase

Ver carpeta de anexos ruta doc/modelo_Clases/mundo .jpg

Ver carpeta de anexos ruta doc/modelo_Clases/inter faz.jpg

12.5 Grafos y textos fuente caso Cibernética

Ver carpeta de anexos ruta resultados/grafos/

Ver carpeta de anexos ruta resultados/textos/