Análisis estilométrico

20
Universidad Nacional Autónoma de México Facultad de Filosofía y Letras Análisis estilométrico comparativo como método establecer relaciones de autoría 1

Transcript of Análisis estilométrico

Page 1: Análisis estilométrico

Universidad Nacional Autónoma de México

Facultad de Filosofía y Letras

Análisis estilométrico comparativo como método

establecer relaciones de autoría

Alejandro Ramírez Enríquez

Lingüística forense

19/III/2013

1

Page 2: Análisis estilométrico

Introducción

Aunque los estudiosos de la teoría literaria difieren en la definición de lo que es

el estilo, la mayoría concuerda en que son las cualidades con las que cuentan

los textos (en el sentido más amplio posible, haciendo hincapié en la literalidad

y la oralidad del mismo): temáticas, organización del texto, preferencia por

cierto tipo de conectores lógicos, el uso de la cantidad y tipo de figuras

retóricas, etc.; cuyas variaciones pueden ser conscientes e inconscientes.

Tomando en cuenta lo anterior, la teoría literaria desde un punto de vista

estructuralista, dentro de la rama de la estilística, considera que se pueden

establecer relaciones estadísticas para la definición puntual y cuantitativa del

estilo de un autor, creando así la estilometría.

La estilometría, por medio de estas relaciones, cree posible el poder establecer

parámetros de comparación entre distintos autores, para, entre otras cosas,

conseguir establecer similitudes congruentes para determinar la autoría de

ciertos textos y corroborar la de otros en ciertos casos.

Este enfoque es usado por la lingüística forense como prueba en casos

legales.

Por medio de las humanidades digitales, se han creado diversos programas

para poder establecer y realizar el trabajo estilométrico con mayor agilidad y

precisión. Así es como surge Signature.

El objetivo de este trabajo es proporcionar criterios para determinar la autoría

de un autor desconocido, analizando y comparando tanto visual como

matemáticamente la información proporcionada por el programa sobre otros

tres autores distintos.

Para hacer más rápida la medición, manejaré el menor número de cifras

significativas. También he de mencionar que decidí hacer todas las mediciones

2

Page 3: Análisis estilométrico

tomando solamente los porcentajes de frecuencias, ya que considero que da

una visión más clara de las diferencias que estoy considerando.

Los parámetros que mediré con Signature son los siguientes:

Longitud de palabra por caracteres.

Longitud de oraciones por palabra.

Longitud de oraciones por cantidad de oraciones.

Cantidad de puntuación.

Para este último, he concluido que por el tipo de texto la medición de ciertos

signos de puntuación es completamente innecesaria, por lo que me limitaré a

hacerlo con punto, punto y coma, coma, dos puntos y signo de interrogación.

Detección de similitudes para establecer vínculos de autoría

El programa nos proporciona cuatro autores conocidos y uno desconocido, el

cual – por economía del lenguaje – llamaré ignoto. El texto que trabajaremos es

The Federalist.

Como podemos ver en la imagen de la uno a la cuatro, las curvas lanzadas por

el programa resultan ser muy similares para descartar a simple vista las que

podrían o no ser aproximativas para la determinación de similitudes estilísticas,

por lo que lo que proseguiré a realizar será la confrontación de las gráficas de

autor ignoto contra cada uno de los autores para verificar primero visualmente

las diferencias y así determinar en qué casos conviene hacer un análisis

matemático puntual.

Sólo para especificarlo, en la imagen número tres (longitud de oración), al

contrario del resto, la diferencia de una con el resto es considerable por lo que

considero también complicado trabajar con este dato, empero, lo usaré en

términos de que sea útil para el fin que busco.

3

Page 4: Análisis estilométrico

Imagen 1. Gráfica de la longitud de palabra

Imagen 2. Gráfica de la longitud de oraciones

4

Page 5: Análisis estilométrico

Imagen 3. Grafica de la longitud de párrafos

Imagen 4. Gráfica de la puntuación

5

Page 6: Análisis estilométrico

Comenzando con la confrontación, visualmente Hamilton con nuestro ignoto

presentan una gran similitud entre ambos, por lo que es considerable realizar el

análisis de ciertos datos matemáticos para poder confrontarlo con otro que

cuente con el mismo grado de similitud visual.

Considerando el primer factor mostrado en la imagen número uno, podemos

ver como ambos autores utilizan casi con la misma frecuencia las palabras

compuestas por un rango de dos a cuatro caracteres, empero muy

probablemente estas palabras son nexos funcionales, lo que no nos dice

mucho estilísticamente hablando, por lo que sería conveniente verificar los que

usa.

La diferencia porcentual que encontramos son las siguientes:

Dos caracteres: 0.9%

Tres caracteres: 0.2%

Cuatro caracteres: 0.1%

Cinco caracteres: 0.29%

Seis caracteres: 0.4%

Siete caracteres: 0.24%

6

Page 7: Análisis estilométrico

Imagen 5. Ignoto vs. Hamilton: longitud de palabra

Como mencioné párrafos antes la disparidad en el criterio de longitud de

oración es considerablemente grande; sin embargo, existen algunos puntos

máximos en los que las curvas son muy similares. Analizando

matemáticamente los datos de esos segmentos encontramos lo que las

diferencias porcentuales son éstas:

Oraciones de una palabra: 0.23%

Oraciones de dos palabras: 0.14%

Oraciones de tres palabras: 0.04%

7

Page 8: Análisis estilométrico

Imagen 6: Ignoto vs. Hamilton: longitud de oración

En lo que refiere a la longitud de párrafo, que se muestra en la imagen número

siete, podemos notar como la concentración de la actividad de focaliza en dos

segmentos de gráfica: el que contiene párrafos de una a tres oraciones y el

segundo que va desde cuarenta y ocho a cincuenta oraciones.

Aunque existe este segundo foco de actividad, el que predomina es el primer

segmento que mencione. Esto me hace creer, sin leer el escrito, que el texto

contiene muchas sentencias.

Las diferencias porcentuales que encentré son las siguientes:

8

Page 9: Análisis estilométrico

Imagen 7. Ignoto vs. Hamilton: longitud de párrafo

9

Page 10: Análisis estilométrico

Imagen 8. Ignoto vs. Hamilton: cantidad de puntuación

10

Page 11: Análisis estilométrico

Imagen 9. Ignoto vs. Hammad: longitud de palabra

11

Page 12: Análisis estilométrico

Imagen 10. Ignoto vs. Hammad: tamaño de oración.

12

Page 13: Análisis estilométrico

Imagen 11. Ignoto vs. Hammad: longitud de párrafo.

Imagen 12. Ignoto vs. Hammad: cantidad de puntuación

13

Page 14: Análisis estilométrico

Imagen 13. Ignoto vs. Jay: longitud de palabra

14

Page 15: Análisis estilométrico

Imagen 14. Ignoto vs Jay: longitud de oración

Imagen 15. Ignoto vs Jay: longitud de párrafo.

15

Page 16: Análisis estilométrico

Imagen 16. Ignoto vs. Jay: cantidad de puntuación

16

Page 17: Análisis estilométrico

Imagen 17. Ignoto vs. Madison: longitud de palabra

Imagen 18. Ignoto vs. Madison: Longitud de oración

17

Page 18: Análisis estilométrico

Imagen 19. Ignoto vs. Madison: longitud de oración

18

Page 19: Análisis estilométrico

Imagen 20. Ignoto vs. Madison: cantidad de puntuación

19