Análisis estilométrico
-
Upload
alhex-ramirez -
Category
Documents
-
view
81 -
download
6
Transcript of Análisis estilométrico
Universidad Nacional Autónoma de México
Facultad de Filosofía y Letras
Análisis estilométrico comparativo como método
establecer relaciones de autoría
Alejandro Ramírez Enríquez
Lingüística forense
19/III/2013
1
Introducción
Aunque los estudiosos de la teoría literaria difieren en la definición de lo que es
el estilo, la mayoría concuerda en que son las cualidades con las que cuentan
los textos (en el sentido más amplio posible, haciendo hincapié en la literalidad
y la oralidad del mismo): temáticas, organización del texto, preferencia por
cierto tipo de conectores lógicos, el uso de la cantidad y tipo de figuras
retóricas, etc.; cuyas variaciones pueden ser conscientes e inconscientes.
Tomando en cuenta lo anterior, la teoría literaria desde un punto de vista
estructuralista, dentro de la rama de la estilística, considera que se pueden
establecer relaciones estadísticas para la definición puntual y cuantitativa del
estilo de un autor, creando así la estilometría.
La estilometría, por medio de estas relaciones, cree posible el poder establecer
parámetros de comparación entre distintos autores, para, entre otras cosas,
conseguir establecer similitudes congruentes para determinar la autoría de
ciertos textos y corroborar la de otros en ciertos casos.
Este enfoque es usado por la lingüística forense como prueba en casos
legales.
Por medio de las humanidades digitales, se han creado diversos programas
para poder establecer y realizar el trabajo estilométrico con mayor agilidad y
precisión. Así es como surge Signature.
El objetivo de este trabajo es proporcionar criterios para determinar la autoría
de un autor desconocido, analizando y comparando tanto visual como
matemáticamente la información proporcionada por el programa sobre otros
tres autores distintos.
Para hacer más rápida la medición, manejaré el menor número de cifras
significativas. También he de mencionar que decidí hacer todas las mediciones
2
tomando solamente los porcentajes de frecuencias, ya que considero que da
una visión más clara de las diferencias que estoy considerando.
Los parámetros que mediré con Signature son los siguientes:
Longitud de palabra por caracteres.
Longitud de oraciones por palabra.
Longitud de oraciones por cantidad de oraciones.
Cantidad de puntuación.
Para este último, he concluido que por el tipo de texto la medición de ciertos
signos de puntuación es completamente innecesaria, por lo que me limitaré a
hacerlo con punto, punto y coma, coma, dos puntos y signo de interrogación.
Detección de similitudes para establecer vínculos de autoría
El programa nos proporciona cuatro autores conocidos y uno desconocido, el
cual – por economía del lenguaje – llamaré ignoto. El texto que trabajaremos es
The Federalist.
Como podemos ver en la imagen de la uno a la cuatro, las curvas lanzadas por
el programa resultan ser muy similares para descartar a simple vista las que
podrían o no ser aproximativas para la determinación de similitudes estilísticas,
por lo que lo que proseguiré a realizar será la confrontación de las gráficas de
autor ignoto contra cada uno de los autores para verificar primero visualmente
las diferencias y así determinar en qué casos conviene hacer un análisis
matemático puntual.
Sólo para especificarlo, en la imagen número tres (longitud de oración), al
contrario del resto, la diferencia de una con el resto es considerable por lo que
considero también complicado trabajar con este dato, empero, lo usaré en
términos de que sea útil para el fin que busco.
3
Imagen 1. Gráfica de la longitud de palabra
Imagen 2. Gráfica de la longitud de oraciones
4
Imagen 3. Grafica de la longitud de párrafos
Imagen 4. Gráfica de la puntuación
5
Comenzando con la confrontación, visualmente Hamilton con nuestro ignoto
presentan una gran similitud entre ambos, por lo que es considerable realizar el
análisis de ciertos datos matemáticos para poder confrontarlo con otro que
cuente con el mismo grado de similitud visual.
Considerando el primer factor mostrado en la imagen número uno, podemos
ver como ambos autores utilizan casi con la misma frecuencia las palabras
compuestas por un rango de dos a cuatro caracteres, empero muy
probablemente estas palabras son nexos funcionales, lo que no nos dice
mucho estilísticamente hablando, por lo que sería conveniente verificar los que
usa.
La diferencia porcentual que encontramos son las siguientes:
Dos caracteres: 0.9%
Tres caracteres: 0.2%
Cuatro caracteres: 0.1%
Cinco caracteres: 0.29%
Seis caracteres: 0.4%
Siete caracteres: 0.24%
6
Imagen 5. Ignoto vs. Hamilton: longitud de palabra
Como mencioné párrafos antes la disparidad en el criterio de longitud de
oración es considerablemente grande; sin embargo, existen algunos puntos
máximos en los que las curvas son muy similares. Analizando
matemáticamente los datos de esos segmentos encontramos lo que las
diferencias porcentuales son éstas:
Oraciones de una palabra: 0.23%
Oraciones de dos palabras: 0.14%
Oraciones de tres palabras: 0.04%
7
Imagen 6: Ignoto vs. Hamilton: longitud de oración
En lo que refiere a la longitud de párrafo, que se muestra en la imagen número
siete, podemos notar como la concentración de la actividad de focaliza en dos
segmentos de gráfica: el que contiene párrafos de una a tres oraciones y el
segundo que va desde cuarenta y ocho a cincuenta oraciones.
Aunque existe este segundo foco de actividad, el que predomina es el primer
segmento que mencione. Esto me hace creer, sin leer el escrito, que el texto
contiene muchas sentencias.
Las diferencias porcentuales que encentré son las siguientes:
8
Imagen 7. Ignoto vs. Hamilton: longitud de párrafo
9
Imagen 8. Ignoto vs. Hamilton: cantidad de puntuación
10
Imagen 9. Ignoto vs. Hammad: longitud de palabra
11
Imagen 10. Ignoto vs. Hammad: tamaño de oración.
12
Imagen 11. Ignoto vs. Hammad: longitud de párrafo.
Imagen 12. Ignoto vs. Hammad: cantidad de puntuación
13
Imagen 13. Ignoto vs. Jay: longitud de palabra
14
Imagen 14. Ignoto vs Jay: longitud de oración
Imagen 15. Ignoto vs Jay: longitud de párrafo.
15
Imagen 16. Ignoto vs. Jay: cantidad de puntuación
16
Imagen 17. Ignoto vs. Madison: longitud de palabra
Imagen 18. Ignoto vs. Madison: Longitud de oración
17
Imagen 19. Ignoto vs. Madison: longitud de oración
18
Imagen 20. Ignoto vs. Madison: cantidad de puntuación
19