El corpus del náhuat

1

El corpus del náhuat

Un documento para el Seminario Lingüístico Náhuat

© 2012, Alan R. King y SLN* ESQUEMA El objetivo de este documento es contar a los miembros de SLN la historia de mi trabajo hasta la fecha y mi visión de futuro en cuanto a nuestro corpus de textos en lengua náhuat. Después de dar una breve explicación de lo que se entiende, en este contexto, por la palabra corpus (§1) y de la razón de su importancia para nosotros (§2), viene un breve resumen (contado un poco subjetivamente quizás) que da cuenta del papel que han jugado los corpus en las diferentes fases de evolución de la ciencia de la lingüística (§3). No es estrictamente necesaria la lectura de esta última sección para entender lo que se dirá a continuación sobre el corpus del náhuat pero la he ofrecido por creer que a algunos de mis lectores les puede interesar saber un poco del contexto teórico-histórico, y porque entender algo sobre la evolución de ideas y métodos es un valioso fundamento para cualquiera que quiera entrar de pleno en el tema.

Tras esta introducción general al tema de los corpus, se describe lo que es, y qué hace, un conocido tipo de software llamado un concordanciador usado habitualmente para extraer información de un corpus para fines de investigación (§4), ya que esto nos ayuda a entender para qué sirve el corpus y cómo se utiliza. A continuación, hablaré un poquito sobre cómo se hace un corpus (§5).

Gran parte del corpus del náhuat proviene de textos que se encuentran en algunos de los trabajos sobre el náhuat que se publicaron en diferentes momentos y lugares a lo largo del siglo XX, y la siguiente sección (§6) repasa la historia de esos estudios y de las obras más importantes desde esta óptica.

Después de esto ya estaremos listos para empezar a considerar el corpus del náhuat en sí, pero en un interludio (§7) daré cuenta del trabajo de un señor en El Salvador llamado Gaio Tiberio quien ha hecho algo un poco parecido a lo que nosotros hemos hecho, para explicar las diferencias, qué pasó y por qué tristemente no nos ha servido y hemos tenido que hacer un trabajo nuevo partiendo de cero en vez de aprovechar su esfuerzo.

Después de tantos preámbulos, por fin describiré, en §8, la primera fase del corpus de náhuat, que fue terminado a mediados de la década pasada, el “Corpus 1.0” como lo voy a llamar. La próxima sección, §9, explica el reemplazo del concordanciador originalmente usado con Corpus 1.0 por otro programa de diseño propio llamado TAC. Esta fase duró poco tiempo porque un poco después, por razones que explicaré, opté por un paso más radical al redefinir el marco informático y pasar a un entorno integrado que incorpora tanto el corpus como todos los léxicos de náhuat de los que dispongamos, por medio de un software de otro tipo llamado Field Linguist’s Toolbox; a este nuevo sistema integrado para los datos del náhuat, tanto de corpus como de léxico, le puse el nombre NAWACOLEX (§10). Dado que NAWACOLEX es el sistema actual y el que prevemos usar de aquí en adelante para la sistematización del corpus (y de los léxicos), daré una explicación más extendida de cómo funciona, cuáles son sus implicaciones, sus ventajas sobre otras maneras de configurar el corpus y también (§11) cuáles son algunas desventajas a tomar en cuenta. Finalmente, en la última sección (§12), resumiré el estado del corpus hasta ahora (para los que no han estado prestando atención) y lo que se prevé para el futuro, el trabajo que queda por hacer, y el lugar que va a ocupar el corpus en el proceso de recuperación del náhuat.

* Este artículo puede distribuirse libremente para fines personales y no comerciales sin permiso expreso, siempre y cuando se

mantenga íntegro sin modificación alguna y se conserven los datos de su autoría y procedencia. Queda prohibido cualquier otro

uso sin el permiso explícito por escrito del autor o del tenedor del copyright. El artículo original se puede descargar de

http://alanrking.info.

http://alanrking.info/

2

§1. ¿QUÉ ES UN CORPUS? Corpus es la palabra para 'cuerpo' en latín (y de ahí viene la palabra cuerpo). Cuando los lingüistas

hablan de un corpus se refieren a un conjunto (un "cuerpo") de textos en una lengua determinada. A

partir de ahí, el sentido exacto que se le dé dependerá del contexto. Si decimos que tal o cual lengua tiene

un corpus limitado o pequeño queremos decir, probablemente, que hay pocas cosas escritas en ella: en

este caso el corpus quiere decir el conjunto de todos los textos de la lengua en cuestión. Pero si un

lingüista dice que "tiene un corpus", probablemente está diciendo que dispone de una colección de textos

para utilizar en sus investigaciones sobre la lengua: ahí, el corpus quiere decir una selección de textos, no

necesariamente todos los que existen. En la práctica, en este segundo caso, lo que se entiende

normalmente por un corpus es una base de datos (estructurada o no, como veremos) cuyo contenido son

textos. La mayoría de las veces, tendré en mente el segundo sub-sentido en este documento, pero el

contexto lo aclarará.

§2. LA IMPORTANCIA DEL CORPUS Aunque la idea de corpus lingüístico no es tan nueva, se ha vuelto mucho más importante en los últimos

años gracias a las posibilidades que ofrece la informática para crear, almacenar, manipular y utilizar

corpus de textos en cualquier idioma y de cualquier tamaño. Antes se tardaba años para estudiar o crear

índices del contenido de miles de páginas de texto, donde ahora se tardan meros segundos para extraer la

información equivalente por medios electrónicos.

Todos sabemos qué fácil es almacenar textos en documentos de Word o páginas de HTML y lo sencillo

que resulta utilizar el comando "Buscar" para descubrir instantáneamente si ocurre tal o cual palabra en

un documento, dónde, cuántas veces... Igual que existen programas de software para hacer todo tipo de

cosas, los hay para gestionar y explotar corpus de formas aún más poderosas y así poner en manos de los

investigadores herramientas que abren nuevos horizontes para el estudio sistemático de las lenguas a

través de sus textos. Ya que una computadora puede "tragar" rápidamente grandes cantidades de datos

(o palabras, en este caso), puede proporcionarnos un mayor número de respuestas fiables, de calidad, y

de esta manera el lingüista puede a su vez dar respuestas con más seguridad aunque no pase horas

rellenando fichas de cartulina y guardándolas en cajitas de cartón, o llenando cuadernos de apuntes.

Gracias en parte a esta tecnología, hoy, en ciertos casos al menos, ya no hace falta especular, se pueden

dar respuestas definitivas y categóricas a algunas preguntas (no a todas, insisto, pero sí a algunas).

Obviamente esto quiere decir que para la investigación lingüística, la importancia del corpus ahora es

muchísimo mayor que hace tan solo unas décadas. No es exagerar si digo que una buena proporción de

los conocimientos especializados que he adquirido sobre el léxico y la gramática náhuat, que me permiten

a veces decir con confianza que esto es así y aquello no lo es, se han basado en la consulta y el

aprovechamiento de un corpus de náhuat que yo mismo he tenido que ir construyendo y estructurando.

§3. LOS CORPUS EN LA INVESTIGACIÓN LINGÜÍSTICA La lingüística es un campo muy moderno, podemos decir que ha existido tal vez durante cien años, tal vez

un poco más, dependiendo de cómo lo definamos.

Antes, existía un campo académico llamado filología. Los filólogos estudiaban textos, generalmente

antiguos; eran como arqueólogos de viejos escritos que tomaban nota de qué palabra, qué forma, qué

construcción gramatical o qué grafía caracterizaba tal o cual escritor o época o dialecto o género,

particularmente en lenguas clásicas, muertas, de épocas pasadas.*

* Si ustedes se apuntan a la lista de discusión Nahuat-l (http://www.famsi.org/mailman/listinfo/nahuatl), verán un ejemplo del

tipo de cuestiones que les gusta estudiar a los filólogos, en este caso con relación al náhuatl clásico que se escribió por un tiempo

en México en la época colonial.

http://www.famsi.org/mailman/listinfo/nahuatl

3

El interés en las lenguas modernas (quiero decir: no “clásicas”) como tema “serio” de investigación

académica es algo bastante nuevo. Por los prejuicios de épocas anteriores, las lenguas habladas se

consideraban inferiores y menos dignas del interés y los esfuerzos de los ilustradísimos profesores y sus

discípulos, al lado de las gloriosas lenguas muertas del pasado. Se tardó en despertarse una preocupación

en lo “moderno” como tema interesante en sí mismo prácticamente hasta el principio del siglo veinte. Más

tarde llegó la revolución tecnológica que hizo posible, entre otras cosas, conservar permanentemente el

sonido de la voz humana, no únicamente su representación escrita que hubo que analizar,

exclusivamente, hasta entonces.

En la lingüística moderna el concepto de un corpus (e incluso el de texto) ya no se contrapone a

materiales orales. Obviamente pueden haber corpus escritos (como por ejemplo los textos de la

antigüedad, antes de la aparición del micrófono), pero también corpus orales (por ejemplo una colección

de grabaciones en audio o video), y finalmente corpus de transcripciones (donde se representa por escrito

"textos" originalmente orales). Un poco como las primeras películas donde los actores siguen hablando y

actuando como si estuvieran en un teatro sobre un escenario, al principio los estudiosos trataron de

aplicar los mismos métodos que ya conocían, los métodos consagrados de la filología. En algunos países,

hasta hoy o ayer mismo, sólo se podía estudiar Filología como carrera universitaria, pero no se enseñaba

Lingüística moderna.

Durante el siglo veinte se sucedieron las polémicas entre diferentes escuelas lingüísticas sobre cuestiones

de teoría y metodología. Una de las cuestiones que se debatieron era si la mejor manera de descubrir lo

esencial de cada idioma es a través del análisis de un corpus (oral o escrito, pero típicamente basado en la

producción textual de hablantes nativos o al menos buenos hablantes), o bien acudiendo directamente a

los hablantes en persona e interrogándoles, un proceso que en inglés se llama elicitation (del verbo elicit

'obtener información de alguien'). En la segunda mitad del siglo cayó en descrédito el corpus como base

del análisis lingüístico, al imponerse una nueva corriente, el generativismo, que tomaba como base los

métodos de introspección por el lingüista e interrogación a hablantes.

¿Por qué se rechazó el uso de los corpus? Un argumento era que los datos que contienen son finitos,

limitados, y puede faltar información. En cambio, si tuviéramos a mano un hablante nativo le podríamos

preguntar y presumiblemente sabría decirnos si tal frase es posible aunque no aparezca en ningún corpus,

basándose en su propio conocimiento del idioma. ¡Puede evaluar un número infinito de oraciones!

Estrictamente hablando, el filólogo tradicional no tenía este problema porque podía definir su objetivo

como la descripción exhaustiva del corpus, la única fuente empírica de datos que había en el caso de una

lengua muerta. Pero el objetivo de la lingüística moderna no se define como describir un corpus, sino

conocer la lengua en sí. Un corpus es una muestra finita de algunas de las palabras y frases posibles de

esa lengua, no es la lengua en sí.

¿Pero qué entendemos por la lengua en sí? Digamos que es como si dijéramos que cada hablante lleva

dentro de él o ella un "mapa" de su idioma, un conocimiento interiorizado (no necesariamente consciente)

que es lo que le permite hablar y entender la lengua. Un mapa de un país no es el país mismo, es un

papel donde está representado el país, pero a través del mapa sabremos cuál es el camino desde A hasta

B. Un hablante de una lengua sabe si son correctas o incorrectas incluso frases que nunca escuchó, sólo

porque su "mapa" se lo dice. Según este punto de vista, cuando estudiamos el corpus estamos mirando

parte del país pero no el “mapa” de todo el país; en cambio, cuando recurrimos a un informante nativo

estamos hablando con alguien que “tiene el mapa”.

El objetivo de la lingüística, se diría en esta alegoría, es recuperar una copia del “mapa”, esa esencia

interiorizada de la lengua que lleva en su cabeza cada hablante nativo. En la lingüística, esta esencia

interiorizada se llama competencia. El lingüista generativista trata de representar simbólicamente (en

formalismos, “fórmulas” si se quiere) la competencia de los hablantes a través de un modelo teórico,

formal, “matemático”, comprobando si sirve para generar las frases que los hablantes aseguran que

pueden existir en la lengua. El corpus, en cambio, sólo es un conjunto de oraciones que han sido

generadas por la competencia de algún hablante en alguna circunstancia.

4

Pero en el último capítulo de esta historia (hasta ahora), el corpus se está resucitando de sus cenizas. Tras

su destierro, vuelve, tal vez para ser coronado como rey. Porque aunque un corpus siempre es en teoría

incompleto, finito y limitado, con la tecnología de la información de hoy día su posible tamaño es en la

práctica casi ilimitada y la cantidad de información acerca de la lengua que se puede desprender de un

gran corpus analizado adecuadamente es tremendamente grande, y el resultado puede ser más empírica y

objetiva que la obtenida por los procedimientos ortodoxos de la lingüística generativista. Tal vez cabría

decir que la cantidad de datos (mérito del corpus) le gana a la calidad (el supuesto punto fuerte de la

metodología de la interrogación) cuando la cantidad es bastante grande y cuando la tecnología ayuda a

analizarla con la sofisticación necesaria.

Cuando todo el mundo en la lingüística hablaba de las limitaciones de los corpus, creo que nadie preveía el

poder de los recursos electrónicos hoy día disponibles ni el efecto de ese poder. Ahora la lingüística está

pasando por su propia revolución de la información, de la cual ha nacido hasta una nueva subdisciplina

llamada corpus linguistics (http://en.wikipedia.org/wiki/Corpus_linguistics).

§4. LOS CONCORDANCIADORES La herramienta más básica para realizar investigaciones lingüísticas utilizando un corpus es un tipo de

software que se llama en inglés concordancer, que creo que en español sería "concordanciador". Presenta

información sobre las palabras que se encuentran en un corpus: información que podríamos encontrar

leyendo el corpus si tuviéramos tiempo para leerlo todo, pero el concordanciador hace lo mismo con

menos errores y casi al instante. No sólo ahorra tiempo (que sería un avance cuantitativo): le da al

investigador tanta capacidad para procesar, analizar e interpretar muchos tipos de información sobre el

corpus que en la práctica hace posible que haga cosas que no se harían si no (un avance cualitativo).

Los concordanciadores no "saben náhuat". Simplemente identifican “palabras” del texto, o más bien lo que

para un concordanciador es entendido como “palabra”, que es algo distinto. Cuando el concordanciador ve

"tet" y luego cuando ve "tejtet", no puede saber que son el singular y plural de lo que los hablantes

llamarían la misma palabra: los ve como palabras diferentes. El concordanciador no trabaja con las

palabras "reales" que en lexicología se llaman lemas (http://en.wikipedia.org/wiki/Lemma_(morphology)*,

sino con formas de palabras (word forms) como “tet”, “tejtet”.

Los concordanciadores pueden realizar una variedad de funciones, pero las esenciales siempre son dos:

generar a partir del corpus una lista de "palabras" (formas), y dar una "concordancia" para cualquiera de

estas. La lista de palabras, o wordlist en inglés, se ve más o menos así:

a 11

achichin 1

achin 3

achka 1

achtu 19

ajachichin 2

ajaka 1

ajat 13

…

Esto es el principio de la lista de “palabras” para una versión en ortografía estandarizada del texto náhuat

del libro de Schultze Jena. Los números son sus frecuencias en el texto, llamadas “número de

ocurrencias”.

* No puedo recomendar el artículo del artículo correspondiente en la Wikipedia en español, que consigue hacer que el concepto

suene más complicado de lo que es sin lograr aclararlo su significado.

http://en.wikipedia.org/wiki/Corpus_linguistics

http://en.wikipedia.org/wiki/Lemma_(morphology)

5

La segunda función consiste en tomar cualquiera de estas formas y mostrar todos los sitios y contextos en

los que ocurre. A esto le llamaremos una concordancia aunque oficialmente es un índice de tipo Key-

Word-In-Context, o KWIC. Veamos la concordancia de la palabra achin, que según indica la wordlist

arriba ocurre tres veces en este texto:

NPT01_13.042 wan kitzuntisit, kichat chiupi achin wan kimakat ma kiuni.

NPT01_17.072 kitapuk nemituya ejkatuk ten ne achin kan nemituya ne siwapil...

NPT01_17.004 ne iesyu, wan asik kan nemi se achin. Ne nemi se siwapil apaka…

Cada línea de este listado tiene dos partes, un código que representa una referencia a un lugar exacto del

corpus (por ejemplo, NPT01_13.042), y un contexto que reproduce unas palabras antes y después de la

palabra buscada (o key word) en cada sitio. En algunos concordanciadores, también podemos pedir que

se muestre un contexto más extenso de varias líneas antes y después.

No sólo se pueden hacer listas y concordancias de palabras enteras sino de partes de palabras, incluyendo

prefijos, sufijos y raíces de palabras: por ejemplo podemos encontrar todas las palabras en el corpus que

terminan en ...chin, o empiezan con ish..., o contienen ...siwa... (que en este texto resulta que son:

anmusiwaw, anmusiwawan, isiwapil, isiwapiltzin, isiwaw, musiwapiltzin, musiwaw,

nusiwakunew, nusiwapil, nusiwapiltzin, nusiwaw, sijsiwatket, sisiwatket, siwamasat, siwapil,

siwapilchin, siwapiltzin, siwapipil, siwat, siwatket, siwawan).

Otro "truco" es ordenar la lista de palabras según diferentes criterios, lo cual ayuda a aislar ciertos tipos

de formación; por ejemplo ordenando esta lista por orden alfabético inverso podemos agrupar todas las

formas singulares poseídos que terminan en w, que serían anmusiwaw, isiwaw, musiwaw, nusiwaw.

Otra prestación de algunos concordanciadores es buscar combinaciones de varias palabras, lo que facilita

la investigación de algunas cuestiones de sintaxis, colocaciones (combinaciones típicas de palabras), etc.

En este ejemplo real, el "corpus" está compuesto de un solo texto compuesto de narraciones con orígenes

y características bastante homogéneos. Pero hemos definido un corpus como un conjunto de textos

(¡aunque un conjunto puede tener un miembro!), así que un concordanciador puede trabajar sobre un

corpus compuesto de múltiples textos a la vez.

Aprender a usar un concordanciador no supone un reto muy grande. Lo difícil es conseguir un buen

corpus, para lo cual hacen falta textos. El formato que deban tener estos textos dependerá del

concordanciador que usemos; para algunos, basta que estén en simple formato de texto (.txt).

Algunos concordanciadores pueden ser aún más útiles a condición de que a los archivos se les hayan

incorporado elementos adicionales llamados etiquetas. Ya vimos que "el concordanciador no entiende

náhuat"; esto limita la clase de "preguntas" que le podemos hacer. Hay tres palabras que se escriben

ne en náhuat: el artículo definido (ne siwat 'la mujer'), el conector de oraciones relativas (ne walaj 'que

vino') y el adverbio de lugar (ne o né nemi 'ahí está'). Un concordanciador muy básico no puede buscar

solamente ejemplos del conector de relativa ne porque todos los ne's se ven iguales. Pero si previamente

intercalamos etiquetas indicando la categoría gramatical (part of speech, POS) de cada palabra, esto

proporcionaría una manera de distinguir entre los diferentes tipos de ne. Esto implica que ya hemos

repasado el corpus entero metiendo etiquetas POS.

§5. LA CONFIGURACIÓN DE UN CORPUS Los corpus juegan un papel cada vez más importante en la tecnología de la información. Sin que lo

sepamos, muchas de las cosas que hacemos todos los días son posibles gracias a corpus electrónicos.

Creo que todos hemos utilizado el servicio de traducción automática Google Translate; este traductor se

basa en enormes corpus que proporcionan la mayoría de los resultados que se obtienen con este sistema.

Algunos de los diccionarios más avanzados ya no reflejan meramente las opiniones de lexicógrafos sobre

lo que es normal o correcto sino que reflejan usos reales, estadísticamente importantes, de escritores,

identificados en corpus masivos y representantes compuestos de muchos millones de palabras de texto.

6

De ahí que un corpus de una lengua determinada puede ser, a largo plazo, una buena inversión porque

ese corpus (u otros derivados de él) puede tener una gama muy amplia de usos ulteriores. Sin embargo,

nosotros por ahora vemos en un corpus una herramienta para estudiar y conocer mejor el idioma.

Para configurar un corpus, por muy modesto y sencillo que sea, hay que partir de algunas decisiones

iniciales sobre qué queremos que contenga, para qué queremos que sirva, y de qué manera queremos

poder usarlo. De estos criterios y otros parecidos dependerán cosas tan elementales como cuáles textos se

deben incluir, cómo se deben representar, codificar y formatear los textos en el corpus, y cuáles serán los

pasos necesarios para obtener ese corpus.

Un primer paso es obviamente definir el conjunto de textos que vamos a incluir. En el caso del náhuat

esto no es muy difícil, porque partimos de una situación donde existen muy pocos textos entre los que

escoger; lo ideal sería incluir todos los que hay. Pero con el paso del tiempo puede ir aumentando su

contenido, como ocurre con una biblioteca que gradualmente va creciendo cada vez que añadimos nuevos

libros. Aunque esos materiales nuevos no existan ahora, pueden surgir en el futuro, por ejemplo por el

descubrimiento de manuscritos antes no conocidos o disponibles, o bien por la producción de nuevos

escritos o la recopilación de nuevos datos.

No todos los concordanciadores funcionan con los mismos parámetros de formateo y etiquetado. Es

importante tomar en cuenta no sólo cuál sistema queremos usar sino cuánto trabajo hará falta para

preparar los textos para su uso en ese sistema.

§6. EL CORPUS "HISTÓRICO" DEL NÁHUAT Los textos en náhuat de importancia que nos han quedado del siglo XX son principalmente tres, de peso

desigual, que fueron conservados para la posteridad por tres hombres muy diferentes cuyos nombres

forman parte de la historia de los estudios del náhuat: Próspero Aráuz, Schultze Jena y Lyle Campbell.

Ninguna otra estrella brilla en el firmamento del corpus del náhuat con tanta intensidad como la obra del

antropólogo alemán Leonhard Schultze Jena. Tendremos otras ocasiones para hablar en detalle de su

trabajo. Aunque el libro en cuestión (traducido al español en más de una ocasión) está compuesto de

varios componentes, aquí sólo nos interesa el contenido textual en náhuat: pasajes narrados al autor por

algunos hablantes mayores oriundos de Izalco en la década de los veinte, hace ya casi noventa años.

Representan el estado del idioma y la memoria colectiva en esa localidad de la generación nacida hacia

mediados del siglo XIX.

Un poco antes, se había compilado un texto escolar titulado El pipil de la región de Los Itzalcos, cuyo

autor era el maestro de escuela Próspero Aráuz, ubicado en Nahuizalco durante muchos años. Este libro,

hecho para el uso de niños nahuahablantes, contiene en buen número de lecturas cortas en náhuat. Fue

publicado hasta varias décadas más tarde (demasiado tarde para servir para la finalidad con la que fue

escrito), no sé si porque el proyecto fue activamente saboteado o por pura falta de interés de parte de las

autoridades (¡el resultado fue el mismo de todas formas!). Sólo fue publicado muchísimo más tarde, en

1960, en una revisión hecha por Pedro Geoffroy Rivas, quien añadió algunas anotaciones de escaso valor

que en mi opinión no siempre constituyen mejoras al texto original. Además de los textos en náhuat, el

libro incluye un glosario español-náhuat interesante para el especialista aunque plagado de abundantes

errores y confusiones e peor que inservible para un lector casual. En conjunto, y mientras no se haga un

análisis más riguroso del material, me da la impresión de que ni Aráuz ni tampoco su editor póstumo eran

muy expertos en el náhuat (o sea, creo que ninguno de los dos lo hablaban); de lo que se deduce la

interesante conclusión que los textos evidentemente fueron dictados por alguien que sí sabía náhuat,

probablemente muy bien, y acaso imperfectamente anotados por el autor del libro, lo que explicaría la

yuxtaposición de frases y expresiones muy auténticas con frecuentes lapsus y lagunas inexplicables de

otra manera. En fin, nos quedamos pendientes de un futuro estudio y revaloración de este insólito

material por alguien mejor capacitado para emprender tal labor; no queda la menor duda de que valdría la

pena. Mientras tanto, constituye una interesante adición al escaso corpus del náhuat, que proporciona

información importante pero debe leerse con cautela.

7

Luego en los años 30 sucedieron los crímenes atroces y genocidas realizados por un régimen brutal sin

justificación en su ataque rabioso contra un pueblo indefenso, dejando daños irreparables y abriendo una

llaga en la mera alma del pueblo pipil que sigue sin cicatrizar. Y después, la paz de los cementerios, una

larga paréntesis durante la cual el náhuat, después de perseguido y malherido, se abandonó con

indiferencia a su suerte, moribundo.

La próxima estrella que sube a este cielo, rompiendo el silencio de la noche más larga, será la llegada en

escena allá por los años setenta del internacionalmente reconocido y muy reputado lingüista

estadounidense Lyle Campbell. Su gran aportación para el náhuat fue un magnífico trabajo The Pipil

language of El Salvador, publicado en el año 1985 en el extranjero, en lengua inglesa, debido según tengo

entendido a que nadie lo quiso publicar en español, ni siquiera en el propio El Salvador. Principalmente es

un léxico muy extenso y de un valor incalculable para la recuperación del náhuat; también contiene un

buen resumen gramatical, cubriendo este terreno con erudición y profesionalismo por primera vez, ya que

de la desastrosa incursión en este campo de Schultze (un antropólogo, no un lingüista) cuanto menos se

diga mejor. El libro de Campbell trae como anexo un corpus no demasiado largo de relatos transcritos de

grabaciones que el autor realizó en Cuisnahuat y Santo Domingo de Guzmán. De este modo ya nos

hallamos no solamente en una época distinta sino ante un tipo dialectal diferente. Lastimosamente, el

náhuat había caído fulminado por las balas del ejército y la persecución terrorífica en la región de Los

Izalcos, históricamente el corazón de la tierra madre de la cultura pipil, y ahora el testigo pasa a los

pueblos remotos de las tierras bajas de la franja costera, donde todavía, hoy día, hay ancianos que saben

hablar ken tejemet, “como nosotros”, aunque son los menos y sus hijos, en su mayoría, son una

“generación perdida” que no quiere saber nada del asunto. Y ahora, la última palabra será de los nietos…

§7. LA BASE DE DATOS DEL NÁHUAT DE GAIO TIBERIO Cuando recién empezaba mi trabajo sobre el náhuat, me hablaron de alguien llamado Gaio Tiberio, un

hombre de nacionalidad estadounidense que llevaba muchísimo tiempo viviendo en El Salvador y que

trabajaba en la UES. Se rumoreaba que tenía mucha información sobe el náhuat, y según algunos yo

debería ir a verlo, así que fui. Este señor era un hombre mayor que yo; supe que había sido profesor de

mi jefe de entonces en la Universidad Don Bosco, el doctor Jorge Lemus, pero Lemus no me habló de él y

tuve que enterarme por otro camino. Pasamos un buen rato intercambiando información e ideas. Para

resumir, él opinaba que apoyar la recuperación del náhuat (como era mi pretensión) era ya un esfuerzo

inútil porque era demasiado tarde (y, leí entre líneas, porque se habían despreciado sus propias

propuestas en este sentido unos años antes).

Sacó de su biblioteca y puso delante de mis ojos un sinfín de manuscritos, documentos, libros antiguos y

fotocopias sin encuadernar. Luego me condujo a un despacho interior donde me mostró su mayor tesoro:

una base de datos que dijo que llevaba muchos años desarrollando, donde me aseguró que se encontraba

todo lo que existía sobre el náhuat, incluyendo todos los textos en náhuat publicados o inéditos.

Yo sólo llevaba meses, tal vez un año como mucho, trabajando sobre el náhuat. Le pregunté qué

podíamos hacer para que este magnífico material se hiciera disponible de alguna manera para los que

ahora queríamos dedicar apoyar la recuperación. Nada concreto me ofreció, y evadió cualquier sugerencia

que le insinuara sobre compartir sus materiales conmigo de alguna forma. Me dijo que lamentablemente

no podía divulgar nada por problemas de copyright, pero como consuelo me aseguró que faltaba muy

poco para que él pusiera los últimos toques a éste magnum opus suyo, después de lo cual lo iba a colocar

todo entero en línea, al alcance del público general, y entonces yo como todo el mundo podría hacer lo

que quisiera con ello. Me dijo que en un año como máximo ya estaría. Eso fue en 2003. Imagino que si

este señor aún vive, y esperemos que sí, todavía le anda poniendo los últimos toques…

Esto me puso en un dilema, porque ya era muy consciente de que iba a hacer falta un corpus, fuera el del

señor Tiberio o de quien fuera. Por cortesía, esperé unos meses antes de actuar, y escribí a Gaio Tiberio

en más de una ocasión para mantenerme en contacto con él pero nunca recibí ninguna respuesta y

efectivamente desapareció de mi vista; era como si solo hubiera soñado con aquella entrevista fantasmal.

Luego juzgué, sin saber si hacía bien o mal (pero después transcurrió que había juzgado bien) que la

8

única opción era olvidarme de las promesas que había escuchado y empezar por mi cuenta a reunir un

corpus de náhuat. Si no lo hubiera hecho, hoy no tendríamos corpus, y necesitamos uno.

Para que sirva de consuelo, la base de datos que Tiberio me enseñó no habría sido lo que nos hacía falta

a nosotros (aunque para otro tipo de estudios, históricos por ejemplo, creo que sí). Cada texto de su

corpus estaba incorporado en la ortografía original de cada documento -era una copia transcrita exacta de

los documentos fuente- lo cual es indudablemente interesante para algunos propósitos de documentación

e investigación pero no muy idóneo para los propósitos de análisis lingüístico de la lengua en su conjunto.

Por ejemplo, una sola búsqueda sencilla no localizaría todas las ocurrencias en el corpus de una palabra

como takat ya que en diferentes documentos aparecía bien como "takat", bien como "tacat", o bien como

"tagat", y así para todas las palabras.

§8. CORPUS 1.0 Hace años, los corpus electrónicos se almacenaban y procesaban en “inmensas” computadoras

"mainframe" que típicamente pertenecían a instituciones grandes como las universidades. Los primeros

PCs tenían demasiado poca memoria; algunas ni siquiera tenían discos duros. Luego esto cambió. Sigue

habiendo en el día de hoy una diferencia cuantitativa entre el tipo de corpus que cabe en un PC normal y

en un sistema especializado producto de una gran inversión, pero ha cambiado la escala: el tamaño de los

corpus grandes mantenidos por instituciones ahora se mide en millones de palabras, y cantidades

verdaderamente masivas de textos. Esto no afecta mucho el caso nuestro, hoy por hoy.

En el extremo opuesto, a principios de los noventas, un pequeño concordanciador fue desarrollado para la

casa editorial británica Longman (especializada en libros para la enseñanza del inglés). Tenía la novedad

de ser un “concordanciador de bolsillo” tan “ligero” y ocupaba muy poca memoria y era tan sencillo que

corría en cualquier máquina bajo el sistema operativo MS-DOS (la norma para PCs antes de Windows). Se

llama el Longman Mini Concordancer (LMC). Para trabajar con él, los archivos de texto del corpus no

tienen otro requerimiento de formato que ser precisamente archivos de “texto plano” (plain text), es decir,

“sin formato”. Esta pequeña aplicación ya era anticuado en 2002, pero funcionaba muy bien y bastaba

para empezar a poner en marcha, rápidamente y sin complicaciones, la compilación de un pequeño corpus

que fuera servible de inmediato. Sólo había que coleccionar unos textos en náhuat en formato electrónico.

Puse manos a la obra.

Ya me he referido (al final de la sección precedente) el problema con las grafías. Ya expliqué antes que el

concordanciador “no sabe náhuat”: no “sabe”, por ejemplo, que siwat, nusiwaw y siwatket son formas

del mismo lema, SIWAT. Tampoco "sabe" que siwat, sihuat, cihuat… son la misma forma escrita de

maneras distintas. De todas formas había que digitar estos textos para hacer el corpus electrónico, así que

convendría transcribir todos los textos, de paso, en un sola ortografía.

Los textos que se metieron incluían, lógicamente, los de las obras de Schultze Jena, Próspero Aráuz y Lyle

Campbell, además de una variedad de textos menores, incluyendo algunos producidos recientemente por

personas de Witzapan y también ciertas “cartillas” de náhuat publicadas en diferentes sitios y momentos a

pesar de su cuestionable calidad.

Un problema con este tipo de “mini-concordanciadores” es el hecho de que sólo pueden procesar en un

momento cualquiera un corpus que no exceda cierto tamaño tamaño. La solución más fácil era dividir un

corpus más grande en dos o más partes para ser procesadas una parte a la vez. Aunque el corpus del

náhuat sea modesto, se topó con esta barrera. Entonces dividí el corpus en dos partes: el sub-corpus de

Izalco y Nahuizalco ("tierras altas" o "náhuat alto" o "Corpus A") y el de Witzapan y Cuisnahuat ("tierras

bajas" o "náhuat bajo" o "Corpus B"). Me referiré a esta primera versión de nuestro corpus como "Corpus

1.0".

Otra materia de gran interés que quiero reservar para otra ocasión, ya que abordarla aquí sería

sobrecargar el presente tema, es la de repasar en detalle todas las aplicaciones de las concordancias

dentro del marco de nuestro trabajo hacia la recuperación. El Corpus 1.0 sirvió como una herramienta

9

primaria que ha aportado mucho a tantos proyectos que he realizado durante varios años, pero me resisto

a recontarlos en esta ocasión. Me limito a notar que el Corpus 1.0 fue el punto de partida para la

elaboración de una lista de las palabras más frecuentes que se convirtió en el Léxico Básico de

Náhuat (LBN), que sirvió de fuente para un vocabulario de las palabras más útiles del náhuat que IRIN

distribuía llamado ¡Conozcamos el náhuat! y asimismo fue la base para el pequeño diccionario

interactivo Léxico de náhuat básico (LNB), en Lexique Pro, que se acaba de poner al alcance del público

(se puede descargar de http://http://alanrking.info/lexico.php).

Vamos a ver ahora el perfil de Corpus 1.0, y de sus dos sub-corpus. Este perfil usa datos proporcionados

por otro programa, TAC, del que hablaré después. En el perfil mediré los siguientes parámetros:

número de documentos (o archivos)

tamaño total del corpus, en caracteres

ídem en palabras

número de palabras-tipo (= formas de palabras diferentes)

máxima frecuencia de ocurrencia de palabras (= formas) específicas

promedio de frecuencia de ocurrencias.

Perfil de Corpus 1.0

Corpus A

(Área de Izalco)

Corpus B

(Santo Domingo-Cuisnahuat)

Corpus total

(= A+B)

Documentos: 3 10 13

Caracteres: 109.571 62.342 171.913

Palabras: 23.060 12.478 35.538

Palabras-tipo: 3.686 2.865 (dato no disponible)

Máxima frecuencia: 640 = 2,8% [ne] 384 = 3,1% [wan] (dato no disponible)

Frecuencia media: 6,2 = 0,027% 4,3 = 0,034% (dato no disponible)

Como la tabla muestra, Corpus 1.0 ya es un corpus de más de 35.000 palabras. Se tuvo que subdividir

como ya se explicó, lo cual explica la manera en la que se presenta aquí. Más de la mitad de este corpus

proviene de un solo texto, el material de Schultze Jena (que forma parte de Corpus A), que por sí solo

contiene casi 20.000 palabras. A causa del volumen de ese texto, Corpus A tiene casi dos veces más

palabras que Corpus B. Ya que Corpus A es más grande, lógicamente presenta un número algo mayor de

palabras-tipo, es decir, más variedad de formas. En consecuencia, la frecuencia media de ocurrencia de

estas es proporcionalmente algo más baja en A (0,027%) que en B (0,034%). Es curioso que la palabra

más frecuente es diferente en cada corpus (ne en A, wan en B); no he investigado por qué, pero no me

sorprendería que resultara ser porque en los dialectos del área A la variante iwan fuese más común que

en los del área B.

§9. TAC Pese a las buenas características de LMC, se hizo cada vez más evidente que convendría tener un

concordanciador más moderno. Como único usuario (provisionalmente) del corpus, me había vuelto

bastante experto en sacarle todo el jugo que se podía usando la herramienta que tenía, pero también se

me ocurrían cosas adicionales se podrían lograr con el corpus teniendo un programa más sofisticado.

Cuando tuve tiempo, exploré los nuevos concordanciadores de peso ligero y distribución gratuita que

habían salido en los últimos años para evaluar la conveniencia de cambiar de aplicación, pero

sinceramente me decepcionaron los que vi hasta tal punto que decidí sacar a lucir mis elementales

conocimientos de programación y tratar de escribir mi propio concordanciador para hacer los "trucos" que

tenía en mente y exprimir más información, e información más sofisticada, de mi corpus finito.

Al cabo de un tiempo ya tenía un programa más o menos "user-friendly" que cumplía mis órdenes

obedientemente, leyendo el mismo corpus que LMC, y así además permitiendo por fin la entrada del

Corpus 1.0 en la era Windows. Lo llamé TAC, por "Text Analyzer and Concordancer", porque por decirlo

así, llegaba a algunos sitios donde los demasiados concordanciadores no van. No entraré en los detalles

http://http/alanrking.info/lexico.php

10

aquí; si alguien tuviera curiosidad, lo contaré en otra ocasión. Además, TAC funciona pero no es una

aplicación perfeccionada sino una herramienta casera; lo consideraría un prototipo, no un producto

acabado. Sobre todo debo aclarar que no soy ningún programador profesional y TAC es un producto de

nivel “amateur”. Es más, no continué con su desarrollo porque acabé optando por otro camino distinto del

que ya es el momento para empezar a hablar.

§10. NAWACOLEX Ya habían llegado a mis oídos noticias de un interesante paquete informático desarrollado por el Summer

Institute of Linguists* (SIL) orientado a las necesidades de quienes trabajan sobre lenguas poco

documentadas, llamado The Linguist’s Shoebox (“la caja de zapatos del lingüista”)†. Unos años más tarde

SIL sacó una versión completamente nueva de esto, ahora llamada The Field Linguist’s Toolbox (la caja de

herramientas del lingüista de campo), mejorada y adaptada por primera vez a un entorno Windows… y

descargable del Internet gratis. Aunque el manejo de un corpus no es el objetivo exclusivo o principal de

Toolbox, entra dentro de las cosas que hacen las herramientas que están dentro de esta “caja”.

El entorno Toolbox es flexible y puede ser configurado para apoyar una amplia gama de tareas diferentes.

Una característica fundamental de los proyectos hechos en Toolbox es que toda la información que se le

incorpore debe formar parte de estructuras llamadas bases de datos. Hay muchos tipos de bases de datos

y muchos programas las usan; Toolbox no es un programa clásico de base de datos, sino que tiene

características propias particularmente apropiadas para este tipo de trabajo. Uno de sus puntos fuertes es

la relativa facilidad con la que permite crear, modificar y desarrollar estas estructuras. Pero primero, para

que sea inteligible lo que quiero exponer a continuación, es esencial comprender qué es lo que se

entiende por base de datos (en general, y en Toolbox en particular).

Una base de datos es una manera de organizar la información. Primero se decide como se quiere

estructurar la información y luego se colocan los datos según esta estructura. Empecemos con una simple

analogía un poco ingenua y campechana. Imaginemos que me marcho de viaje, y para llevar todas las

cosas que voy a necesitar las envuelvo, todas revueltas, en un tanate grande. Pero cuando llego a mi

destino tengo una habitación de hotel donde hay un armario con ganchos para colgar ropa, gavetas y

estantes. Saco mis “chunches” y los coloco ordenadamente, clasificando las camisas por un lado, los

calcetines aquí, los libros que he traído allá… Mis posesiones son las mismas que antes pero les he dado

“estructura”, las he organizado. Crear una base de datos es hacer algo parecido con datos, con pequeñas

unidades de información: decido sobre un orden, una manera en la que quiero clasificar y organizar la

información, y luego coloco todo en su sitio. Y me tomo ese trabajo porque a largo plazo pienso que me

será útil.

Una base de datos siempre se articula en dos niveles de estructura que se llaman fichas (“records” en

inglés) y campos (“fields”). Para ilustrar cómo se usan, supongamos un pequeño diccionario que vamos a

estructurar y convertir en una base de datos. Antes de empezar lo que tenemos es un libro o un

documento en Word que empieza de esta manera:

* El SIL International (http://www.sil.org/) es una organización que estudia y documenta lenguas “pequeñas” en diferentes partes

del mundo. SIL ha desarrollado un buen número de programas de software de gran utilidad para los que como yo trabajamos en el

campo de lenguas con pocos recursos (por ejemplo Lexique Pro es otro de sus productos). Quiero aclarar que no trabajo con el SIL

ni estoy afiliado con él en ningún sentido en absoluto. SIL es una organización estadounidense que se dedica a la traducción de la

Biblia cristiana a muchos idiomas, pero en este aspecto tampoco tengo ninguna conexión con SIL excepto que me gustan sus

programas informáticos. Dicho sea de paso que Ne Bibliaj Tik Nawat tampoco es un proyecto de SIL ni tiene el apoyo de SIL.

† Una metáfora que se refería al hecho de que antes de tener la posibilidad de tener un PC o portátil para trabajar en cualquier

lugar del mundo, lo típico era que el lingüista de campo apuntara sus notas a mano sobre tarjetitas que guardaba, muchas veces,

en una caja de zapatos vacía.

http://www.sil.org/

11

achtu adverbio primero

ajkawa verbo dejar

ajsi verbo llegar

ajwiak adjetivo sabroso

aka pronombre alguien

akat sustantivo caña

amat sustantivo papel

amiki verbo tener sed

(etc.)

En la base de datos que haremos, se creará una ficha para cada palabra náhuat. En esta ficha habrá

campos que de modo que en cada tipo de campo va cierto tipo de dato: así habrá un campo para la

palabra náhuat (p.ej. achtu), otro donde se indica la categoría gramatical (p.ej. adverbio), y otro para la

glosa castellana (p.ej. ‘primero’). Los campos llevan etiquetas para identificar su tipo, mientras que en otra

parte del proyecto se colocará una tabla que fija la función que queramos que tenga cada tipo de campo

en una base de datos de este tipo.

En Toolbox, una base de datos es simplemente un archivo de texto en líneas donde cada línea nombra un

tipo de campo seguido de algún dato. Se pone un “\” delante del nombre de campo para identificarlo.

Vamos a hacer que los tres campos en este caso se llamen \lx, \ps y \gn. Una ficha vacía (sin datos) se

vería así:

\lx ………

\ps ………

\gn ………

Cuando hayamos “rellenado” una ficha que corresponda a la primera palabra del diccionario, se verá así:

\lx achtu

\ps adverbio

\gn primero

La siguiente ficha se verá así:

\lx ajkawa

\ps verbo

\gn dejar

Y así sucesivamente. La base de datos es simplemente el conjunto de todas las fichas (en este caso, una

para cada entrada en nuestro léxico), todo en un archivo de texto que tendrá este aspecto:

\lx achtu

\ps adverbio

\gn primero

\lx ajkawa

\ps verbo

\gn dejar

…

Esto es muy sencillo pero funcional. Tiene la misma información que teníamos antes (en el diccionario)

pero ahora podemos decir que está estructurada.

Lo que se llama un proyecto de Toolbox es un conjunto de bases de datos como esta. Volvamos a pensar

por un momento en mi habitación de hotel. Esto es como decir que se pueden poner varios armarios en la

12

habitación. Estos armarios podrían ser todos iguales (del mismo tipo) o todos diferentes (de distintos

tipos). No necesariamente contienen el mismo tipo de cosas ni tampoco tienen que estar “estructurados”

de la misma forma. Las bases de datos en un proyecto Toolbox son así, pero también tienen otra

característica sumamente importante: se pueden establecer muchos tipos de relaciones entre las

diferentes bases de datos que lo constituyen.

He aquí un ejemplo de lo que esto significa: podemos tener diez (¡o cien!) léxicos diferentes metidos en

un proyecto (cada uno en su propio archivo, su propia base de datos), y luego pedir que Toolbox busque

tal o cual palabra en todos estos léxicos al mismo tiempo. El efecto de esto es comparable a cómo sería si

tuviéramos diez diccionarios sobre una gran mesa donde estaban sentados diez asistentes, uno delante de

cada diccionario, y con una sola orden, todos abrieran sus respectivos diccionarios y buscaran la misma

palabra. Ya que los diccionarios son diferentes, podemos tener hasta diez respuesta distintas, aunque es

posible que no todos los diccionarios tuvieran la palabra que queremos buscar. Los asistentes pasarán por

la mesa diciendo cada uno qué ha encontrado en su diccionario; si alguien no encontró la palabra, no dice

nada y es el turno del siguiente.

Vamos a pedirle a Toolbox que busque ajwiak, por ejemplo, en todos sus diccionarios. En seguida

veremos algo como esto:

Palabra encontrada Glosa española Léxico

ajwiak delicioso NawatLex

ajwiak sabroso Campbell

ajwiak sabroso LBN

NawatLex, Campbell y LBN son nombres de tres de los diez léxicos que supuestamente están presentes en

nuestro proyecto.*

Pero suponiendo que sólo queremos consultar uno de ellas, el diccionario de Campbell por ejemplo,

daremos la orden así y esta vez la respuesta será:



También podemos buscar no una palabra concreta sino palabras que cumplan cierta condición. En el

próximo ejemplo, imaginamos que queremos ver cuáles palabras en el diccionario de Campbell terminan

en -miki: aquí vemos, a la izquierda, una representación de una “hoja de pedido”; a la derecha está el

resultado que Toolbox nos dará:

Petición de búsqueda Resultado

Búsqueda de concordancia

Corpus: Campbell Dic

Buscar: miki

Emparejar:

medio

principio

fin

palabra entera

Palabras encontradas:

amiki

elnamiki

ijyumiki

ishtemiki

mijmiki

miki

namiki

sekmiki

tatennamiki

* NAWATLEX es el nombre que di a un proyecto inicial, a partir de mi primer año en El Salvador, para desarrollar una base de datos

(de un tipo más clásico, creado con la aplicación Access de Microsoft Office) que abarcara la suma de información que se

encuentra en los diferentes léxicos de náhuat. Lo que se logró hacer de este proyecto era poco más que un prototipo, aunque la

información que se metió, todavía incompleta, era válida. Para no echar a perder el trabajo hecho, al adoptar el plan que aquí se

esboza, convertí el contenido entero de NAWATLEX a una base de datos tipo Toolbox donde consta como uno de los múltiples

léxicos disponibles.

13

temiki

tennamiki

tunalmiki

walnamiki

yulmiki

Pero una base de datos en Toolbox no necesita ser un léxico. Ya dije que se pueden definir diferentes

tipos de bases. Un texto de nuestro corpus también puede configurarse como un tipo de base de datos.

Obviamente este tipo no tendrá la misma estructura interna, sus campos serán otros, no los de un léxico.

(El armario no tiene el mismo tipo de gavetas.)

En una base de datos tipo texto, lo que hacemos es meter cada oración en un campo de un tipo que

llamaremos \tx. Al realizar una búsqueda de una palabra cualquiera en textos, el resultado se parecerá a

lo que conseguimos con un concordanciador. Tomando como ejemplo las primeras líneas del texto de

Schultze Jena, comparemos cómo las mismas líneas de texto se deben formatear en ambos sistemas, el

que usábamos en Corpus 1.0 y el nuevo en Toolbox:

(a) Formato Corpus 1.0:

TEXTO 1. EN LA MILPA Y EN EL FRIJOLAR

Ashkan ajwituk ne tal iwan tutunik. Inte waktuk. Ika tiu-tiktait pal tiktukat ne tunalmil.

"Shikashiti nawpual taria. Shiktamuta ne tasul ipal tikcha arar ipal tiktuka ne tawial ne tunalmil."

Ashkan tiu-tiktait pal tiktukat et.

"Shikashiti nawpual taria. Musta tiktuka isel et."

Ashkan shini ne at.

Musta inte kima' ne at, inte wetzi ne at. Kichiwa yek tunal.

Keman panutuk yey metzti waktuka ne tunalmil. (etc.)

(b) Nuevo sistema (como base de datos):

\ref NPT01_01.001

\tx Ashkan ajwituk ne tal iwan tutunik.

\ref NPT01_01.002

\tx Inte waktuk.

\ref NPT01_01.003

\tx Ika, tiu-tiktait pal tiktukat ne tunalmil.

\ref NPT01_01.004

\tx - Shikashiti nawpual taria.

\ref NPT01_01.005

\tx Shiktamuta ne tasul ipal tikcha arar ipal tiktuka ne tawial ne tunalmil.

\ref NPT01_01.006

\tx Ashkan tiu-tiktait pal tiktukat et.

\ref NPT01_01.007

\tx - Shikashiti nawpual taria.

\ref NPT01_01.008

\tx Musta tiktuka isel et.

\ref NPT01_01.009

\tx Ashkan shini ne at.

\ref NPT01_01.010

\tx Musta inte kimaka ne at.

\ref NPT01_01.011

\tx Inte wetzi ne at.

\ref NPT01_01.012

\tx Kichiwa yek tunal.

\ref NPT01_01.013

\tx Keman panutuk yey metzti waktuka ne tunalmil. (etc.)

14

En este tipo de archivo en la versión Toolbox, vemos dos tipos de campo, los campos \ref y los campos

\tx.* Cada campo \tx contiene una oración. Cada campo \ref contiene una referencia para facilitar la

identificación de la siguiente oración.

La estructura que estoy describiendo permite combinar en un solo sistema dos conjuntos de datos que

antes se mantenían separados: textos por un lado y léxicos por otro. De este “matrimonio” entre los

textos y los léxicos del náhuat nació nuestro sistema combinado actual, al que había que poner un nuevo

nombre. Así nació NAWACOLEX (Nawat Corpus + Léxicos).

Corpus Léxicos NAWACOLEX

Conjunto de textos

en náhuat + Conjunto de vocabularios

del náhuat = Sistema integrado compuesto de todos los textos

del corpus con todos los léxicos

El resultante sistema, NAWACOLEX, combina bases de datos de dos tipos principales (el tipo “texto” y el tipo

“léxico”) en un solo envoltorio homologado. En cada uno de estos tipos, la categoría de base (de datos), la

de ficha y la de campo tienen su aplicación particular:

Sistema: Tipos de base de datos:

Unidad de la

“base”/archivo:

Contenido de cada

“ficha”:

Aplicación más destacada

de “campo”:

NAWACOLEX TEXTOS: Documento sección de texto oración (\tx)

LÉXICOS: Vocabulario entrada palabra (\lx)

Ahora llegamos a la parte divertida donde vemos qué se puede hacer con todo esto. Volvamos a donde

estábamos cuando pedíamos información simultánea de todos los léxicos para la palabra ajwiak.

Teníamos una lista de diccionarios donde se encontraron ese dato. Esta lista funciona como un menú.

Seleccionando un elemento, se abrirá la ficha correspondiente de un diccionario (un léxico) para que

veamos su información completa. Por ejemplo, vamos a seleccionar la entrada del léxico de Campbell:




ajwiak sabroso LBN

Esto nos abrirá la ficha de ajwiak en un léxico llamado Campbell, y esto es lo que veremos allí (lo puesto

entre [corchetes] no aparece en la ficha real, lo pongo aquí para aclarar el significado de algunas cosas):

[Campo] [Información]

Lexema ajwiak

Dialecto Q [= Cuisnahuat]

Fuente LCD [= Diccionario de Lyle Campbell]

Forma en el léxico fuente ahwiyak [grafía de la obra original]

Glosa en español sabroso

Glosa en inglés delicious

Forma del plural ahahwiyak

Comentario etimológico CN a?wiyak (Car.) cosa suave, olorosa, y gustosa

Dialecto W [= Santo Domingo de Guzmán]

Fuente LCD

Forma en el léxico fuente ahwiyak

Y si en vez del léxico de Campbell hubiéramos seleccionado el LBN:

* A diferencia de una base de datos clásico, en Toolbox no hay restricciones sobre el número de campos o su orden dentro de una

ficha cualquiera, y puede haber varias instancias de campos del mismo tipo, como aquí.

15




ajwiak sabroso LBN

veríamos esta otra ficha:

[Campo] [Información]

Lexema ajwiak

Categoría gramatical adjetivo

Glosa en español sabroso

Glosa en español rico

Glosa en español bueno

Glosa en inglés tasty

Glosa en inglés delicious

Ejemplo Ne chil ajwiak

Traducción de ejemplo El chile es sabroso

Ejemplo ajwiak takwal

Traducción de ejemplo comida deliciosa

Ejemplo Mumati ajwiak

Traducción de ejemplo Sabe bien

Ejemplo Ajwiak nemi ne elut

Traducción de ejemplo Está rico el elote

Ejemplo ajajwiak yayu

Traducción de ejemplo ricas salsas

Etiqueta paradigmática plural

Forma paradigmática ajajwiak

Categoría gramatical verbo transitivo defectuoso

Glosa en español gustar

Glosa en inglés like

Ejemplo Ne atul nechajwiak

Traducción de ejemplo Me gusta el atol

Fecha [de la última modificación a la ficha] 01/Jan/2008

Esos son léxicos; ahora miremos textos. Comparemos el procedimiento para buscar ajwiak en los léxicos

(a la izquierda) y en el corpus de textos (a la derecha):

Buscar ajwiak en los léxicos de NAWACOLEX: Buscar ajwiak en los textos de NAWACOLEX:


Corpus: Diccionarios

Buscar: ajwiak

Emparejar:

medio

principio

fin

palabra entera


Corpus: Textos en náhuat

Buscar: ajwiak

Emparejar:

medio

principio

fin

palabra entera

¡No hay mucha diferencia! La única diferencia aparente está en dónde se pida a Toolbox que busque:

entre los diccionarios o entre los textos.* Estos “corpus” que aparecen en los diálogos, “Diccionarios” y

“Textos en náhuat”, han sido definidos por el usuario previamente, especificando una serie de parámetros

para cada “corpus” que incluyen una lista de los archivos que deben entrar en las búsquedas sobre dichos

* Toolbox llama “corpus” a ambos. Esto es estrictamente correcto, ya que un vocabulario también puede considerarse un corpus

en el sentido genérico de “cuerpo de datos”, pero nosotros estamos empleando la palabra en un sentido más estrecho de “cuerpo

de textos”.

16

“corpus”. La siguiente captura de pantalla muestra el resultado obtenido de esta búsqueda concreta en el

corpus de textos en náhuat:

La regla de Toolbox de que toda la información se organiza en bases de datos es aplicable incluso a una

tabla como esta generada por el programa como resultado de una concordancia pedida. Tiene cuatro

campos llamados “Reference”, “Before”, “Target” y “After” (referencia, antes, palabra clave, después).

Cada línea representa una ficha completa, con sus cuatro campos, uno en cada columna. El campo

“Referencia” da el identificador de la oración en el corpus, indicando dónde se encontró una ocurrencia de

la palabra buscada. Un clic del botón secundario del ratón sobre uno de estos indicadores abrirá la ficha

donde se encuentra la sección de texto donde ocurre el ejemplo, es decir, el contexto completo de la

ocurrencia. El tercer campo, llamado “Target”, muestra la palabra que fue encontrada (aquí ajwiak,

naturalmente), mientras que los dos campos restantes dan el resto de la oración. En la barra de estado en

la parte de abajo de la pantalla, el código después de “\concref” repite el identificador de la oración

seleccionada de la lista. “5/22” es para decirnos que hay 22 ocurrencias de ajwiak en este corpus y que

el ejemplos seleccionado es el quinto en la lista.

Haciendo clic con el botón secundario en cualquier palabra que aparezca en cualquiera de sus bases de

datos, incluso las concordancias como esta, se abre una lista de entradas en los léxicos para la palabra en

cuestión. Por ejemplo, un clic sobre michin (que aparece después de ajwiak en la quinta línea), hará

que se visualice esto:


michin pescado Campbell

michin pez LBN

michin pez NawatLex

michin wordlist.db

En la terminología de Toolbox, lo que hemos hecho se llama saltar (de una base de datos a otra). Es un

“truco” con unos usos muy interesantes que agilizan la investigación. Un salto se realiza cuando, siguiendo

un conjunto de instrucciones (llamados caminos de salto, “jump paths”) configuradas por el usuario, al

“pinchar” un elemento cualquiera en un contexto determinado, esto provoca la visualización de cierto dato

que se halle en alguna de las bases de datos que forman parte de nuestro proyecto. Aquí Toolbox sigue

un “camino de salto” que dice que cuando pinchamos una palabra en una línea de una concordancia

(KWIC), si la palabra pinchada se halla en uno de nuestros léxicos se nos muestre su ficha. Sin embargo,

Toolbox encontró más de una posible “respuesta” porque michin está en varios léxicos, y reacciona

17

preguntando cuál de ellas nos gustaría ver: de ahí la lista. Es un mecanismo muy poderoso que tiene

muchísimas aplicaciones, cuyo efecto es vincular o “encadenar” unos datos con otros formando finalmente

una red integrada de información.

No me he propuesto dar cuenta de todas las posibilidades que ofrece este modo de dar estructura a

nuestro corpus. Sólo he descrito algunos aspectos, para empezar a dar una idea del tipo de ventajas que

trae, y así justificar la decisión de crear NAWACOLEX en preferencia a seguir con un corpus sencillo,

convencional.

¿Por qué importa la elección de uno u otro “contenedor” para el corpus del náhuat? ¿Tanta importancia

tiene en qué formato tengamos estos datos y en qué sistema y entorno los almacenemos y los

manipulemos? ¿Merece la pena emplear nuestro tiempo en buscar el formato más adecuado y útil para el

corpus?

¿Cuál es el objetivo? Si sólo quisiéramos “documentar” la lengua, de manera que quede constancia de ella

en una biblioteca u archivo, una enciclopedia o, como suele decir Genaro Ramírez, “tras el vidrio en un

museo”, quizás no importaría tanto. Ahora bien: nosotros queremos documentar la lengua, sí, pero no

sólo para eso, sino como un paso en el proceso de su recuperación. Queremos documentar el náhuat para

conocerlo; conocerlo para hablarlo, y para usarlo, darle vida y recuperarlo, y finalmente, para crear

nuevos textos en él. Estas sí que son cosas importantes. Para lograrlas, el corpus y los léxicos son

nuestras fuentes principales y nuestros recursos primarios más importantes en lo que a documentación se

refiere. El corpus es un recurso finito, limitado; quisiéramos tener más información, pero esta es todo lo

que tenemos. En el corpus conservamos las voces y las palabras de los nahuahablantes de ayer y hoy; ahí

se resume el legado que llegó hasta nosotros, es el testimonio de su lengua y de sus formas de expresión,

testimonio que sobrevivió los estragos del tiempo y de la persecución. Mientras no se vuelva a activar la

cadena rota de transmisión oral espontánea de la lengua, de madre y padre a hija e hijo como ikman

panutuk, en los viejos tiempos, el corpus será lo que queda del recuerdo de lo que dijeron los

antepasados en sus propias palabras, en su idioma, con sus voces.

Si eso es todo lo que hay, si no podemos aumentar el material, volver atrás en el tiempo y pedir y abuelas

y abuelos que vuelvan a abrir la boca para contarnos más cosas, pues tendremos que aprovechar bien el

material que tenemos, el corpus que se ha salvado del olvido, sin desperdiciar ninguna opción para

aprender lo que se pueda de ese material, estudiarlo, conocerlo y apreciarlo. Si la tecnología sirve para

aumentar la capacidad para saber con claridad lo que está en ese “almacén de datos”, si nos ayuda a

tener una información más exacta sobre su contenido, quiere decir que esa tecnología es útil para la

reconstrucción del náhuat y para la recuperación del náhuat.

§11. INCONVENIENTES DE NAWACOLEX Como cualquier solución, la adopción del “plan” de NAWACOLEX admite argumentos en pro y en contra. En

la última sección se presentaron los pros; ahora diré algo sobre los posibles inconvenientes de esta

propuesta, aunque sólo sea para que consten. Aquí tocaré tres temas: (1) el esfuerzo que supone la

preparación de textos del corpus para poder integrarlos en NAWACOLEX; (2) dificultades para usarlo y

compartirlo (problemas del interfaz con el usuario y de su “portabilidad”); y (3) el futuro incierto de

software en el que se apoya este sistema.

Si lo que se busca es sencillez y la posibilidad de una implementación prácticamente inmediata, la opción

más sencilla de Corpus 1.0 lleva la ventaja. Para integrar textos en NAWACOLEX, tienen que ser preparados

o adaptados a sus requerimientos: los textos sencillos deben ser convertidos en bases de datos según las

normas sintácticas de Toolbox y configurarse en fichas y campos de acuerdo con las especificaciones

estructurales de NAWACOLEX. No es tan complicado realizar los cambios necesarios porque el propio

paquete de Toolbox contiene funciones cuyo propósito es precisamente facilitar esta operación. Gran parte

del proceso se realiza automáticamente; no hay necesidad de andar línea por línea metiendo los campos,

identificadores, divisiones de oraciones etc. etc.; sólo necesitamos gestionar este proceso, normalmente

dando las órdenes necesarias a Toolbox.

18

Cuando se puso en manos del público el Léxico de Náhuat Básico el mes pasado, incorporado en un

programa de software llamado Lexique Pro*, no se facilitaron instrucciones para su uso, porque no era

necesario. Una persona mínimamente acostumbrada a usar aplicaciones en Windows puede adivinar por sí

solo cómo usarlo: es un sistema muy user-friendly (de fácil manejo). En cambio, Toolbox, es una

herramienta especializada: su manejo, aunque no es excesivamente difícil, no se puede llamar “obvio”

para un usuario nuevo sin estudiar un manual o recibir una tutoría que llevará un poco de tiempo. La caja

de herramientas de un carpintero profesional puesta en manos de una persona novata, sin un proceso de

aprendizaje y un período de práctica, no garantizará un buen trabajo. Hasta un sencillo concordanciador

requiere un poco de aprendizaje y práctica para sacarle todo el provecho, sobre todo de alguien que

nunca haya usado uno, pero esto es más complicado que un simple concordanciador. Toolbox no está

diseñado para solucionar el problema de compartir con un amplio público un corpus creado para investigar

la lengua, sino para facilitar la labor de profesionales. Esto no quiere decir que el corpus no se pueda

compartir, pero si se quisiera compartir ampliamente el material podría ser mejor encontrar un medio más

idóneo para ese fin.

Por último, todas las aplicaciones de nuestros tiempos tienen cierta tendencia hacia la caducidad, debido a

la evolución de la tecnología y la constante actualización y renovación de los requerimientos de sus

sistemas operativos y normas de operación. En algún momento los productos tienden a quedarse atrás o

se retira el soporte necesario y sus días ya son contados, porque empiezan a surgir problemitas en su uso

o simplemente dejan de funcionar. Ya está anunciado que SIL no va a seguir siempre dando su apoyo a

Toolbox aunque, por ahora, el foro de soporte técnico sigue respondiendo bien a las consultas y el

software continua siendo plenamente funcional, pero parece que ya no está siendo activamente

promocionado y que en el futuro SIL va a favorecer otro rumbo. Llegará el día cuando estaremos

obligados a cambiar de plataforma, pero propongo que crucemos ese puente cuando lleguemos a él.

§12. PRESENTE Y FUTURO DEL CORPUS DE NÁHUAT En resumen, los documentos incluidos en la primera versión consolidada de nuestro corpus (Corpus 1.0)

son: los textos en náhuat de las publicaciones de Schultze Jena, Próspero Aráuz y Lyle Campbell, y una

miscelánea de textos menores (incluyendo cartillas). Todos aportan datos pero algunos más que otros, y

algunos datos son, en última instancia, de más utilidad y fiabilidad que otros, pero se llega a esa

conclusión a posteriori, después de mirar los materiales, no a priori. La preparación de estos textos que se

necesita para su explotación con los concordanciadores “sencillos” que se utilizaron con el Corpus 1.0

supone su digitación, traslado a un medio electrónico y transcripción a una ortografía común.

La segunda fase en la evolución del corpus comenzó con la “migración” a un entorno estructurado

acomodado dentro de un proyecto desarrollado usando la aplicación Field Linguist’s Toolbox (de SIL), fase

que se caracteriza por la integración del corpus textual y los léxicos del náhuat en un solo sistema

integrado, donde todos los datos estén representados en bases de datos. Se llama NAWACOLEX. Esta

manera de disponer y manejar todos estos materiales ofrece ventajas interesantes que se describieron, de

forma resumida al menos, en la sección §10.

Dadas nuestras circunstanciales y el hecho de que todavía funciona Corpus 1.0 con la aplicación de

cosecha propia TAC, no ha sido práctico hasta la fecha interrumpir o aplazar otros quehaceres para

priorizar una rápida y plena implementación del nuevo modelo para la totalidad del corpus. Por ahora el

corpus de NAWACOLEX abarca tan sólo algunos de nuestros textos, incluyendo los más importantes de

todos, que son principalmente el consabido corpus de Schultze Jena por un lado, y por otro lado los textos

de las entrevistas entre nahuahablantes nativos grabadas en la década pasada por IRIN que hayan sido

transcritas.

* Lexique Pro, como Toolbox, es un producto de SIL, y está integrado con él, de modo que Lexique Pro es capaz de generar un

diccionario de un léxico en Toolbox de forma más o menos automática. Ciertamente esto le da al uso de Toolbox, como ocurre en

NAWACOLEX, para desarrollar o almacenar léxicos un valor añadido. Lexique Pro se distribuye gratuitamente, igual que Toolbox.

19

El corpus de transcripciones de IRIN es uno de los frutos de un proyecto de documentación del náhuat

que ofrece la posibilidad de ensanchar los conocimientos del idioma observando cómo lo usan los

hablantes nativos de hoy. Cada entrevista grabada dura entre media hora y una hora, y como se ha dicho,

hasta la fecha se han transcrito ocho de ellas, lo que significa varias horas de conversación espontánea.

Este material no tuvo que re-codificarse a partir de Corpus 1.0, porque se ha producido después de la

configuración de éste, cuando ya estábamos dentro de la era de NAWACOLEX, por lo que las transcripciones

originales se formatearon desde el principio de acuerdo con sus características.

La transcripción de las grabaciones de IRIN es un trabajo arduo y lento que sólo puede ser hecho

correctamente por personas que posean los necesarios conocimientos y preparación. Ahorita no hay

transcripciones en marcha, pero de aquí a unos años convendría seguir con esta tarea, lo cual aumentará

el tamaño de este componente del corpus con materiales completamente inéditos y nuevos. Lo hecho

hasta ahora, con ocho entrevistas transcritas, es un comienzo y una muestra de lo que se podrá

conseguir, la cual confirma la gran importancia del proyecto realizado por IRIN y la enorme aportación que

representa para la recuperación del náhuat.*

No parece muy probable que salgan a la luz muchos más textos “antiguos” en náhuat inéditos y de

importancia. Tenemos noticias de algunas personas que se han esforzado, y lo siguen haciendo, para

recopilar cualquier cosita que quede por allí, y algunos documentos, la mayoría menores, han aparecido.

Estos esfuerzos son de agradecer, por supuesto. Una de esas personas es Jan Morrow, quien ha hecho

algunos hallazgos de valor.

Si el movimiento de recuperación del náhuat continúa como esperamos, esto no será el fin de la historia

del corpus del náhuat. El corpus del náhuat no quedará estanco, no se convertirá en un “libro cerrado”,

sino que continuará expandiéndose mientras el náhuat siga vivo y creciendo. Mientras la lengua viva, no

habrá razones para excluir los textos nuevos producidos por las nuevas generaciones, que también

pasarán a formar parte, juntos con los textos que ya poseemos, del futuro corpus.

Cada vez que usamos el náhuat, crece un poco su corpus, al menos en el primer sub-sentido al que aludía

en el principio de este documento. Cualquier frase en náhuat que se coloque en Facebook, o se envíe por

Twitter, o se escriba en un chat, pasa a formar una parte real del corpus del idioma. Incluso puede acabar

en un corpus del segundo tipo, ya que en todo el mundo hay lingüistas hoy día que se dedican a recoger y

estudiar secuencias de discurso en medios efímeros, que si antaño incluían las cartas personales y la

prensa, hoy día cada vez más quiere decir los medios electrónicos y sobre todo los sociales, que cada vez

más son tomados en consideración por la comunidad científica.

El caso es que donde hay una lengua viva, hay un corpus en constante renovación. ¡Esperemos pues que

el corpus del náhuat siga creciendo mucho!

* Aprovecho la oportunidad para agradecerle a Lyle Campbell el apoyo que ha dado a este programa de documentación, sin el cual

tampoco habría sido posible.

El corpus del náhuat

Documents

Transcript of El corpus del náhuat