Post on 14-Oct-2015
7/13/2019 Tesis Madrid - Tesauros
1/415
UNIVERSIDAD COMPLUTENSE DE MADRID
FACULTAD DE FILOLOGA
Departamento de Filologa Romnicas, Eslavas y Lingstica General
LA CONSTRUCCIN DE TESAUROSACADMICOS: UN MODELO GENERAL Y UN
MTODO INDUCTIVO CON APLICACIN AL E-LEARNING.
MEMORIA PARA OPTAR AL GRADO DE DOCTOR
PRESENTADA POR
Ana M. Fernndez-Pampilln Cesteros
Bajo la direccin de los doctores
Covadonga Lpez Alonso
Alfredo Fernndez-Valmayor Crespo
Madrid, 2010
ISBN: 978-84-693-6551-9 Ana M. Fernndez-Pampilln Cesteros, 2010
7/13/2019 Tesis Madrid - Tesauros
2/415
UNIVERSIDAD COMPLUTENSE DE MADRIDFACULTAD DE FILOLOGA
Departamento de Filologa Romnica, Eslava y Lingstica General
rea de Lingstica General
La construccin de tesauros acadmicos. Un
modelo general y un mtodo inductivo con
aplicacin al e-learning
Memoria para optar al grado de doctor presentada por:
Ana M. Fernndez-Pampilln Cesteros
Dirigida por los doctores:
Covadonga Lpez Alonso
Alfredo Fernndez-Valmayor Crespo
Noviembre 2009
7/13/2019 Tesis Madrid - Tesauros
3/415
7/13/2019 Tesis Madrid - Tesauros
4/415
A mi marido, Miguel
A mis hijos Miguel y Javier
A mi Familia
7/13/2019 Tesis Madrid - Tesauros
5/415
7/13/2019 Tesis Madrid - Tesauros
6/415
Agradecimientos
Durante todos estos aos de trabajo de tesis he tenido firmes apoyos sin los que
difcilmente habra podido empezar y terminarlo. El primero de ellos ha sido el de mis
directores, Covadonga Lpez Alonso y Alfredo Fernndez-Valmayor, a quienes debo la
mayor parte de lo que he aprendido como investigadora y a quienes agradezco no slo su
sabia y experimentada gua sino, tambin, la confianza permanente y el empuje en los
momentos difciles.
Tambin he contado con el apoyo de mis compaeros y colegas en la Universidad: Mara
Matesanz, compaera de investigacin y amiga desde el ao 1996, fecha en la que nos
incorporamos a la Universidad; le agradezco, sobre todo, sus enseanzas lexicogrficas,
lingsticas y su sereno apoyo humano; Elena de Miguel y Olimpia Prez, antiguas alumnas
y ahora colegas, que me han ayudado con las clases, la memoria y otras mil cosas ms;
tambin, mi ms profundo agradecimiento a mis compaeros en la Facultad de Informtica
Jos Luis Sierra, Antonio Navarro, Antonio Sarasa, Carmen Fernndez, Luis Hernndez
que me han invitado a formar parte de sus equipos y proyectos de investigacin, que han
impulsado y enriquecido mi investigacin, y me han proporcionado apoyo financiero; mis
compaeros de la oficina del Campus Virtual: Jess Cristbal, Jorge Merino, Miguel
Peralta, Yoli Roldn, siempre dispuestos a ayudarme con las mltiples dudas y problemastcnicos y con los tuve la oportunidad de trabajar para crear el Campus Virtual de la UCM
bajo la direccin de Alfredo Fernndez-Valmayor; David Carabantes, a quien agradezco
que me haya ayudado a salvar los obstculos del final de esta carrera; Sara Olmos, artista y
diseadora grfica, a quien doy las gracias por el precioso diseo de la portada de la tesis y
por el regalo de su disponibilidad; mis compaeros del Comit de Coordinacin del
Campus Virtual, con los que he compartido aos de experiencia y trabajo en la enseanza y
aprendizaje virtual.
Quiero expresar mi sincero agradecimiento al Decano de la Facultad de Filologa, Dmaso
Lpez, y a mis compaeros del equipo decanal, que han apoyado firmemente mi dedicacin
a la tesis; al personal del equipo de Informtica y Teconologas de la Facultad, que trabajan
o han trabajado conmigo estos ltimos aos y que me han cubierto en muchos momentos
para que pudiera tener huecos de trabajo dedicado a la tesis. Tambin, mi agradecimiento
iii
7/13/2019 Tesis Madrid - Tesauros
7/415
a Amelia Sanz, compaera incansable en el Vicedecanato de Tecnologas; a Jorge Ars,
compaero actual que con gran paciencia me ha sobrellevado en estos ltimos meses de
tesis; a mis compaeros de titulacin, de Departamento, colegas y personal de la Facultad
que me han ayudado a quitar algunas de las piedras que han aparecido en el camino. Son
muchas las personas que, de una u otra forma, me han brindado su apoyo y que han
facilitado con su profesionalidad y amabilidad mi trabajo de investigacin.
Esta investigacin se ha llevado a cabo dentro de los proyectos de investigacin que han
enmarcado y financiado mi trabajo investigador: Objetos de aprendizaje en el Campus
Virtual (OdA-Virtual) (TIN2005-08788-C04-01)1; Un modelo hipermedia modular para
la enseanza de la Lingstica General (TIN2005-08788-C04-03)2; Arquitecturas
Avanzadas en Campus Virtuales (AACV) (TIN2009-14317-C03-01/TSI)3; Integracin
de plataformas y servicios en el campus virtual (IPS-CV) (TIN2008-06708-C03-01/TSI)4;
Tecnologas de Marcado Descriptivo XML- como base a un Proceso de Desarrollo de
Software Guiado por Lenguajes (UCM-Santander Central Hispano)5; y Glosario
interactivo para el aprendizaje de conocimientos jurdicos en el campus virtual abierto
(PIMCD 66/2008)6.
He podido contar, adems, con el apoyo de mis amigos y familia; mis amigos que, sin
perder la paciencia, han seguido mi trabajo, me han ayudado con los nios e, incluso, se
han encargado de organizar las pocas veladas que hemos podido pasar juntos; Gloria ha
sido mi apoyo en casa durante todas estas tardes de trabajo
Finalmente, quiero dar las gracias a mi familia, a mis padres, mis padres polticos; mis
abuelos (que ya no estn), mis hermanos, especialmente Enrique quien, con su saber y
experiencia en bases de datos, me ha aportado valiossimas ideas. Ellos me han soportado
con admirable paciencia durante estos aos de tesis, se han preocupado y ocupado de mis
1Duracin:1/Enero/2006 hasta 1/Junio/2009. Investigador responsable: Afredo Fernndez-Valmayor.
2Investigadora responsable: Covadonga Lpez Alonso.3 Entidades participantes: Universidad Complutense de Madrid (Facultad de Informtica), Universidad
Nacional de Educacin a Distancia (Facultad de Informtica). Duracin, desde: 01/Enero/10 a:
31/Diciembre/12. Investigador responsable: Antonio Navarro Martn.4 Entidades participantes: Universidad Complutense de Madrid (Facultad de Informtica). Duracin:
01/Enero/09 a: 31/Diciembre/09. Investigador responsable: Antonio Navarro Martn.5Entidades participantes: Facultad de Filologa de la UCM, Facultad de Informtica UCM, Duracin desde:
1/Enero/2008 hasta: 31/Diciembre/2009. Investigador responsable: Jos Luis Sierra Rodrguez.6Entidades participantes: Facultad de Filologa; Facultad de Derecho; Facultad de Ciencias Fsicas de laUCM, Duracin desde 1/2/2008 a 31/12/2008.
iv
7/13/2019 Tesis Madrid - Tesauros
8/415
tareas familiares, regalndome todo el tiempo que he necesitado (y ha sido mucho) para
hacer este trabajo; a mi marido, Miguel, y mis hijos, Miguel y Javier, les doy las gracias,
adems, por haber renunciado a tantas horas juntos, por haberlo comprendido e, incluso,
haber hecho de este trabajo de tesis un proyecto familiar ms.
A todos, mi ms sincero agradecimiento.
v
7/13/2019 Tesis Madrid - Tesauros
9/415
vi
7/13/2019 Tesis Madrid - Tesauros
10/415
ndice General
Resumen ..........................................................................................................................xiAbstract ........................................................................................................................ xiii
Captulo 1. Marco de la tesis ............................................................................................1
1.1. Panorama general............................................................................................11.2. Introduccin....................................................................................................21.3. Motivacin......................................................................................................71.4. Objetivos e hiptesis de trabajo ....................................................................10
1.4.1. Objetivos...........................................................................................101.4.2. Hiptesis ...........................................................................................11
1.5. Metodologa de trabajo .................................................................................121.6. Estructura de la memoria ..............................................................................13
Captulo 2. Los vocabularios para la explotacin de recursos didcticos digitalizados.17
2.1. Introduccin..................................................................................................182.2. Definiciones del trmino vocabulario...........................................................202.3. El contenido semntico de los vocabularios.................................................262.4. Los vocabularios en los sistemas de recuperacin de la informacin ..........30
2.4.1. El vocabulario en la indexacin........................................................332.4.2. El vocabulario en la bsqueda y navegacin....................................39
2.5. Los vocabularios en la explotacin didctica de recursos digitalizados.......422.6. Tipos de vocabularios para la explotacin de recursos didcticos
digitalizados................................................................................................47
2.6.1. Vocabulario simple o lista de valores...............................................482.6.2. Clasificaciones y taxonomas ...........................................................492.6.3. Tesauros............................................................................................522.6.4. Ontologas.........................................................................................582.6.5. Glosarios y diccionarios ...................................................................63
2.7. Resumen y conclusiones del captulo...........................................................66
Captulo 3.Los entornos virtuales de enseanza y aprendizaje e-learning ...................69
3.1. Las plataformas e-learningy los espacios de aprendizaje............................703.2. El uso de las plataformas e-learningen los campus virtuales......................82
3.2.1. La forma de los campus virtuales.....................................................833.2.1.1. Modelo centrado en la tecnologa ........................................843.2.1.2. Modelos centrados en la institucin.....................................853.2.1.3. Modelo centrado en el estudiante .........................................863.2.1.4. Modelo centrado en el profesor............................................87
3.2.2 La arquitectura de un campus virtual ................................................883.2.3. El uso didctico del campus virtual..................................................91
3.2.3.1. El uso didctico del campus virtual desde la experiencia ....923.2.3.2. El uso didctico y la evolucin del e-learning .....................95
3.3. La aportacin de los tesauros en el contexto del e-learning.........................973.3.1. Un ejemplo de clasificacin de recursos educativos con metadatos
LOM y taxonomas o tesauros.........................................................1043.4 Resumen y conclusiones del captulo ..........................................................110
vii
7/13/2019 Tesis Madrid - Tesauros
11/415
Captulo 4.El modelo de los estndares de construccin de tesauros de explotacin .113
4.1. Introduccin a los modelo de datos ............................................................1134.2. Caractersticas y requisitos de los tesauros de explotacin ........................117
4.2.1. Caractersticas.................................................................................1174.2.2. Requisitos .......................................................................................120
4.3. Los modelos de datos estndar para la construccin de tesauros deexplotacin: el estndar ANSI-NISO Z39.19...........................................1224.3.1. El contenido del tesauro .................................................................124
4.3.1.1. Trminos.............................................................................1244.3.1.2. Categoras...........................................................................1254.3.1.3. Relaciones semnticas........................................................1264.3.1.4. Objetos de contenido..........................................................1304.3.1.5. ndices ................................................................................131
4.3.2. Acceso al contenido........................................................................1314.3.3. Operaciones de modificacin .........................................................135
4.4. La aplicacin de los modelos alfabtico y sistemtico de los estndares a la construccin de tesauros...........................................................................1374.4.1. El modelo alfabtico.......................................................................1384.4.2. El modelo sistemtico.....................................................................140
4.5. Resumen y conclusiones del captulo.........................................................147
Captulo 5. Los modelos informticos para la construccin de tesauros deexplotacin ........................................................................................................151
5.1. La informatizacin de los tesauros .............................................................1515.2. Modelos de datos conceptuales ..................................................................156
5.2.1. Modelos basados en grafos.............................................................1565.2.1.1. Redes semnticas................................................................1615.2.1.2. Hipertexto...........................................................................165
5.2.2. Modelos Entidad-Relacin y Entidad Relacin Extendido ............1685.2.3. Modelo Orientado a Objetos ..........................................................174
5.3. Modelos de implementacin de datos.........................................................1785.3.1. Modelo relacional...........................................................................1785.3.2. Modelos basados en lenguajes de marcado XML ..........................186
5.3.2.1. Modelos basados en el Resource Description Framework(RDF) .....................................................................................191
- El modelo RDF/RDFS.........................................................191- El modelo Ontology Web Language (OWL) ......................198- El modelo Simple Knowledge Organization (SKOS-Core)199- Consideraciones finales sobre los modelos basados en RDF200
5.3.2.2. Modelos procedentes del e-learning..................................202- IMS Vocabulary Definition Exchange (IMS VDEX).........202- CEN Exchange of Vocabularies (CEN XVD) ....................205- Consideraciones finales sobre modelos procedentes del e-
learning................................................................................2095.4. Resumen y conclusiones del captulo .........................................................210
viii
7/13/2019 Tesis Madrid - Tesauros
12/415
Captulo 6.El modelo higraph lxico para la construccin de los tesauros .................213
6.1. El modelo matemtico y visual de los higraphs .........................................2146.1.1. Sintaxis ...........................................................................................2146.1.2. Semntica .......................................................................................218
6.2. El tesauro como un sistema autnomo de signos .......................................2196.3. El modelo de higraph lxico para tesauros .................................................221
6.3.1. Sintaxis ...........................................................................................2226.3.2 Semntica ........................................................................................225
6.3.2.1. El clculo del valor del significado de los trminos...........2266.3.2.2. El valor del significado de las categoras ...........................229
6.4. Implementacin del modelo HL .................................................................2336.4.1. El uso de software de gestin de higraphs para la construccin y
manipulacin automtica de los HL................................................2336.4.2. El uso del modelo de datos relacional para la construccin y gestin
automtica de los HL.......................................................................234
6.4.2.1. Diseo del HL relacional....................................................2356.4.2.2. Ejemplo ..............................................................................2426.5. Resumen y conclusiones del captulo .........................................................245
Captulo 7.Una metodologa para la construccin inductiva de tesauros acadmicos deexplotacin ....................................................................................................................247
7.1. Mtodos de construccin de tesauros .........................................................2487.1.1. El proceso de construccin .............................................................2487.1.2. La construccin automtica............................................................258
7.2. Una nueva metodologa para la construccin de tesauros acadmicos deexplotacin ...............................................................................................259
7.2.1. Justificacin y premisas..................................................................2597.2.2. Descripcin del mtodo ..................................................................262
7.3. Resumen y conclusiones del captulo.........................................................275
Captulo 8.Casos prcticos ..........................................................................................277
8.1. La especializacin de tesauros generales....................................................2778.1.1. Introduccin....................................................................................2778.1.2. Utilizacin del tesauro de referencia ETB en espaol....................2788.1.3. Aplicacin del mtodo....................................................................2818.1.4. Resultados y discusin ...................................................................287
8.2. La reconstruccin, como tesauro, del ndice temtico de un museo virtualacadmico.................................................................................................2908.2.1. Introduccin....................................................................................2908.2.2. El proceso de ingeniera inversa: identificacin, extraccin e
interpretacin de estructuras-t .........................................................2938.2.3. El proceso de reconstruccin del ndice como tesauro: insercin de
las estructuras HL ............................................................................3018.2.4. Resultados.......................................................................................3088.2.5. Discusin ........................................................................................312
8.3. La creacin de un tesauro en elglosario explicativoe-derecho.................3148.3.1. Introduccin....................................................................................314
8.3.2. Anlisis del tesauro del glosario e-derecho....................................3188.3.3. La construccin del tesauro e-derecho ...........................................319
ix
7/13/2019 Tesis Madrid - Tesauros
13/415
x
8.3.4. Resultados.......................................................................................3258.3.5. Discusin ........................................................................................327
8.4. Resumen y Conclusiones del captulo ........................................................328
Captulo 9.Recapitulacin, conclusiones finales y lneas de trabajo futuro ................331
9.1. Recapitulacin ............................................................................................3319.1.1. Objeto de estudio ............................................................................3319.1.2. Cuestiones de investigacin ...........................................................3329.1.3. Hiptesis de trabajo ........................................................................3339.1.4. Anlisis crtico del estado de la cuestin........................................333
9.1.4.1. Naturaleza y aplicaciones de los tesauros de explotacin..3349.1.4.2. Contexto de trabajo acadmico del e-learning...................3369.1.4.3. Estructuras-t........................................................................3379.1.4.4. Modelos para la construccin de tesauros ..........................3389.1.4.5. Mtodos de construccin de tesauros.................................345
9.1.5. Conclusiones parciales del anlisis.................................................3489.1.6. Mtodo de demostracin ................................................................3509.1.7. Recogida de datos ...........................................................................3519.1.8. El modelo propuesto.......................................................................3529.1.9. El mtodo propuesto.......................................................................3549.1.10. La experimentacin ......................................................................356
9.1.10.1. La especializacin de tesauros generales .........................3569.1.10.2. La reconstruccin, como tesauro, del ndice temtico de un
museo virtual acadmico........................................................3579.1.10.3. La creacin de un tesauro para el glosario explicativo e-
derecho...................................................................................358
9.1.10.4. Evaluacin de los tesauros resultado................................3599.2. Conclusiones finales ...................................................................................3619.3. Lneas de trabajo futuro ..............................................................................364
Bibliografa...................................................................................................................367
Apndice A. ndice de tesauros ..................................................................................395
Apndice B. Esquema relacional SQL de un higraph lxico...................................399
7/13/2019 Tesis Madrid - Tesauros
14/415
Resumen
Este trabajo puede catalogarse como una contribucin dentro de la Lingstica
Computacional a la Tecnologa Educativa, concretamente al e-learning. El objetivo es
facilitar la construccin de los tesauros acadmicos de explotacin en formato electrnico
y, por ello, estos tesauros hay que entenderlos como sistemas lingsticos para expresar y
organizar el conocimiento de un dominio. En ellos se utilizan trminos y relaciones
semnticas del mismo lenguaje especfico usado en los materiales o las colecciones de
recursos docentes o de investigacin creados por y para la actividad acadmica, siempre en
entornos electrnicos de enseanza y aprendizaje. El propsito de estos tesauros es: i)
ayudar al profesor a organizar conceptualmente sus materiales, haciendo ms fcil su
localizacin, seleccin, y uso; y ii) ayudar al alumno a entender y aprender los conceptos y
a usar de forma adecuada la lengua de especialidad de la disciplina o rea de conocimiento
que cubra el tesauro.
Nuestra propuesta es un modelo dinmico formal que representa, mediante estructuras
relacionales, el contenido de los tesauros. Con l se da soporte a un mtodo de construccin
incremental e inductivo que genera los tesauros como parte del proceso de creacin de
materiales didcticos o de investigacin, reproduciendo el modo en que los autores
organizan y describen estos materiales. El modelo y mtodo Higraph Lxico proporcionanel fundamento para la creacin de aplicaciones informticas de carcter general que sirvan
para que los profesores, investigadores y estudiantes puedan crear, visualizar, manipular y
actualizar automticamente sus tesauros acadmicos de explotacin.
xi
7/13/2019 Tesis Madrid - Tesauros
15/415
xii
7/13/2019 Tesis Madrid - Tesauros
16/415
Abstract
This work can be considered as a contribution, within Computational Linguistics, to
Educational Technology, specifically to e-learning. The aim is to facilitate theconstruction of academic thesauri for electronic exploitation. These thesauri are,
therefore, to be understood as linguistic systems for the expression and organization of a
domain's knowledge. They use the same terms and semantic relations as the language
found in materials or series of teaching and research resources created by and for
academic activity, always within the realm of electronic teaching and learning. The aim
of these thesauri is to i) help the teacher organize didactic as well as research
materials conceptually, thus facilitating the localization, selection and use thereof; and
ii) help the student understand and learn concepts and use, accurately, the language
specific to the discipline or field of knowledge covered by the thesaurus.
Our proposal is a dynamic formal model which represents, by means of relational
structures,the highly intertwined and changeable contents of thesauri. It gives supportto an incremental and inductive construction method which generates thesauri as part of
the creation process of teaching and research materials and which replicates the way
authors organize and describe those materials. The HL model and method provides the
foundation for the creation of general computer applications which may help teachers,
researchers and students automatically build, visualize and update their thesauri for
academic exploitation.
xiii
7/13/2019 Tesis Madrid - Tesauros
17/415
xiv
7/13/2019 Tesis Madrid - Tesauros
18/415
Captulo1
Marco de la tesis1.1 Panorama general
El presente trabajo se ha desarrollado dentro de un Proyecto de Investigacin y
Desarrollo Tecnolgico financiado por el Ministerio de Educacin y Ciencia con ttulo
Objetos de aprendizaje en el Campus Virtual (OdA-Virtual) (TIN2005-08788-C04-
01)1 en el que han participado las Facultades de Informtica, Filologa, y Geografa e
Historia. El objetivo del proyecto, recientemente terminado, era desarrollar los procesos,
metodologas, plataformas y arquitecturas que den soporte a la participacin de
profesores y alumnos en la construccin y utilizacin de Objetos de Aprendizaje (OdA)
en el entorno de un campus virtual. Ya desde el inicio del proyecto se haba detectado la
necesidad de disponer de un nuevo tipo de tesauros acadmicos de explotacin para la
clasificacin, indexacin y bsqueda de los OdA que los profesores creaban y utilizaban
de forma colaborativa en los entornos de enseanza y aprendizaje virtuales. Esta
necesidad motiv este trabajo de tesis. Los trabajos de investigacin interdisciplinares
(Informtica, Lingstica e Historia) de los tres subproyectos dieron el soporte y marco
de aplicacin necesario para el planteamiento y desarrollo de esta tesis:
1) el subproyecto de Informtica tena como objetivo desarrollar la base tericasobre la que fundamentar la definicin y construccin de los procesos,
metodologas y plataformas que deben constituir el entorno que permita a
profesores y alumnos elaborar OdA;
2) el subproyecto de lingstica, Un modelo hipermedia modular para laenseanza de la Lingstica General (TIN2005-08788-C04-03) 2, tena como
objetivo bsico el desarrollo de una metodologa modular que permita analizar y
estructurar la informacin contenida en los OdA en el marco de un campus
virtual, para apoyar la enseanza y la investigacin; y
3) el subproyecto de Geografa e Historia, Estudio y construccin de ObjetosVirtuales en Geografa e Historia (TIN2005-08788-C04-04)3 tena como
objetivo estudiar la construccin de OdA que se puedan componer y que
1
Duracin:1/Enero/2006 hasta 1/Junio/2009. Investigador responsable: Afredo Fernndez-Valmayor.2Investigadora responsable: Covadonga Lpez Alonso.
3Investigadora responsable: Mercedes Guinea Bueno.
1
7/13/2019 Tesis Madrid - Tesauros
19/415
integren los trabajos de investigacin y el material docente generado por los
profesores de esta rea de conocimiento dentro del marco del Campus Virtual de
la UCM. Con este fin, este grupo llev a cabo una lnea de investigacin basada
en la reutilizacin del material grfico, documental y musestico existente en el
Departamento de Historia de Amrica II (museo, laboratorio, archivos, informes
de investigacin y/o notas de clase) y en los otros centros de investigacin
participantes (CNRS y University of Texas en San Antonio) para la realizacin y
distribucin en la web de estos OdA.
Posteriormente, otros proyectos han permitido, y estn permitiendo, aplicar los
resultados obtenidos en esta investigacin, aportando una experiencia valiosa para
corregir y mejorar de forma incremental la propuesta inicial: a) Arquitecturas
Avanzadas en Campus Virtuales (AACV), financiado por el Ministerio de Ciencia y
Tecnologa (TIN2009-14317-C03-01/TSI)4; b) Integracin de plataformas y servicios
en el campus virtual (IPS-CV), financiado por el Ministerio de Ciencia y Tecnologa
(TIN2008-06708-C03-01/TSI)5; c) Tecnologas de Marcado Descriptivo XML- como
base a un Proceso de Desarrollo de Software Guiado por Lenguajes, financiado por
UCM-Santander Central Hispano6; y d) Glosario interactivo para el aprendizaje de
conocimientos jurdicos en el campus virtual abierto (PIMCD 66/2008), financiado por
el Vicerrectorado de Desarrollo y Calidad de la Docencia de la UCM7.
A todos ellos nuestro agradecimiento.
1.2. Introduccin
En la actividad universitaria surge la necesidad de expresar y organizar el conocimiento
y las creaciones intelectuales desarrolladas o difundidas por los profesores,
investigadores y estudiantes en entornos electrnicos de formacin universitaria, los
campus virtuales, con este tipo de repertorios que denominaremos tesauros acadmicosde explotacin.
4Entidades participantes: Universidad Complutense de Madrid (Facultad de Informtica), UniversidadNacional de Educacin a Distancia (Facultad de Informtica). Duracin, desde: 01/Enero/10 a:31/Diciembre/12. Investigador responsable: Antonio Navarro Martn.5 Entidades participantes: Universidad Complutense de Madrid (Facultad de Informtica). Duracin:
01/Enero/09 a: 31/Diciembre/09. Investigador responsable: Antonio Navarro Martn.6 Entidades participantes: Facultad de Filologa de la UCM, Facultad de Informtica UCM, Duracin
desde: 1/Enero/2008 hasta: 31/Diciembre/2009. Investigador responsable: Jos Luis Sierra Rodrguez.7Entidades participantes: Facultad de Filologa de la UCM (Area de Lingstica General), Facultad de
Derecho, Facultad de Ciencias Fsicas. Duracin desde: 1/Febrero/2008 hasta:31/Diciembre/2008.Investigador responsable: Mara de la Sierra Flores Doa. Coordinadora delsubproyecto de informatizacin: Ana Fernndez-Pampilln.
2
7/13/2019 Tesis Madrid - Tesauros
20/415
Un tesauroes un vocabulario limitado, generalmente de palabras especializadas, dotado
de sus correspondencias semnticas, y elegido para que represente las nociones que
figuran en un texto dado para su empleo en informtica y en el establecimiento de
ndices (Martnez de Sousa, 1995). Los trminos de un tesauro estn formalmente
organizados de forma que se hacen explcitas las relaciones entre los conceptos, por
ejemplo, de hiponimia-hiperonimia. Las relaciones estndar entre los trminos de un
tesauro son las relaciones semnticas de equivalencia8, jerrquicas y asociativas, y se
visualizan mediante marcadores estndares y recprocos (ANSI/NISO Z39.19, 2005).
Los tesauros son herramientas lingsticas que sirven para ayudar a las personas o a las
mquinas a encontrar los trminos ms apropiados para expresar una idea (Aitchinson y
Clarke, 2004). Sus aplicaciones ms frecuentes son de tipo (i) lingstico, (ii)
documentalista, (iii) informtico y (iv) acadmico.
i) Desde el punto de vista lingstico, el tesauro se concibe como una herramientade soporte para el escritor que le ayuda a encontrar los trminos ms adecuados
a la idea que quiere expresar en sus composiciones literarias. Un ejemplo
paradigmtico es el tesauro de Roget9, actualmente disponible en formato papel
y electrnico10. El tesauro de Roget no organiza los trminos alfabticamente
como en otros vocabularios tradicionales, diccionarios, glosarios, enciclopedias,
sino que se agrupan de forma sistemtica segn los conceptos que expresan. De
esta forma el usuario puede ir desde la idea a la palabra; desde la palabra a la
idea (Casares, 1959).
La estrategia de bsqueda en cualquier tesauro es similar a la de un diccionario
ideolgico11 cuando se quiere encontrar el trmino ms adecuado a una idea:
primero, debe expresarse con toda claridad el problema, o la cuestin, cuya
solucin interesa buscar con algn trmino o trminos; segundo, si la
organizacin sistemtica del tesauro o del diccionario ideolgico- es correcta a
partir del trmino o trminos que expresan el problema o bien se encuentra la
8 En los estndares de tesauros para la Recuperacin de Informacin no se incluyen relaciones de
oposicin ni de homografa.9Thesaurus of English Words and PhrasesClassified and Arranged so as to Facilitate the Expression of
Ideas and Assist in Literary Composition, de Peter Mark Roget publicado en 1852.10
Se puede consultar una versin en lnea en: http://poets.notredame.ac.jp/Roget/contents.html11
En la lexicografa espaola, el diccionario ideolgico es un tipo de diccionario onomasiolgico -parte
de los conceptos-, cuyos lemas estn ordenados alfabticamente y encabezan un grupo de palabras que
corresponden a un campo lxico determinado (Haensch, 1997: 67-68). En lengua inglesa, se entiende pordiccionario ideolgico un diccionario clasificado por temas. En lexicografa francesa, el diccionarioideolgico se corresponde con el diccionario analgico.
3
http://poets.notredame.ac.jp/Roget/contents.htmlhttp://poets.notredame.ac.jp/Roget/contents.html7/13/2019 Tesis Madrid - Tesauros
21/415
serie de trminos asociados a la consulta o bien se ir explorando la red del
tesauro guindose por las clasificaciones y las relaciones semnticas que
conectan los trminos. Las series de trminos pueden incluso cruzarse cuando
comparten sus significados. Para precisar el significado, los trminos pueden
incluir notas de mbito12 y tambin cualificadores13 porque en un tesauro es
primordial que cada trmino represente un solo concepto. La bsqueda puede
hacerse en profundidad, siguiendo las relaciones de tipo hiponimia-hiperonimia,
o en anchura, siguiendo las relaciones de tipo asociativo.
En el caso inverso, cuando se quiere encontrar el significado de una palabra en
el tesauro, la forma de proceder es diferente de la habitual en otras obras
lexicogrficas que incluyen definiciones de los trminos. En los tesauros el
significado de un trmino viene determinado por las relaciones con los otros
trminos y por las notas de mbito, si existen. El tesauro presenta, a travs de
su estructura, una serie de relaciones que establece en general el contexto de
"significado" de un trmino dado, con especial referencia a trminos de
connotacin ms amplia o ms restringida. Normalmente esto basta para indicar
la interpretacin que se hace de un trmino. A veces, cuando un trmino se
interpreta vagamente en el uso comn o cuando diferentes diccionarios le
asignan significados diversos, es necesario extender la nota de aplicacin hasta
que constituya una definicin completa (UNE 50106, 1990). El procedimiento
consiste, en este caso, por lo tanto, en explorar el tesauro a partir de la palabra
buscada: en primer lugar, se consultan los trminos sinnimos y las notas de
mbito, si existen; en segundo lugar, los hipernimos e hipnimos cercanos; y
en tercero, los trminos asociados.
ii) En el contexto de trabajo del documentalista, el tesauro es un lenguajedocumental. Un lenguaje documental es un lenguaje controlado que se usa para
representar la informacin contenida en un conjunto de documentos, con el fin
de facilitar su almacenamiento y su posterior recuperacin. El lenguaje se
controla con reglas que normalizan la forma de los trminos en tres niveles: en el
nivel morfolgico, definiendo la categora gramatical o la flexin; en el nivel
12 Es una explicacin o definicin de un trmino. Cuando el tesauro se utiliza para la indexacin dedocumentos o de cualquier objeto con contenido informacional, las notas de mbito sirven para indicar el
uso que se le quiere dar en ese lenguaje de indexacin.13Un cualificador es otro trmino situado entre parntesis que se aade al trmino para desambiguar su
significado, indicando, por ejemplo, el rea temtica respecto de la cual debe interpretarse.
4
7/13/2019 Tesis Madrid - Tesauros
22/415
sintctico, definiendo las combinaciones de trminos, llamada coordinacin; y
en el nivel semntico, restringiendo el significado de los trminos con las notas
de mbito y los cualificadotes para que un trmino slo represente un concepto y
un concepto slo sea representado por un trmino. El objetivo es describir de
forma precisa el contenido de los documentos, evitando la ambigedad del
lenguaje natural. El tesauro es un tipo de lenguaje documental postcoordinado,
que permite la identificacin de los documentos utilizando cualquier
combinacin de trminos del tesauro, no necesariamente prefijada como ocurre
con los lenguajesprecoordinados- con el fin de representar de forma flexible los
documentos mediante la yuxtaposicin de conceptos. Aqu radica uno de los
puntos fuertes de los tesauros, respecto de otros tipos de lenguajes documentales
precoordinados como las clasificaciones, proporcionan una descripcin flexible
y exhaustiva del contenido temtico de los documentos que incrementa, con los
mltiples puntos de vista que proporcionan las combinaciones de trminos no
prefijadas, las posibilidades de recuperacin (Laguens, 2006).
iii)Este uso de los tesauros como lenguajes documentales se extiende tambin alcontexto informtico de la Recuperacin de Informacin14. Larecuperacin de
informacin (RI) es una rama multidisciplinar15que estudia los mecanismos de
representacin, almacenamiento, organizacin y acceso a la informacin en
colecciones de documentos, en los contenidos de los documentos, en bases de
datos o en la Web (Baeza-Yates y Ribeiro-Neto, 1999). Los tesauros se
incorporan en los sistemas de RI desde los aos cincuenta con la idea de
transformar los conceptos y sus relaciones que se expresan en los documentos,
en un lenguaje ms regularizado, con los sinnimos controlados y las estructuras
morfosintcticas simplificadas (Brownson, 1957)16. De esta forma, la persona -
o aplicacin software- que indexa y la que busca utilizan un mismo lenguaje.
Incluso cuando en la bsqueda de informacin se puede utilizar texto libre, el
tesauro es til para extender los trminos de consulta con sinnimos o
hipernimos, de forma que aumenten las posibilidades de recuperar lo que se
desea. Adems, si se necesita restringir la bsqueda para aumentar la precisin
14El tesauro fue utilizado por primera vez para la recuperacin de informacin en 1956 por Peter Luhn de
IBM (Aitchinson y Clarke, 2004).15 Algunas disciplinas involucradas son la Informtica, la Psicologa cognitiva, la Lingstica y la
Biblioteconoma y la Documentacin.16Este texto es una de una de las primeras referencias al uso de los tesauros como herramientas de apoyo
a la RI. Tomado de: (Aitchinson y Clarke, 2004; Gil, 1998a).
5
7/13/2019 Tesis Madrid - Tesauros
23/415
de los resultados- el tesauro proporciona los hipnimos de los trminos de
bsqueda. En definitiva, desde el punto de vista de la RI, el tesauro se utiliza
como una herramienta de apoyo para indexar, clasificar, buscar, o seleccionar
informacin (Lancaster, 1986).
La Web es, actualmente, el soporte universal para la produccin,
almacenamiento y difusin de la informacin. Este soporte, sin embargo, carece
de mecanismos de carcter general para organizar y describir de forma coherente
el gran volumen de informacin (Berners-Lee et al., 2001), por lo que es un
problema recuperar, operar e integrar tanta informacin y tan heterognea
(Stuckenschmidt, van Harmelen, 2005)17. La aplicacin de tesauros y otros
tipos de vocabularios18como categorizaciones, taxonomas y ontologas- para la
identificacin y organizacin de la informacin es un mecanismo que mejora la
efectividad en la recuperacin de la informacin en la Web, no slo porque
permite expandir los trminos de consulta para lograr una mayor exhaustividad o
precisin en las bsquedas, sino tambin porque proporciona una descripcin del
marco conceptual de la informacin en un sublenguaje controlado del lenguaje
natural (Soergel, 2002). Combinado esto ltimo con la posibilidad de crear
estructuras hipertextuales en la Web, permite construir tesauros electrnicos
accesibles en lnea- para visualizar un mapa terminolgico-conceptual en el
que navegar, explorar y seleccionar los contenidos de informacin que se desean
(Aitchison et al., 2000). Ejemplos paradigmticos de este uso son los tesauros
que se incorporan en los motores de bsqueda Web de las Bibliotecas Digitales
por ejemplo el tesauro de la Biblioteca de la UCM19- o de grandes de bases de
datos documentales tesauro EUROVOC20- o en los motores de bsqueda Web
en Internet Simpli21.
Otra de las aplicaciones de los tesauros, derivadas de su concepcin como mapa
terminolgico-conceptual, es la de facilitar la combinacin de informacin
heterognea en Internet (Stuckenschmidt, van Harmelen, 2005; Soergel, 2002).
Los tesauros, y tambin las ontologas, son utilizados por las personas o las
aplicaciones software como modelos formales compartidos de un dominio de
17Este aspecto se trata en el prefacio y el captulo 1.
18 Utilizamos el trmino vocabulario para referirnos a estos tipos de repertorios porque es el trminoutilizado en los estndares de construccin de tesauros.19
http://alfama.sim.ucm.es/tesauro/tesauroPublic.htm20http://europa.eu/eurovoc/
21http://www.simpli.com/
6
7/13/2019 Tesis Madrid - Tesauros
24/415
informacin respecto del cual se refieren e interpretan las diferentes fuentes de
informacin. Se trata, en este caso, de utilizar el tesauro para: (i) calcular el
grado de cercana semntica de los contenidos de informacin de las diferentes
fuentes de informacin respecto de la consulta del usuario; (ii) proporcionar un
lenguaje comn de consulta para las mltiples fuentes de informacin; y (iii)
establecer correspondencias entre los trminos de descripcin de los contenidos
de las distintas fuentes. Este tipo de aplicacin de los tesauros se utiliza en los
repositorios digitales22 federados de recursos, que son mltiples almacenes de
contenidos y de recursos web interconectados e integrados de forma
transparente al usuario (IMS Digital Repositories, 2003). Normalmente, la
aplicacin de interconexin utiliza un tesauro u ontologa general de referencia
para establecer las correspondencias semnticas entre los contenidos de los
distintos repositorios que pueden, incluso, tener tesauros propios ms
especficos.
iv)Finalmente, otra de las aplicaciones destacadas de los tesauros es la acadmica(Soergel, 2002). El tesauro (i) gua al estudiante en la bsqueda y asimilacin de
la informacin como parte integral del proceso de resolucin de problemas en el
aprendizaje y en el trabajo intelectual; (ii) proporciona al profesor un marco
conceptual coherente para clasificar sus contenidos didcticos digitalizados,
facilitando su almacenamiento, recuperacin y uso posterior en entornos
electrnicos de enseanza y aprendizaje (plataformas e-learning); (iii) ayuda al
investigador en la formulacin, exploracin y estructuracin del contexto
conceptual de la cuestin o hiptesis de investigacin23, ya que proporciona
clasificaciones consistentes de las distintas aproximaciones, variables o criterios
sobre un tema y el estado de la cuestin.
1.3. Motivacin
Lo que ha motivado este trabajo de tesis es la necesidad de definir, en los entornos
acadmicos universitarios, una nueva forma de entender, construir y usar los tesauros.
El tesauro, desdeeste punto de vista, es un instrumento para sistematizar y expresar el
22Un repositorio digital es una coleccin de recursos accesibles mediante una conexin en red en la queno es necesario conocer cul es la estructura de la coleccin. En esto ltimo se diferencia de las bases de
datos, en las que es imprescindible conocer la estructura de las colecciones para acceder y gestionarlas.23Por ejemplo, ayuda a definir las dimensiones de un problema y los aspectos que deben considerarse en
su resolucin.
7
7/13/2019 Tesis Madrid - Tesauros
25/415
conocimiento desarrollado o recopilado, individual o colectivamente, durante la
investigacin o el aprendizaje sobre un tema o una disciplina. Esta necesidad nace,
probablemente, de la reciente disponibilidad de los entornos y herramientas TIC
necesarios para que el profesor pueda, de forma eficaz, construir y poner en marcha sus
propios recursos didcticos y de investigacin. Para referirnos a esta nueva concepcin
del tesauro introducimos el trmino tesauro acadmico. Un tesauro acadmico, por lo
tanto, se distingue de otros tesauros porque es un tesauro creado por profesores,
investigadores y estudiantes con el conocimiento y lenguaje propios de una determinada
rea de especialidad con el fin de utilizarlo, principalmente, en un entorno acadmico.
Este aprovechamiento es variado: (i) para organizar conceptualmente los materiales
didcticos y de investigacin del profesor, haciendo ms fcil su localizacin, seleccin
y uso; y (ii) para la enseanza de los conceptos y el manejo de la lengua de especialidad
de la disciplina o rea de conocimiento que cubra el tesauro24. En cualquiera de los
casos, se trata de utilizar el tesauro para explotar los conocimientos, contenidos o
recursos didcticos y de investigacin y, por lo tanto, lo denominamos tesauro
acadmico de explotacin.
Actualmente, el conocimiento, los contenidos y los recursos educativos se difunden y
utilizan en los campus virtuales, especialmente en el contexto acadmico universitario.
Los campus virtualesson espacios electrnicos en Internet, creados con plataformase-
learning, donde los profesores y alumnos interaccionan para ensear y aprender e
incluso, investigar. Esta interaccin se denomina enseanza y aprendizaje electrnico
(e-learning)y, por ello, en los campus virtuales, los contenidos y los recursos didcticos
estn digitalizados y el conocimiento se difunde digitalmente. Normalmente, los
responsables de la creacin, almacenamiento, clasificacin y uso del conocimiento,
contenidos y recursos son los profesores.
Los tesauros acadmicos para la explotacin de materiales y recursos didcticos en
entornos digitales deben representar los contenidos de estos materiales y recursos
utilizando el lenguaje especfico de los profesores para que sean realmente tiles. Y aqu
radica el problema: es muy difcil disponer de tesauros con un alcance y naturaleza
ajustados a las necesidades del profesor. Adems, la bsqueda del tesauro ms
24 Mediante actividades didcticas colaborativas que favorezcan la consulta y estudio del tesauro. Por
ejemplo, las actividades de construccin, exploracin y bsqueda de trminos o de materiales didcticospermiten que el alumno se familiarice con los trminos y las relaciones conceptuales propias de undominio o especialidad.
8
7/13/2019 Tesis Madrid - Tesauros
26/415
apropiado, su estudio y el uso de tesauros de referencia25supone un esfuerzo grande sin
garantas de que vaya a ser rentable: la experiencia indica que los usuarios tienen
dificultades para comprender y aplicar estos recursos lingsticos en la clasificacin de
sus contenidos y recursos digitalizados (CEN CWA 14871, 2003).
La falta de precisin en la definicin del dominio -de conocimiento, contenidos o
recursos- que se necesita explotar, y los desajustes entre el lenguaje del tesauro y el
lenguaje de los usuarios, profesores, investigadores y estudiantes, restan efectividad a
estos tesauros (Lancaster, 1986:157). Algunos de los problemas que surgen son:
(1) la dispersin de datos: en la coleccin aparecen constantemente palabras que el
tesauro no es capaz de normalizar26(Prez Agera, 2004);
(2) la ambigedad semntica es excesiva, incluso en tesauros de dominio especfico
(Prez Agera, 2006); y
(3) los desajustes conceptuales entre la estructura (categoras y relaciones semnticas)
del tesauro y la concepcin que tiene el usuario de ese dominio 27 (Gruninger y Lee,
2002).
Las soluciones posibles son, o bien adaptar los tesauros disponibles, o bien crear
tesauros nuevos (Aitchinson et al., 2000). En ambos casos, se trata de un proceso
complejo porque requiere amplios conocimientos en modelos y metodologa de
construccin de tesauros y en modelos y metodologas informticas. La construccin y
mantenimiento de tesauros son, adems, procesos costosos, porque necesitan una
prolongada y considerable inversin de tiempo y de recursos materiales y personales; en
consecuencia, en pocos casos estas soluciones estn al alcance de los profesores que,
aunque son especialistas en su materia y en ensear, no lo son en tesauros o en
informtica.
Adems, los tesauros electrnicos requieren modelos y aplicaciones informticas para
su creacin, mantenimiento y gestin. El dominio lxico, en general, es un dominio
complejo que contiene una gran cantidad y tipologa de relaciones y que est en
permanente evolucin, con cambios que afectan no slo al contenido sino tambin a la
estructura. Desde el punto de vista informtico, la construccin de los tesauros
25Tesauro de libre acceso y uso, construido por un comit de expertos oficialmente constituido para que
sirva de referencia en el dominio o especialidad, con el objetivo de unificar el lenguaje y favorecer lainteroperabilidad.26No es posible resolverlo con una actualizacin peridica hecha a mano en funcin del crecimiento de lacoleccin.27
Los tesauros de referencia constituyen una conceptualizacin elaborada y consensuada por un gruporeconocido de especialistas [ANSI/NISO Z39.19, 2005] que normalmente no son los usuarios finales dedicho vocabulario.
9
7/13/2019 Tesis Madrid - Tesauros
27/415
electrnicos actuales presenta dos problemas que afectan a la efectividad del tesauro y
que limitan la disponibilidad de herramientas software de carcter general:
1) los modelos de datos con capacidad de expresar de forma completa estructuras de
informacin complejas en permanente cambio como los modelos basados en grafos no
son modelos suficientemente eficientes y, viceversa, los modelos de datos ms
eficientes, por ejemplo, el modelo relacional, son modelos con menos capacidad de
representacin conceptual.
2) los modelos de datos no son suficientemente generales como para obtener esquemas
de datos uniformes e independientes del dominio que permitan un tratamiento uniforme
del tesauro. Los tesauros se disean mediante tcnicas de anlisis y clasificacin
aplicadas al dominio de conocimiento -mtodos deductivos- o al conjunto de trminos
fuente -mtodos inductivos. El resultado es la produccin de esquemas de organizacin
ajustados al contenidoprevistodel tesauro. Estos esquemas de organizacin se traducen
a esquemas de datos informticos, aplicando algn modelo de datos adecuado para ese
esquema y para los objetivos del tesauro. Los sistemas informticos para construir y
gestionar los tesauros necesitan utilizar estos esquemas de datos fijos para poder
interpretar correctamente el contenido del tesauro. Pero las continuas modificaciones
que surgen en el mbito del tesauro no slo cambian el contenido sino que tambin
pueden afectar a la estructura de datos prevista inicialmente. Modificar el esquema de
datos puede suponer rehacer todo el tesauro, porque los datos organizados con un
esquema antiguo pueden no ser coherentes con un esquema de organizacin nuevo. En
consecuencia, las posibilidades de construccin, actualizacin, intercambio y
reutilizacin de los tesauros estn limitadas por el uso de un esquema de datos
inicialmente establecido.
1.4. Objetivos e hiptesis de trabajo1.4.1. Objetivos
El objetivo de este trabajo es definir una nueva forma de entender y construir los nuevos
tesauros acadmicos de explotacin, tesauros de especialidad, creados en formato
electrnico por los profesores e investigadores, especialistas en su disciplina, con fines
de explotacin en actividades didcticas e-learning y/o actividades investigadoras. Para
ello es necesario encontrar un mecanismo, fcil de aplicar, para construir tesauros que
sistematicen y expresen las ideas propias desarrolladas o recopiladas en contenidos o
10
7/13/2019 Tesis Madrid - Tesauros
28/415
recursos digitales, individual o colectivamente, durante la investigacin, la enseanza o
el aprendizaje sobre un tema o una disciplina.
Este objetivo general se puede desglosar en los siguientes objetivos especficos:
1.- Encontrar estructuras del lenguaje de especialidad, las estructuras terminolgicas en
semntica libre28, de forma abreviada, estructuras-t, que utilizan los profesores o
autores para expresar las ideas que representan un dominio de conocimiento, de
contenidos o de una coleccin de recursos. Por estructuras terminolgicas en semntica
libre nos referimos a pequeas redes de trminos con relaciones semnticas una o
varias simultneamente- que no estn previamente establecidas, que estn inmersas en
el contenido y/o meta-contenido de materiales educativos, y que son propuestas por uno
o varios especialistas de esa comunidad de forma libre -por medio de una eleccin libre-
, lo que no implica que sean originales o nicas.
2.- Buscar un modelo de datos informtico general y flexible que sirva para recoger las
estructuras-t en un sistema de signos formado por trminos y categoras que estn
relacionados semnticamente y que est en permanente cambio. Este modelo podra
tambin considerarse un meta-modelo para los tesauros, puesto que sirve para crear los
esquemas conceptuales, ajustados al dominio, que estructuran los tesauros.
3.- Ofrecer una metodologa que, utilizando el modelo anterior, sea capaz de construir
sistemticamente el tesauro a partir de las estructuras terminolgicas, en semntica
libre, de los contenidos o recursos digitales.
Este modelo y metodologa deben servir de base para construir aplicaciones
informticas que, de forma general, puedan utilizar los equipos docentes para crear y
gestionar sus tesauros acadmicos de explotacin.
1.4.1. Hiptesis de trabajo
Para la consecucin de estos objetivos se plantea las siguientes hiptesis de trabajo:
Si se considera que:
1) la lengua es un sistema estructurado de signos en el que el valordel significadode cada elemento depende de su posicin diferencial respecto de los dems 29;
28 Elegimos esta denominacin por analoga con sintaxis libre que supone estructuras sintcticas noconsolidadas en la lengua como formas de cita (Lyons, 1977 pp. 22-26).29
Esta concepcin sistmica del tesauro se basa en una semntica diferencial que tiene su origen en lapropuesta de F. Saussure, El valor de una palabra en su parte conceptual est constituida nicamente porsus conexiones y diferencias con los otros trminos de la lengua [] (Saussure, 1916: 220).
11
7/13/2019 Tesis Madrid - Tesauros
29/415
2) los tesauros son representaciones parciales de una lengua restringidos a lasnociones de un dominio de conocimiento mediante trminos organizados en
grupos por relaciones semnticas; y
3) existe un modelo formal capaz de representar esta concepcin de la lengua y deltesauro; en consecuencia
4) es posible representar de forma general y uniforme cualquier tesauro, conindependencia de su naturaleza y aplicacin, y es posible sistematizar el proceso
de construccin y actualizacin de tesauros a partir de grupos de trminos
organizados por relaciones semnticas como las estructuras-t.
Teniendo en cuenta estos presupuestos, este trabajo puede catalogarse como una
contribucin dentro de la Lingstica Computacional a la Tecnologa Educativa,
concretamente al e-learning, cuyo objetivo es facilitar la construccin de los tesauros
electrnicos, entendidos como sistemas lingsticos de representacin del contenido de
un dominio, utilizando el mismo lenguaje especfico con el que se expresa el
conocimiento sobre los materiales o las colecciones de recursos docentes o de
investigacin creados por y para la actividad acadmica en los entornos electrnico de
enseanza y aprendizaje.
1.5. Metodologa de trabajoLa metodologa aplicada para la consecucin de los objetivos y la demostracin de la
hiptesis consta de las seis etapas siguientes:
1. establecimiento de la cuestin de investigacin;2. anlisis del estado del arte:
2.1.anlisis de los vocabularios y los tesauros desde el punto de vista lingstico,documentalista e informtico, en particular los vocabularios y tesauros de
explotacin;2.2.anlisis de los entornos acadmicos de trabajo e-learning, en particular cmo se
crean y utilizan los contenidos didcticos o de investigacin y las colecciones
de recursos educativos;
2.3.anlisis de las caractersticas y requisitos de los tesauros de explotacin;2.4.anlisis de los modelos estndares de construccin de tesauros monolinges;2.5.anlisis de los modelos informticos de representacin de tesauros: los enfoques
tericos y sus aplicaciones al e-learning; y
2.6.anlisis de los mtodos de construccin de tesauros de explotacin;
12
7/13/2019 Tesis Madrid - Tesauros
30/415
3. planteamiento de la hiptesis de trabajo;4. observacin, recogida de datos y estudio de antecedentes utilizando fuentes de tipo:
4.1.tecnolgico-educativo: observacin y estudio de los procesos de creacin,clasificacin y uso de contenidos y recursos didcticos en entornos virtuales
(proyecto OdA). Experiencias directas en el Campus Virtual UCM. Revisin de
otras experiencias en universidades y organismos; y
4.2.lexicogrfico y documentalista. Observacin y estudio de los mtodos deconstruccin y uso de vocabularios en general, y de vocabularios aplicados a la
recuperacin de informacin y la explotacin acadmica en entornos digitales
accesibles en la Web: campus virtual, bibliotecas digitales, repositorios de
recursos educativos y bases de datos documentales;
5. mtodo de demostracin:5.1.modelo: planteamiento y desarrollo;5.2.modelo: experimentacin30;5.3.modelo: evaluacin, ajustes y primeras conclusiones;5.4.mtodo: planteamiento y desarrollo;5.5.mtodo: experimentacin31; y5.6.mtodo: evaluacin, ajustes del mtodo y conclusiones del mtodo
6. Estudio de resultados y establecimiento de las conclusiones finales1.6. Estructura de la memoria
Hemos organizado la memoria en nueve captulos. En este primer captulo se establece
el marco general de la tesis explicando el contexto de investigacin donde se ha
integrado esta tesis, una introduccin sobre el objeto de estudio que son los tesauros, las
cuestiones que han motivacin de esta investigacin, los objetivos e hiptesis del
trabajo, la metodologa aplicada en la investigacin y, finalmente, la descripcin de la
estructura de esta memoria.
El segundo captulo, los vocabularios para la explotacin de recursos didcticos
digitalizados, revisa el papel que juegan los vocabularios en la explotacin de los
30Aplicacin del modelo a una muestra de tesauros y vocabularios ya existentes, uno de referencia: el
tesauro europeo ETB en su versin espaola y dos tesauros acadmicos de explotacin: (i) el vocabulariodel repositorio CHASQUI creado por el equipo de investigacin de Geografa e Historia, y (ii) el tesaurodel glosario explicativo sobre derecho electrnico creado por un equipo de profesores de la Facultad de
Derecho.31 Aplicacin del mtodo a la misma muestra de tesauros que se utiliz para la experimentacin del
modelo.
13
7/13/2019 Tesis Madrid - Tesauros
31/415
recursos didcticos digitalizados; para ello, se revisa el concepto interdisciplinar de
vocabulario, de vocabulario controlado, vocabulario de explotacin y los tipos de
vocabularios de explotacin, entre los que se encuentran los tesauros de explotacin de
recursos didcticos en entornos e-learning.
En el tercer captulo, los entornos virtuales de enseanza y aprendizaje, se presenta una
sntesis de los conceptos relacionados con el e-learningpuesto que es el contexto donde
surgen y se utilizan los vocabularios electrnicos, en general, y los tesauros acadmicos
de explotacin, en particular, como sistemas de referencia para la explotacin del
conocimiento creado por los profesores, investigadores y estudiantes en su actividad
acadmica.
El cuarto captulo, el modelo de los estndares de construccin de tesauros de
explotacin, lo dedicamos, fundamentalmente, a revisar este modelo que establece la
naturaleza del contenido, los modos de presentacin, y las reglas de modificacin en los
tesauros monolnges; el captulo se completa con una revisin sobre el concepto y los
tipos de modelos de datos; las caractersticas y requisitos de los tesauros de explotacin,
y los modelos tradicionales alfabtico y sistemtico.
En el captulo quinto, los modelos informticos para la construccin de tesauros de
explotacin, se revisan los modelos de datos ms utilizados para la construccin de
tesauros y se analizan respecto a las caractersticas y requisitos de los tesauros de
explotacin.
El captulo sexto, el modelo higraph lxico para la construccin de los tesauros,
presenta nuestra propuesta de modelo general para la representacin sistemtica y visual
del contenido de los tesauros; previamente, se introducen los modelos matemtico y
visual de los higraph y lingstico del significado de los signos que constituyen el
fundamento de la propuesta.
El captulo sptimo, una metodologa para la construccin inductiva de tesauros
acadmicos de explotacin, revisa, en primer lugar, los mtodos generales de
construccin de tesauros y, en segundo lugar, presenta la metodologa nueva de
construccin inductiva de los tesauros acadmicos de explotacin que proponemos y
que est basada en el modelo higraph lxico y en las estructuras-t creadas por los
profesores.
En el captulo octavo, casos prcticos, se presenta la experimentacin del modelo y
mtodo propuestos en los captulos anteriores con tres tipos de tesauros de explotacin
acadmica que son diferentes en propsito, tipos de estructuras-t y resultados.
14
7/13/2019 Tesis Madrid - Tesauros
32/415
El captulo noveno recoge una recopilacin de toda la investigacin, las conclusiones
finales y las lneas de trabajo futuro.
La bibliografa recoge las referencias en las que se ha basado el anlisis del estado de la
cuestin y las relativas a la lnea de investigacin. El apndice A muestra la lista de
tesauros utilizados en esta memoria, y el apndice B el cdigo del esquema de datos
relacional del modelo HL que proponemos.
15
7/13/2019 Tesis Madrid - Tesauros
33/415
16
7/13/2019 Tesis Madrid - Tesauros
34/415
Captulo 2
Los vocabularios para la explotacin de recursos
didcticos digitalizadosDesde la idea a la palabra; desde la palabra a la idea
(Casares, 1942)
Entendemos por explotacin de recursos didcticos digitalizados el utilizarlos
eficazmente, mediante la informtica y las Tecnologas de la Informacin y
Comunicaciones (TIC), para obtener el mximo provecho acadmico. Para ello es
imprescindible que las personas y las aplicaciones informticas sean capaces de acceder
y entender fcilmente qu contienen estos recursos, que suelen estar almacenados en
colecciones digitales poco accesibles por su gran tamao. Este captulo describe el papel
que juegan los vocabularios en la explotacin de los recursos didcticos digitalizados.
Para ello, se revisa: 1) el concepto interdisciplinar de vocabulario, de vocabulario
controlado, y su contenido; y 2) los tipos de vocabularios, entre ellos los tesauros,
aplicados a la explotacin de los recursos didcticos en entornos de enseanza y
aprendizaje electrnico, e-learning.
La primera cuestin, concepto y naturaleza de los vocabularios, se trata en las secciones
segunda y tercera: la seccin segunda, Definiciones del trmino vocabulario, revisa el
significado los trminos vocabulario y vocabulario controlado, en las disciplinas de
Lingstica y Tecnologa Lingstica, Tecnologa Educativa, Recuperacin de
Informacin y Biblioteconoma y la Documentacin. La tercera seccin, El contenido
semntico de los vocabularios, analiza los tipos de relaciones semnticas que pueden
contener en los vocabularios.
La segunda cuestin, los tipos de vocabularios y su aplicacin a la explotacin e-learning, se trata en las tres secciones restantes de la forma siguiente: la cuarta seccin,
Los vocabularios en los sistemas de recuperacin de informacin, describe el papel
que juegan los vocabularios en los sistemas de RI, especialmente en los procesos de
indexacin, bsqueda y navegacin. La quinta seccin, El uso de vocabularios para la
explotacin didctica de recursos digitalizados, revisa las aproximaciones actuales a la
representacin semntica de los recursos digitalizados usando metadatos y/o
vocabularios En la sexta seccin, Tipos de vocabularios para la explotacin de recursosdidcticos digitalizados, se describen los tipos de vocabularios y su aplicacin a la
17
7/13/2019 Tesis Madrid - Tesauros
35/415
recuperacin de recursos educativos. Finalmente, en la sptima y ltima seccin, se
resume y se presentan algunas conclusiones del captulo.
2.1 Introduccin
Los vocabularios son recursos lingsticos que permiten acceder al conocimiento a
travs de la palabra (Bougarev, 1996). Constituyen un mecanismo para organizar la
informacin de un modo flexible y especialmente adecuado para entornos de trabajo en
los que la informacin se crea de forma colaborativa y libre como en los Campus
Virtuales (CV) universitarios centrados en el profesor. Sin embargo, es preciso tener en
cuenta que el concepto de vocabulario es ambiguo, porque depende de la disciplina y de
la aplicacin. Para la construccin de un vocabulario es imprescindible la definicinprecisa de su naturaleza y objetivos. En caso contrario, se corre el riesgo de que los
resultados sean un mero recopilatorio de palabras, no uniforme, incompleto y poco
coherente que restan eficacia al vocabulario.
Un vocabulario o lxico1 se define, desde el punto de vista lingstico, como (1) el
conjunto de palabras de un idioma; (2) un diccionario (libro); (3) el conjunto de palabras
pertenecientes al uso de una regin, de una profesin u oficio, de un campo semntico
de un escritor, etc., o simplemente, (4) el libro en que se contienen; (DRAE, 2001).
Se trata de un trmino con un significado poco preciso y con un amplio contexto de
aplicacin2. Pueden distinguirse, adems, varios tipos de vocabularios: (i) las listas de
trminos, (ii) los glosarios, (iii) las clasificaciones y taxonomas, (iv) los tesauros, (v)
las ontologas, (vi) los diccionarios y (vii) los lexicones3 (CEN CWA14871, 2003).
Cuando este inventario de palabras se sistematiza y administra adecuadamente el
vocabulario sirve de herramienta para identificar, describir, acceder y explorar todos los
objetos digitales con un contenido (documentos, sitios web, software, ) relativo a un
dominio de conocimiento (Aitchison et al., 2000; Rodrguez y Ronda, 2005).
Sin embargo, la ambigedad y la polisemia del lenguaje natural hacen inevitable la
existencia de varios vocabularios para describir un mismo conjunto de objetos, con los
consiguientes problemas de compatibilidad (Buckland et al., 1999). Los trminos
1 En el DRAE 2001, lxico es sinnimo de vocabulario en su tercera acepcin.2 Fundamentalmente, en el procesamiento del lenguaje natural (Gibbon, 2000), clasificacin conceptual(Garshol, 2004), clasificacin documental (Buckland et al., 1999), indexacin y recuperacin de
informacin (Lancaster, 1986).3 Lexicn se define como diccionario (DRAE,2001) y como lxico de una lengua (Martnez deSousa,1995).
18
7/13/2019 Tesis Madrid - Tesauros
36/415
utilizados por los autores para describir el contenido de sus objetos digitales pueden no
coincidir con los que se utilizan para organizarlos en los sistemas de almacenamiento y,
probablemente, no coincidirn con los que utilizan los usuarios cuando los buscan. Esto
ltimo significa que los usuarios, en sus consultas, tienen que utilizar los mismos
trminos empleados por los autores e indexadores4 para encontrar los objetos; para ello,
o bien conocen el vocabulario de indexacin, o bien tienen la capacidad de descubrir las
varias y diversas formas de expresar un concepto. Entonces, puede una persona
expresar su peticin con sus propias palabras y obtener el material que desea?
Los vocabularios controlados intentan recoger de las lenguas los trminos que expresan
cada concepto, seleccionar el ms apropiado como preferido y realizar reenvos desde
los otros para conducir al usuario hasta el preferido. Cuando el vocabulario controlado
se utiliza para la recuperacin de objetos, stos se indexan con los trminos preferidos.
De esta forma el usuario tiene libertad para buscar con cualquiera de los trminos,
preferidos o no preferidos. El vocabulario conducir manualmente o automticamente
de la consulta a los objetos indexados. El vocabulario ser til slo si sirve como
lenguaje comn de interfaz entre los trminos de descripcin de los objetos de
contenido y los usuarios que buscan dichos objetos.
Adems, algunos tipos de vocabularios controlados, como las taxonomas y los
tesauros, agrupan los trminos en categoras temticas detalladas aadiendo una
funcionalidad ms a sus posibles aplicaciones: la clasificacin u ordenacin de los
conceptos u objetos del dominio temtico. Algunos autores consideran que un
vocabulario controlado constituye un mapa conceptual5 o un esquema conceptual6
del dominio, que se puede utilizar como ayuda al usuario para sintetizar y relacionar los
conceptos u objetos del mbito del vocabulario e incluso como herramienta de
exploracin del dominio de conocimiento (Duncan, 1990; Jones et al., 1995; Garshol,
2004; Marzal et al., 2006).
4 La indexacin es el proceso de escoger los trminos del vocabulario controlado que mejor describen losobjetos de contenido, trminos preferidos, y asociarlos con dichos objetos.5 Un mapa conceptual es una herramienta para representar y organizar grficamente el conocimiento.Incluye conceptos y relaciones. Los conceptos se representan mediante etiquetas que, normalmente, sonpalabras o grupos de palabras (Novak y Caas, 2008).6 Un esquema conceptual es la representacin de una base de datos conceptual. Una base de datos
conceptual es una abstraccin del mundo real. Los esquema conceptuales incluyen tipos de entidades quese representan mediante etiquetas que, normalmente, son palabras o grupos de palabras, y tipos derelaciones entre los tipos de entidades (Ullman, 1988).
19
7/13/2019 Tesis Madrid - Tesauros
37/415
2.2. Definiciones del trmino vocabulario
Desde el punto de vista lingstico y lexicogrfico, la terminologa utilizada para definir
las distintas obras lexicogrficas es, en general, poco precisa. Como se ha adelantado,resulta frecuente encontrar bajo un mismo trmino obras lexicogrficas muy diversas
entre s (ver p. ej. Tablas 2.1, 2.2, 2.3). El trmino vocabulario, que ahora vamos a
tratar, se utiliza con frecuencia como sinnimo de diccionario y de lxico y, al mismo
tiempo, se usa tanto para referirse a obras que registran el lxico de una determinada
rea de conocimiento, materia, regin, etc., como a inventarios de palabras ordenados
alfabticamente, lo que reflejan las definiciones de los diccionarios de uso del espaol
ms frecuentes
7
(Tabla 2.3).Diccionario Definicin
(DRAE, 2001) 1.Libro en el que se recogen y explican de forma ordenada voces de una o ms lenguas, de una
ciencia o de una materia determinada.
2. Catlogo numeroso de noticias importantes de un mismo gnero, ordenado alfabticamente.
Diccionario bibliogrfico, biogrfico, geogrfico.
(CLAVE, 2002) 1 Inventario en el que se recogen y definen las palabras de uno o ms idiomas, generalmente por
orden alfabtico. ... SINN.lxico
2Inventario en el que se recogen y explican los trminos propios de una ciencia o de una materia,
generalmente por orden alfabtico. ...
(Seco et al., 1999) a) Libro en que se recogen las palabras de una lengua, colocadas segn un orden dado, gralm.
alfabtico, y acompaadas de su definicin, explicacin o equivalencia.
b) Con un compl especificador: Libro en que se recogen las palabras (de una materia
determinada), por orden alfabtico y acompaadas de su definicin, explicacin o equivalencia.
(Moliner, 1998) Libro en que se da una serie ms o menos completa de las palabras de un idioma o de una
materia determinada, definidas o con su equivalencia en otro idioma, generalmente por orden
alfabtico: Diccionario etimolgico. Diccionario plurilinge. Diccionario de sinnimos.
Diccionario tcnico. Lxico, vocabulario. *Tratado de cierta materia en que los conceptos
explicados estn ordenados alfabticamente: Diccionario de historia (o de filosofa)
(Martnez de
Sousa, 1995)
1) Recopilacin de las palabras, locuciones, giros y sintagmas de una lengua o, dentro de ella, los
trminos de una ciencia, tcnica, arte, especialidad, etc., generalmente dispuestos en orden
alfabtico (sin. abecedario, vocabulario).
2) Libro en el que al lado de las palabras de una lengua, generalmente colocadas en orden alfabtico,
figuran sus equivalentes en otras u otras lenguas.
7 (DRAE, 2001), (CLAVE, 2002), (Seco et al., 1999), (Moliner, 1998), (Martnez de Sousa, 1995).
20
7/13/2019 Tesis Madrid - Tesauros
38/415
3) Obra que ofrece por orden alfabtico nombres, hechos, noticias, etc., referentes a un orden de
conocimientos.
4) ABECEDARIO, cualquier lista cuyos trminos aparecen en orden alfabtico.
Tabla 2.1. Definicin del trmino diccionario
Diccionario Definicin
(DRAE, 2001) 1.Catlogo de palabras oscuras o desusadas, con definicin o explicacin de cada una de ellas.
2. Catlogo de palabras de una misma disciplina, de un mismo campo de estudio, etc., definidas
o comentadas.
3. Conjunto de glosas o comentarios, normalmente sobre textos de un mismo autor.
(CLAVE, 2002) s. m. Catlogo de palabras oscuras, desusadas o tcnicas, con definicin o explicacin de cada una
de ellas.
SEM. dist. delxico(conjunto de palabras de una lengua; inventario de palabras de un idioma con
definicin).
(Seco et al.,
1999)
m 1 Conjunto breve de palabras definidas o comentadas, pertenecientes a un texto o autor o a un
mbito determinado
(Moliner, 1998) Catlogo de palabras, generalmente con una definicin o explicacin, sobre un asunto
determinado, especficas de alguna disciplina, con alguna caracterstica en comn, etc.
*Vocabulario.
(Martnez de
Sousa, 1995)
1) Repertorio de voces cuyo fin es explicar un texto medieval o clsico, la obra de un autor, un texto
dialectal, etc.
2) Repertorio no exhaustivo de palabras, generalmente tcnicas, de una jerga determinada, como la
ecologa, la biologa, la bibliologa, etc.
Tabla 2.2. Definicin del trmino glosario
Diccionario Definicin
(DRAE, 2001) 1. Conjunto de palabras de un idioma.
2. diccionario( libro).
3. Conjunto de palabras de un idioma pertenecientes al uso de una regin, a una actividad
determinada, a un campo semntico dado, etc. Vocabulario andaluz, jurdico, tcnico, de la
caza, de la afectividad.
4. Libro en que se contienen.
5. Catlogo o lista de palabras, ordenadas con arreglo a un sistema, y con definiciones o
explicaciones sucintas.
21
7/13/2019 Tesis Madrid - Tesauros
39/415
6. Conjunto de palabras que usa o conoce alguien.
7. coloq.Persona que dice o interpreta la mente o dicho de otro. Hablar por vocabulario. No
necesitar de vocabulario.
(CLAVE, 2002) 1Conjunto de palabras que componen una lengua o que pertenecen a una regin, a una persona o a
un campo determinados. ... SINN.lxico
2Libro o lista en que se contiene este conjunto de palabras explicadas de una forma ms o menos
breve. ...
(Seco et al.,
1999)
m 1Conjunto de palabras (de un idioma).
b)Conjunto de palabras propias (de una regin, de una actividad, de un grupo humano o de una
pers. determinados).
2Catlogo ordenado y con definiciones sucintas de las palabras del vocabulario esp(1b).
(Moliner, 1998) Serie de palabras reunidas segn cierto criterio y ordenadas alfabtica o sistemticamente; porejemplo, de palabras referentes a cierto oficio o de las precisas para redactar un tema o ejercicio
en el aprendizaje de un idioma extranjero. Tecnologa, terminologa. Serie alfabtica de las
palabras de una lengua.
*Diccionario. Conjunto de palabras de una lengua.
Lxico. Particularmente, el utilizado o conocido por una persona
(Martnez de
Sousa, 1995)
1) Conjunto de palabras de un idioma.
2) Conjunto de palabras regionales, de una profesin u oficio, de un campo semntico, de un
escritor, etc.
3) Libro en que se contienen los trminos de un vocabulario.
4) Lista de palabras definidas sucintamente y colocadas por orden alfabtico al final de un trabajo o
un libro.
5) Diccionario
Tabla 2.3. Definicin del trmino vocabulario
En otras disciplinas, en cambio, el significado y naturaleza de los vocabularios es ms
preciso y orientado a las aplicaciones, pero con diferencias entre ellas. La figura 2.1
muestra el contexto interdisciplinar en el que revisamos el concepto y uso de los
vocabularios: la Lingstica, Biblioteconoma y Documentacin, y las reas
tecnolgicas de la Tecnologa Lingstica (TL), la Tecnologa Educativa (TE) y la
Recuperacin de Informacin (RI).
22
7/13/2019 Tesis Madrid - Tesauros
40/415
Figura 2.1. El contexto interdisciplinar de los vocabularios
En las reas tecnolgicas de Recuperacin de Informacin (RI), Tecnologa Educativa
(TE) y Tecnologa Lingstica (TL), los vocabularios se utilizan como componentes
software que aportan una descripcin conceptual y una dimensin pragmtica y
emprica del dominio de informacin.
Los Sistemas RI aplican, normalmente, vocabularios controlados para evitar la
ambigedad y polisemia del lenguaje (Lancaster, 1986). Un vocabulario controlado,
como ya hemos mencionado, es una lista de trminos enumerados explcitamente, noambiguos y no redundantes. Esta lista es elaborada y mantenida por una autoridad de
registro con los objetivos ideales de8:
1. Traducir cualquier trmino del lenguaje natural (utilizados por los autores,indexadores y usuarios) a los trminos utilizados para indexar los objetos a
recuperar.
2. Mantener laconsistenciaen los formatos y la asignacin de trminos.3.
Recoger y explotar las
relaciones semnticasentre los trminos.
4. Proporcionar un marco de clasificacin y navegacin que ayude a los usuarios aencontrar el objeto de contenido deseado. Y
5. Apoyar los procesos de bsqueda y localizacin de los objetos digitales concontenido.
Este concepto y uso de vocabulario procede, en realidad, del rea de Biblioteconoma y
Documentacin. En esta disciplina losvocabularios son siempre controlados (Lewis y
8 Ver especificacin estndar de construccin de tesauros monolinges (ANSI/NISO Z39.19, 2005).
23
7/13/2019 Tesis Madrid - Tesauros
41/415
Sparck-Jones, 1996) y se definen como lenguajes documentales9 que aportan un sistema
comn y universal de clasificacin de las obras bibliogrficas y de los documentos.
Dentro de los vocabularios se distingue entre vocabularios precoordinados y
postcoordiandos (Lancaster, 1986), como ya vimos, los vocabularios precoordinados
estn formados por trminos y combinaciones de trminos prefijadas para representar la
materia o tema de cada documento del dominio. Normalmente se estructuran como
vocabularios jerrquicos o asociativos. En esta categora estn los sistemas de
clasificacin y las listas tradicionales de materias (encabezamientos por materias) como
el Sistema de Clasificacin Decimal de Melvil Dewey, que fue creado en 1875 en
Estados Unidos. Los lenguajes postcoordinados, por el contrario, estn formados por
trminos y relaciones entre ellos que definen mltiples combinaciones posibles. Durante
la fase de bsqueda se combinan los trminos del vocabulario para obtener una
combinacin lo ms cercana posible a la consulta del usuario. Los objetos digitales se
indexan, por lo tanto, con tantos trminos como se necesite. Los vocabularios usados en
la RI y Biblioteconoma y Documentacin tienden a ser, en la actualidad,
postcoordinados, porque permiten una mayor libertad de consulta y menos
conocimiento del lenguaje especializado por parte del usuario (Antelman et al., 2006)
Para laTecnologa Lingstica el vocabulario es un tipo de recurso lxico10 que recoge,
de una lengua (vocabularios monolinges) o varias lenguas (multilnges), las palabras,
sus relaciones, definiciones y otra informacin (Gibbon, 2000). Estos vocabularios
pueden clasificarse en vocabularios en formato electrnico y vocabularios
computacionales, lexicones computacionales. Los vocabularios en formato electrnico
son digitalizaciones de los vocabularios en papel11 que permiten capacidades de
almacenamiento, prcticamente ilimitadas, y formas de acceso ms rpidas y exactas a
los contenidos. Sin embargo, las posibilidades de procesar automticamente su
9 Un lenguaje documental es un conjunto de trminos o procedimientos sintcticos convencionales que seutilizan para representar el contenido de un documento con el fin de permitir su recuperacin (Slype,1991).10 El trmino recurso lingstico se refiere a un conjunto de datos del habla o de las lenguas y susdescripciones en un formato legible para las mquinas, utilizado, por ejemplo, para la construccinmejora o evaluacin de los sistemas o algoritmos de procesamiento del lenguaje natural y del habla orecursos para el software de bsqueda, para los estudios lingsticos, la publicacin electrnica, latraduccin, etc. Ejemplos de recursos lingsticos son los corpus de texto y habla, los lexiconescomputacionales, las bases de datos terminolgicas, (ELRA, 2003).11 Esta forma es anterior a los vocabularios computacionales. Los primeros vocabularios electrnicos secrean en la dcada de los 80. Los vocabularios computacionales se comienzan a construir en los aos 90,
aunque los modelos y tcnicas de construccin son muy anteriores, de los aos 60. Los vocabularioscomputacionales utilizados hasta comienzos de los 90 eran demasidado pequeos (en media 36 palabras)como para ser considerados verdaderos vocabularios (Guthrie et al., 1996).
24
7/13/2019 Tesis Madrid - Tesauros
42/415
contenido son limitadas, ya que se reducen a operaciones de nivel morfosintctico sobre
las formas ortogrficas12, puesto que reproducen estructuras de organizacin del
conocimiento lxico, previstas y preparadas para uso humano (Fernndez-Pampilln y
Matesanz, 2003)13. Se utilizan con fines primordialmente lingsticos, aunque tambin
se han aplicado, desde la tecnologa lingstica, como fuente para extraer el
conocimiento lxico para los vocabularios computacionales (Byrd et al., 1987; Walker
et al., 1995)
Los vocabularios o lexicones computacionales, que son objeto de la Tecnologa
Lingstica y del Procesamiento del Lenguaje Natural (PLN)14, se conciben como bases
de datos y de conocimiento lxico diseados para el procesamiento automtico de las
lenguas naturales (Allen, 1995). En estos vocabularios, el conocimiento lxico se hace
explcito15 y se organiza con modelos de datos informticos que permiten un
tratamiento automtico ms inteligente, basado no slo en operaciones a nivel
morfolgico y sintctico sino tambin en la interpretacin de los datos explcitos16
(Brachman y Levesque, 1985; Bertino et al., 2001; Berners-Lee et al., 2001).
Constituyen un componente bsico en la arquitectura de los Sistemas PLN, y
normalmente son accesibles para las personas a travs de interfaces que abstraen las
estructuras de los datos17. Son imprescindibles en el desarrollo de aplicaciones basadas
en Tecnologas Lingsticas como los correctores ortogrficos y de estilo, la
recuperacin de informacin, el indexado y descripcin de documentos y recursos
(ELRA, 2003). Dos fuentes de distribucin de lexicones computacionales son, por
ejemplo, la agencia europea ELRA18 y el consorcio americano LDC 19.
12 Visu