446. GutiÇrrez De la Torre-Los Hilos De Ariadna En El ... · blioteca Daniel Cosío Villegas. Los...

4
Los Hilos De Ariadna En El Laberinto Temático: Visualización Y Minado De Datos Para Bibliotecas Silvia Eunice Gutiérrez De la Torre [email protected] El Colegio de México A.C., México Julián Alberto Equihua Benítez [email protected] CONABIO, México Micaela Chávez Villa [email protected] El Colegio de México A.C., México Introducción Encontrar relaciones entre los encabezamientos que se asignan a una obra monográfica es un problema histórico en el ámbito de búsqueda y recuperación de información. Por un lado, los documentos rara vez pueden ser representados con un solo tema; por otro, el número de temas que se puede asignar a una obra es virtualmente infinito (Green, 2001). En la intersec- ción de las Humanidades Digitales y la Bibliotecología han existido diversos esfuerzos por mejorar la calidad de las ontologías de estos temas (Nurmikko-Fuller et al, 2016), su evaluación (Harper, 2016) y visualización (Duguid, 2015). Sin embargo, a nuestro conocimiento, no se han hecho estudios que aprovechen métodos in- novadores para indagar relaciones entre los encabeza- mientos de materia. En esta comunicación breve, pre- sentamos los resultados preliminares de un primer acercamiento al tema, que aprovecha el área de espe- cialidad de cada participante del equipo --humanida- des digitales, ciencia de datos y bibliotecas-- para ana- lizar 249,899 registros de una de las colecciones más importantes de Ciencias Sociales y Humanidades de América Latina: la del catálogo de la Biblioteca Daniel Cosío Villegas de El Colegio de México. Metodología A través del portal de analíticas del Grupo Ex Libris, se extrajeron los encabezamientos de materia de todos los 249,899 registros de libros de la colección de la Bi- blioteca Daniel Cosío Villegas. Los encabezamientos de materia fueron subdivididos a su vez en tres niveles a partir de los subencabezamientos, sin distinguir entre sus tipos –geográficos, cronológicos y de forma (ver Salta et al., 2015)̣– sino sólo tomando en cuenta su po- sición (primer subencabezamiento, segundo, etcé- tera). Por ejemplo, México--Historia--1821-1861 fue dividido en: México, Historia, 1821-1861. Se estudió la relación entre temas utilizando técnicas de minería de reglas de asociación. Estas procuran descubrir implicaciones de la forma I i donde I es un conjunto de objetos y i es un objeto en particular, am- bos tomados de un universo de objetos, en este caso temas. El soporte de I se define como el número de re- gistros para los cuales I es subconjunto. La confianza se define como el soporte de I i entre el soporte de I (Leskovec, 2010). Se debe notar que la frecuencia de los temas asocia- dos a los registros es sumamente baja como se puede observar en la Tabla 1, lo cual puede deberse a que, tratándose de una biblioteca especializada en ciencias sociales y humanidades los temas que se asignan son muy específicos, a fin de que el usuario especializado pueda encontrar lo que realmente le sirve. Tabla 1 Asimismo, es de notar que 231,052 (92.45%) de los registros tienen un encabezamiento de materia; 152,414 (treinta por ciento menos) llega a tener dos encabezamientos de materia y sólo 29.89% tuvo tres. Por este motivo, los encabezamientos se concatenaron verticalmente para observar indistintamente las rela- ciones entre éstos. Se utilizó el algoritmo a priori y la elección de los umbrales se llevó a cabo de manera ma- nual; se generaron 13 conjuntos de reglas de asocia- ción con variaciones en los umbrales de confianza y so- porte. Cada uno de estos conjuntos de reglas de asocia- ción induce un grafo que se puede visualizar y explorar como se muestra más adelante. Umbrales demasiado permisivos inducen redes que tienen demasiadas rela- ciones como para poderse explorar manualmente y umbrales demasiado restrictivos inducen redes que no tienen suficientes relaciones como para poder decir

Transcript of 446. GutiÇrrez De la Torre-Los Hilos De Ariadna En El ... · blioteca Daniel Cosío Villegas. Los...

Page 1: 446. GutiÇrrez De la Torre-Los Hilos De Ariadna En El ... · blioteca Daniel Cosío Villegas. Los encabezamientos de materia fueron subdivididos a su vez en tres niveles a partir

Los Hilos De Ariadna En El Laberinto Temático: Visualización Y Minado De Datos Para Bibliotecas SilviaEuniceGutié[email protected]éxicoA.C.,México

JuliánAlbertoEquihuaBení[email protected],MéxicoMicaelaChá[email protected]éxicoA.C.,México

Introducción Encontrar relaciones entre los encabezamientos

queseasignanaunaobramonográficaesunproblemahistóricoenelámbitodebúsquedayrecuperacióndeinformación. Por un lado, los documentos rara vezpuedenserrepresentadosconunsolotema;porotro,elnúmerodetemasquesepuedeasignaraunaobraesvirtualmenteinfinito(Green,2001).Enlaintersec-cióndelasHumanidadesDigitalesylaBibliotecologíahanexistidodiversosesfuerzospormejorarlacalidaddelasontologíasdeestostemas(Nurmikko-Fulleretal,2016),suevaluación(Harper,2016)yvisualización(Duguid,2015).Sinembargo,anuestroconocimiento,nosehanhechoestudiosqueaprovechenmétodosin-novadoresparaindagarrelacionesentrelosencabeza-mientosdemateria.Enestacomunicaciónbreve,pre-sentamos los resultados preliminares de un primeracercamientoaltema,queaprovechaeláreadeespe-cialidaddecadaparticipantedelequipo--humanida-desdigitales,cienciadedatosybibliotecas--paraana-lizar249,899registrosdeunadelascoleccionesmásimportantes de Ciencias Sociales y Humanidades deAméricaLatina:ladelcatálogodelaBibliotecaDanielCosíoVillegasdeElColegiodeMéxico.

Metodología

AtravésdelportaldeanalíticasdelGrupoExLibris,seextrajeronlosencabezamientosdemateriadetodoslos249,899registrosdelibrosdelacoleccióndelaBi-bliotecaDanielCosíoVillegas.Losencabezamientosdemateriafueronsubdivididosasuvezentresnivelesapartirdelossubencabezamientos,sindistinguirentresus tipos –geograficos, cronologicos y de forma (verSaltaetal.,2015)–sinosólotomandoencuentasupo-sición (primer subencabezamiento, segundo, etcé-tera). Por ejemplo, México--Historia--1821-1861 fuedivididoen:México,Historia,1821-1861.Seestudiólarelaciónentretemasutilizandotécnicasde minería de reglas de asociación. Estas procurandescubririmplicacionesdelaformaI→idondeIesunconjuntodeobjetosyiesunobjetoenparticular,am-bostomadosdeununiversodeobjetos,enestecasotemas.ElsoportedeIsedefinecomoelnúmerodere-gistrosparaloscualesIessubconjunto.LaconfianzasedefinecomoelsoportedeI∪ientreelsoportedeI(Leskovec,2010).

Sedebenotarquelafrecuenciadelostemasasocia-dosalosregistrosessumamentebajacomosepuedeobservaren laTabla1, lo cualpuededeberseaque,tratándosedeunabibliotecaespecializadaencienciassocialesyhumanidadeslostemasqueseasignansonmuyespecíficos,afindequeelusuarioespecializadopuedaencontrarloquerealmentelesirve.

Tabla 1

Asimismo,esdenotarque231,052(92.45%)delosregistros tienen un encabezamiento de materia;152,414(treintaporcientomenos) llegaa tenerdosencabezamientosdemateriaysólo29.89%tuvotres.Porestemotivo,losencabezamientosseconcatenaronverticalmenteparaobservarindistintamentelasrela-cionesentreéstos.Seutilizóelalgoritmoaprioriylaeleccióndelosumbralessellevóacabodemanerama-nual;segeneraron13conjuntosdereglasdeasocia-ciónconvariacionesenlosumbralesdeconfianzayso-porte.Cadaunodeestosconjuntosdereglasdeasocia-cióninduceungrafoquesepuedevisualizaryexplorarcomosemuestramásadelante.Umbralesdemasiadopermisivosinducenredesquetienendemasiadasrela-ciones como para poderse explorar manualmente yumbrales demasiado restrictivos inducen redes quenotienensuficientesrelacionescomoparapoderdecir

Page 2: 446. GutiÇrrez De la Torre-Los Hilos De Ariadna En El ... · blioteca Daniel Cosío Villegas. Los encabezamientos de materia fueron subdivididos a su vez en tres niveles a partir

algointeresantesobrelaestructuradelosdatosensutotalidad.Finalmenteseeligióunaredquepresentaunbalanceentrecantidaddeinformacióneinterpretabi-lidad.El‘soporte’mínimofuede0.0001(verGráfico1)yla‘confianza’mínimade0.4(verGráfico2)ylama-trizde incidenciaderivadade lasreglasencontradasseutilizóparagenerarungrafoparalaexploraciónvi-sual del conjunto de asociaciones descubiertas. ParacrearestaversióngráficautilizamoslaexportacióndeRaGephi(YonandYon,2015),la‘confianza’comounpesoparalosvérticesyFruchtermanReingold(1991)comoalgoritmoparaeldiseño.Dimoscoloralosno-dos de acuerdo con su modularidad, es decir, deacuerdo a las “comunidades” de nodos que se creanporlafuerzadesusrelaciones(Blondeletal,2008).Laaltamodularidaddelaredpruebaloconectadosqueestánlosnodosensusgruposylodesconectadosqueestándenodosfueradesured.

Resultados Comohemosmencionadoantes,losencabezamien-

tos fuerondivididos en los subencabezamientosquelosanidan.Retomandoelejemploanterior:“México--Historia--1821-1861”fuecodificadocomo:

• Subject1.1-México• Subject1.2-Historia• Subject1.3-1821-186

Estemodeladodelosdatos,fuepensadoparaper-mitirunaciertaexploración“gramática”delaasigna-cióntemática.Esdecir,quepermitieraverquéniveles“sintácticos”serelacionanenquéordenconotrosni-veles.Ennúmeros,laredtiene394nodos(subencabe-zamientos) y 339 vértices (asociaciones). De los no-dos,203sondelprimernivel,109delsegundo,33delacombinacióndeunencabezamientodelprimernivelconeltercero,ycuatrodelacombinacióndelprimernivelconelcuarto.Eltotalasociacionesoreglasdeim-plicación(siencabezamientoIaparecetambiéni)fuede339.Deéstaslamayoríaocurresóloen25registros,esdecir,tuvieronunsoportebajo(verGráfico1).Sinembargo,estonoestanpococonsiderandoloquehe-mosdichoantesdelanaturalezaespecializadadeestabiblioteca. Por otro lado, las confianzas observadaspresentanunadistribuciónmenosconcentradaqueladelossoportes(verGráfico2).

Gráfico 1

Gráfico 2

DelareddegrafointeractivaqueobtuvimosconelusodeGephiyelplug-indeSigma.js,pudimosidentifi-carqueelnodoconmayoresasociacionesoreglases‘Historia’ensuposicióncomo“Subject1.2”yqueentresusasociacionesexistendosnodosdedistintamodu-laridad y nivel (ambos “Subject 1.1”): ‘México’ (verImagen1)y‘España’(verImagen2).

Imagen 1

Page 3: 446. GutiÇrrez De la Torre-Los Hilos De Ariadna En El ... · blioteca Daniel Cosío Villegas. Los encabezamientos de materia fueron subdivididos a su vez en tres niveles a partir

Imagen 2

A su vez, la plataforma permite explorar más afondoelencabezamiento‘España’ydarsecuenta,porejemplo,dequeeste temaenprimeraposición tienefuertesrelacionesconsubencabezamientosdelater-ceradimensiónquecorrespondenalosperiodoshis-tóricosrelevantesenlahistoriadeesepaís:

Imagen 3

Enresumen,estetipodeexploraciónpermitealusu-ariofamiliarizarseconlasreglas“gramaticales”delaasignacióntemáticapuespuede“ver”tantolosniveles“sintácticos”de lostemascomolasformasenqueserelacionaconotros,ademásdequeincluyeunbotóndebúsquedadeencabezamientosquepermiteinterac-tuar de manera directa con el grafo (disponible enlinea).

Reflexión final Nosotros,comolosugierenNurmikko-Fulleretal.,

estamosconscientesdequesilasbibliotecasquierendaraccesoarecursosdeinformaciónrelevantesparanuevas áreas de investigación, deben evolucionar amétodosmássofisticadosysemánticosdeasignacióntemáticaparaproporcionarnuevospuntosdeacceso

quecorrespondanmásallenguajenaturalyqueper-mitan identificar las relaciones temáticas conmayorclaridad.

Sinembargo,enloqueestepasopuedeserdadoenMéxicoyLatinoamérica,creemosqueelusodeherra-mientasymétodosdelashumanidadesdigitalespue-denayudaraanalizarlosdatosgeneradosenlaorga-nizacióndelainformacióneinclusoútilparalaforma-cióndelcatalogador,queaprendeaasignar-elaborarlostemasyconestaherramientapodríatenerunac-cesovisualala“sintaxistemática”deciertostérminos.Enestemismosentido,unacercamientoasí,podríaserusadocomoelementopedagógicodeloscursosdein-vestigacióndocumentalenelque losestudiantesde-benaprender a familiarizarse con los lenguajes con-trolados.Otraaplicacióndeestetrabajo,podríaserenlaevaluacióndecoleccionesparadeterminarlasforta-lezasycarenciastemáticas,deacuerdoconlaespecia-lidadquelabibliotecadeclara.Análisismásdetenidospueden ayudarnos a determinar la representacióncronológica, autoral, lingüística o geográfica de unacervo.Enfin,consideramosquealcontinuarelanáli-sis y desarrollo de este proyecto podremos aportarotrotipodemetodologíanosóloparaevaluarlasco-leccionessinoparaacercarseaellas.

Bibliografía

Blondel,V.,etal.(2008).“Fastunfoldingofcommunitiesinlargenetworks”,JournalofStatisticalMechanics:TheoryandExperiment,P1008.

Duguid, T. (2015), "BigDIVA: Big Data, Big Visuals, Big

Searches,andBigResults."TexasDigitalHumanitiesCon-ference2015.UniversityofTexasArlington,Texas.

Fruchterman,T.M.,&Reingold,E.M.(1991).Graphdraw-

ing by force-directed placement. Software: Practice andexperience,21(11),pp.1129-64.

Green, R. (2001). “Relationships in the organization of

knowledge:anoverview.”Relationshipsintheorganiza-tionofknowledge.SpringerNetherlands,pp.3-18.

Nurmikko-Fuller,T.,Jett,J.,Cole,T.,Maden,C.,Page,K.,

Downie, J. (2016). “A Comparative Analysis of Biblio-graphicOntologies:ImplicationsforDigitalHumanities”.DigitalHumanities2016:ConferenceAbstracts. Jagiello-nian University & Pedagogical University, Kraków, pp.639-42.

Leskovec, J.,Rajaraman,A., Jeffrey,U.(2010).Miningof

MassiveDatasets.CambridgeUniversityPress,U.K.,pp.205-14.

Page 4: 446. GutiÇrrez De la Torre-Los Hilos De Ariadna En El ... · blioteca Daniel Cosío Villegas. Los encabezamientos de materia fueron subdivididos a su vez en tres niveles a partir

Salta,G.,CraveroC., Saloj,G. (2005) “Listadeencabeza-

mientosdemateriadelaBibliotecadelCongresodelosEstadosUnidos:característicasgenerales”.Información,CulturaySociedad,12.pp.85-97

Yon,G.V.,&Yon,M.G.V.(2015).Package‘rgexf’.