446. GutiÇrrez De la Torre-Los Hilos De Ariadna En El ... · blioteca Daniel Cosío Villegas. Los...
Transcript of 446. GutiÇrrez De la Torre-Los Hilos De Ariadna En El ... · blioteca Daniel Cosío Villegas. Los...
Los Hilos De Ariadna En El Laberinto Temático: Visualización Y Minado De Datos Para Bibliotecas SilviaEuniceGutié[email protected]éxicoA.C.,México
JuliánAlbertoEquihuaBení[email protected],MéxicoMicaelaChá[email protected]éxicoA.C.,México
Introducción Encontrar relaciones entre los encabezamientos
queseasignanaunaobramonográficaesunproblemahistóricoenelámbitodebúsquedayrecuperacióndeinformación. Por un lado, los documentos rara vezpuedenserrepresentadosconunsolotema;porotro,elnúmerodetemasquesepuedeasignaraunaobraesvirtualmenteinfinito(Green,2001).Enlaintersec-cióndelasHumanidadesDigitalesylaBibliotecologíahanexistidodiversosesfuerzospormejorarlacalidaddelasontologíasdeestostemas(Nurmikko-Fulleretal,2016),suevaluación(Harper,2016)yvisualización(Duguid,2015).Sinembargo,anuestroconocimiento,nosehanhechoestudiosqueaprovechenmétodosin-novadoresparaindagarrelacionesentrelosencabeza-mientosdemateria.Enestacomunicaciónbreve,pre-sentamos los resultados preliminares de un primeracercamientoaltema,queaprovechaeláreadeespe-cialidaddecadaparticipantedelequipo--humanida-desdigitales,cienciadedatosybibliotecas--paraana-lizar249,899registrosdeunadelascoleccionesmásimportantes de Ciencias Sociales y Humanidades deAméricaLatina:ladelcatálogodelaBibliotecaDanielCosíoVillegasdeElColegiodeMéxico.
Metodología
AtravésdelportaldeanalíticasdelGrupoExLibris,seextrajeronlosencabezamientosdemateriadetodoslos249,899registrosdelibrosdelacoleccióndelaBi-bliotecaDanielCosíoVillegas.Losencabezamientosdemateriafueronsubdivididosasuvezentresnivelesapartirdelossubencabezamientos,sindistinguirentresus tipos –geograficos, cronologicos y de forma (verSaltaetal.,2015)–sinosólotomandoencuentasupo-sición (primer subencabezamiento, segundo, etcé-tera). Por ejemplo, México--Historia--1821-1861 fuedivididoen:México,Historia,1821-1861.Seestudiólarelaciónentretemasutilizandotécnicasde minería de reglas de asociación. Estas procurandescubririmplicacionesdelaformaI→idondeIesunconjuntodeobjetosyiesunobjetoenparticular,am-bostomadosdeununiversodeobjetos,enestecasotemas.ElsoportedeIsedefinecomoelnúmerodere-gistrosparaloscualesIessubconjunto.LaconfianzasedefinecomoelsoportedeI∪ientreelsoportedeI(Leskovec,2010).
Sedebenotarquelafrecuenciadelostemasasocia-dosalosregistrosessumamentebajacomosepuedeobservaren laTabla1, lo cualpuededeberseaque,tratándosedeunabibliotecaespecializadaencienciassocialesyhumanidadeslostemasqueseasignansonmuyespecíficos,afindequeelusuarioespecializadopuedaencontrarloquerealmentelesirve.
Tabla 1
Asimismo,esdenotarque231,052(92.45%)delosregistros tienen un encabezamiento de materia;152,414(treintaporcientomenos) llegaa tenerdosencabezamientosdemateriaysólo29.89%tuvotres.Porestemotivo,losencabezamientosseconcatenaronverticalmenteparaobservarindistintamentelasrela-cionesentreéstos.Seutilizóelalgoritmoaprioriylaeleccióndelosumbralessellevóacabodemanerama-nual;segeneraron13conjuntosdereglasdeasocia-ciónconvariacionesenlosumbralesdeconfianzayso-porte.Cadaunodeestosconjuntosdereglasdeasocia-cióninduceungrafoquesepuedevisualizaryexplorarcomosemuestramásadelante.Umbralesdemasiadopermisivosinducenredesquetienendemasiadasrela-ciones como para poderse explorar manualmente yumbrales demasiado restrictivos inducen redes quenotienensuficientesrelacionescomoparapoderdecir
algointeresantesobrelaestructuradelosdatosensutotalidad.Finalmenteseeligióunaredquepresentaunbalanceentrecantidaddeinformacióneinterpretabi-lidad.El‘soporte’mínimofuede0.0001(verGráfico1)yla‘confianza’mínimade0.4(verGráfico2)ylama-trizde incidenciaderivadade lasreglasencontradasseutilizóparagenerarungrafoparalaexploraciónvi-sual del conjunto de asociaciones descubiertas. ParacrearestaversióngráficautilizamoslaexportacióndeRaGephi(YonandYon,2015),la‘confianza’comounpesoparalosvérticesyFruchtermanReingold(1991)comoalgoritmoparaeldiseño.Dimoscoloralosno-dos de acuerdo con su modularidad, es decir, deacuerdo a las “comunidades” de nodos que se creanporlafuerzadesusrelaciones(Blondeletal,2008).Laaltamodularidaddelaredpruebaloconectadosqueestánlosnodosensusgruposylodesconectadosqueestándenodosfueradesured.
Resultados Comohemosmencionadoantes,losencabezamien-
tos fuerondivididos en los subencabezamientosquelosanidan.Retomandoelejemploanterior:“México--Historia--1821-1861”fuecodificadocomo:
• Subject1.1-México• Subject1.2-Historia• Subject1.3-1821-186
Estemodeladodelosdatos,fuepensadoparaper-mitirunaciertaexploración“gramática”delaasigna-cióntemática.Esdecir,quepermitieraverquéniveles“sintácticos”serelacionanenquéordenconotrosni-veles.Ennúmeros,laredtiene394nodos(subencabe-zamientos) y 339 vértices (asociaciones). De los no-dos,203sondelprimernivel,109delsegundo,33delacombinacióndeunencabezamientodelprimernivelconeltercero,ycuatrodelacombinacióndelprimernivelconelcuarto.Eltotalasociacionesoreglasdeim-plicación(siencabezamientoIaparecetambiéni)fuede339.Deéstaslamayoríaocurresóloen25registros,esdecir,tuvieronunsoportebajo(verGráfico1).Sinembargo,estonoestanpococonsiderandoloquehe-mosdichoantesdelanaturalezaespecializadadeestabiblioteca. Por otro lado, las confianzas observadaspresentanunadistribuciónmenosconcentradaqueladelossoportes(verGráfico2).
Gráfico 1
Gráfico 2
DelareddegrafointeractivaqueobtuvimosconelusodeGephiyelplug-indeSigma.js,pudimosidentifi-carqueelnodoconmayoresasociacionesoreglases‘Historia’ensuposicióncomo“Subject1.2”yqueentresusasociacionesexistendosnodosdedistintamodu-laridad y nivel (ambos “Subject 1.1”): ‘México’ (verImagen1)y‘España’(verImagen2).
Imagen 1
Imagen 2
A su vez, la plataforma permite explorar más afondoelencabezamiento‘España’ydarsecuenta,porejemplo,dequeeste temaenprimeraposición tienefuertesrelacionesconsubencabezamientosdelater-ceradimensiónquecorrespondenalosperiodoshis-tóricosrelevantesenlahistoriadeesepaís:
Imagen 3
Enresumen,estetipodeexploraciónpermitealusu-ariofamiliarizarseconlasreglas“gramaticales”delaasignacióntemáticapuespuede“ver”tantolosniveles“sintácticos”de lostemascomolasformasenqueserelacionaconotros,ademásdequeincluyeunbotóndebúsquedadeencabezamientosquepermiteinterac-tuar de manera directa con el grafo (disponible enlinea).
Reflexión final Nosotros,comolosugierenNurmikko-Fulleretal.,
estamosconscientesdequesilasbibliotecasquierendaraccesoarecursosdeinformaciónrelevantesparanuevas áreas de investigación, deben evolucionar amétodosmássofisticadosysemánticosdeasignacióntemáticaparaproporcionarnuevospuntosdeacceso
quecorrespondanmásallenguajenaturalyqueper-mitan identificar las relaciones temáticas conmayorclaridad.
Sinembargo,enloqueestepasopuedeserdadoenMéxicoyLatinoamérica,creemosqueelusodeherra-mientasymétodosdelashumanidadesdigitalespue-denayudaraanalizarlosdatosgeneradosenlaorga-nizacióndelainformacióneinclusoútilparalaforma-cióndelcatalogador,queaprendeaasignar-elaborarlostemasyconestaherramientapodríatenerunac-cesovisualala“sintaxistemática”deciertostérminos.Enestemismosentido,unacercamientoasí,podríaserusadocomoelementopedagógicodeloscursosdein-vestigacióndocumentalenelque losestudiantesde-benaprender a familiarizarse con los lenguajes con-trolados.Otraaplicacióndeestetrabajo,podríaserenlaevaluacióndecoleccionesparadeterminarlasforta-lezasycarenciastemáticas,deacuerdoconlaespecia-lidadquelabibliotecadeclara.Análisismásdetenidospueden ayudarnos a determinar la representacióncronológica, autoral, lingüística o geográfica de unacervo.Enfin,consideramosquealcontinuarelanáli-sis y desarrollo de este proyecto podremos aportarotrotipodemetodologíanosóloparaevaluarlasco-leccionessinoparaacercarseaellas.
Bibliografía
Blondel,V.,etal.(2008).“Fastunfoldingofcommunitiesinlargenetworks”,JournalofStatisticalMechanics:TheoryandExperiment,P1008.
Duguid, T. (2015), "BigDIVA: Big Data, Big Visuals, Big
Searches,andBigResults."TexasDigitalHumanitiesCon-ference2015.UniversityofTexasArlington,Texas.
Fruchterman,T.M.,&Reingold,E.M.(1991).Graphdraw-
ing by force-directed placement. Software: Practice andexperience,21(11),pp.1129-64.
Green, R. (2001). “Relationships in the organization of
knowledge:anoverview.”Relationshipsintheorganiza-tionofknowledge.SpringerNetherlands,pp.3-18.
Nurmikko-Fuller,T.,Jett,J.,Cole,T.,Maden,C.,Page,K.,
Downie, J. (2016). “A Comparative Analysis of Biblio-graphicOntologies:ImplicationsforDigitalHumanities”.DigitalHumanities2016:ConferenceAbstracts. Jagiello-nian University & Pedagogical University, Kraków, pp.639-42.
Leskovec, J.,Rajaraman,A., Jeffrey,U.(2010).Miningof
MassiveDatasets.CambridgeUniversityPress,U.K.,pp.205-14.
Salta,G.,CraveroC., Saloj,G. (2005) “Listadeencabeza-
mientosdemateriadelaBibliotecadelCongresodelosEstadosUnidos:característicasgenerales”.Información,CulturaySociedad,12.pp.85-97
Yon,G.V.,&Yon,M.G.V.(2015).Package‘rgexf’.