Download - 446. GutiÇrrez De la Torre-Los Hilos De Ariadna En El ... · blioteca Daniel Cosío Villegas. Los encabezamientos de materia fueron subdivididos a su vez en tres niveles a partir

Transcript
Page 1: 446. GutiÇrrez De la Torre-Los Hilos De Ariadna En El ... · blioteca Daniel Cosío Villegas. Los encabezamientos de materia fueron subdivididos a su vez en tres niveles a partir

Los Hilos De Ariadna En El Laberinto Temático: Visualización Y Minado De Datos Para Bibliotecas SilviaEuniceGutié[email protected]éxicoA.C.,México

JuliánAlbertoEquihuaBení[email protected],MéxicoMicaelaChá[email protected]éxicoA.C.,México

Introducción Encontrar relaciones entre los encabezamientos

queseasignanaunaobramonográficaesunproblemahistóricoenelámbitodebúsquedayrecuperacióndeinformación. Por un lado, los documentos rara vezpuedenserrepresentadosconunsolotema;porotro,elnúmerodetemasquesepuedeasignaraunaobraesvirtualmenteinfinito(Green,2001).Enlaintersec-cióndelasHumanidadesDigitalesylaBibliotecologíahanexistidodiversosesfuerzospormejorarlacalidaddelasontologíasdeestostemas(Nurmikko-Fulleretal,2016),suevaluación(Harper,2016)yvisualización(Duguid,2015).Sinembargo,anuestroconocimiento,nosehanhechoestudiosqueaprovechenmétodosin-novadoresparaindagarrelacionesentrelosencabeza-mientosdemateria.Enestacomunicaciónbreve,pre-sentamos los resultados preliminares de un primeracercamientoaltema,queaprovechaeláreadeespe-cialidaddecadaparticipantedelequipo--humanida-desdigitales,cienciadedatosybibliotecas--paraana-lizar249,899registrosdeunadelascoleccionesmásimportantes de Ciencias Sociales y Humanidades deAméricaLatina:ladelcatálogodelaBibliotecaDanielCosíoVillegasdeElColegiodeMéxico.

Metodología

AtravésdelportaldeanalíticasdelGrupoExLibris,seextrajeronlosencabezamientosdemateriadetodoslos249,899registrosdelibrosdelacoleccióndelaBi-bliotecaDanielCosíoVillegas.Losencabezamientosdemateriafueronsubdivididosasuvezentresnivelesapartirdelossubencabezamientos,sindistinguirentresus tipos –geograficos, cronologicos y de forma (verSaltaetal.,2015)–sinosólotomandoencuentasupo-sición (primer subencabezamiento, segundo, etcé-tera). Por ejemplo, México--Historia--1821-1861 fuedivididoen:México,Historia,1821-1861.Seestudiólarelaciónentretemasutilizandotécnicasde minería de reglas de asociación. Estas procurandescubririmplicacionesdelaformaI→idondeIesunconjuntodeobjetosyiesunobjetoenparticular,am-bostomadosdeununiversodeobjetos,enestecasotemas.ElsoportedeIsedefinecomoelnúmerodere-gistrosparaloscualesIessubconjunto.LaconfianzasedefinecomoelsoportedeI∪ientreelsoportedeI(Leskovec,2010).

Sedebenotarquelafrecuenciadelostemasasocia-dosalosregistrosessumamentebajacomosepuedeobservaren laTabla1, lo cualpuededeberseaque,tratándosedeunabibliotecaespecializadaencienciassocialesyhumanidadeslostemasqueseasignansonmuyespecíficos,afindequeelusuarioespecializadopuedaencontrarloquerealmentelesirve.

Tabla 1

Asimismo,esdenotarque231,052(92.45%)delosregistros tienen un encabezamiento de materia;152,414(treintaporcientomenos) llegaa tenerdosencabezamientosdemateriaysólo29.89%tuvotres.Porestemotivo,losencabezamientosseconcatenaronverticalmenteparaobservarindistintamentelasrela-cionesentreéstos.Seutilizóelalgoritmoaprioriylaeleccióndelosumbralessellevóacabodemanerama-nual;segeneraron13conjuntosdereglasdeasocia-ciónconvariacionesenlosumbralesdeconfianzayso-porte.Cadaunodeestosconjuntosdereglasdeasocia-cióninduceungrafoquesepuedevisualizaryexplorarcomosemuestramásadelante.Umbralesdemasiadopermisivosinducenredesquetienendemasiadasrela-ciones como para poderse explorar manualmente yumbrales demasiado restrictivos inducen redes quenotienensuficientesrelacionescomoparapoderdecir

Page 2: 446. GutiÇrrez De la Torre-Los Hilos De Ariadna En El ... · blioteca Daniel Cosío Villegas. Los encabezamientos de materia fueron subdivididos a su vez en tres niveles a partir

algointeresantesobrelaestructuradelosdatosensutotalidad.Finalmenteseeligióunaredquepresentaunbalanceentrecantidaddeinformacióneinterpretabi-lidad.El‘soporte’mínimofuede0.0001(verGráfico1)yla‘confianza’mínimade0.4(verGráfico2)ylama-trizde incidenciaderivadade lasreglasencontradasseutilizóparagenerarungrafoparalaexploraciónvi-sual del conjunto de asociaciones descubiertas. ParacrearestaversióngráficautilizamoslaexportacióndeRaGephi(YonandYon,2015),la‘confianza’comounpesoparalosvérticesyFruchtermanReingold(1991)comoalgoritmoparaeldiseño.Dimoscoloralosno-dos de acuerdo con su modularidad, es decir, deacuerdo a las “comunidades” de nodos que se creanporlafuerzadesusrelaciones(Blondeletal,2008).Laaltamodularidaddelaredpruebaloconectadosqueestánlosnodosensusgruposylodesconectadosqueestándenodosfueradesured.

Resultados Comohemosmencionadoantes,losencabezamien-

tos fuerondivididos en los subencabezamientosquelosanidan.Retomandoelejemploanterior:“México--Historia--1821-1861”fuecodificadocomo:

• Subject1.1-México• Subject1.2-Historia• Subject1.3-1821-186

Estemodeladodelosdatos,fuepensadoparaper-mitirunaciertaexploración“gramática”delaasigna-cióntemática.Esdecir,quepermitieraverquéniveles“sintácticos”serelacionanenquéordenconotrosni-veles.Ennúmeros,laredtiene394nodos(subencabe-zamientos) y 339 vértices (asociaciones). De los no-dos,203sondelprimernivel,109delsegundo,33delacombinacióndeunencabezamientodelprimernivelconeltercero,ycuatrodelacombinacióndelprimernivelconelcuarto.Eltotalasociacionesoreglasdeim-plicación(siencabezamientoIaparecetambiéni)fuede339.Deéstaslamayoríaocurresóloen25registros,esdecir,tuvieronunsoportebajo(verGráfico1).Sinembargo,estonoestanpococonsiderandoloquehe-mosdichoantesdelanaturalezaespecializadadeestabiblioteca. Por otro lado, las confianzas observadaspresentanunadistribuciónmenosconcentradaqueladelossoportes(verGráfico2).

Gráfico 1

Gráfico 2

DelareddegrafointeractivaqueobtuvimosconelusodeGephiyelplug-indeSigma.js,pudimosidentifi-carqueelnodoconmayoresasociacionesoreglases‘Historia’ensuposicióncomo“Subject1.2”yqueentresusasociacionesexistendosnodosdedistintamodu-laridad y nivel (ambos “Subject 1.1”): ‘México’ (verImagen1)y‘España’(verImagen2).

Imagen 1

Page 3: 446. GutiÇrrez De la Torre-Los Hilos De Ariadna En El ... · blioteca Daniel Cosío Villegas. Los encabezamientos de materia fueron subdivididos a su vez en tres niveles a partir

Imagen 2

A su vez, la plataforma permite explorar más afondoelencabezamiento‘España’ydarsecuenta,porejemplo,dequeeste temaenprimeraposición tienefuertesrelacionesconsubencabezamientosdelater-ceradimensiónquecorrespondenalosperiodoshis-tóricosrelevantesenlahistoriadeesepaís:

Imagen 3

Enresumen,estetipodeexploraciónpermitealusu-ariofamiliarizarseconlasreglas“gramaticales”delaasignacióntemáticapuespuede“ver”tantolosniveles“sintácticos”de lostemascomolasformasenqueserelacionaconotros,ademásdequeincluyeunbotóndebúsquedadeencabezamientosquepermiteinterac-tuar de manera directa con el grafo (disponible enlinea).

Reflexión final Nosotros,comolosugierenNurmikko-Fulleretal.,

estamosconscientesdequesilasbibliotecasquierendaraccesoarecursosdeinformaciónrelevantesparanuevas áreas de investigación, deben evolucionar amétodosmássofisticadosysemánticosdeasignacióntemáticaparaproporcionarnuevospuntosdeacceso

quecorrespondanmásallenguajenaturalyqueper-mitan identificar las relaciones temáticas conmayorclaridad.

Sinembargo,enloqueestepasopuedeserdadoenMéxicoyLatinoamérica,creemosqueelusodeherra-mientasymétodosdelashumanidadesdigitalespue-denayudaraanalizarlosdatosgeneradosenlaorga-nizacióndelainformacióneinclusoútilparalaforma-cióndelcatalogador,queaprendeaasignar-elaborarlostemasyconestaherramientapodríatenerunac-cesovisualala“sintaxistemática”deciertostérminos.Enestemismosentido,unacercamientoasí,podríaserusadocomoelementopedagógicodeloscursosdein-vestigacióndocumentalenelque losestudiantesde-benaprender a familiarizarse con los lenguajes con-trolados.Otraaplicacióndeestetrabajo,podríaserenlaevaluacióndecoleccionesparadeterminarlasforta-lezasycarenciastemáticas,deacuerdoconlaespecia-lidadquelabibliotecadeclara.Análisismásdetenidospueden ayudarnos a determinar la representacióncronológica, autoral, lingüística o geográfica de unacervo.Enfin,consideramosquealcontinuarelanáli-sis y desarrollo de este proyecto podremos aportarotrotipodemetodologíanosóloparaevaluarlasco-leccionessinoparaacercarseaellas.

Bibliografía

Blondel,V.,etal.(2008).“Fastunfoldingofcommunitiesinlargenetworks”,JournalofStatisticalMechanics:TheoryandExperiment,P1008.

Duguid, T. (2015), "BigDIVA: Big Data, Big Visuals, Big

Searches,andBigResults."TexasDigitalHumanitiesCon-ference2015.UniversityofTexasArlington,Texas.

Fruchterman,T.M.,&Reingold,E.M.(1991).Graphdraw-

ing by force-directed placement. Software: Practice andexperience,21(11),pp.1129-64.

Green, R. (2001). “Relationships in the organization of

knowledge:anoverview.”Relationshipsintheorganiza-tionofknowledge.SpringerNetherlands,pp.3-18.

Nurmikko-Fuller,T.,Jett,J.,Cole,T.,Maden,C.,Page,K.,

Downie, J. (2016). “A Comparative Analysis of Biblio-graphicOntologies:ImplicationsforDigitalHumanities”.DigitalHumanities2016:ConferenceAbstracts. Jagiello-nian University & Pedagogical University, Kraków, pp.639-42.

Leskovec, J.,Rajaraman,A., Jeffrey,U.(2010).Miningof

MassiveDatasets.CambridgeUniversityPress,U.K.,pp.205-14.

Page 4: 446. GutiÇrrez De la Torre-Los Hilos De Ariadna En El ... · blioteca Daniel Cosío Villegas. Los encabezamientos de materia fueron subdivididos a su vez en tres niveles a partir

Salta,G.,CraveroC., Saloj,G. (2005) “Listadeencabeza-

mientosdemateriadelaBibliotecadelCongresodelosEstadosUnidos:característicasgenerales”.Información,CulturaySociedad,12.pp.85-97

Yon,G.V.,&Yon,M.G.V.(2015).Package‘rgexf’.