Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de...

16
ISSN 2007-9737 Enfoque semântico para el descubrimiento de recursos sensible al contexto sobre contenidos académicos estructurados con OAI-PMH Arianna Becerril García1, Rafael Lozano Espinosa2, José Ma^ín Molina Espinosa2 1 Universidad Autónoma del Estado de México, México 2 Tecnológico de Monterrey, Ciudad de México, México [email protected], {ralozano, jose.molina}@itesm.mx the Open Archives Initiative - the Protocol for Metadata Harvesting (OAI-PMH) and the Dublin Core metadata for displaying information. Thus, it is relevant to develop technologies in order to improve the discovering of resources taking into account the user information needs and the user context. This paper describes an approach which considers structured information resources with OAI-PMH, an ontological representation, and user context as inputs to a framework for building information retrieval applications. Keywords. Semantic web, structured resources, context-awareness, ontologies, OAI-PMH, redalyc. 1. Introducción La llamada sociedad del conocimiento considera la apropiación crítica y selectiva de la información para el desarrollo del ser humano. La World Wide Web (WWW), por su naturaleza de reunión de información vinculada, se ha conve^ido en la principal fuente de información y desde su introducción en 199 هha evolucionado para enriquecer la forma en que se organiza y se expone a los usuarios; que va desde un panorama de texto e hipe^exto en sitios web planos hasta estándares de estructuración de metadatos e interoperabilidad de la llamada Web 3.0. Esta masa de información que constituye la Web, en ocasiones se siente como “de una milla de ancho pero con una pulgada de profundidad” ^Cómo poder construir una experiencia Web más integrada, consistente y profunda? [1]. Es aquí donde se sitúa la semântica, como el proceso de comunicar la información con suficiente Resumen. Esencial a la noción de Web es la idea de una comunidad abierta: cualquiera puede contribuir sus ideas al todo. Esta ape^ura, su dimensión y dinamismo imponen retos para el desarrollo de aplicaciones de descubrimiento de recursos para el quehacer educativo o de investigación. Sin embargo, se han dado muchos esfuerzos para organizar y estructurar la masa de datos. Los repositorios académicos han adoptado el Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos Dublin Core para la exposición de su información. Es así, que resulta relevante el desarrollo de tecnologías que abonen en el descubrimiento de recursos de interés tomando en cuenta las necesidades de información y contexto del usuario. El presente documento describe un enfoque que considera los recursos de información estructurados con OAI-PMH, una representación ontológica y el contexto del usuario como insumos de un marco de trabajo para la construcción de aplicaciones de recuperación de información. Palabras clave. Web semântica, recursos estructurados, sensibilidad al contexto, ontologías, OAI-PMH, redalyc Semantic Approach to Context-Aware Resource Discovery over Scholarly Content Structured with OAI-PMH Abstract. Essential to the notion of the Web is the idea of an open community: anyone can contribute their ideas to the whole. This openness, the size and dynamism of the community impose challenges on the development of resource discovery applications for educational or research activities. On the other hand, there have been many efforts to organize and structure the mass of data. Scholarly repositories have adopted Computación y Sistemas, Vol. 20, No. 1, 2016, pp. 127-142 doi: 10.13053/CyS-20-1-2189

Transcript of Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de...

Page 1: Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos

ISSN 2007-9737

Enfoque semacircntico para el descubrimiento de recursos sensible al contexto sobre contenidos acadeacutemicos estructurados con OAI-PMH

Arianna Becerril Garciacutea1 Rafael Lozano Espinosa2 Joseacute Ma^iacuten Molina Espinosa2

1 Universidad Autoacutenoma del Estado de MeacutexicoMeacutexico

2 Tecnoloacutegico de Monterrey Ciudad de MeacutexicoMeacutexico

abecerrilguaemexmx ralozano josemolinaitesmmx

the Open Archives Initiative - the Protocol for Metadata Harvesting (OAI-PMH) and the Dublin Core metadata for displaying information Thus it is relevant to develop technologies in order to improve the discovering of resources taking into account the user information needs and the user context This paper describes an approach which considers structured information resources with OAI-PMH an ontological representation and user context as inputs to a framework for building information retrieval applications

Keywords Semantic web structured resources context-awareness ontologies OAI-PMH redalyc

1 Introduccioacuten

La llamada sociedad del conocimiento considera la apropiacioacuten criacutetica y selectiva de la informacioacuten para el desarrollo del ser humano La World Wide Web (WWW) por su naturaleza de reunioacuten de informacioacuten vinculada se ha conve^ido en la principal fuente de informacioacuten y desde su introduccioacuten en 199ه ha evolucionado para enriquecer la forma en que se organiza y se expone a los usuarios que va desde un panorama de texto e hipe^exto en sitios web planos hasta estaacutendares de estructuracioacuten de metadatos e interoperabilidad de la llamada Web 30

Esta masa de informacioacuten que constituye la Web en ocasiones se siente como ldquode una milla de ancho pero con una pulgada de profundidadrdquo ^Coacutemo poder construir una experiencia Web maacutes integrada consistente y profunda [1] Es aquiacute donde se situacutea la semacircntica como el proceso de comunicar la informacioacuten con suficiente

Resumen Esencial a la nocioacuten de Web es la idea de una comunidad abierta cualquiera puede contribuir sus ideas al todo Esta ape^ura su dimensioacuten y dinamismo imponen retos para el desarrollo de aplicaciones de descubrimiento de recursos para el quehacer educativoo de investigacioacuten Sin embargo se han dado muchos esfuerzos para organizar y estructurar la masa de datos Los repositorios acadeacutemicos han adoptado el Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH por sus siglas en ingleacutes) y los metadatos Dublin Core para la exposicioacuten de su informacioacuten Es asiacute que resulta relevante el desarrollo de tecnologiacuteas que abonen en eldescubrimiento de recursos de intereacutes tomando en cuenta las necesidades de informacioacuten y contexto del usuario El presente documento describe un enfoque que considera los recursos de informacioacutenestructurados con OAI-PMH una representacioacuten ontoloacutegica y el contexto del usuario como insumos de un marco de trabajo para la construccioacuten deaplicaciones de recuperacioacuten de informacioacuten

Palabras clave Web semacircntica recursos estructurados sensibilidad al contexto ontologiacuteas OAI-PMH redalyc

Semantic Approach to Context-Aware Resource Discovery over Scholarly Content Structured with OAI-PMH

Abstract Essential to the notion of the Web is the idea of an open community anyone can contribute their ideas to the whole This openness the size and dynamism of the community impose challenges on the development of resource discovery applications for educational or research activities On the other hand there have been many efforts to organize and structure the mass of data Scholarly repositories have adopted

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martin Molina Espinosa

de software y acorde a los resultados obtenidos y problemas encontrados surge el enfoque mostrado en el presente trabajo La implementacioacuten resultados alcanzados validacioacuten y retos enfrentados con este nuevo acercamiento son documentados a continuacioacuten

2 Conceptos fundamentales

21 OAI-PMH

La variedad de recursos de informacioacuten en la Web de utilidad para un alumno acadeacutemico profesor o cientiacutefco es muy amplia abarca libros a^iacuteculos de revistas cientiacuteficas informes actas de congreso tesis pre-prints archivos de datos entre otros Todos ellos disponibles a traveacutes de po^ales especializados repositorios y bases de datos que usan mecanismos de descripcioacuten y exposicioacuten de sus datos

Para que este tipo de plataformas tengan la posibilidad de intercambiar informacioacuten tienen que contar con reglas de comunicacioacuten y estaacutendares de estructuracioacuten de datos El protocolo de interoperabilidad OA-PMH es uno de los maacutes utilizados para este fin

Seguacuten el Registro de Repositorios de Acceso Abie^o [5] (ROAR por sus siglas en ingleacutes) existen poco maacutes de 4ههه repositorios en el mundo que implementan el protocolo OA-PMH Para tener una mejor idea de la cantidad de archivos de contenido intelectual disponibles en Acceso Abie^o se puede acceder al proveedor de servicio OAster [6] que cosecha menos de la mitad de los repositorios registrados en ROAR y cuenta con maacutes de 3ه millones de registros disponibles a traveacutes de OA-PMH

El OA-PMH surge con la niciativa de Archivos Abie^os liberada en 1999 de lanecesidad de conve^ir los archivos eninteroperables y construir servicios de recuperacioacuten de informacioacuten de diversosrepositorios Su naturaleza radica en la definicioacuten de una inte^az a traveacutes de la cual un repositorio expone puacuteblicamente en la web los metadatos de los objetos digitales que almacena

El protocolo Z3950 [7] ya existiacutea como un estaacutendar que permitiacutea la buacutesqueda federada a varios servidores de manera paralela Sin

significado Asiacute es posible construir aplicaciones inteligentes que apo^en un mayor conocimiento identificando en mayor profundidad los contenidos

El aacutembito acadeacutemico no ha estado exento del impacto del crecimiento de la WWW Encontrar informacioacuten relevante para el aprendizaje la ensefianza o la investigacioacuten en el volumen de recursos y publicaciones existentes se estaacute convivendo en un reto impo^ante para los estudiantes y cientiacuteficos Aunado a ello compa^ir recursos metadatos de los recursos y datos a traveacutes de la Web es un principio central en el contexto acadeacutemico y de investigacioacuten La colaboracioacuten cientiacutefica por mucho tiempo ha luchado por reusar y compa^ir maacutes ampliamente el conocimiento y los datos [2]

La educacioacuten por su pa^e ha sufrido importantes cambios propiciados por el desarrollo de las tecnologiacuteas que han modificado las formas de acceso y difusioacuten de la informacioacuten y los modos de comunicacioacuten entre los individuos entre los individuos y las maacutequinas y entre las propias maacutequinas [3]

Los po^ales plataformas y bases de datos de recursos acadeacutemicos disponibles en la Web conforman una gran biblioteca dinaacutemica y creciente con muacuteltiples y diversos puntos de consulta que imponen retos importantes en las tareas de buacutesqueda y recuperacioacuten de informacioacuten relevante para un estudiante docente o investigador

En este sentido resulta relevante el desarrollo de tecnologiacuteas que abonen en el descubrimiento de recursos de intereacutes tomando en cuenta las necesidades de informacioacuten y caracteriacutesticas del usuario

En el presente documento se describen los resultados de la aplicacioacuten de un modelo que considera como insumos de un marco de trabajo de recuperacioacuten de informacioacuten recursosestructurados con el Protocolo para Cosecha de Metadatos de la niciativa de Archivos Abie^os (OAI-PMH) una representacioacuten ontoloacutegica y el contexto del usuario

En un trabajo previo [4] se formularon las generalidades de un modelo preliminar que no habiacutea sido implementado es decir que se encontraba en la fase de disefio Posteriormente con base en eacutel se desarrollaron los componentes

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

Enfoque semacircntico para el descubrimiento de recursos sensible al contexto sobre contenidos acadeacutemicos estructurados 129

- ListMetadataFormats regresa los formatos de metadatos disponibles en el repositorio

- ListSets recupera la estructura de conjuntos de un repositorio

Las respuestas son serializadas en XML con los metadatos de Dublin Core (descritos posteriormente) El proceso de enviacuteo - recepcioacuten de peticiones y respuestas se controla a traveacutes del denominado proceso de cosecha de metadatos Siendo un cosechador el programa que enviacutea peticiones a un proveedor de datos y recibe como respuesta archivos XML con metadatos Dublin Core

22 Dublin Core

La Iniciativa de Metadatos Dublin Core (DC) auspicia el desarrollo de estaacutendares de interoperabilidad a diferentes niveles entre los que se encuentra un conjunto de metadatos para descripciones simples y geneacutericas popularizado por ser parte de las especificaciones del protocolo OAI-PMH

El llamado Dublin Core no calificado es el que originalmente se utiliza para describir recursos con OAI-PMH y contempla los siguientes 15 metadatos [10]

- dctitle- dccreator- dcsubject- dcdescription- dcpublisher- dccontributor- dcdate- dctype- dcformat- dcidentifier- dcsource- dclanguage- dcrelation- dccoverage- dcrights

2-3- Sensibilidad al contexto

La caracteriacutestica de sensibilidad al contexto del usuario en servicios de recuperacioacuten de informacioacuten se refiere a la capacidad de percibir

embargo se habiacutea presentado mucha dificultad para crear servicios de buacutesqueda federada de alta calidad a traveacutes de un gran nuacutemero de servidores autoacutenomos por razones como diferentes interpretaciones de las consultas problemas de escalabilidad dependencia de la disponibilidad de los servidores al momento de la consulta y rendimiento sujeto a la velocidad de respuesta del servidor maacutes lento [8]

Es asiacute que el OAI-PMH se consolida como un estaacutendar de la comunidad de archivos abie^os como resultado de las ventajas que ofrece en comparacioacuten con el Z3950

Este protocolo es un mecanismo de baja barrera para la interoperabilidad de repositorios [9] Define una inte^az que un servidor conectado a la red puede emplear para hacer disponible a aplicaciones externas los metadatos que describen objetos almacenados en ese servidor [8]

En el protocolo se especifican dos tipos de pa^icipantes los proveedores de datos y los proveedores de servicio los primeros encargados de exponer puacuteblicamente los metadatos de su contenido y los segundos a cargo de cosechar metadatos de los proveedores de datos para ofrecer interfaces de integracioacuten y buacutesqueda para el usuario final

Hace uso de peticiones y respuestas HTTP para comunicarse entre un cosechador y un repositorio usando meacutetodos GET o POST Para la conformacioacuten de estas peticiones existe una URL base uacutenica que especifica el servidor y el pue^o y opcionalmente la ruta

Dichas peticiones mejor conocidas como verbos son seis y se concatenan a la URL base Los verbos se describen enseguida [10]

- GetRecord regresa los metadatos de un registro individual

- Identify devuelve la informacioacuten acerca del repositorio

- ListRecords es usado para cosechar los registros de un repositorio argumentos adicionales permiten la cosecha selectiva basada en conjuntos o temporalidad

- ListIdentifiers es una forma abreviada de ListRecords que trae uacutenicamente las cabeceras de los registros

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

130 Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martin Molina Espinosa

todos los aspectos de a publicacioacuten y referencia semaacutentca [18]

Por su pa^e la Ontologiacutea Bibliograacutefica BIBO provee los conceptos y propiedades principales para describir citaciones y referenciasbibliograacuteficas [19]

En cuanto a Dublin Core se refiere la DCMI tambieacuten ha elaborado una ontologiacutea para describir el conjunto de teacuterminos para identificar objetos digitales [20]

Por otro lado se encuentra tambieacuten FOAF un proyecto devoto de vincular personas e informacioacuten usando la Web [21] El espacio de nombres FOAF httpxmlnscomfoaf01 esusado para representar datos acerca de personas tales como nombres fechas de nacimiento y especialmente a la gente con la que serelacionan Es pa^icularmente uacutetil pararepresentar datos de redes sociales

25 Marco de trabajo Jena

Jena proyecto de coacutedigo abierto iniciado por los Laboratorios HP en el 2000 es un marco de trabajo Java para la construccioacuten de aplicaciones de la Web Semaacutentica provee bibliotecas Java para el desarrollo de coacutedigo que maneje RDF RDFS RDFa OWL y SPARQL alineado con las recomendaciones de la W3C [22]

Incluye un motor de inferencia basado en reglas para desempefiar razonamiento basado en ontologias OWL y RDFS y una variedad de estrategias de almacenamiento para tripletas RDF en memoria o en disco

La API ontoloacutegica de Jena provee una interfaz de programacioacuten consistente para el desarrollo de aplicaciones ontoloacutegicas independiente del lenguaje Fue seleccionado para la implementacioacuten de este enfoque dada su solidez y robustez para el desarrollo de aplicaciones de la Web Semaacutentica

3 Descrpcoacuten de )a propuesta

El alcance del enfoque propuesto se restringe al uso de recursos estructurados bajo el protocolo OAI-PMH es decir los datos estructurados en otros formatos o bajo otros protocolos no son considerados en este modelo

informacioacuten de su ambiente para otorgar resultados personalizados Con ello es posible inferir situaciones no explicitadas y asiacute manifestar un compo^amiento inteligente

Especiacuteficamente para el aacutembito educativo muchas plataformas no toman en cuenta las diferentes necesidades del alumno y proveen la misma recuperacioacuten de informacioacuten a todos los usuarios Entonces resulta pe^inente como se menciona en [11] el uso de un modelo de estudiante para permitir la personalizacioacuten efectiva de ambientes de aprendizaje

24 Ontologias

Una ontologiacutea es una especificacioacuten expliacutecita de una conceptualizacioacuten [12]

Se considera conceptualizacioacuten al modelado abstracto de alguacuten fenoacutemeno del mundo identificando sus conceptos relevantes Es expliacutecita dado que el tipo de conceptos usados y sus restricciones son definidos explicitamente Es formal por el hecho de que debe ser legible para maacutequinas y es compa^ida ya que captura el conocimiento consensuado es decir no es privativo de un individuo sino aceptado por un grupo [12 13]

Las ontologias habilitan a una computadora para entender la informacioacuten por siacute misma [14]

Para la ciencia y la educacioacuten un insumo fundamental es la bibliografiacutea asiacute es que la representacioacuten ontoloacutegica de referencias bibliograacuteficas ha sido objeto de diversos desarrollos Entre ellos se encuentra FaBiO una ontologiacutea para registrar y publicar registros bibliograacuteficos en la Web Semaacutentica [15] CiTO una ontologiacutea para citaciones bibliograacuteficas [16] y BIRO la ontologiacutea de referencias bibliograacuteficas [17]

Estas y cinco ontologiacuteas maacutes PRO la ontologiacutea de roles de publicacioacuten PSO la ontologiacutea de estado de la publicacioacuten PWO la ontologiacutea del flujo de trabajo de publicacioacuten C4O la ontologiacutea de caracterizacioacuten del contexto y conteo de citacioacuten y DoCo la ontologiacutea de componentes del documento conforman el conjunto SPAR (Semantic Publishing and Referencing Ontologies) compuesto de moacutedulos para crear metadatos RDF comprehensivos para

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

131

Cosampcha de metadatas OAI-PMH

Transtormacioacuten tie XML a RDF

ل

Vtelidacioacuten de ΒΡΕ

Almacampnannientode tri pi etas

Process nil ientiO en tiempo real

Motor de recuperacioacuten de informacioacuten

Tripetas resultantes

ConsultaCuumlnteKliOdampl usuario

Interfaz de usuario

Fig 1 Diagrama de flujo del proceso

corresponde a la consulta asiacute como la informacioacuten contextual del usuario

Dicha informacioacuten ingresa al motor de recuperacioacuten donde circula por un razonador basado en reglas que procesa la consulta sobre una base de datos de tripletas haciendo uso del API de ontologiacuteas de Jena

El proceso de consulta es en tiempo real sobre datos colectados previamente en un procesamiento por lotes dando como resultado

La pa^e central constituye un motor de recuperacioacuten de informacioacuten sobre ese conjunto de datos

31 Metodologiacutea

En la figura 1 se puede observar el diagrama de flujo del proceso llevado para la implementacioacuten de la propuesta

Se aprecia que la informacioacuten requerida de entrada desde una interfaz de usuario

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

132

proceso de cosecha con el resto dela implementacioacuten

Esta aplicacioacuten se encarga de leer los metadatos de los archivos XML obtenidos de la cosecha OAI-PMH utilizando el API SaxBuilder que permite recuperar los registros convi^ieacutendolos en objetos Enseguida se muestra un ejemplo de registro contenido en un XML deentrada

ltrecordgtlt ltheader

egtfdent10504408ltyco^gedaergtoafdentgtltdatestampgt2007-08-15ltdatestampgt

ltsetSpecgt1405-1435ltsetSpecgtltheadergt

ltmetadatagt dcdc ltoa

xmاnsoaسdc=httpwwwopena٢chveso٢gOAاoa20dc

11xmlnsdc=httppurlorgdcelementsh^ pwwww3org2001XMLSchema xmlnsxs=-

instancevesorgOAI on=h^ pwwwopenarchschemaLocatxs

dc 20oadcxsdgt^vesorgOAI20oah^pwwwopenarch

tirltdctitlegtltdctitlegtLa emergencia del sentido a pa ltdccreatorgtEdgar Morin ltdccreatorgt

ologiacutealtdcsubjectgtltdcsubjectgtSoc doltdcsubjectgtltdcsubjectgtEl no-sent

do del mundoltdcsubjectgtltdcsubjectgtsent dadltdcsubjectgtltdcsubjectgtcomplej

ongtptltdcdescr En este texto se reflexiona sobre el problema del

ongtpt lt dcdescrshergtUniversidad Autoacutenoma del ltdcpubl

shergtltdcpubl ltdcdategt2007ltdcdategt

coltdctypegtentiacutefltdctypegtA^iacuteculo c onpdfltdcformatgtcatltdcformatgtappl

ergtfdentltdc10504408=httpwwwredalycorgarticulooaid

ergtfdentdcgtongtltdcrelat

105=dstaoahttpwwwredalycorarevongtdcrelatgt

ghtsgtaltdcrghtsgtConvergencltdcr a Revista de CienciasltdcsourcegtConvergenc

Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdclanguagegtesltdclanguagegt

ltoai dcdcgtltmetadatagt

lt ltrecord

un conjunto de inferencias correspondientes a recursos de informacioacuten

Los pasos seguidos y componentes de software desarrollados se detallan en los apagados siguientes

32 Cosecha de metadatos OAI-PMH

Se desarrolloacute una aplicacioacuten Java que realiza peticiones HTTP a los proveedores de datos haciendo uso del verbo ListRecords del OAI- PMH Con ello se obtienen archivos en formato XML con los datos descritos en el conjunto simple de metadatos de Dublin Core Dentro de estos archivos XML se encuentran registros (ltrecordgt) El nuacutemero de registros por archivo depende de la confguracioacuten de cada repositorio cosechado y estos pueden variar desde 1 hasta n

33 Transform acioacuten a RDF

Muchas instituciones dan acceso a sus repositorios de metadatos a traveacutes de OAI-PMH pero no hacen que sus recursos sean accesibles a traveacutes de URIs desreferenciables cosa que provoca restricciones de significado y hace que quede restringido el acceso a los metadatos [23] Por esta razoacuten es necesario hacer uso de un conve^idor a RDF con la intencioacuten de transformar los metadatos contenidos en un repositorio OAI- PMH a RDF

Se han desarrollado diversos proyectos que permiten explotar datos estructurados y dotarlos de caracteriacutesticas propias de aplicaciones semaacutenticas como lo es OAI2LOD Server un desarrollo para exponer metadatos OAI-PMH como Linked Data [24] Dentro de este tipo de proyectos wrapper tambieacuten se puede encontrar D2R [25]

Para este trabajo se proboacute un desarrollo enmarcado en los llamados RDFizers software de conversioacuten a RDF llamado OAI2RDF como un componente en la arquitectura [26] Laherramienta realiza esta tarea con una transformacioacuten loacutegica que se hace a traveacutes de hojas XSLT que se invocan una vez que los datos han sido entregados

Sin embargo se optoacute por desarrollar una aplicacioacuten de software para realizar esta tarea dado que esto permitia una mejor integracioacuten del

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

133

34 Modelo Ontoloacutegico y va ldacoacuten

El componente ontoloacutegico integra dos ontologiacuteas una de ellas Dublin Core dado que los recursos que alimentan la base de conocimiento estaacuten estructurados con metadatos DC al estar bajo el estaacutendar OAI-PMH

El estaacutendar Dublin Core original incluiacutea el nivel simple y el calificado el primero compuesto de 15 elementos y el cual se utiliza para descripcioacuten de recursos con OAI-PMH bajo el espacio de nombres httppurlorgdcelements11 Sin embargo para este trabajo se utiliza el espacio de nombres httppurlorgdcterms la razoacuten radica en que a pa^ir del afio 2012 la DCMI (Dublin Core Metadata Initiative) incorpora los dos niveles en este espacio de nombres

La segunda ontologiacutea es FOAF La intencioacuten del uso de FOAF en este proyecto es explorar su adaptacioacuten para tratar la informacioacuten sobre los autores de los a^iacuteculos libros y otros recursos acadeacutemicos Aunado a esto se pueden incluso expresar sus relaciones sociales basadas en coautoriacutea para poder determinar recursos relacionados

De este modo es posible modelar las propiedades de un recurso con su autor como en la figura 2 donde por ejemplo un investigador es un autor de una publicacioacuten (dccreator) pero a la vez es una persona (foafperson) con propiedades individuales Asimismo estaacuten representadas por un lado la relacioacuten de autoriacutea entre una publicacioacuten y un investigador y la de coautoriacutea de un investigador con otro u otros con los que escribe en conjunto una publicacioacuten (figura 3)

Por otro lado es impo^ante recordar que las ontologiacuteas son desarrolladas a diferentes niveles de abstraccioacuten por personas distintas y para diversos propoacutesitos El conocimiento representado por las ontologiacuteas se dispersa debido a la existencia de muchas ontologiacuteas representando los mismos conceptos es asiacute que se vuelve difiacutecil analizar estudiar y usar el conocimiento propagado a traveacutes de muacuteltiples ontologiacuteas si se estudian individualmente [27]

La teacutecnica para combinar en una sola ontologiacutea el conocimiento representado en varias ontologiacuteas es la unioacuten o merge Con este

Posteriormente se creoacute un modelo en Jena a pa^ir de listas de los objetos recuperados y se definioacute un esquema compatible con el estaacutendar Dublin Core para generar un archivo RDFXML

Los datos del autor son enriquecidos para agregar relaciones de coautoriacutea y maacutes datos acerca del autor Estos metadatos pueden extenderse en tanto los conjuntos de datos usados como fuente contengan informacioacuten sobre los autores y son expresados con FOAF de la siguiente forma

ltdccreato rdftype=[httpxmlnscomfoaf01Person] foafname=[Nombre completo] foafgivenName=[Nombre] foafsurname=[Apelldos] foaf knows=[Persona conocda o coautor] foaftopic_interest=[7ema de intereacutes] dcdescription=[Ocupacoacuten grado etc ] ontobirthDate=[fecha de nacmento] gt

Un ejemplo de salida es el que se muestra a continuacioacuten

ltrdfDescription rdfabout= oaredalycorg10504408gtltdclanguagegtesltdclanguagegtltdc٢ightsgtConve٢gencialtdc٢ightsgt

ltdcsubjectgtsentido del mundoltdcsubjectgt ltdctermsmodified rdfresource=2007-08-15gt ltdctypegtA^iacuteculo cientiacuteficoltdctypegt ltdcsourcegtConvergencia Revista de Ciencias Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdctitlegtLa emergencia del sentido a pa^ir del no-

sentidoltdctitlegtltdctermsisPa^Of rdf resource=set1405-1435gt ltdcformatgtapplication_pdfltdcformatgt ltdcpublishegtUniversidad Autoacutenoma del Estado de MeacutexicoltdcpublishegtltdcsubjectgtEl no-sentidoltdcsubjectgtltdcidentifierrdfresource=httpwwwredalycorgartculooad=10504408gtltdccreator rdftype=httpxmlnscomfoaf01Person

foafname=Edgar MorngtEdgar Morinltdccreatorgt ltdcrelationgth^pwwwredalycorgrevistaoaid=105lt dcrelationgtltdcdescriptiongtEn este texto se reflexiona sobre ltdcdescriptiongtltdcsubjectgtSociologiacutealtdcsubjectgtltdcdategt2007ltdcdategtltdcsubjectgtcomplejidadltdcsubjectgtltrdfDescriptiongt

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

134

Fig 2 Modelo ontoloacutegico con Dublin Core y Friend of a Friend

coautor

I G rado ]

Fig 3 Relaciones de autoriacutea y coautoriacutea

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

135

A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t

euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s

C o llec tion ٠ middotConcept

euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource

copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠

F requency ٠ euro Im a g e O b je c t = Im a g e

Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠

Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠

A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠

O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person

P hys ica l R esource1٠P o licy ٠ P ro je c t ٠

P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠

S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠

Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute

De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF

35 Alm acenam iento

El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF

36 M otor de recuperacioacuten de informacioacuten

El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6

procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis

Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada

Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]

La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades

Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

136

Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource

Motor de recuperacioacuten de informacioacute

Razonador

API de inferencia Jena

RDFSRuleReasoner

Motor de reglas Jena

Modelo de Ontologia

de Jena ه0وهاوع^ API ا

Ontologia DC FOAF

API de almacenamiento Jena

T D B

Fig 6 Arquitectura

Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas

La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil

El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica

El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

137

Tabla 1 Resultados del proceso de cosecha OAI-PMH

Redalycorg RUDAR

Archivos XML 17328 121Registros DC 346557 12011

a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento

b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final

4 Resultados

Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]

A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea

1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La

del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta

Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes

Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases

- Student representa cualquier estudiante- StudentCourseInformation comprende

informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros

- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso

- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante

37 Procesam iento de la informacioacuten

371 Procesam iento en tiem po real

El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad

372 Procesam iento por lotes

La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa

Fig 7 Grafo de relacioacuten entre las instancias de ejemplo

4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338

5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno

ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt

cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)

2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos

3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

139

- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante

Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten

5 Trabajos relacionados

Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores

Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]

Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data

Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado

6 Conclusiones y trabajo futuro

El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos

ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt

ltstudentdemographicDatagtbrltstudentdemographic

ltrdfDescriptiongt

El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo

Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo

Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada

Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo

En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo

- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo

Hecho derivado

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa

CNI and SPARC Association of Research Libraries Washington DC

8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press

9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA

10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20

11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037

12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928

13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197

14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39

15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001

16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6

17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet

18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro

19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom

20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms

El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia

Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica

Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL

Referencias

1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann

2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2

3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147

4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas

5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg

6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml

7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

141

Communications of the ACM Vol 57 No 1ه pp78-85

34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning

35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه

36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13

37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16

Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales

Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor

21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec

22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml

23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia

24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China

25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf

26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf

27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu

28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42

29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer

30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64

31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه

32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565

33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

142

investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico

Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea

Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey

Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

Page 2: Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos

ISSN 2007-9737

Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martin Molina Espinosa

de software y acorde a los resultados obtenidos y problemas encontrados surge el enfoque mostrado en el presente trabajo La implementacioacuten resultados alcanzados validacioacuten y retos enfrentados con este nuevo acercamiento son documentados a continuacioacuten

2 Conceptos fundamentales

21 OAI-PMH

La variedad de recursos de informacioacuten en la Web de utilidad para un alumno acadeacutemico profesor o cientiacutefco es muy amplia abarca libros a^iacuteculos de revistas cientiacuteficas informes actas de congreso tesis pre-prints archivos de datos entre otros Todos ellos disponibles a traveacutes de po^ales especializados repositorios y bases de datos que usan mecanismos de descripcioacuten y exposicioacuten de sus datos

Para que este tipo de plataformas tengan la posibilidad de intercambiar informacioacuten tienen que contar con reglas de comunicacioacuten y estaacutendares de estructuracioacuten de datos El protocolo de interoperabilidad OA-PMH es uno de los maacutes utilizados para este fin

Seguacuten el Registro de Repositorios de Acceso Abie^o [5] (ROAR por sus siglas en ingleacutes) existen poco maacutes de 4ههه repositorios en el mundo que implementan el protocolo OA-PMH Para tener una mejor idea de la cantidad de archivos de contenido intelectual disponibles en Acceso Abie^o se puede acceder al proveedor de servicio OAster [6] que cosecha menos de la mitad de los repositorios registrados en ROAR y cuenta con maacutes de 3ه millones de registros disponibles a traveacutes de OA-PMH

El OA-PMH surge con la niciativa de Archivos Abie^os liberada en 1999 de lanecesidad de conve^ir los archivos eninteroperables y construir servicios de recuperacioacuten de informacioacuten de diversosrepositorios Su naturaleza radica en la definicioacuten de una inte^az a traveacutes de la cual un repositorio expone puacuteblicamente en la web los metadatos de los objetos digitales que almacena

El protocolo Z3950 [7] ya existiacutea como un estaacutendar que permitiacutea la buacutesqueda federada a varios servidores de manera paralela Sin

significado Asiacute es posible construir aplicaciones inteligentes que apo^en un mayor conocimiento identificando en mayor profundidad los contenidos

El aacutembito acadeacutemico no ha estado exento del impacto del crecimiento de la WWW Encontrar informacioacuten relevante para el aprendizaje la ensefianza o la investigacioacuten en el volumen de recursos y publicaciones existentes se estaacute convivendo en un reto impo^ante para los estudiantes y cientiacuteficos Aunado a ello compa^ir recursos metadatos de los recursos y datos a traveacutes de la Web es un principio central en el contexto acadeacutemico y de investigacioacuten La colaboracioacuten cientiacutefica por mucho tiempo ha luchado por reusar y compa^ir maacutes ampliamente el conocimiento y los datos [2]

La educacioacuten por su pa^e ha sufrido importantes cambios propiciados por el desarrollo de las tecnologiacuteas que han modificado las formas de acceso y difusioacuten de la informacioacuten y los modos de comunicacioacuten entre los individuos entre los individuos y las maacutequinas y entre las propias maacutequinas [3]

Los po^ales plataformas y bases de datos de recursos acadeacutemicos disponibles en la Web conforman una gran biblioteca dinaacutemica y creciente con muacuteltiples y diversos puntos de consulta que imponen retos importantes en las tareas de buacutesqueda y recuperacioacuten de informacioacuten relevante para un estudiante docente o investigador

En este sentido resulta relevante el desarrollo de tecnologiacuteas que abonen en el descubrimiento de recursos de intereacutes tomando en cuenta las necesidades de informacioacuten y caracteriacutesticas del usuario

En el presente documento se describen los resultados de la aplicacioacuten de un modelo que considera como insumos de un marco de trabajo de recuperacioacuten de informacioacuten recursosestructurados con el Protocolo para Cosecha de Metadatos de la niciativa de Archivos Abie^os (OAI-PMH) una representacioacuten ontoloacutegica y el contexto del usuario

En un trabajo previo [4] se formularon las generalidades de un modelo preliminar que no habiacutea sido implementado es decir que se encontraba en la fase de disefio Posteriormente con base en eacutel se desarrollaron los componentes

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

Enfoque semacircntico para el descubrimiento de recursos sensible al contexto sobre contenidos acadeacutemicos estructurados 129

- ListMetadataFormats regresa los formatos de metadatos disponibles en el repositorio

- ListSets recupera la estructura de conjuntos de un repositorio

Las respuestas son serializadas en XML con los metadatos de Dublin Core (descritos posteriormente) El proceso de enviacuteo - recepcioacuten de peticiones y respuestas se controla a traveacutes del denominado proceso de cosecha de metadatos Siendo un cosechador el programa que enviacutea peticiones a un proveedor de datos y recibe como respuesta archivos XML con metadatos Dublin Core

22 Dublin Core

La Iniciativa de Metadatos Dublin Core (DC) auspicia el desarrollo de estaacutendares de interoperabilidad a diferentes niveles entre los que se encuentra un conjunto de metadatos para descripciones simples y geneacutericas popularizado por ser parte de las especificaciones del protocolo OAI-PMH

El llamado Dublin Core no calificado es el que originalmente se utiliza para describir recursos con OAI-PMH y contempla los siguientes 15 metadatos [10]

- dctitle- dccreator- dcsubject- dcdescription- dcpublisher- dccontributor- dcdate- dctype- dcformat- dcidentifier- dcsource- dclanguage- dcrelation- dccoverage- dcrights

2-3- Sensibilidad al contexto

La caracteriacutestica de sensibilidad al contexto del usuario en servicios de recuperacioacuten de informacioacuten se refiere a la capacidad de percibir

embargo se habiacutea presentado mucha dificultad para crear servicios de buacutesqueda federada de alta calidad a traveacutes de un gran nuacutemero de servidores autoacutenomos por razones como diferentes interpretaciones de las consultas problemas de escalabilidad dependencia de la disponibilidad de los servidores al momento de la consulta y rendimiento sujeto a la velocidad de respuesta del servidor maacutes lento [8]

Es asiacute que el OAI-PMH se consolida como un estaacutendar de la comunidad de archivos abie^os como resultado de las ventajas que ofrece en comparacioacuten con el Z3950

Este protocolo es un mecanismo de baja barrera para la interoperabilidad de repositorios [9] Define una inte^az que un servidor conectado a la red puede emplear para hacer disponible a aplicaciones externas los metadatos que describen objetos almacenados en ese servidor [8]

En el protocolo se especifican dos tipos de pa^icipantes los proveedores de datos y los proveedores de servicio los primeros encargados de exponer puacuteblicamente los metadatos de su contenido y los segundos a cargo de cosechar metadatos de los proveedores de datos para ofrecer interfaces de integracioacuten y buacutesqueda para el usuario final

Hace uso de peticiones y respuestas HTTP para comunicarse entre un cosechador y un repositorio usando meacutetodos GET o POST Para la conformacioacuten de estas peticiones existe una URL base uacutenica que especifica el servidor y el pue^o y opcionalmente la ruta

Dichas peticiones mejor conocidas como verbos son seis y se concatenan a la URL base Los verbos se describen enseguida [10]

- GetRecord regresa los metadatos de un registro individual

- Identify devuelve la informacioacuten acerca del repositorio

- ListRecords es usado para cosechar los registros de un repositorio argumentos adicionales permiten la cosecha selectiva basada en conjuntos o temporalidad

- ListIdentifiers es una forma abreviada de ListRecords que trae uacutenicamente las cabeceras de los registros

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

130 Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martin Molina Espinosa

todos los aspectos de a publicacioacuten y referencia semaacutentca [18]

Por su pa^e la Ontologiacutea Bibliograacutefica BIBO provee los conceptos y propiedades principales para describir citaciones y referenciasbibliograacuteficas [19]

En cuanto a Dublin Core se refiere la DCMI tambieacuten ha elaborado una ontologiacutea para describir el conjunto de teacuterminos para identificar objetos digitales [20]

Por otro lado se encuentra tambieacuten FOAF un proyecto devoto de vincular personas e informacioacuten usando la Web [21] El espacio de nombres FOAF httpxmlnscomfoaf01 esusado para representar datos acerca de personas tales como nombres fechas de nacimiento y especialmente a la gente con la que serelacionan Es pa^icularmente uacutetil pararepresentar datos de redes sociales

25 Marco de trabajo Jena

Jena proyecto de coacutedigo abierto iniciado por los Laboratorios HP en el 2000 es un marco de trabajo Java para la construccioacuten de aplicaciones de la Web Semaacutentica provee bibliotecas Java para el desarrollo de coacutedigo que maneje RDF RDFS RDFa OWL y SPARQL alineado con las recomendaciones de la W3C [22]

Incluye un motor de inferencia basado en reglas para desempefiar razonamiento basado en ontologias OWL y RDFS y una variedad de estrategias de almacenamiento para tripletas RDF en memoria o en disco

La API ontoloacutegica de Jena provee una interfaz de programacioacuten consistente para el desarrollo de aplicaciones ontoloacutegicas independiente del lenguaje Fue seleccionado para la implementacioacuten de este enfoque dada su solidez y robustez para el desarrollo de aplicaciones de la Web Semaacutentica

3 Descrpcoacuten de )a propuesta

El alcance del enfoque propuesto se restringe al uso de recursos estructurados bajo el protocolo OAI-PMH es decir los datos estructurados en otros formatos o bajo otros protocolos no son considerados en este modelo

informacioacuten de su ambiente para otorgar resultados personalizados Con ello es posible inferir situaciones no explicitadas y asiacute manifestar un compo^amiento inteligente

Especiacuteficamente para el aacutembito educativo muchas plataformas no toman en cuenta las diferentes necesidades del alumno y proveen la misma recuperacioacuten de informacioacuten a todos los usuarios Entonces resulta pe^inente como se menciona en [11] el uso de un modelo de estudiante para permitir la personalizacioacuten efectiva de ambientes de aprendizaje

24 Ontologias

Una ontologiacutea es una especificacioacuten expliacutecita de una conceptualizacioacuten [12]

Se considera conceptualizacioacuten al modelado abstracto de alguacuten fenoacutemeno del mundo identificando sus conceptos relevantes Es expliacutecita dado que el tipo de conceptos usados y sus restricciones son definidos explicitamente Es formal por el hecho de que debe ser legible para maacutequinas y es compa^ida ya que captura el conocimiento consensuado es decir no es privativo de un individuo sino aceptado por un grupo [12 13]

Las ontologias habilitan a una computadora para entender la informacioacuten por siacute misma [14]

Para la ciencia y la educacioacuten un insumo fundamental es la bibliografiacutea asiacute es que la representacioacuten ontoloacutegica de referencias bibliograacuteficas ha sido objeto de diversos desarrollos Entre ellos se encuentra FaBiO una ontologiacutea para registrar y publicar registros bibliograacuteficos en la Web Semaacutentica [15] CiTO una ontologiacutea para citaciones bibliograacuteficas [16] y BIRO la ontologiacutea de referencias bibliograacuteficas [17]

Estas y cinco ontologiacuteas maacutes PRO la ontologiacutea de roles de publicacioacuten PSO la ontologiacutea de estado de la publicacioacuten PWO la ontologiacutea del flujo de trabajo de publicacioacuten C4O la ontologiacutea de caracterizacioacuten del contexto y conteo de citacioacuten y DoCo la ontologiacutea de componentes del documento conforman el conjunto SPAR (Semantic Publishing and Referencing Ontologies) compuesto de moacutedulos para crear metadatos RDF comprehensivos para

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

131

Cosampcha de metadatas OAI-PMH

Transtormacioacuten tie XML a RDF

ل

Vtelidacioacuten de ΒΡΕ

Almacampnannientode tri pi etas

Process nil ientiO en tiempo real

Motor de recuperacioacuten de informacioacuten

Tripetas resultantes

ConsultaCuumlnteKliOdampl usuario

Interfaz de usuario

Fig 1 Diagrama de flujo del proceso

corresponde a la consulta asiacute como la informacioacuten contextual del usuario

Dicha informacioacuten ingresa al motor de recuperacioacuten donde circula por un razonador basado en reglas que procesa la consulta sobre una base de datos de tripletas haciendo uso del API de ontologiacuteas de Jena

El proceso de consulta es en tiempo real sobre datos colectados previamente en un procesamiento por lotes dando como resultado

La pa^e central constituye un motor de recuperacioacuten de informacioacuten sobre ese conjunto de datos

31 Metodologiacutea

En la figura 1 se puede observar el diagrama de flujo del proceso llevado para la implementacioacuten de la propuesta

Se aprecia que la informacioacuten requerida de entrada desde una interfaz de usuario

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

132

proceso de cosecha con el resto dela implementacioacuten

Esta aplicacioacuten se encarga de leer los metadatos de los archivos XML obtenidos de la cosecha OAI-PMH utilizando el API SaxBuilder que permite recuperar los registros convi^ieacutendolos en objetos Enseguida se muestra un ejemplo de registro contenido en un XML deentrada

ltrecordgtlt ltheader

egtfdent10504408ltyco^gedaergtoafdentgtltdatestampgt2007-08-15ltdatestampgt

ltsetSpecgt1405-1435ltsetSpecgtltheadergt

ltmetadatagt dcdc ltoa

xmاnsoaسdc=httpwwwopena٢chveso٢gOAاoa20dc

11xmlnsdc=httppurlorgdcelementsh^ pwwww3org2001XMLSchema xmlnsxs=-

instancevesorgOAI on=h^ pwwwopenarchschemaLocatxs

dc 20oadcxsdgt^vesorgOAI20oah^pwwwopenarch

tirltdctitlegtltdctitlegtLa emergencia del sentido a pa ltdccreatorgtEdgar Morin ltdccreatorgt

ologiacutealtdcsubjectgtltdcsubjectgtSoc doltdcsubjectgtltdcsubjectgtEl no-sent

do del mundoltdcsubjectgtltdcsubjectgtsent dadltdcsubjectgtltdcsubjectgtcomplej

ongtptltdcdescr En este texto se reflexiona sobre el problema del

ongtpt lt dcdescrshergtUniversidad Autoacutenoma del ltdcpubl

shergtltdcpubl ltdcdategt2007ltdcdategt

coltdctypegtentiacutefltdctypegtA^iacuteculo c onpdfltdcformatgtcatltdcformatgtappl

ergtfdentltdc10504408=httpwwwredalycorgarticulooaid

ergtfdentdcgtongtltdcrelat

105=dstaoahttpwwwredalycorarevongtdcrelatgt

ghtsgtaltdcrghtsgtConvergencltdcr a Revista de CienciasltdcsourcegtConvergenc

Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdclanguagegtesltdclanguagegt

ltoai dcdcgtltmetadatagt

lt ltrecord

un conjunto de inferencias correspondientes a recursos de informacioacuten

Los pasos seguidos y componentes de software desarrollados se detallan en los apagados siguientes

32 Cosecha de metadatos OAI-PMH

Se desarrolloacute una aplicacioacuten Java que realiza peticiones HTTP a los proveedores de datos haciendo uso del verbo ListRecords del OAI- PMH Con ello se obtienen archivos en formato XML con los datos descritos en el conjunto simple de metadatos de Dublin Core Dentro de estos archivos XML se encuentran registros (ltrecordgt) El nuacutemero de registros por archivo depende de la confguracioacuten de cada repositorio cosechado y estos pueden variar desde 1 hasta n

33 Transform acioacuten a RDF

Muchas instituciones dan acceso a sus repositorios de metadatos a traveacutes de OAI-PMH pero no hacen que sus recursos sean accesibles a traveacutes de URIs desreferenciables cosa que provoca restricciones de significado y hace que quede restringido el acceso a los metadatos [23] Por esta razoacuten es necesario hacer uso de un conve^idor a RDF con la intencioacuten de transformar los metadatos contenidos en un repositorio OAI- PMH a RDF

Se han desarrollado diversos proyectos que permiten explotar datos estructurados y dotarlos de caracteriacutesticas propias de aplicaciones semaacutenticas como lo es OAI2LOD Server un desarrollo para exponer metadatos OAI-PMH como Linked Data [24] Dentro de este tipo de proyectos wrapper tambieacuten se puede encontrar D2R [25]

Para este trabajo se proboacute un desarrollo enmarcado en los llamados RDFizers software de conversioacuten a RDF llamado OAI2RDF como un componente en la arquitectura [26] Laherramienta realiza esta tarea con una transformacioacuten loacutegica que se hace a traveacutes de hojas XSLT que se invocan una vez que los datos han sido entregados

Sin embargo se optoacute por desarrollar una aplicacioacuten de software para realizar esta tarea dado que esto permitia una mejor integracioacuten del

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

133

34 Modelo Ontoloacutegico y va ldacoacuten

El componente ontoloacutegico integra dos ontologiacuteas una de ellas Dublin Core dado que los recursos que alimentan la base de conocimiento estaacuten estructurados con metadatos DC al estar bajo el estaacutendar OAI-PMH

El estaacutendar Dublin Core original incluiacutea el nivel simple y el calificado el primero compuesto de 15 elementos y el cual se utiliza para descripcioacuten de recursos con OAI-PMH bajo el espacio de nombres httppurlorgdcelements11 Sin embargo para este trabajo se utiliza el espacio de nombres httppurlorgdcterms la razoacuten radica en que a pa^ir del afio 2012 la DCMI (Dublin Core Metadata Initiative) incorpora los dos niveles en este espacio de nombres

La segunda ontologiacutea es FOAF La intencioacuten del uso de FOAF en este proyecto es explorar su adaptacioacuten para tratar la informacioacuten sobre los autores de los a^iacuteculos libros y otros recursos acadeacutemicos Aunado a esto se pueden incluso expresar sus relaciones sociales basadas en coautoriacutea para poder determinar recursos relacionados

De este modo es posible modelar las propiedades de un recurso con su autor como en la figura 2 donde por ejemplo un investigador es un autor de una publicacioacuten (dccreator) pero a la vez es una persona (foafperson) con propiedades individuales Asimismo estaacuten representadas por un lado la relacioacuten de autoriacutea entre una publicacioacuten y un investigador y la de coautoriacutea de un investigador con otro u otros con los que escribe en conjunto una publicacioacuten (figura 3)

Por otro lado es impo^ante recordar que las ontologiacuteas son desarrolladas a diferentes niveles de abstraccioacuten por personas distintas y para diversos propoacutesitos El conocimiento representado por las ontologiacuteas se dispersa debido a la existencia de muchas ontologiacuteas representando los mismos conceptos es asiacute que se vuelve difiacutecil analizar estudiar y usar el conocimiento propagado a traveacutes de muacuteltiples ontologiacuteas si se estudian individualmente [27]

La teacutecnica para combinar en una sola ontologiacutea el conocimiento representado en varias ontologiacuteas es la unioacuten o merge Con este

Posteriormente se creoacute un modelo en Jena a pa^ir de listas de los objetos recuperados y se definioacute un esquema compatible con el estaacutendar Dublin Core para generar un archivo RDFXML

Los datos del autor son enriquecidos para agregar relaciones de coautoriacutea y maacutes datos acerca del autor Estos metadatos pueden extenderse en tanto los conjuntos de datos usados como fuente contengan informacioacuten sobre los autores y son expresados con FOAF de la siguiente forma

ltdccreato rdftype=[httpxmlnscomfoaf01Person] foafname=[Nombre completo] foafgivenName=[Nombre] foafsurname=[Apelldos] foaf knows=[Persona conocda o coautor] foaftopic_interest=[7ema de intereacutes] dcdescription=[Ocupacoacuten grado etc ] ontobirthDate=[fecha de nacmento] gt

Un ejemplo de salida es el que se muestra a continuacioacuten

ltrdfDescription rdfabout= oaredalycorg10504408gtltdclanguagegtesltdclanguagegtltdc٢ightsgtConve٢gencialtdc٢ightsgt

ltdcsubjectgtsentido del mundoltdcsubjectgt ltdctermsmodified rdfresource=2007-08-15gt ltdctypegtA^iacuteculo cientiacuteficoltdctypegt ltdcsourcegtConvergencia Revista de Ciencias Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdctitlegtLa emergencia del sentido a pa^ir del no-

sentidoltdctitlegtltdctermsisPa^Of rdf resource=set1405-1435gt ltdcformatgtapplication_pdfltdcformatgt ltdcpublishegtUniversidad Autoacutenoma del Estado de MeacutexicoltdcpublishegtltdcsubjectgtEl no-sentidoltdcsubjectgtltdcidentifierrdfresource=httpwwwredalycorgartculooad=10504408gtltdccreator rdftype=httpxmlnscomfoaf01Person

foafname=Edgar MorngtEdgar Morinltdccreatorgt ltdcrelationgth^pwwwredalycorgrevistaoaid=105lt dcrelationgtltdcdescriptiongtEn este texto se reflexiona sobre ltdcdescriptiongtltdcsubjectgtSociologiacutealtdcsubjectgtltdcdategt2007ltdcdategtltdcsubjectgtcomplejidadltdcsubjectgtltrdfDescriptiongt

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

134

Fig 2 Modelo ontoloacutegico con Dublin Core y Friend of a Friend

coautor

I G rado ]

Fig 3 Relaciones de autoriacutea y coautoriacutea

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

135

A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t

euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s

C o llec tion ٠ middotConcept

euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource

copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠

F requency ٠ euro Im a g e O b je c t = Im a g e

Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠

Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠

A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠

O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person

P hys ica l R esource1٠P o licy ٠ P ro je c t ٠

P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠

S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠

Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute

De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF

35 Alm acenam iento

El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF

36 M otor de recuperacioacuten de informacioacuten

El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6

procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis

Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada

Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]

La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades

Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

136

Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource

Motor de recuperacioacuten de informacioacute

Razonador

API de inferencia Jena

RDFSRuleReasoner

Motor de reglas Jena

Modelo de Ontologia

de Jena ه0وهاوع^ API ا

Ontologia DC FOAF

API de almacenamiento Jena

T D B

Fig 6 Arquitectura

Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas

La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil

El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica

El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

137

Tabla 1 Resultados del proceso de cosecha OAI-PMH

Redalycorg RUDAR

Archivos XML 17328 121Registros DC 346557 12011

a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento

b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final

4 Resultados

Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]

A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea

1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La

del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta

Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes

Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases

- Student representa cualquier estudiante- StudentCourseInformation comprende

informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros

- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso

- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante

37 Procesam iento de la informacioacuten

371 Procesam iento en tiem po real

El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad

372 Procesam iento por lotes

La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa

Fig 7 Grafo de relacioacuten entre las instancias de ejemplo

4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338

5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno

ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt

cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)

2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos

3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

139

- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante

Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten

5 Trabajos relacionados

Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores

Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]

Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data

Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado

6 Conclusiones y trabajo futuro

El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos

ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt

ltstudentdemographicDatagtbrltstudentdemographic

ltrdfDescriptiongt

El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo

Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo

Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada

Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo

En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo

- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo

Hecho derivado

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa

CNI and SPARC Association of Research Libraries Washington DC

8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press

9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA

10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20

11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037

12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928

13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197

14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39

15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001

16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6

17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet

18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro

19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom

20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms

El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia

Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica

Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL

Referencias

1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann

2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2

3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147

4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas

5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg

6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml

7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

141

Communications of the ACM Vol 57 No 1ه pp78-85

34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning

35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه

36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13

37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16

Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales

Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor

21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec

22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml

23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia

24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China

25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf

26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf

27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu

28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42

29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer

30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64

31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه

32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565

33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

142

investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico

Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea

Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey

Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

Page 3: Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos

ISSN 2007-9737

Enfoque semacircntico para el descubrimiento de recursos sensible al contexto sobre contenidos acadeacutemicos estructurados 129

- ListMetadataFormats regresa los formatos de metadatos disponibles en el repositorio

- ListSets recupera la estructura de conjuntos de un repositorio

Las respuestas son serializadas en XML con los metadatos de Dublin Core (descritos posteriormente) El proceso de enviacuteo - recepcioacuten de peticiones y respuestas se controla a traveacutes del denominado proceso de cosecha de metadatos Siendo un cosechador el programa que enviacutea peticiones a un proveedor de datos y recibe como respuesta archivos XML con metadatos Dublin Core

22 Dublin Core

La Iniciativa de Metadatos Dublin Core (DC) auspicia el desarrollo de estaacutendares de interoperabilidad a diferentes niveles entre los que se encuentra un conjunto de metadatos para descripciones simples y geneacutericas popularizado por ser parte de las especificaciones del protocolo OAI-PMH

El llamado Dublin Core no calificado es el que originalmente se utiliza para describir recursos con OAI-PMH y contempla los siguientes 15 metadatos [10]

- dctitle- dccreator- dcsubject- dcdescription- dcpublisher- dccontributor- dcdate- dctype- dcformat- dcidentifier- dcsource- dclanguage- dcrelation- dccoverage- dcrights

2-3- Sensibilidad al contexto

La caracteriacutestica de sensibilidad al contexto del usuario en servicios de recuperacioacuten de informacioacuten se refiere a la capacidad de percibir

embargo se habiacutea presentado mucha dificultad para crear servicios de buacutesqueda federada de alta calidad a traveacutes de un gran nuacutemero de servidores autoacutenomos por razones como diferentes interpretaciones de las consultas problemas de escalabilidad dependencia de la disponibilidad de los servidores al momento de la consulta y rendimiento sujeto a la velocidad de respuesta del servidor maacutes lento [8]

Es asiacute que el OAI-PMH se consolida como un estaacutendar de la comunidad de archivos abie^os como resultado de las ventajas que ofrece en comparacioacuten con el Z3950

Este protocolo es un mecanismo de baja barrera para la interoperabilidad de repositorios [9] Define una inte^az que un servidor conectado a la red puede emplear para hacer disponible a aplicaciones externas los metadatos que describen objetos almacenados en ese servidor [8]

En el protocolo se especifican dos tipos de pa^icipantes los proveedores de datos y los proveedores de servicio los primeros encargados de exponer puacuteblicamente los metadatos de su contenido y los segundos a cargo de cosechar metadatos de los proveedores de datos para ofrecer interfaces de integracioacuten y buacutesqueda para el usuario final

Hace uso de peticiones y respuestas HTTP para comunicarse entre un cosechador y un repositorio usando meacutetodos GET o POST Para la conformacioacuten de estas peticiones existe una URL base uacutenica que especifica el servidor y el pue^o y opcionalmente la ruta

Dichas peticiones mejor conocidas como verbos son seis y se concatenan a la URL base Los verbos se describen enseguida [10]

- GetRecord regresa los metadatos de un registro individual

- Identify devuelve la informacioacuten acerca del repositorio

- ListRecords es usado para cosechar los registros de un repositorio argumentos adicionales permiten la cosecha selectiva basada en conjuntos o temporalidad

- ListIdentifiers es una forma abreviada de ListRecords que trae uacutenicamente las cabeceras de los registros

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

130 Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martin Molina Espinosa

todos los aspectos de a publicacioacuten y referencia semaacutentca [18]

Por su pa^e la Ontologiacutea Bibliograacutefica BIBO provee los conceptos y propiedades principales para describir citaciones y referenciasbibliograacuteficas [19]

En cuanto a Dublin Core se refiere la DCMI tambieacuten ha elaborado una ontologiacutea para describir el conjunto de teacuterminos para identificar objetos digitales [20]

Por otro lado se encuentra tambieacuten FOAF un proyecto devoto de vincular personas e informacioacuten usando la Web [21] El espacio de nombres FOAF httpxmlnscomfoaf01 esusado para representar datos acerca de personas tales como nombres fechas de nacimiento y especialmente a la gente con la que serelacionan Es pa^icularmente uacutetil pararepresentar datos de redes sociales

25 Marco de trabajo Jena

Jena proyecto de coacutedigo abierto iniciado por los Laboratorios HP en el 2000 es un marco de trabajo Java para la construccioacuten de aplicaciones de la Web Semaacutentica provee bibliotecas Java para el desarrollo de coacutedigo que maneje RDF RDFS RDFa OWL y SPARQL alineado con las recomendaciones de la W3C [22]

Incluye un motor de inferencia basado en reglas para desempefiar razonamiento basado en ontologias OWL y RDFS y una variedad de estrategias de almacenamiento para tripletas RDF en memoria o en disco

La API ontoloacutegica de Jena provee una interfaz de programacioacuten consistente para el desarrollo de aplicaciones ontoloacutegicas independiente del lenguaje Fue seleccionado para la implementacioacuten de este enfoque dada su solidez y robustez para el desarrollo de aplicaciones de la Web Semaacutentica

3 Descrpcoacuten de )a propuesta

El alcance del enfoque propuesto se restringe al uso de recursos estructurados bajo el protocolo OAI-PMH es decir los datos estructurados en otros formatos o bajo otros protocolos no son considerados en este modelo

informacioacuten de su ambiente para otorgar resultados personalizados Con ello es posible inferir situaciones no explicitadas y asiacute manifestar un compo^amiento inteligente

Especiacuteficamente para el aacutembito educativo muchas plataformas no toman en cuenta las diferentes necesidades del alumno y proveen la misma recuperacioacuten de informacioacuten a todos los usuarios Entonces resulta pe^inente como se menciona en [11] el uso de un modelo de estudiante para permitir la personalizacioacuten efectiva de ambientes de aprendizaje

24 Ontologias

Una ontologiacutea es una especificacioacuten expliacutecita de una conceptualizacioacuten [12]

Se considera conceptualizacioacuten al modelado abstracto de alguacuten fenoacutemeno del mundo identificando sus conceptos relevantes Es expliacutecita dado que el tipo de conceptos usados y sus restricciones son definidos explicitamente Es formal por el hecho de que debe ser legible para maacutequinas y es compa^ida ya que captura el conocimiento consensuado es decir no es privativo de un individuo sino aceptado por un grupo [12 13]

Las ontologias habilitan a una computadora para entender la informacioacuten por siacute misma [14]

Para la ciencia y la educacioacuten un insumo fundamental es la bibliografiacutea asiacute es que la representacioacuten ontoloacutegica de referencias bibliograacuteficas ha sido objeto de diversos desarrollos Entre ellos se encuentra FaBiO una ontologiacutea para registrar y publicar registros bibliograacuteficos en la Web Semaacutentica [15] CiTO una ontologiacutea para citaciones bibliograacuteficas [16] y BIRO la ontologiacutea de referencias bibliograacuteficas [17]

Estas y cinco ontologiacuteas maacutes PRO la ontologiacutea de roles de publicacioacuten PSO la ontologiacutea de estado de la publicacioacuten PWO la ontologiacutea del flujo de trabajo de publicacioacuten C4O la ontologiacutea de caracterizacioacuten del contexto y conteo de citacioacuten y DoCo la ontologiacutea de componentes del documento conforman el conjunto SPAR (Semantic Publishing and Referencing Ontologies) compuesto de moacutedulos para crear metadatos RDF comprehensivos para

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

131

Cosampcha de metadatas OAI-PMH

Transtormacioacuten tie XML a RDF

ل

Vtelidacioacuten de ΒΡΕ

Almacampnannientode tri pi etas

Process nil ientiO en tiempo real

Motor de recuperacioacuten de informacioacuten

Tripetas resultantes

ConsultaCuumlnteKliOdampl usuario

Interfaz de usuario

Fig 1 Diagrama de flujo del proceso

corresponde a la consulta asiacute como la informacioacuten contextual del usuario

Dicha informacioacuten ingresa al motor de recuperacioacuten donde circula por un razonador basado en reglas que procesa la consulta sobre una base de datos de tripletas haciendo uso del API de ontologiacuteas de Jena

El proceso de consulta es en tiempo real sobre datos colectados previamente en un procesamiento por lotes dando como resultado

La pa^e central constituye un motor de recuperacioacuten de informacioacuten sobre ese conjunto de datos

31 Metodologiacutea

En la figura 1 se puede observar el diagrama de flujo del proceso llevado para la implementacioacuten de la propuesta

Se aprecia que la informacioacuten requerida de entrada desde una interfaz de usuario

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

132

proceso de cosecha con el resto dela implementacioacuten

Esta aplicacioacuten se encarga de leer los metadatos de los archivos XML obtenidos de la cosecha OAI-PMH utilizando el API SaxBuilder que permite recuperar los registros convi^ieacutendolos en objetos Enseguida se muestra un ejemplo de registro contenido en un XML deentrada

ltrecordgtlt ltheader

egtfdent10504408ltyco^gedaergtoafdentgtltdatestampgt2007-08-15ltdatestampgt

ltsetSpecgt1405-1435ltsetSpecgtltheadergt

ltmetadatagt dcdc ltoa

xmاnsoaسdc=httpwwwopena٢chveso٢gOAاoa20dc

11xmlnsdc=httppurlorgdcelementsh^ pwwww3org2001XMLSchema xmlnsxs=-

instancevesorgOAI on=h^ pwwwopenarchschemaLocatxs

dc 20oadcxsdgt^vesorgOAI20oah^pwwwopenarch

tirltdctitlegtltdctitlegtLa emergencia del sentido a pa ltdccreatorgtEdgar Morin ltdccreatorgt

ologiacutealtdcsubjectgtltdcsubjectgtSoc doltdcsubjectgtltdcsubjectgtEl no-sent

do del mundoltdcsubjectgtltdcsubjectgtsent dadltdcsubjectgtltdcsubjectgtcomplej

ongtptltdcdescr En este texto se reflexiona sobre el problema del

ongtpt lt dcdescrshergtUniversidad Autoacutenoma del ltdcpubl

shergtltdcpubl ltdcdategt2007ltdcdategt

coltdctypegtentiacutefltdctypegtA^iacuteculo c onpdfltdcformatgtcatltdcformatgtappl

ergtfdentltdc10504408=httpwwwredalycorgarticulooaid

ergtfdentdcgtongtltdcrelat

105=dstaoahttpwwwredalycorarevongtdcrelatgt

ghtsgtaltdcrghtsgtConvergencltdcr a Revista de CienciasltdcsourcegtConvergenc

Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdclanguagegtesltdclanguagegt

ltoai dcdcgtltmetadatagt

lt ltrecord

un conjunto de inferencias correspondientes a recursos de informacioacuten

Los pasos seguidos y componentes de software desarrollados se detallan en los apagados siguientes

32 Cosecha de metadatos OAI-PMH

Se desarrolloacute una aplicacioacuten Java que realiza peticiones HTTP a los proveedores de datos haciendo uso del verbo ListRecords del OAI- PMH Con ello se obtienen archivos en formato XML con los datos descritos en el conjunto simple de metadatos de Dublin Core Dentro de estos archivos XML se encuentran registros (ltrecordgt) El nuacutemero de registros por archivo depende de la confguracioacuten de cada repositorio cosechado y estos pueden variar desde 1 hasta n

33 Transform acioacuten a RDF

Muchas instituciones dan acceso a sus repositorios de metadatos a traveacutes de OAI-PMH pero no hacen que sus recursos sean accesibles a traveacutes de URIs desreferenciables cosa que provoca restricciones de significado y hace que quede restringido el acceso a los metadatos [23] Por esta razoacuten es necesario hacer uso de un conve^idor a RDF con la intencioacuten de transformar los metadatos contenidos en un repositorio OAI- PMH a RDF

Se han desarrollado diversos proyectos que permiten explotar datos estructurados y dotarlos de caracteriacutesticas propias de aplicaciones semaacutenticas como lo es OAI2LOD Server un desarrollo para exponer metadatos OAI-PMH como Linked Data [24] Dentro de este tipo de proyectos wrapper tambieacuten se puede encontrar D2R [25]

Para este trabajo se proboacute un desarrollo enmarcado en los llamados RDFizers software de conversioacuten a RDF llamado OAI2RDF como un componente en la arquitectura [26] Laherramienta realiza esta tarea con una transformacioacuten loacutegica que se hace a traveacutes de hojas XSLT que se invocan una vez que los datos han sido entregados

Sin embargo se optoacute por desarrollar una aplicacioacuten de software para realizar esta tarea dado que esto permitia una mejor integracioacuten del

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

133

34 Modelo Ontoloacutegico y va ldacoacuten

El componente ontoloacutegico integra dos ontologiacuteas una de ellas Dublin Core dado que los recursos que alimentan la base de conocimiento estaacuten estructurados con metadatos DC al estar bajo el estaacutendar OAI-PMH

El estaacutendar Dublin Core original incluiacutea el nivel simple y el calificado el primero compuesto de 15 elementos y el cual se utiliza para descripcioacuten de recursos con OAI-PMH bajo el espacio de nombres httppurlorgdcelements11 Sin embargo para este trabajo se utiliza el espacio de nombres httppurlorgdcterms la razoacuten radica en que a pa^ir del afio 2012 la DCMI (Dublin Core Metadata Initiative) incorpora los dos niveles en este espacio de nombres

La segunda ontologiacutea es FOAF La intencioacuten del uso de FOAF en este proyecto es explorar su adaptacioacuten para tratar la informacioacuten sobre los autores de los a^iacuteculos libros y otros recursos acadeacutemicos Aunado a esto se pueden incluso expresar sus relaciones sociales basadas en coautoriacutea para poder determinar recursos relacionados

De este modo es posible modelar las propiedades de un recurso con su autor como en la figura 2 donde por ejemplo un investigador es un autor de una publicacioacuten (dccreator) pero a la vez es una persona (foafperson) con propiedades individuales Asimismo estaacuten representadas por un lado la relacioacuten de autoriacutea entre una publicacioacuten y un investigador y la de coautoriacutea de un investigador con otro u otros con los que escribe en conjunto una publicacioacuten (figura 3)

Por otro lado es impo^ante recordar que las ontologiacuteas son desarrolladas a diferentes niveles de abstraccioacuten por personas distintas y para diversos propoacutesitos El conocimiento representado por las ontologiacuteas se dispersa debido a la existencia de muchas ontologiacuteas representando los mismos conceptos es asiacute que se vuelve difiacutecil analizar estudiar y usar el conocimiento propagado a traveacutes de muacuteltiples ontologiacuteas si se estudian individualmente [27]

La teacutecnica para combinar en una sola ontologiacutea el conocimiento representado en varias ontologiacuteas es la unioacuten o merge Con este

Posteriormente se creoacute un modelo en Jena a pa^ir de listas de los objetos recuperados y se definioacute un esquema compatible con el estaacutendar Dublin Core para generar un archivo RDFXML

Los datos del autor son enriquecidos para agregar relaciones de coautoriacutea y maacutes datos acerca del autor Estos metadatos pueden extenderse en tanto los conjuntos de datos usados como fuente contengan informacioacuten sobre los autores y son expresados con FOAF de la siguiente forma

ltdccreato rdftype=[httpxmlnscomfoaf01Person] foafname=[Nombre completo] foafgivenName=[Nombre] foafsurname=[Apelldos] foaf knows=[Persona conocda o coautor] foaftopic_interest=[7ema de intereacutes] dcdescription=[Ocupacoacuten grado etc ] ontobirthDate=[fecha de nacmento] gt

Un ejemplo de salida es el que se muestra a continuacioacuten

ltrdfDescription rdfabout= oaredalycorg10504408gtltdclanguagegtesltdclanguagegtltdc٢ightsgtConve٢gencialtdc٢ightsgt

ltdcsubjectgtsentido del mundoltdcsubjectgt ltdctermsmodified rdfresource=2007-08-15gt ltdctypegtA^iacuteculo cientiacuteficoltdctypegt ltdcsourcegtConvergencia Revista de Ciencias Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdctitlegtLa emergencia del sentido a pa^ir del no-

sentidoltdctitlegtltdctermsisPa^Of rdf resource=set1405-1435gt ltdcformatgtapplication_pdfltdcformatgt ltdcpublishegtUniversidad Autoacutenoma del Estado de MeacutexicoltdcpublishegtltdcsubjectgtEl no-sentidoltdcsubjectgtltdcidentifierrdfresource=httpwwwredalycorgartculooad=10504408gtltdccreator rdftype=httpxmlnscomfoaf01Person

foafname=Edgar MorngtEdgar Morinltdccreatorgt ltdcrelationgth^pwwwredalycorgrevistaoaid=105lt dcrelationgtltdcdescriptiongtEn este texto se reflexiona sobre ltdcdescriptiongtltdcsubjectgtSociologiacutealtdcsubjectgtltdcdategt2007ltdcdategtltdcsubjectgtcomplejidadltdcsubjectgtltrdfDescriptiongt

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

134

Fig 2 Modelo ontoloacutegico con Dublin Core y Friend of a Friend

coautor

I G rado ]

Fig 3 Relaciones de autoriacutea y coautoriacutea

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

135

A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t

euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s

C o llec tion ٠ middotConcept

euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource

copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠

F requency ٠ euro Im a g e O b je c t = Im a g e

Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠

Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠

A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠

O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person

P hys ica l R esource1٠P o licy ٠ P ro je c t ٠

P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠

S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠

Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute

De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF

35 Alm acenam iento

El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF

36 M otor de recuperacioacuten de informacioacuten

El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6

procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis

Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada

Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]

La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades

Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

136

Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource

Motor de recuperacioacuten de informacioacute

Razonador

API de inferencia Jena

RDFSRuleReasoner

Motor de reglas Jena

Modelo de Ontologia

de Jena ه0وهاوع^ API ا

Ontologia DC FOAF

API de almacenamiento Jena

T D B

Fig 6 Arquitectura

Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas

La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil

El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica

El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

137

Tabla 1 Resultados del proceso de cosecha OAI-PMH

Redalycorg RUDAR

Archivos XML 17328 121Registros DC 346557 12011

a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento

b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final

4 Resultados

Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]

A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea

1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La

del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta

Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes

Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases

- Student representa cualquier estudiante- StudentCourseInformation comprende

informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros

- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso

- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante

37 Procesam iento de la informacioacuten

371 Procesam iento en tiem po real

El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad

372 Procesam iento por lotes

La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa

Fig 7 Grafo de relacioacuten entre las instancias de ejemplo

4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338

5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno

ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt

cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)

2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos

3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

139

- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante

Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten

5 Trabajos relacionados

Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores

Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]

Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data

Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado

6 Conclusiones y trabajo futuro

El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos

ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt

ltstudentdemographicDatagtbrltstudentdemographic

ltrdfDescriptiongt

El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo

Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo

Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada

Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo

En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo

- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo

Hecho derivado

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa

CNI and SPARC Association of Research Libraries Washington DC

8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press

9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA

10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20

11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037

12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928

13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197

14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39

15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001

16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6

17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet

18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro

19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom

20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms

El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia

Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica

Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL

Referencias

1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann

2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2

3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147

4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas

5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg

6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml

7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

141

Communications of the ACM Vol 57 No 1ه pp78-85

34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning

35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه

36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13

37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16

Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales

Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor

21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec

22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml

23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia

24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China

25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf

26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf

27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu

28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42

29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer

30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64

31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه

32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565

33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

142

investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico

Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea

Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey

Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

Page 4: Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos

ISSN 2007-9737

130 Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martin Molina Espinosa

todos los aspectos de a publicacioacuten y referencia semaacutentca [18]

Por su pa^e la Ontologiacutea Bibliograacutefica BIBO provee los conceptos y propiedades principales para describir citaciones y referenciasbibliograacuteficas [19]

En cuanto a Dublin Core se refiere la DCMI tambieacuten ha elaborado una ontologiacutea para describir el conjunto de teacuterminos para identificar objetos digitales [20]

Por otro lado se encuentra tambieacuten FOAF un proyecto devoto de vincular personas e informacioacuten usando la Web [21] El espacio de nombres FOAF httpxmlnscomfoaf01 esusado para representar datos acerca de personas tales como nombres fechas de nacimiento y especialmente a la gente con la que serelacionan Es pa^icularmente uacutetil pararepresentar datos de redes sociales

25 Marco de trabajo Jena

Jena proyecto de coacutedigo abierto iniciado por los Laboratorios HP en el 2000 es un marco de trabajo Java para la construccioacuten de aplicaciones de la Web Semaacutentica provee bibliotecas Java para el desarrollo de coacutedigo que maneje RDF RDFS RDFa OWL y SPARQL alineado con las recomendaciones de la W3C [22]

Incluye un motor de inferencia basado en reglas para desempefiar razonamiento basado en ontologias OWL y RDFS y una variedad de estrategias de almacenamiento para tripletas RDF en memoria o en disco

La API ontoloacutegica de Jena provee una interfaz de programacioacuten consistente para el desarrollo de aplicaciones ontoloacutegicas independiente del lenguaje Fue seleccionado para la implementacioacuten de este enfoque dada su solidez y robustez para el desarrollo de aplicaciones de la Web Semaacutentica

3 Descrpcoacuten de )a propuesta

El alcance del enfoque propuesto se restringe al uso de recursos estructurados bajo el protocolo OAI-PMH es decir los datos estructurados en otros formatos o bajo otros protocolos no son considerados en este modelo

informacioacuten de su ambiente para otorgar resultados personalizados Con ello es posible inferir situaciones no explicitadas y asiacute manifestar un compo^amiento inteligente

Especiacuteficamente para el aacutembito educativo muchas plataformas no toman en cuenta las diferentes necesidades del alumno y proveen la misma recuperacioacuten de informacioacuten a todos los usuarios Entonces resulta pe^inente como se menciona en [11] el uso de un modelo de estudiante para permitir la personalizacioacuten efectiva de ambientes de aprendizaje

24 Ontologias

Una ontologiacutea es una especificacioacuten expliacutecita de una conceptualizacioacuten [12]

Se considera conceptualizacioacuten al modelado abstracto de alguacuten fenoacutemeno del mundo identificando sus conceptos relevantes Es expliacutecita dado que el tipo de conceptos usados y sus restricciones son definidos explicitamente Es formal por el hecho de que debe ser legible para maacutequinas y es compa^ida ya que captura el conocimiento consensuado es decir no es privativo de un individuo sino aceptado por un grupo [12 13]

Las ontologias habilitan a una computadora para entender la informacioacuten por siacute misma [14]

Para la ciencia y la educacioacuten un insumo fundamental es la bibliografiacutea asiacute es que la representacioacuten ontoloacutegica de referencias bibliograacuteficas ha sido objeto de diversos desarrollos Entre ellos se encuentra FaBiO una ontologiacutea para registrar y publicar registros bibliograacuteficos en la Web Semaacutentica [15] CiTO una ontologiacutea para citaciones bibliograacuteficas [16] y BIRO la ontologiacutea de referencias bibliograacuteficas [17]

Estas y cinco ontologiacuteas maacutes PRO la ontologiacutea de roles de publicacioacuten PSO la ontologiacutea de estado de la publicacioacuten PWO la ontologiacutea del flujo de trabajo de publicacioacuten C4O la ontologiacutea de caracterizacioacuten del contexto y conteo de citacioacuten y DoCo la ontologiacutea de componentes del documento conforman el conjunto SPAR (Semantic Publishing and Referencing Ontologies) compuesto de moacutedulos para crear metadatos RDF comprehensivos para

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

131

Cosampcha de metadatas OAI-PMH

Transtormacioacuten tie XML a RDF

ل

Vtelidacioacuten de ΒΡΕ

Almacampnannientode tri pi etas

Process nil ientiO en tiempo real

Motor de recuperacioacuten de informacioacuten

Tripetas resultantes

ConsultaCuumlnteKliOdampl usuario

Interfaz de usuario

Fig 1 Diagrama de flujo del proceso

corresponde a la consulta asiacute como la informacioacuten contextual del usuario

Dicha informacioacuten ingresa al motor de recuperacioacuten donde circula por un razonador basado en reglas que procesa la consulta sobre una base de datos de tripletas haciendo uso del API de ontologiacuteas de Jena

El proceso de consulta es en tiempo real sobre datos colectados previamente en un procesamiento por lotes dando como resultado

La pa^e central constituye un motor de recuperacioacuten de informacioacuten sobre ese conjunto de datos

31 Metodologiacutea

En la figura 1 se puede observar el diagrama de flujo del proceso llevado para la implementacioacuten de la propuesta

Se aprecia que la informacioacuten requerida de entrada desde una interfaz de usuario

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

132

proceso de cosecha con el resto dela implementacioacuten

Esta aplicacioacuten se encarga de leer los metadatos de los archivos XML obtenidos de la cosecha OAI-PMH utilizando el API SaxBuilder que permite recuperar los registros convi^ieacutendolos en objetos Enseguida se muestra un ejemplo de registro contenido en un XML deentrada

ltrecordgtlt ltheader

egtfdent10504408ltyco^gedaergtoafdentgtltdatestampgt2007-08-15ltdatestampgt

ltsetSpecgt1405-1435ltsetSpecgtltheadergt

ltmetadatagt dcdc ltoa

xmاnsoaسdc=httpwwwopena٢chveso٢gOAاoa20dc

11xmlnsdc=httppurlorgdcelementsh^ pwwww3org2001XMLSchema xmlnsxs=-

instancevesorgOAI on=h^ pwwwopenarchschemaLocatxs

dc 20oadcxsdgt^vesorgOAI20oah^pwwwopenarch

tirltdctitlegtltdctitlegtLa emergencia del sentido a pa ltdccreatorgtEdgar Morin ltdccreatorgt

ologiacutealtdcsubjectgtltdcsubjectgtSoc doltdcsubjectgtltdcsubjectgtEl no-sent

do del mundoltdcsubjectgtltdcsubjectgtsent dadltdcsubjectgtltdcsubjectgtcomplej

ongtptltdcdescr En este texto se reflexiona sobre el problema del

ongtpt lt dcdescrshergtUniversidad Autoacutenoma del ltdcpubl

shergtltdcpubl ltdcdategt2007ltdcdategt

coltdctypegtentiacutefltdctypegtA^iacuteculo c onpdfltdcformatgtcatltdcformatgtappl

ergtfdentltdc10504408=httpwwwredalycorgarticulooaid

ergtfdentdcgtongtltdcrelat

105=dstaoahttpwwwredalycorarevongtdcrelatgt

ghtsgtaltdcrghtsgtConvergencltdcr a Revista de CienciasltdcsourcegtConvergenc

Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdclanguagegtesltdclanguagegt

ltoai dcdcgtltmetadatagt

lt ltrecord

un conjunto de inferencias correspondientes a recursos de informacioacuten

Los pasos seguidos y componentes de software desarrollados se detallan en los apagados siguientes

32 Cosecha de metadatos OAI-PMH

Se desarrolloacute una aplicacioacuten Java que realiza peticiones HTTP a los proveedores de datos haciendo uso del verbo ListRecords del OAI- PMH Con ello se obtienen archivos en formato XML con los datos descritos en el conjunto simple de metadatos de Dublin Core Dentro de estos archivos XML se encuentran registros (ltrecordgt) El nuacutemero de registros por archivo depende de la confguracioacuten de cada repositorio cosechado y estos pueden variar desde 1 hasta n

33 Transform acioacuten a RDF

Muchas instituciones dan acceso a sus repositorios de metadatos a traveacutes de OAI-PMH pero no hacen que sus recursos sean accesibles a traveacutes de URIs desreferenciables cosa que provoca restricciones de significado y hace que quede restringido el acceso a los metadatos [23] Por esta razoacuten es necesario hacer uso de un conve^idor a RDF con la intencioacuten de transformar los metadatos contenidos en un repositorio OAI- PMH a RDF

Se han desarrollado diversos proyectos que permiten explotar datos estructurados y dotarlos de caracteriacutesticas propias de aplicaciones semaacutenticas como lo es OAI2LOD Server un desarrollo para exponer metadatos OAI-PMH como Linked Data [24] Dentro de este tipo de proyectos wrapper tambieacuten se puede encontrar D2R [25]

Para este trabajo se proboacute un desarrollo enmarcado en los llamados RDFizers software de conversioacuten a RDF llamado OAI2RDF como un componente en la arquitectura [26] Laherramienta realiza esta tarea con una transformacioacuten loacutegica que se hace a traveacutes de hojas XSLT que se invocan una vez que los datos han sido entregados

Sin embargo se optoacute por desarrollar una aplicacioacuten de software para realizar esta tarea dado que esto permitia una mejor integracioacuten del

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

133

34 Modelo Ontoloacutegico y va ldacoacuten

El componente ontoloacutegico integra dos ontologiacuteas una de ellas Dublin Core dado que los recursos que alimentan la base de conocimiento estaacuten estructurados con metadatos DC al estar bajo el estaacutendar OAI-PMH

El estaacutendar Dublin Core original incluiacutea el nivel simple y el calificado el primero compuesto de 15 elementos y el cual se utiliza para descripcioacuten de recursos con OAI-PMH bajo el espacio de nombres httppurlorgdcelements11 Sin embargo para este trabajo se utiliza el espacio de nombres httppurlorgdcterms la razoacuten radica en que a pa^ir del afio 2012 la DCMI (Dublin Core Metadata Initiative) incorpora los dos niveles en este espacio de nombres

La segunda ontologiacutea es FOAF La intencioacuten del uso de FOAF en este proyecto es explorar su adaptacioacuten para tratar la informacioacuten sobre los autores de los a^iacuteculos libros y otros recursos acadeacutemicos Aunado a esto se pueden incluso expresar sus relaciones sociales basadas en coautoriacutea para poder determinar recursos relacionados

De este modo es posible modelar las propiedades de un recurso con su autor como en la figura 2 donde por ejemplo un investigador es un autor de una publicacioacuten (dccreator) pero a la vez es una persona (foafperson) con propiedades individuales Asimismo estaacuten representadas por un lado la relacioacuten de autoriacutea entre una publicacioacuten y un investigador y la de coautoriacutea de un investigador con otro u otros con los que escribe en conjunto una publicacioacuten (figura 3)

Por otro lado es impo^ante recordar que las ontologiacuteas son desarrolladas a diferentes niveles de abstraccioacuten por personas distintas y para diversos propoacutesitos El conocimiento representado por las ontologiacuteas se dispersa debido a la existencia de muchas ontologiacuteas representando los mismos conceptos es asiacute que se vuelve difiacutecil analizar estudiar y usar el conocimiento propagado a traveacutes de muacuteltiples ontologiacuteas si se estudian individualmente [27]

La teacutecnica para combinar en una sola ontologiacutea el conocimiento representado en varias ontologiacuteas es la unioacuten o merge Con este

Posteriormente se creoacute un modelo en Jena a pa^ir de listas de los objetos recuperados y se definioacute un esquema compatible con el estaacutendar Dublin Core para generar un archivo RDFXML

Los datos del autor son enriquecidos para agregar relaciones de coautoriacutea y maacutes datos acerca del autor Estos metadatos pueden extenderse en tanto los conjuntos de datos usados como fuente contengan informacioacuten sobre los autores y son expresados con FOAF de la siguiente forma

ltdccreato rdftype=[httpxmlnscomfoaf01Person] foafname=[Nombre completo] foafgivenName=[Nombre] foafsurname=[Apelldos] foaf knows=[Persona conocda o coautor] foaftopic_interest=[7ema de intereacutes] dcdescription=[Ocupacoacuten grado etc ] ontobirthDate=[fecha de nacmento] gt

Un ejemplo de salida es el que se muestra a continuacioacuten

ltrdfDescription rdfabout= oaredalycorg10504408gtltdclanguagegtesltdclanguagegtltdc٢ightsgtConve٢gencialtdc٢ightsgt

ltdcsubjectgtsentido del mundoltdcsubjectgt ltdctermsmodified rdfresource=2007-08-15gt ltdctypegtA^iacuteculo cientiacuteficoltdctypegt ltdcsourcegtConvergencia Revista de Ciencias Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdctitlegtLa emergencia del sentido a pa^ir del no-

sentidoltdctitlegtltdctermsisPa^Of rdf resource=set1405-1435gt ltdcformatgtapplication_pdfltdcformatgt ltdcpublishegtUniversidad Autoacutenoma del Estado de MeacutexicoltdcpublishegtltdcsubjectgtEl no-sentidoltdcsubjectgtltdcidentifierrdfresource=httpwwwredalycorgartculooad=10504408gtltdccreator rdftype=httpxmlnscomfoaf01Person

foafname=Edgar MorngtEdgar Morinltdccreatorgt ltdcrelationgth^pwwwredalycorgrevistaoaid=105lt dcrelationgtltdcdescriptiongtEn este texto se reflexiona sobre ltdcdescriptiongtltdcsubjectgtSociologiacutealtdcsubjectgtltdcdategt2007ltdcdategtltdcsubjectgtcomplejidadltdcsubjectgtltrdfDescriptiongt

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

134

Fig 2 Modelo ontoloacutegico con Dublin Core y Friend of a Friend

coautor

I G rado ]

Fig 3 Relaciones de autoriacutea y coautoriacutea

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

135

A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t

euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s

C o llec tion ٠ middotConcept

euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource

copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠

F requency ٠ euro Im a g e O b je c t = Im a g e

Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠

Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠

A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠

O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person

P hys ica l R esource1٠P o licy ٠ P ro je c t ٠

P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠

S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠

Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute

De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF

35 Alm acenam iento

El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF

36 M otor de recuperacioacuten de informacioacuten

El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6

procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis

Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada

Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]

La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades

Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

136

Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource

Motor de recuperacioacuten de informacioacute

Razonador

API de inferencia Jena

RDFSRuleReasoner

Motor de reglas Jena

Modelo de Ontologia

de Jena ه0وهاوع^ API ا

Ontologia DC FOAF

API de almacenamiento Jena

T D B

Fig 6 Arquitectura

Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas

La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil

El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica

El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

137

Tabla 1 Resultados del proceso de cosecha OAI-PMH

Redalycorg RUDAR

Archivos XML 17328 121Registros DC 346557 12011

a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento

b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final

4 Resultados

Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]

A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea

1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La

del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta

Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes

Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases

- Student representa cualquier estudiante- StudentCourseInformation comprende

informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros

- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso

- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante

37 Procesam iento de la informacioacuten

371 Procesam iento en tiem po real

El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad

372 Procesam iento por lotes

La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa

Fig 7 Grafo de relacioacuten entre las instancias de ejemplo

4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338

5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno

ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt

cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)

2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos

3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

139

- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante

Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten

5 Trabajos relacionados

Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores

Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]

Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data

Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado

6 Conclusiones y trabajo futuro

El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos

ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt

ltstudentdemographicDatagtbrltstudentdemographic

ltrdfDescriptiongt

El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo

Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo

Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada

Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo

En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo

- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo

Hecho derivado

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa

CNI and SPARC Association of Research Libraries Washington DC

8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press

9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA

10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20

11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037

12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928

13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197

14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39

15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001

16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6

17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet

18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro

19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom

20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms

El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia

Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica

Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL

Referencias

1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann

2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2

3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147

4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas

5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg

6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml

7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

141

Communications of the ACM Vol 57 No 1ه pp78-85

34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning

35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه

36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13

37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16

Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales

Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor

21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec

22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml

23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia

24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China

25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf

26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf

27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu

28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42

29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer

30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64

31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه

32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565

33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

142

investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico

Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea

Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey

Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

Page 5: Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos

ISSN 2007-9737

131

Cosampcha de metadatas OAI-PMH

Transtormacioacuten tie XML a RDF

ل

Vtelidacioacuten de ΒΡΕ

Almacampnannientode tri pi etas

Process nil ientiO en tiempo real

Motor de recuperacioacuten de informacioacuten

Tripetas resultantes

ConsultaCuumlnteKliOdampl usuario

Interfaz de usuario

Fig 1 Diagrama de flujo del proceso

corresponde a la consulta asiacute como la informacioacuten contextual del usuario

Dicha informacioacuten ingresa al motor de recuperacioacuten donde circula por un razonador basado en reglas que procesa la consulta sobre una base de datos de tripletas haciendo uso del API de ontologiacuteas de Jena

El proceso de consulta es en tiempo real sobre datos colectados previamente en un procesamiento por lotes dando como resultado

La pa^e central constituye un motor de recuperacioacuten de informacioacuten sobre ese conjunto de datos

31 Metodologiacutea

En la figura 1 se puede observar el diagrama de flujo del proceso llevado para la implementacioacuten de la propuesta

Se aprecia que la informacioacuten requerida de entrada desde una interfaz de usuario

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

132

proceso de cosecha con el resto dela implementacioacuten

Esta aplicacioacuten se encarga de leer los metadatos de los archivos XML obtenidos de la cosecha OAI-PMH utilizando el API SaxBuilder que permite recuperar los registros convi^ieacutendolos en objetos Enseguida se muestra un ejemplo de registro contenido en un XML deentrada

ltrecordgtlt ltheader

egtfdent10504408ltyco^gedaergtoafdentgtltdatestampgt2007-08-15ltdatestampgt

ltsetSpecgt1405-1435ltsetSpecgtltheadergt

ltmetadatagt dcdc ltoa

xmاnsoaسdc=httpwwwopena٢chveso٢gOAاoa20dc

11xmlnsdc=httppurlorgdcelementsh^ pwwww3org2001XMLSchema xmlnsxs=-

instancevesorgOAI on=h^ pwwwopenarchschemaLocatxs

dc 20oadcxsdgt^vesorgOAI20oah^pwwwopenarch

tirltdctitlegtltdctitlegtLa emergencia del sentido a pa ltdccreatorgtEdgar Morin ltdccreatorgt

ologiacutealtdcsubjectgtltdcsubjectgtSoc doltdcsubjectgtltdcsubjectgtEl no-sent

do del mundoltdcsubjectgtltdcsubjectgtsent dadltdcsubjectgtltdcsubjectgtcomplej

ongtptltdcdescr En este texto se reflexiona sobre el problema del

ongtpt lt dcdescrshergtUniversidad Autoacutenoma del ltdcpubl

shergtltdcpubl ltdcdategt2007ltdcdategt

coltdctypegtentiacutefltdctypegtA^iacuteculo c onpdfltdcformatgtcatltdcformatgtappl

ergtfdentltdc10504408=httpwwwredalycorgarticulooaid

ergtfdentdcgtongtltdcrelat

105=dstaoahttpwwwredalycorarevongtdcrelatgt

ghtsgtaltdcrghtsgtConvergencltdcr a Revista de CienciasltdcsourcegtConvergenc

Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdclanguagegtesltdclanguagegt

ltoai dcdcgtltmetadatagt

lt ltrecord

un conjunto de inferencias correspondientes a recursos de informacioacuten

Los pasos seguidos y componentes de software desarrollados se detallan en los apagados siguientes

32 Cosecha de metadatos OAI-PMH

Se desarrolloacute una aplicacioacuten Java que realiza peticiones HTTP a los proveedores de datos haciendo uso del verbo ListRecords del OAI- PMH Con ello se obtienen archivos en formato XML con los datos descritos en el conjunto simple de metadatos de Dublin Core Dentro de estos archivos XML se encuentran registros (ltrecordgt) El nuacutemero de registros por archivo depende de la confguracioacuten de cada repositorio cosechado y estos pueden variar desde 1 hasta n

33 Transform acioacuten a RDF

Muchas instituciones dan acceso a sus repositorios de metadatos a traveacutes de OAI-PMH pero no hacen que sus recursos sean accesibles a traveacutes de URIs desreferenciables cosa que provoca restricciones de significado y hace que quede restringido el acceso a los metadatos [23] Por esta razoacuten es necesario hacer uso de un conve^idor a RDF con la intencioacuten de transformar los metadatos contenidos en un repositorio OAI- PMH a RDF

Se han desarrollado diversos proyectos que permiten explotar datos estructurados y dotarlos de caracteriacutesticas propias de aplicaciones semaacutenticas como lo es OAI2LOD Server un desarrollo para exponer metadatos OAI-PMH como Linked Data [24] Dentro de este tipo de proyectos wrapper tambieacuten se puede encontrar D2R [25]

Para este trabajo se proboacute un desarrollo enmarcado en los llamados RDFizers software de conversioacuten a RDF llamado OAI2RDF como un componente en la arquitectura [26] Laherramienta realiza esta tarea con una transformacioacuten loacutegica que se hace a traveacutes de hojas XSLT que se invocan una vez que los datos han sido entregados

Sin embargo se optoacute por desarrollar una aplicacioacuten de software para realizar esta tarea dado que esto permitia una mejor integracioacuten del

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

133

34 Modelo Ontoloacutegico y va ldacoacuten

El componente ontoloacutegico integra dos ontologiacuteas una de ellas Dublin Core dado que los recursos que alimentan la base de conocimiento estaacuten estructurados con metadatos DC al estar bajo el estaacutendar OAI-PMH

El estaacutendar Dublin Core original incluiacutea el nivel simple y el calificado el primero compuesto de 15 elementos y el cual se utiliza para descripcioacuten de recursos con OAI-PMH bajo el espacio de nombres httppurlorgdcelements11 Sin embargo para este trabajo se utiliza el espacio de nombres httppurlorgdcterms la razoacuten radica en que a pa^ir del afio 2012 la DCMI (Dublin Core Metadata Initiative) incorpora los dos niveles en este espacio de nombres

La segunda ontologiacutea es FOAF La intencioacuten del uso de FOAF en este proyecto es explorar su adaptacioacuten para tratar la informacioacuten sobre los autores de los a^iacuteculos libros y otros recursos acadeacutemicos Aunado a esto se pueden incluso expresar sus relaciones sociales basadas en coautoriacutea para poder determinar recursos relacionados

De este modo es posible modelar las propiedades de un recurso con su autor como en la figura 2 donde por ejemplo un investigador es un autor de una publicacioacuten (dccreator) pero a la vez es una persona (foafperson) con propiedades individuales Asimismo estaacuten representadas por un lado la relacioacuten de autoriacutea entre una publicacioacuten y un investigador y la de coautoriacutea de un investigador con otro u otros con los que escribe en conjunto una publicacioacuten (figura 3)

Por otro lado es impo^ante recordar que las ontologiacuteas son desarrolladas a diferentes niveles de abstraccioacuten por personas distintas y para diversos propoacutesitos El conocimiento representado por las ontologiacuteas se dispersa debido a la existencia de muchas ontologiacuteas representando los mismos conceptos es asiacute que se vuelve difiacutecil analizar estudiar y usar el conocimiento propagado a traveacutes de muacuteltiples ontologiacuteas si se estudian individualmente [27]

La teacutecnica para combinar en una sola ontologiacutea el conocimiento representado en varias ontologiacuteas es la unioacuten o merge Con este

Posteriormente se creoacute un modelo en Jena a pa^ir de listas de los objetos recuperados y se definioacute un esquema compatible con el estaacutendar Dublin Core para generar un archivo RDFXML

Los datos del autor son enriquecidos para agregar relaciones de coautoriacutea y maacutes datos acerca del autor Estos metadatos pueden extenderse en tanto los conjuntos de datos usados como fuente contengan informacioacuten sobre los autores y son expresados con FOAF de la siguiente forma

ltdccreato rdftype=[httpxmlnscomfoaf01Person] foafname=[Nombre completo] foafgivenName=[Nombre] foafsurname=[Apelldos] foaf knows=[Persona conocda o coautor] foaftopic_interest=[7ema de intereacutes] dcdescription=[Ocupacoacuten grado etc ] ontobirthDate=[fecha de nacmento] gt

Un ejemplo de salida es el que se muestra a continuacioacuten

ltrdfDescription rdfabout= oaredalycorg10504408gtltdclanguagegtesltdclanguagegtltdc٢ightsgtConve٢gencialtdc٢ightsgt

ltdcsubjectgtsentido del mundoltdcsubjectgt ltdctermsmodified rdfresource=2007-08-15gt ltdctypegtA^iacuteculo cientiacuteficoltdctypegt ltdcsourcegtConvergencia Revista de Ciencias Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdctitlegtLa emergencia del sentido a pa^ir del no-

sentidoltdctitlegtltdctermsisPa^Of rdf resource=set1405-1435gt ltdcformatgtapplication_pdfltdcformatgt ltdcpublishegtUniversidad Autoacutenoma del Estado de MeacutexicoltdcpublishegtltdcsubjectgtEl no-sentidoltdcsubjectgtltdcidentifierrdfresource=httpwwwredalycorgartculooad=10504408gtltdccreator rdftype=httpxmlnscomfoaf01Person

foafname=Edgar MorngtEdgar Morinltdccreatorgt ltdcrelationgth^pwwwredalycorgrevistaoaid=105lt dcrelationgtltdcdescriptiongtEn este texto se reflexiona sobre ltdcdescriptiongtltdcsubjectgtSociologiacutealtdcsubjectgtltdcdategt2007ltdcdategtltdcsubjectgtcomplejidadltdcsubjectgtltrdfDescriptiongt

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

134

Fig 2 Modelo ontoloacutegico con Dublin Core y Friend of a Friend

coautor

I G rado ]

Fig 3 Relaciones de autoriacutea y coautoriacutea

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

135

A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t

euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s

C o llec tion ٠ middotConcept

euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource

copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠

F requency ٠ euro Im a g e O b je c t = Im a g e

Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠

Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠

A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠

O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person

P hys ica l R esource1٠P o licy ٠ P ro je c t ٠

P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠

S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠

Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute

De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF

35 Alm acenam iento

El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF

36 M otor de recuperacioacuten de informacioacuten

El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6

procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis

Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada

Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]

La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades

Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

136

Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource

Motor de recuperacioacuten de informacioacute

Razonador

API de inferencia Jena

RDFSRuleReasoner

Motor de reglas Jena

Modelo de Ontologia

de Jena ه0وهاوع^ API ا

Ontologia DC FOAF

API de almacenamiento Jena

T D B

Fig 6 Arquitectura

Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas

La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil

El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica

El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

137

Tabla 1 Resultados del proceso de cosecha OAI-PMH

Redalycorg RUDAR

Archivos XML 17328 121Registros DC 346557 12011

a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento

b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final

4 Resultados

Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]

A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea

1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La

del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta

Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes

Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases

- Student representa cualquier estudiante- StudentCourseInformation comprende

informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros

- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso

- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante

37 Procesam iento de la informacioacuten

371 Procesam iento en tiem po real

El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad

372 Procesam iento por lotes

La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa

Fig 7 Grafo de relacioacuten entre las instancias de ejemplo

4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338

5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno

ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt

cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)

2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos

3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

139

- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante

Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten

5 Trabajos relacionados

Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores

Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]

Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data

Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado

6 Conclusiones y trabajo futuro

El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos

ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt

ltstudentdemographicDatagtbrltstudentdemographic

ltrdfDescriptiongt

El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo

Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo

Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada

Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo

En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo

- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo

Hecho derivado

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa

CNI and SPARC Association of Research Libraries Washington DC

8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press

9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA

10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20

11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037

12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928

13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197

14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39

15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001

16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6

17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet

18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro

19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom

20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms

El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia

Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica

Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL

Referencias

1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann

2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2

3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147

4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas

5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg

6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml

7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

141

Communications of the ACM Vol 57 No 1ه pp78-85

34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning

35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه

36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13

37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16

Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales

Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor

21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec

22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml

23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia

24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China

25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf

26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf

27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu

28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42

29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer

30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64

31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه

32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565

33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

142

investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico

Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea

Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey

Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

Page 6: Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos

ISSN 2007-9737

132

proceso de cosecha con el resto dela implementacioacuten

Esta aplicacioacuten se encarga de leer los metadatos de los archivos XML obtenidos de la cosecha OAI-PMH utilizando el API SaxBuilder que permite recuperar los registros convi^ieacutendolos en objetos Enseguida se muestra un ejemplo de registro contenido en un XML deentrada

ltrecordgtlt ltheader

egtfdent10504408ltyco^gedaergtoafdentgtltdatestampgt2007-08-15ltdatestampgt

ltsetSpecgt1405-1435ltsetSpecgtltheadergt

ltmetadatagt dcdc ltoa

xmاnsoaسdc=httpwwwopena٢chveso٢gOAاoa20dc

11xmlnsdc=httppurlorgdcelementsh^ pwwww3org2001XMLSchema xmlnsxs=-

instancevesorgOAI on=h^ pwwwopenarchschemaLocatxs

dc 20oadcxsdgt^vesorgOAI20oah^pwwwopenarch

tirltdctitlegtltdctitlegtLa emergencia del sentido a pa ltdccreatorgtEdgar Morin ltdccreatorgt

ologiacutealtdcsubjectgtltdcsubjectgtSoc doltdcsubjectgtltdcsubjectgtEl no-sent

do del mundoltdcsubjectgtltdcsubjectgtsent dadltdcsubjectgtltdcsubjectgtcomplej

ongtptltdcdescr En este texto se reflexiona sobre el problema del

ongtpt lt dcdescrshergtUniversidad Autoacutenoma del ltdcpubl

shergtltdcpubl ltdcdategt2007ltdcdategt

coltdctypegtentiacutefltdctypegtA^iacuteculo c onpdfltdcformatgtcatltdcformatgtappl

ergtfdentltdc10504408=httpwwwredalycorgarticulooaid

ergtfdentdcgtongtltdcrelat

105=dstaoahttpwwwredalycorarevongtdcrelatgt

ghtsgtaltdcrghtsgtConvergencltdcr a Revista de CienciasltdcsourcegtConvergenc

Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdclanguagegtesltdclanguagegt

ltoai dcdcgtltmetadatagt

lt ltrecord

un conjunto de inferencias correspondientes a recursos de informacioacuten

Los pasos seguidos y componentes de software desarrollados se detallan en los apagados siguientes

32 Cosecha de metadatos OAI-PMH

Se desarrolloacute una aplicacioacuten Java que realiza peticiones HTTP a los proveedores de datos haciendo uso del verbo ListRecords del OAI- PMH Con ello se obtienen archivos en formato XML con los datos descritos en el conjunto simple de metadatos de Dublin Core Dentro de estos archivos XML se encuentran registros (ltrecordgt) El nuacutemero de registros por archivo depende de la confguracioacuten de cada repositorio cosechado y estos pueden variar desde 1 hasta n

33 Transform acioacuten a RDF

Muchas instituciones dan acceso a sus repositorios de metadatos a traveacutes de OAI-PMH pero no hacen que sus recursos sean accesibles a traveacutes de URIs desreferenciables cosa que provoca restricciones de significado y hace que quede restringido el acceso a los metadatos [23] Por esta razoacuten es necesario hacer uso de un conve^idor a RDF con la intencioacuten de transformar los metadatos contenidos en un repositorio OAI- PMH a RDF

Se han desarrollado diversos proyectos que permiten explotar datos estructurados y dotarlos de caracteriacutesticas propias de aplicaciones semaacutenticas como lo es OAI2LOD Server un desarrollo para exponer metadatos OAI-PMH como Linked Data [24] Dentro de este tipo de proyectos wrapper tambieacuten se puede encontrar D2R [25]

Para este trabajo se proboacute un desarrollo enmarcado en los llamados RDFizers software de conversioacuten a RDF llamado OAI2RDF como un componente en la arquitectura [26] Laherramienta realiza esta tarea con una transformacioacuten loacutegica que se hace a traveacutes de hojas XSLT que se invocan una vez que los datos han sido entregados

Sin embargo se optoacute por desarrollar una aplicacioacuten de software para realizar esta tarea dado que esto permitia una mejor integracioacuten del

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

133

34 Modelo Ontoloacutegico y va ldacoacuten

El componente ontoloacutegico integra dos ontologiacuteas una de ellas Dublin Core dado que los recursos que alimentan la base de conocimiento estaacuten estructurados con metadatos DC al estar bajo el estaacutendar OAI-PMH

El estaacutendar Dublin Core original incluiacutea el nivel simple y el calificado el primero compuesto de 15 elementos y el cual se utiliza para descripcioacuten de recursos con OAI-PMH bajo el espacio de nombres httppurlorgdcelements11 Sin embargo para este trabajo se utiliza el espacio de nombres httppurlorgdcterms la razoacuten radica en que a pa^ir del afio 2012 la DCMI (Dublin Core Metadata Initiative) incorpora los dos niveles en este espacio de nombres

La segunda ontologiacutea es FOAF La intencioacuten del uso de FOAF en este proyecto es explorar su adaptacioacuten para tratar la informacioacuten sobre los autores de los a^iacuteculos libros y otros recursos acadeacutemicos Aunado a esto se pueden incluso expresar sus relaciones sociales basadas en coautoriacutea para poder determinar recursos relacionados

De este modo es posible modelar las propiedades de un recurso con su autor como en la figura 2 donde por ejemplo un investigador es un autor de una publicacioacuten (dccreator) pero a la vez es una persona (foafperson) con propiedades individuales Asimismo estaacuten representadas por un lado la relacioacuten de autoriacutea entre una publicacioacuten y un investigador y la de coautoriacutea de un investigador con otro u otros con los que escribe en conjunto una publicacioacuten (figura 3)

Por otro lado es impo^ante recordar que las ontologiacuteas son desarrolladas a diferentes niveles de abstraccioacuten por personas distintas y para diversos propoacutesitos El conocimiento representado por las ontologiacuteas se dispersa debido a la existencia de muchas ontologiacuteas representando los mismos conceptos es asiacute que se vuelve difiacutecil analizar estudiar y usar el conocimiento propagado a traveacutes de muacuteltiples ontologiacuteas si se estudian individualmente [27]

La teacutecnica para combinar en una sola ontologiacutea el conocimiento representado en varias ontologiacuteas es la unioacuten o merge Con este

Posteriormente se creoacute un modelo en Jena a pa^ir de listas de los objetos recuperados y se definioacute un esquema compatible con el estaacutendar Dublin Core para generar un archivo RDFXML

Los datos del autor son enriquecidos para agregar relaciones de coautoriacutea y maacutes datos acerca del autor Estos metadatos pueden extenderse en tanto los conjuntos de datos usados como fuente contengan informacioacuten sobre los autores y son expresados con FOAF de la siguiente forma

ltdccreato rdftype=[httpxmlnscomfoaf01Person] foafname=[Nombre completo] foafgivenName=[Nombre] foafsurname=[Apelldos] foaf knows=[Persona conocda o coautor] foaftopic_interest=[7ema de intereacutes] dcdescription=[Ocupacoacuten grado etc ] ontobirthDate=[fecha de nacmento] gt

Un ejemplo de salida es el que se muestra a continuacioacuten

ltrdfDescription rdfabout= oaredalycorg10504408gtltdclanguagegtesltdclanguagegtltdc٢ightsgtConve٢gencialtdc٢ightsgt

ltdcsubjectgtsentido del mundoltdcsubjectgt ltdctermsmodified rdfresource=2007-08-15gt ltdctypegtA^iacuteculo cientiacuteficoltdctypegt ltdcsourcegtConvergencia Revista de Ciencias Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdctitlegtLa emergencia del sentido a pa^ir del no-

sentidoltdctitlegtltdctermsisPa^Of rdf resource=set1405-1435gt ltdcformatgtapplication_pdfltdcformatgt ltdcpublishegtUniversidad Autoacutenoma del Estado de MeacutexicoltdcpublishegtltdcsubjectgtEl no-sentidoltdcsubjectgtltdcidentifierrdfresource=httpwwwredalycorgartculooad=10504408gtltdccreator rdftype=httpxmlnscomfoaf01Person

foafname=Edgar MorngtEdgar Morinltdccreatorgt ltdcrelationgth^pwwwredalycorgrevistaoaid=105lt dcrelationgtltdcdescriptiongtEn este texto se reflexiona sobre ltdcdescriptiongtltdcsubjectgtSociologiacutealtdcsubjectgtltdcdategt2007ltdcdategtltdcsubjectgtcomplejidadltdcsubjectgtltrdfDescriptiongt

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

134

Fig 2 Modelo ontoloacutegico con Dublin Core y Friend of a Friend

coautor

I G rado ]

Fig 3 Relaciones de autoriacutea y coautoriacutea

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

135

A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t

euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s

C o llec tion ٠ middotConcept

euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource

copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠

F requency ٠ euro Im a g e O b je c t = Im a g e

Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠

Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠

A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠

O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person

P hys ica l R esource1٠P o licy ٠ P ro je c t ٠

P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠

S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠

Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute

De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF

35 Alm acenam iento

El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF

36 M otor de recuperacioacuten de informacioacuten

El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6

procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis

Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada

Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]

La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades

Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

136

Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource

Motor de recuperacioacuten de informacioacute

Razonador

API de inferencia Jena

RDFSRuleReasoner

Motor de reglas Jena

Modelo de Ontologia

de Jena ه0وهاوع^ API ا

Ontologia DC FOAF

API de almacenamiento Jena

T D B

Fig 6 Arquitectura

Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas

La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil

El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica

El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

137

Tabla 1 Resultados del proceso de cosecha OAI-PMH

Redalycorg RUDAR

Archivos XML 17328 121Registros DC 346557 12011

a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento

b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final

4 Resultados

Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]

A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea

1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La

del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta

Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes

Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases

- Student representa cualquier estudiante- StudentCourseInformation comprende

informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros

- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso

- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante

37 Procesam iento de la informacioacuten

371 Procesam iento en tiem po real

El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad

372 Procesam iento por lotes

La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa

Fig 7 Grafo de relacioacuten entre las instancias de ejemplo

4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338

5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno

ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt

cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)

2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos

3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

139

- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante

Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten

5 Trabajos relacionados

Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores

Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]

Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data

Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado

6 Conclusiones y trabajo futuro

El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos

ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt

ltstudentdemographicDatagtbrltstudentdemographic

ltrdfDescriptiongt

El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo

Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo

Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada

Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo

En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo

- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo

Hecho derivado

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa

CNI and SPARC Association of Research Libraries Washington DC

8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press

9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA

10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20

11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037

12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928

13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197

14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39

15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001

16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6

17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet

18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro

19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom

20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms

El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia

Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica

Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL

Referencias

1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann

2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2

3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147

4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas

5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg

6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml

7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

141

Communications of the ACM Vol 57 No 1ه pp78-85

34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning

35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه

36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13

37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16

Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales

Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor

21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec

22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml

23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia

24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China

25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf

26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf

27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu

28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42

29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer

30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64

31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه

32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565

33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

142

investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico

Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea

Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey

Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

Page 7: Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos

ISSN 2007-9737

133

34 Modelo Ontoloacutegico y va ldacoacuten

El componente ontoloacutegico integra dos ontologiacuteas una de ellas Dublin Core dado que los recursos que alimentan la base de conocimiento estaacuten estructurados con metadatos DC al estar bajo el estaacutendar OAI-PMH

El estaacutendar Dublin Core original incluiacutea el nivel simple y el calificado el primero compuesto de 15 elementos y el cual se utiliza para descripcioacuten de recursos con OAI-PMH bajo el espacio de nombres httppurlorgdcelements11 Sin embargo para este trabajo se utiliza el espacio de nombres httppurlorgdcterms la razoacuten radica en que a pa^ir del afio 2012 la DCMI (Dublin Core Metadata Initiative) incorpora los dos niveles en este espacio de nombres

La segunda ontologiacutea es FOAF La intencioacuten del uso de FOAF en este proyecto es explorar su adaptacioacuten para tratar la informacioacuten sobre los autores de los a^iacuteculos libros y otros recursos acadeacutemicos Aunado a esto se pueden incluso expresar sus relaciones sociales basadas en coautoriacutea para poder determinar recursos relacionados

De este modo es posible modelar las propiedades de un recurso con su autor como en la figura 2 donde por ejemplo un investigador es un autor de una publicacioacuten (dccreator) pero a la vez es una persona (foafperson) con propiedades individuales Asimismo estaacuten representadas por un lado la relacioacuten de autoriacutea entre una publicacioacuten y un investigador y la de coautoriacutea de un investigador con otro u otros con los que escribe en conjunto una publicacioacuten (figura 3)

Por otro lado es impo^ante recordar que las ontologiacuteas son desarrolladas a diferentes niveles de abstraccioacuten por personas distintas y para diversos propoacutesitos El conocimiento representado por las ontologiacuteas se dispersa debido a la existencia de muchas ontologiacuteas representando los mismos conceptos es asiacute que se vuelve difiacutecil analizar estudiar y usar el conocimiento propagado a traveacutes de muacuteltiples ontologiacuteas si se estudian individualmente [27]

La teacutecnica para combinar en una sola ontologiacutea el conocimiento representado en varias ontologiacuteas es la unioacuten o merge Con este

Posteriormente se creoacute un modelo en Jena a pa^ir de listas de los objetos recuperados y se definioacute un esquema compatible con el estaacutendar Dublin Core para generar un archivo RDFXML

Los datos del autor son enriquecidos para agregar relaciones de coautoriacutea y maacutes datos acerca del autor Estos metadatos pueden extenderse en tanto los conjuntos de datos usados como fuente contengan informacioacuten sobre los autores y son expresados con FOAF de la siguiente forma

ltdccreato rdftype=[httpxmlnscomfoaf01Person] foafname=[Nombre completo] foafgivenName=[Nombre] foafsurname=[Apelldos] foaf knows=[Persona conocda o coautor] foaftopic_interest=[7ema de intereacutes] dcdescription=[Ocupacoacuten grado etc ] ontobirthDate=[fecha de nacmento] gt

Un ejemplo de salida es el que se muestra a continuacioacuten

ltrdfDescription rdfabout= oaredalycorg10504408gtltdclanguagegtesltdclanguagegtltdc٢ightsgtConve٢gencialtdc٢ightsgt

ltdcsubjectgtsentido del mundoltdcsubjectgt ltdctermsmodified rdfresource=2007-08-15gt ltdctypegtA^iacuteculo cientiacuteficoltdctypegt ltdcsourcegtConvergencia Revista de Ciencias Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdctitlegtLa emergencia del sentido a pa^ir del no-

sentidoltdctitlegtltdctermsisPa^Of rdf resource=set1405-1435gt ltdcformatgtapplication_pdfltdcformatgt ltdcpublishegtUniversidad Autoacutenoma del Estado de MeacutexicoltdcpublishegtltdcsubjectgtEl no-sentidoltdcsubjectgtltdcidentifierrdfresource=httpwwwredalycorgartculooad=10504408gtltdccreator rdftype=httpxmlnscomfoaf01Person

foafname=Edgar MorngtEdgar Morinltdccreatorgt ltdcrelationgth^pwwwredalycorgrevistaoaid=105lt dcrelationgtltdcdescriptiongtEn este texto se reflexiona sobre ltdcdescriptiongtltdcsubjectgtSociologiacutealtdcsubjectgtltdcdategt2007ltdcdategtltdcsubjectgtcomplejidadltdcsubjectgtltrdfDescriptiongt

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

134

Fig 2 Modelo ontoloacutegico con Dublin Core y Friend of a Friend

coautor

I G rado ]

Fig 3 Relaciones de autoriacutea y coautoriacutea

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

135

A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t

euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s

C o llec tion ٠ middotConcept

euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource

copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠

F requency ٠ euro Im a g e O b je c t = Im a g e

Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠

Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠

A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠

O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person

P hys ica l R esource1٠P o licy ٠ P ro je c t ٠

P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠

S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠

Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute

De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF

35 Alm acenam iento

El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF

36 M otor de recuperacioacuten de informacioacuten

El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6

procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis

Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada

Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]

La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades

Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

136

Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource

Motor de recuperacioacuten de informacioacute

Razonador

API de inferencia Jena

RDFSRuleReasoner

Motor de reglas Jena

Modelo de Ontologia

de Jena ه0وهاوع^ API ا

Ontologia DC FOAF

API de almacenamiento Jena

T D B

Fig 6 Arquitectura

Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas

La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil

El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica

El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

137

Tabla 1 Resultados del proceso de cosecha OAI-PMH

Redalycorg RUDAR

Archivos XML 17328 121Registros DC 346557 12011

a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento

b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final

4 Resultados

Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]

A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea

1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La

del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta

Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes

Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases

- Student representa cualquier estudiante- StudentCourseInformation comprende

informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros

- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso

- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante

37 Procesam iento de la informacioacuten

371 Procesam iento en tiem po real

El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad

372 Procesam iento por lotes

La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa

Fig 7 Grafo de relacioacuten entre las instancias de ejemplo

4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338

5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno

ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt

cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)

2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos

3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

139

- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante

Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten

5 Trabajos relacionados

Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores

Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]

Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data

Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado

6 Conclusiones y trabajo futuro

El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos

ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt

ltstudentdemographicDatagtbrltstudentdemographic

ltrdfDescriptiongt

El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo

Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo

Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada

Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo

En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo

- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo

Hecho derivado

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa

CNI and SPARC Association of Research Libraries Washington DC

8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press

9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA

10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20

11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037

12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928

13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197

14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39

15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001

16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6

17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet

18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro

19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom

20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms

El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia

Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica

Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL

Referencias

1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann

2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2

3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147

4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas

5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg

6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml

7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

141

Communications of the ACM Vol 57 No 1ه pp78-85

34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning

35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه

36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13

37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16

Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales

Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor

21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec

22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml

23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia

24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China

25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf

26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf

27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu

28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42

29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer

30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64

31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه

32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565

33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

142

investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico

Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea

Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey

Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

Page 8: Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos

ISSN 2007-9737

134

Fig 2 Modelo ontoloacutegico con Dublin Core y Friend of a Friend

coautor

I G rado ]

Fig 3 Relaciones de autoriacutea y coautoriacutea

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

135

A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t

euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s

C o llec tion ٠ middotConcept

euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource

copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠

F requency ٠ euro Im a g e O b je c t = Im a g e

Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠

Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠

A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠

O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person

P hys ica l R esource1٠P o licy ٠ P ro je c t ٠

P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠

S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠

Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute

De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF

35 Alm acenam iento

El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF

36 M otor de recuperacioacuten de informacioacuten

El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6

procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis

Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada

Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]

La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades

Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

136

Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource

Motor de recuperacioacuten de informacioacute

Razonador

API de inferencia Jena

RDFSRuleReasoner

Motor de reglas Jena

Modelo de Ontologia

de Jena ه0وهاوع^ API ا

Ontologia DC FOAF

API de almacenamiento Jena

T D B

Fig 6 Arquitectura

Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas

La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil

El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica

El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

137

Tabla 1 Resultados del proceso de cosecha OAI-PMH

Redalycorg RUDAR

Archivos XML 17328 121Registros DC 346557 12011

a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento

b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final

4 Resultados

Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]

A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea

1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La

del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta

Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes

Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases

- Student representa cualquier estudiante- StudentCourseInformation comprende

informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros

- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso

- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante

37 Procesam iento de la informacioacuten

371 Procesam iento en tiem po real

El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad

372 Procesam iento por lotes

La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa

Fig 7 Grafo de relacioacuten entre las instancias de ejemplo

4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338

5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno

ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt

cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)

2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos

3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

139

- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante

Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten

5 Trabajos relacionados

Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores

Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]

Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data

Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado

6 Conclusiones y trabajo futuro

El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos

ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt

ltstudentdemographicDatagtbrltstudentdemographic

ltrdfDescriptiongt

El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo

Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo

Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada

Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo

En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo

- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo

Hecho derivado

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa

CNI and SPARC Association of Research Libraries Washington DC

8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press

9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA

10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20

11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037

12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928

13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197

14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39

15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001

16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6

17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet

18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro

19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom

20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms

El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia

Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica

Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL

Referencias

1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann

2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2

3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147

4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas

5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg

6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml

7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

141

Communications of the ACM Vol 57 No 1ه pp78-85

34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning

35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه

36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13

37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16

Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales

Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor

21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec

22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml

23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia

24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China

25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf

26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf

27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu

28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42

29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer

30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64

31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه

32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565

33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

142

investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico

Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea

Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey

Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

Page 9: Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos

ISSN 2007-9737

135

A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t

euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s

C o llec tion ٠ middotConcept

euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource

copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠

F requency ٠ euro Im a g e O b je c t = Im a g e

Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠

Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠

A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠

O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person

P hys ica l R esource1٠P o licy ٠ P ro je c t ٠

P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠

S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠

Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute

De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF

35 Alm acenam iento

El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF

36 M otor de recuperacioacuten de informacioacuten

El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6

procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis

Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada

Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]

La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades

Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

136

Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource

Motor de recuperacioacuten de informacioacute

Razonador

API de inferencia Jena

RDFSRuleReasoner

Motor de reglas Jena

Modelo de Ontologia

de Jena ه0وهاوع^ API ا

Ontologia DC FOAF

API de almacenamiento Jena

T D B

Fig 6 Arquitectura

Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas

La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil

El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica

El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

137

Tabla 1 Resultados del proceso de cosecha OAI-PMH

Redalycorg RUDAR

Archivos XML 17328 121Registros DC 346557 12011

a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento

b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final

4 Resultados

Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]

A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea

1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La

del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta

Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes

Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases

- Student representa cualquier estudiante- StudentCourseInformation comprende

informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros

- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso

- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante

37 Procesam iento de la informacioacuten

371 Procesam iento en tiem po real

El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad

372 Procesam iento por lotes

La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa

Fig 7 Grafo de relacioacuten entre las instancias de ejemplo

4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338

5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno

ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt

cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)

2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos

3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

139

- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante

Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten

5 Trabajos relacionados

Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores

Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]

Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data

Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado

6 Conclusiones y trabajo futuro

El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos

ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt

ltstudentdemographicDatagtbrltstudentdemographic

ltrdfDescriptiongt

El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo

Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo

Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada

Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo

En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo

- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo

Hecho derivado

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa

CNI and SPARC Association of Research Libraries Washington DC

8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press

9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA

10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20

11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037

12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928

13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197

14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39

15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001

16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6

17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet

18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro

19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom

20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms

El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia

Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica

Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL

Referencias

1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann

2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2

3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147

4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas

5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg

6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml

7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

141

Communications of the ACM Vol 57 No 1ه pp78-85

34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning

35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه

36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13

37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16

Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales

Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor

21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec

22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml

23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia

24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China

25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf

26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf

27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu

28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42

29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer

30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64

31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه

32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565

33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

142

investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico

Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea

Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey

Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

Page 10: Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos

ISSN 2007-9737

136

Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource

Motor de recuperacioacuten de informacioacute

Razonador

API de inferencia Jena

RDFSRuleReasoner

Motor de reglas Jena

Modelo de Ontologia

de Jena ه0وهاوع^ API ا

Ontologia DC FOAF

API de almacenamiento Jena

T D B

Fig 6 Arquitectura

Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas

La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil

El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica

El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

137

Tabla 1 Resultados del proceso de cosecha OAI-PMH

Redalycorg RUDAR

Archivos XML 17328 121Registros DC 346557 12011

a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento

b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final

4 Resultados

Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]

A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea

1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La

del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta

Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes

Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases

- Student representa cualquier estudiante- StudentCourseInformation comprende

informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros

- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso

- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante

37 Procesam iento de la informacioacuten

371 Procesam iento en tiem po real

El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad

372 Procesam iento por lotes

La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa

Fig 7 Grafo de relacioacuten entre las instancias de ejemplo

4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338

5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno

ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt

cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)

2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos

3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

139

- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante

Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten

5 Trabajos relacionados

Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores

Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]

Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data

Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado

6 Conclusiones y trabajo futuro

El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos

ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt

ltstudentdemographicDatagtbrltstudentdemographic

ltrdfDescriptiongt

El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo

Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo

Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada

Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo

En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo

- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo

Hecho derivado

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa

CNI and SPARC Association of Research Libraries Washington DC

8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press

9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA

10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20

11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037

12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928

13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197

14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39

15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001

16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6

17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet

18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro

19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom

20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms

El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia

Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica

Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL

Referencias

1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann

2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2

3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147

4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas

5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg

6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml

7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

141

Communications of the ACM Vol 57 No 1ه pp78-85

34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning

35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه

36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13

37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16

Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales

Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor

21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec

22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml

23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia

24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China

25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf

26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf

27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu

28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42

29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer

30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64

31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه

32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565

33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

142

investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico

Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea

Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey

Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

Page 11: Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos

ISSN 2007-9737

137

Tabla 1 Resultados del proceso de cosecha OAI-PMH

Redalycorg RUDAR

Archivos XML 17328 121Registros DC 346557 12011

a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento

b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final

4 Resultados

Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]

A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea

1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La

del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta

Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes

Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases

- Student representa cualquier estudiante- StudentCourseInformation comprende

informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros

- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso

- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante

37 Procesam iento de la informacioacuten

371 Procesam iento en tiem po real

El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad

372 Procesam iento por lotes

La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa

Fig 7 Grafo de relacioacuten entre las instancias de ejemplo

4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338

5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno

ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt

cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)

2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos

3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

139

- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante

Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten

5 Trabajos relacionados

Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores

Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]

Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data

Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado

6 Conclusiones y trabajo futuro

El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos

ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt

ltstudentdemographicDatagtbrltstudentdemographic

ltrdfDescriptiongt

El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo

Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo

Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada

Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo

En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo

- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo

Hecho derivado

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa

CNI and SPARC Association of Research Libraries Washington DC

8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press

9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA

10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20

11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037

12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928

13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197

14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39

15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001

16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6

17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet

18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro

19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom

20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms

El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia

Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica

Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL

Referencias

1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann

2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2

3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147

4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas

5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg

6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml

7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

141

Communications of the ACM Vol 57 No 1ه pp78-85

34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning

35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه

36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13

37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16

Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales

Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor

21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec

22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml

23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia

24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China

25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf

26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf

27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu

28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42

29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer

30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64

31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه

32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565

33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

142

investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico

Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea

Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey

Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

Page 12: Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos

ISSN 2007-9737

Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa

Fig 7 Grafo de relacioacuten entre las instancias de ejemplo

4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338

5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno

ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt

cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)

2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos

3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

139

- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante

Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten

5 Trabajos relacionados

Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores

Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]

Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data

Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado

6 Conclusiones y trabajo futuro

El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos

ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt

ltstudentdemographicDatagtbrltstudentdemographic

ltrdfDescriptiongt

El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo

Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo

Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada

Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo

En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo

- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo

Hecho derivado

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa

CNI and SPARC Association of Research Libraries Washington DC

8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press

9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA

10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20

11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037

12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928

13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197

14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39

15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001

16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6

17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet

18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro

19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom

20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms

El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia

Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica

Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL

Referencias

1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann

2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2

3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147

4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas

5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg

6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml

7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

141

Communications of the ACM Vol 57 No 1ه pp78-85

34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning

35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه

36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13

37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16

Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales

Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor

21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec

22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml

23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia

24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China

25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf

26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf

27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu

28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42

29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer

30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64

31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه

32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565

33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

142

investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico

Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea

Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey

Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

Page 13: Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos

ISSN 2007-9737

139

- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante

Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten

5 Trabajos relacionados

Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores

Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]

Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data

Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado

6 Conclusiones y trabajo futuro

El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos

ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt

ltstudentdemographicDatagtbrltstudentdemographic

ltrdfDescriptiongt

El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo

Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo

Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada

Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo

En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante

- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo

- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo

Hecho derivado

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa

CNI and SPARC Association of Research Libraries Washington DC

8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press

9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA

10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20

11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037

12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928

13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197

14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39

15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001

16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6

17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet

18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro

19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom

20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms

El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia

Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica

Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL

Referencias

1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann

2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2

3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147

4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas

5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg

6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml

7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

141

Communications of the ACM Vol 57 No 1ه pp78-85

34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning

35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه

36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13

37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16

Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales

Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor

21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec

22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml

23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia

24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China

25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf

26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf

27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu

28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42

29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer

30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64

31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه

32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565

33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

142

investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico

Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea

Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey

Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

Page 14: Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos

ISSN 2007-9737

1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa

CNI and SPARC Association of Research Libraries Washington DC

8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press

9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA

10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20

11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037

12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928

13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197

14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39

15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001

16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6

17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet

18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro

19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom

20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms

El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia

Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica

Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL

Referencias

1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann

2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2

3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147

4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas

5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg

6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml

7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189

ISSN 2007-9737

141

Communications of the ACM Vol 57 No 1ه pp78-85

34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning

35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه

36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13

37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16

Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales

Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor

21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec

22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml

23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia

24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China

25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf

26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf

27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu

28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42

29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer

30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64

31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه

32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565

33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

142

investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico

Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea

Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey

Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

Page 15: Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos

ISSN 2007-9737

141

Communications of the ACM Vol 57 No 1ه pp78-85

34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning

35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه

36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13

37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16

Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales

Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor

21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec

22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml

23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia

24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China

25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf

26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf

27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu

28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42

29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer

30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64

31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه

32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565

33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

ISSN 2007-9737

142

investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico

Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea

Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey

Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189

Page 16: Enfoque semántico para el descubrimiento de recursos ... · Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH, por sus siglas en inglés) y los metadatos

ISSN 2007-9737

142

investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico

Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea

Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey

Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de

Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189