Estado del arte v3.0

38
EXPLOTACIÓN DE ANOTACIONES SEMÁNTICAS PARA PÁGINAS WEB, USANDO LAS ESTRATEGIAS PROPUESTAS POR GOOGLE Jorge A. Lopez 1 , Nelson O. Piedra 2 , Freddy M. Coronel 3 25 de Enero 2010 Abstract Las anotaciones semánticas suponen un aditamento a los documentos (X)HTML, para permitir que sean datos legibles por máquinas, con el fin de aumentar la fortaleza semántica de los textos de la Web. De entre estas anotaciones semánticas contamos a los Microformatos, que especifican información estructurada sobre un vocabulario definido; eRDF y RDFa los cuales toman como base a RDF para añadir significado a los documentos, el primero infiltrando los datos semánticos en una forma parcialmente parecida a los Microformatos, y el segundo (RDFa) mediante el uso de atributos para agregar los metadatos enriquecidos a los textos. Con el desarrollo de la nueva versión de HTML, sus desarrolladores han propuesto un nuevo enfoque: el de los Microdatos -Microdata-, el cual busca aprovechar las fortalezas del marcado semántico anteriormente citados junto con las nuevas características de HTML5. Actualmente Google y Yahoo!, líderes en las búsquedas web aprovechan estas anotaciones para mostrar resultados más atractivos y potencialmente más útiles al usuario. 1 [email protected] Docente Investigador, UTPL Loja. 2 [email protected] Director Escuela Ciencias de la Computación, UTPL Loja. 3 [email protected] Profesional en Formación, UTPL Loja. 1

description

 

Transcript of Estado del arte v3.0

Page 1: Estado del arte v3.0

EXPLOTACIÓN DE ANOTACIONES SEMÁNTICAS PARA PÁGINAS WEB, USANDO

LAS ESTRATEGIAS PROPUESTAS POR GOOGLE

Jorge A. Lopez1, Nelson O. Piedra2, Freddy M. Coronel3

25 de Enero 2010

Abstract

Las anotaciones semánticas suponen un aditamento a los documentos (X)HTML, para permitir que sean datos legibles por máquinas, con el fin de aumentar la fortaleza semántica de los textos de la Web. De entre estas anotaciones semánticas contamos a los Microformatos, que especifican información estructurada sobre un vocabulario definido; eRDF y RDFa los cuales toman como base a RDF para añadir significado a los documentos, el primero infiltrando los datos semánticos en una forma parcialmente parecida a los Microformatos, y el segundo (RDFa) mediante el uso de atributos para agregar los metadatos enriquecidos a los textos. Con el desarrollo de la nueva versión de HTML, sus desarrolladores han propuesto un nuevo enfoque: el de los Microdatos -Microdata-, el cual busca aprovechar las fortalezas del marcado semántico anteriormente citados junto con las nuevas características de HTML5. Actualmente Google y Yahoo!, líderes en las búsquedas web aprovechan estas anotaciones para mostrar resultados más atractivos y potencialmente más útiles al usuario. Yahoo! va incluso más allá al ofrecer su framework para que los desarrolladores personalicen como serán visualizadas sus páginas en dicho buscador.

Index Terms. Microformatos, Resource Description Framework (RDF), RDF –in– attributes (RDFa), Embedded RDF (eRDF), Rich Snippets, Google, Yahoo! SearchMonkey SM, XHTML, HTML5, Microdata.

1 [email protected] Docente Investigador, UTPL Loja.2 [email protected] Director Escuela Ciencias de la Computación, UTPL Loja.3 [email protected] Profesional en Formación, UTPL Loja.

1

Page 2: Estado del arte v3.0

1. INTRODUCCIÓN

Al realizar una búsqueda en la Web, a menudo encontramos resultados que distan mucho de lo que nosotros requerimos, esto debido a que los motores de búsqueda actuales se centran en contenidos, es decir no “contemplan” el significado de lo que sus Crawlers han indexado.

Las anotaciones semánticas son la forma en que se busca proveer “significado” a los contenidos de las páginas web para que pueda ser explotado por entidades software. Yahoo!4 y Google5 desde hace un año aproximadamente han gradualmente incorporado el soporte a estas anotaciones como un avance para otorgar resultados estructurados.

Conocido esto, el siguiente trabajo se halla estructurado en primer lugar con el estudio de las anotaciones mencionadas: Microformatos6, eRDF7, RDFa8 y las posibilidades que representa la introducción de Microdata9 en el draft de HTML510. A continuación se mostrará las iniciativas para el aprovechamiento de las anotaciones que ha efectuado Yahoo! y una vista previa de su framework, para después centrarnos en Google y toda la actividad que se está desarrollando, el estado actual de su trabajo y el soporte que ofrece a los publicadores de contenidos web. Finalmente se hace la propuesta para el trabajo conjunto entre el enfoque Google y las características de HTML5.

2. MICROFORMATOS

Los microformatos son un método de marcado semántico que permite implementar metadatos para que esa información pueda ser aprovechada por entes software, ya que el enfoque tradicional de marcado de hipertexto sólo indicaba la forma en la que la información será presentada, mas no su significado.

Dada la posibilidad que ofrecen HTML y XHTML de admitir la inclusión y codificación de la semántica dentro de los atributos de las etiquetas de marcado, Los microformatos constituyen un intento para incrementar el poder expresivo de HTML por medio de nuevos formatos de datos que yacen sobre elementos y atributos de HTML estándar que definen combinaciones de <abbr>, class, rel, y otros elementos para especificar información estructurada sobre personas, eventos y otros elementos de interés.

4http://yahoo.com 5 http://www.google.com6 http://microformats.org/wiki/microformats7 http://research.talis.com/2005/erdf/wiki/Main/RdfInHtml8 http://www.w3.org/TR/xhtml-rdfa-primer/9 http://www.whatwg.org/specs/web-apps/current-work/multipage/microdata.html10 http://www.w3.org/TR/html5/

2

Page 3: Estado del arte v3.0

Al momento de realizar este trabajo aunque existen muchos en desarrollo, sólo algunos son considerados como estables por la comunidad que lidera esta iniciativa y por tanto su uso ya se halla extendido. Estos microformatos estables son mostrados en la tabla 1.

Tabla 1. Microformatos estables a la fecha y su utilidad. [1]Nombre UtilidadhCalendar Para marcar Eventos.hCard Representar personas, compañías, organizaciones y

lugares.rel-license Especificación de Copyrightrel-nofollow Para desalentar contenido spam de terceros.rel-tag Indica etiquetado descentralizado. (Folksonomía).VoteLinks Para expresar opinión mediante votos. XFN Para representar relaciones sociales.XOXO Para listas y outlines a ser procesadas por engines XML.

Los Microformatos han sido aceptados e implementados desde muchos sectores principalmente por la facilidad de uso y amplio detalle, la comunidad muestra ejemplos –examples in the wild– e implementaciones11, pero a su vez se han oído voces criticas hacia ciertos aspectos en especial relacionados con el alcance y desarrollo centralizado que la comunidad responsable maneja; esto y otros elementos positivos y negativos son detallados en la tabla 2.

Tabla 2. Microformatos: Ventajas y Desventajas.

Ventajas DesventajasFacilidad de uso. Es una iniciativa “independiente”, no

forma parte de la propuesta W3C para Web Semántica.

Amplia implementación. Vocabulario reducido.Proceso de desarrollo y patrones de diseño definidos y maduros.

Desarrollo centralizado por medio de la comunidad.

Existencia de plugins para exploradores en uso.

No usa namespaces.

Herramientas para crear hCards y hCalendars.

Verbosidad. Al ser implementados con XHTML, heredan esta característica de los lenguajes basados en XML. Al usar el mismo formato para consumo humano y máquina, se aumenta el uso del ancho de banda en servicios como la sindicación o RSS Feeds.

Modularidad y capacidad de mezcla. Se puede componer microformatos usando otros.

Se aumenta la posibilidad spam usando la información provista por hCards

Pueden ser identificados y manipulados usando JavaScript y el

Existen muchos Microformatos “moribundos”.

11 http://microformats.org/wiki/examples-in-the-wild

3

Page 4: Estado del arte v3.0

DOM (Document Object Model)Inconvenientes AT. JAWS

El último punto de las desventajas debe ser clarificado mayormente. Desde hace algún tiempo se ha presentado un inconveniente en relación con las tecnologías asistivas (AT) -tecnologías para compensar a personas con diversas incapacidades-, particularmente el problema es con el software JAWS12 que lee el contenido a los usuarios no videntes; el cual interpreta el marcado con abbr en fechas y ubicaciones como la abreviatura de los metadatos, con la consecuente lectura de los valores semánticos. La segunda dificultad se presenta con el patrón include que usa un href vacío, con lo que el software presenta contenido misterioso a sus usuarios. [5]

Para ejemplo de marcado semántico de información de contacto mediante el uso de hCard, véase la Figura 1, en donde se muestra el uso de las propiedades para representar nombre, dirección, ciudad, país y mail de una persona, siendo sólo algunas de las definidas por el RFC 242613 para la especificación de vCards.

Figura 1. Información de Contacto hCard

<div class="vcard"> <img src="http://mipagina.com/images/fmc.jpg" alt="Yo" class="photo"/> <a class="url fn" href="http://mipagina.com/martin/">Martin Coronel</a> <div class="adr"> <div class="street-address">San Cayetano</div> <span class="locality">Loja</span>, <div class="country-name">Ecuador</div> </div> <a class="email" href="mailto:[email protected]"> [email protected] </a> </div>

2.1. MICROFORMATOS: El Proceso.

Microformats.org14 provee lineamientos para el desarrollo de nuevos microformatos, pero en su wiki se hace énfasis en ciertos pasos –o recomendaciones– antes de aventurarse a proponer un nuevo microformato.

La comunidad detrás de Microformats plantea que promueva su uso para lo cual es necesario pasar a su site a Plain Old Semantic HTML15 (POSH), y marcarlo con los microformatos existentes, para que luego evalúe la necesidad de uno nuevo, pues

12 http://www.freedomscientific.com/jaws-hq.asp13 http://microformats.org/wiki/rfc-242614 http://microformats.org/wiki/process15 http://microformats.org/wiki/POSH

4

Page 5: Estado del arte v3.0

pueden ya existir iniciativas en diferentes etapas de desarrollo para aquello que precipitadamente desea proponer. Si no se da tal caso será necesario revisar los principios de diseño [4] Reduzca-Reuse-Recicle que pueden ser resumidos como:

Reduzca: favorecer las soluciones más simples y poner atención a problemas específicos.

Reuse: trabaje con base en experiencias y auspiciar la práctica actual. Reciclar: promover la modularidad y la habilidad para embeber, el XHTML

valido puede ser reusado en entradas de blogs, RSS feeds y otros elementos.

Con todo esto en mente, el proceso para el desarrollo de un nuevo microformato, se reduce a la secuencia de pasos iterativos mostrados en la figura 2.

Figura 2. Proceso para desarrollar un nuevo microformato.

2.2. LOS EXPLORADORES Y LOS MICROFORMATOS.

Debido al aumento en la presencia de microformatos en la Web, las últimas versiones de algunos navegadores ya poseen extensiones para el descubrimiento de microformatos en la páginas, en el caso de Mozilla Firefox tenemos Operator16, Tails17, Giftag18 y BlueOrganizer19 como los más significativos. De estos Operator es el más popular entre los usuarios, desarrolladores y publicadores de contenidos con microformatos; incluso Operator provee una arquitectura para el análisis de Microformatos (microformat parsing), el cual probablemente será integrado en futuras versiones del navegador. [3]

Como alternativa para Microsoft® Internet Explorer se presenta Oomph20, cuyas principales características son: encontrar – consumir, crear, y dar estilo a Microformatos, para lo cual cuenta con un set de estilos CSS y un plug-in para Windows Live Writer para insertar hCards.

16 http://microformats.org/wiki/Operator17 http://blog.codeeg.com/tails-firefox-extension-03/18 http://www.giftag.com/19 http://www.adaptiveblue.com/20 http://oomph.codeplex.com/

5

Enunciado del

Problem a

Investigación/

Discusión

Propuesta /

Borrador

Estándar

Page 6: Estado del arte v3.0

SafariMicroformats21 detecta Microformatos indicando su presencia mediante un ícono en la barra de direcciones, soporta hCard y hCalendar y facilitando su extracción o exportarlos a su agenda o Calendario.

3. RESOURCE DESCRIPTION FRAMEWORK RDF

RDF o Marco de Descripción de Recursos es un framework para metadatos en la World Wide Web (WWW). RDF es el estándar de la W3C para los datos interoperables legibles por máquinas (interoperable machine-readable data) y su combinación con otras herramientas como RDF Schema y OWL le otorgan significado a las páginas, y es una de las tecnologías esenciales de la Web semántica.

Este modelo (ver figura 3) se basa en la idea de convertir las declaraciones de los recursos en expresiones con la forma sujeto-predicado-objeto (tripletas). El sujeto es el recurso, es decir aquello que se está describiendo. El predicado es la propiedad o relación que se desea establecer acerca del recurso. Por último, el objeto es el valor de la propiedad o el otro recurso con el que se establece la relación.

Figura 3. Modelo de datos RDF

El propósito de RDF es proveer un mecanismo de codificación e interpretación para que los recursos puedan ser descritos en una forma que el software pueda entenderlo. La terminología proviene de la lógica y de la lingüística en las que las estructuras predicativas se utilizan también para dar significado a las representaciones sintácticas. En la figura 4, se muestra un ejemplo de RDF para representar las relaciones –publicador- y -titulo- de un artículo de Wikipedia -sujeto-, del cual posteriormente se obtienen las tripletas que representan las relaciones que describen al artículo.

21 http://www.zappatic.net/safarimicroformats/index.html

6

Recurso VALORTIPO DE

PROPIEDAD

Propiedad / descripción

Page 7: Estado del arte v3.0

Figura 4. Ejemplo de RDF sobre un artículo de la Wikipedia y tripletas obtenidas.

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/"><rdf:Description rdf:about="http://en.wikipedia.org/RDF"> <dc:title> Resource Description Framework </dc:title> <dc:publisher>Wikipedia</dc:publisher></rdf:Description></rdf:RDF>

Tripletas obtenidasSujeto Predicado Objeto<http://en.wikipedia.org/> <http://purl.org/dc/elements/1.1/title> "Resource Description

Framework"

<http://en.wikipedia.org/RDF <http://purl.org/dc/elements/1.1/publisher> "Wikipedia”

3.1. eRDF

Embedded RDF o eRDF es una sintaxis para escribir HTML, de tal forma que la información del documento pueda ser extraída en RDF, ya sea por medio de un Parser o una Hoja de estilos XSLT (XSL -Extensible Stylesheet Language- Transformations).

Para que un documento HTML le sea reconocido la existencia de eRDF se debe declarar la adhesión a un perfil especial. Este perfil declara que el documento se adapta a las convenciones para embeber-incrustar- RDF. Esto se logra sumando el atributo profile="http://purl.org/NET/erdf/profile" al head del documento. Lo siguiente que se debe hacer es indicar los esquemas a ser usados para añadir las tripletas. Cada esquema representa una colección de nombres de propiedades, esto es análogo a los namespaces usados en los documentos XML.

eRDF permite que muchas partes importantes del modelo RDF sean incluidas, pero no es un intento para extenderlo a todo el modelo eRDF, esto puede ser resumido en que: Todo RDF embebible en HTML es RDF válido, pero no todo RDF puede ser RDF embebible. [9]

7

Page 8: Estado del arte v3.0

Figura 5. Uso de eRDF para mostrar una página About, usando FOAF.

<html> <head profile="http://purl.org/NET/erdf/profile"> <title>Hola mundo</title> <base href="http://mipagina.com/about" /> <meta name="dc.creator" content="Martin Coronel" /> <meta name="dc.title" content="Hola mundo" /> <link rel="schema.dc" href="http://purl.org/dc/elements/1.1/" /> <link rel="schema.foaf" href="http://xmlns.com/foaf/0.1/" /> <link href="#anna" rev="foaf-homepage foaf-made" rel="foaf-maker" /> </head> <body> <h2>About me...</h2> <p id="martin">

Hola, Soy <span class="foaf-name"><span class="foaf-firstName">Martin</span> <span class="foaf-surname">Coronel</span></span>.

<img style="float: right" src="pic.jpg" class="foaf-depiction" alt="Yo"/> Mi nick de Messenger es <span class="foaf-nick">martinc</span>. </p>

</body></html>

3.2. RDFa

Resource Description Framework-in-attributes es la recomendación de la W3C para añadir metadatos enriquecidos a nivel de atributos en páginas Web. RDFa se diferencia de eRDF en que utiliza atributos para incluir los metadatos semánticos, mientras que eRDF “incrusta” la información de las tripletas utilizadas, requiriendo la descripción de perfiles y esquemas a ser utilizados por el documento.

RDFa permite que, usando algunos simples atributos los autores de XHTML, puedan marcar datos legibles por humanos con indicadores permitiendo que los navegadores y/u otros programas los entiendan. Una página Web puede contener metadatos que expresen desde el título de un artículo, hasta algo complejo como la red social completa del autor del mismo. Para el uso de RDFa se deben de usar los atributos detallados en la tabla 3.

Con RDFa las reglas para interpretar los datos son genéricas, por lo tanto no hay necesidad de diferentes reglas para diferentes formatos; facilitando a los autores y publicadores de datos definir sus propios formatos sin tener que actualizar software, o registrarlos ante una autoridad central o preocuparse que dos formatos interfieran entre sí.

8

Page 9: Estado del arte v3.0

Tabla 3. Lista de atributos de RDFa

Atributo Especificaabout La URI (Uniform Resource Identifier) o CURIE (Compact URI) del

recurso del que son los metadatos. Por defecto el documento actual.

rel, rev Relación o relación inversa con otro recurso.href, src, resource El recurso asociado a este.property La propiedad del contenido de un elemento.content Sobrecarga el contenido del elemento cuando se usa el atributo

anterior. Opcional.datatype Tipo de datos del texto especificado con el atributo propiedad.

Opcional.typeof Tipo de RDF del sujeto. Opcional.

Según el RDFa Primer, a la fecha dada la extensibilidad de XHTML contrario a HTML, RDFa ha sido sólo especificado para XHTML 1.1. Sin embargo, se puede usar RDFa en HTML4, ya que no se han reportado problemas con los Web Browsers al presentar documentos que contienen dichas anotaciones. Al momento, RDFa no se validará en HTML4. Los atributos RDFa se validan en XHTML, usando la DTD –Document Type Definition- XHTML1.1+RDFa. [10]

Al marcar los documentos con RDFa se usan anotaciones de Dublin Core 22 (DC) para describir documentos o Friend of a Friend23 (FOAF) para la información de contactos, entre otros; la representación abstracta subyacente a RDFa es RDF, lo cual le faculta construir su propio vocabulario o extender otros. En la figura 6 se hace uso de DC para anotar semánticamente una página que detalla la revisión de un libro, nótese el uso de las CURIES para facilitar la mención a los metadatos.

22 http://dublincore.org23 http://www.foaf-project.org/

9

Page 10: Estado del arte v3.0

Figura 6. Uso de RDFa en HTML.

<html xmlns="http://www.w3.org/1999/xhtml" xmlns:biblio="http://example.org/" xmlns:dc="http://purl.org/dc/elements/1.1/" > <head> <title>Edgar Allan Poe, Maestro del Terror</title> </head> <body> El relato de Poe <span about="urn:ISBN:0091808189" typeof="biblio:book" property="dc:title"> El escarabajo de Oro </span> nos lleva a la búsqueda de una reliquia misteriosa, entre un ambiente que nos transporta al tiempo en que fue escrito. Si lo disfrutaste, te recomiendo <span about="urn:ISBN:1596913614" typeof="biblio:book" property="dc:title"> La mascara de la Muerte Roja </span>. </body></html>

Una barrera para la rápida introducción de RDFa, es el uso de una nueva sintaxis para el URI Uniform Resource Identifier, pues la tradicional, es reemplazada en RDFa con la sintaxis CURIE, la cual simplifica el trabajo con los enlaces en la URI y acorta la codificación. CURIE es una Recomendación Candidata de la W3C; se pretende su uso en SPARQL, RDFa y XHTML 2. Sin embargo, esta tecnología todavía está en una fase temprana de desarrollo. [31]

3.3. DIFERENCIAS ENTRE eRDF y RDFa

Siendo eRDF y RDFa propuestas alternativas basadas RDF para marcado semántico presentan algunas características comunes, pero es necesario centrarnos en las diferencias entre las dos alternativas, que según diversos criterios se presentará como ventajas/desventajas:

eRDF se valida en HTML4 / XHTML 1.0 y RDFa sólo en XHTML 1.1, a la espera de la implementación de HTML5.

eRDF sólo es parcialmente apoyando por la W3C, a diferencia de RDFa que la recomendación del consorcio.

10

Page 11: Estado del arte v3.0

RDFa provee soporte explícito el uso de nodos vacíos –blank nodes–, mientras que eRDF requiere que cada nodo deba de especificar un URI válido o una cadena de de texto.

RDFa podría ser integrando en lenguajes (no-HTML) con namespaces XML.

3.4. RDFa y los Microformatos a nivel semántico.

Desde el punto de vista de descripción de los datos la principal diferencia es que microformatos puede usar sólo un vocabulario, el cual es aprobado por la comunidad y no puede ser modificado de forma independiente por desarrolladores. RDFa es el caso contrario, pues sus vocabularios no están limitados por un set de datos específico.

La simplicidad y unicidad del vocabulario de los Microformatos aumenta la facilidad y probabilidad que el software aproveche la presencia de los mismos en páginas Web. Con RDFa la situación cambia radicalmente. Algunos pluggins para Firefox proclaman la habilidad de trabajar con RDFa, pero al momento sólo son capaces de encontrar código RDFa presente en la página. Lo cual se presenta obviamente como una ventaja para los desarrolladores, no tanto para los usuarios finales de la página.

Estas observaciones junto a las capacidades tecnológicas se resumen en la tabla 4, realizada con base en el Trabajo de Tomberg y Lampere[31], aunque con la adición del soporte que posteriormente a la publicación de su trabajo, Yahoo! ha incorporado.

Tabla 4. Comparación entre Microformatos y RDFa.

Microformatos RDFaPropiedades Tecnológicas Puede ser aplicado a HTML, XHTML XHTML 2 y en forma

limitada para XHTML 1.1Implementaciones útiles para el usuario final

Sí, existen plugins para diferentes navegadores

No son útiles para el usuario final.

Puede ser usado en mash-ups Sí SíUso en la práctica de ejemplos indexado semántico

Google y Yahoo indexan microformatos

Yahoo! sí, Google ha comenzado a usarlo.

Estandarizado No SíInconvenientes Muy difícil de usar un solo

vocabulario para todos los XHTML 2 todavía está en desarrollo.

11

Page 12: Estado del arte v3.0

propósitos.Propiedades Semánticas Vocabulario Uno MuchosVocabulario puede ser extendido Sí, por medio de la

comunidadSí, libremente

Nivel de Interoperabilidad Alto Posible solo si se aplican vocabularios comunes son usados

Posibilidad de añadir valores semánticos a los datos

Promedio Alto

3.5. RDFa, SPARKS O3 BROWSER.

Sparks24 es un framework JavaScript diseñado para el manejo de capas y datos semánticos. Entre sus funcionalidades tenemos [36]:

Sincronización y manipulación de Tripletas Cliente/Servidor. Analizador RDFa/ Procesador SPARQL y Almacen de tripletas “Client-Side” Soporte para JSON/JSONP SPARQL.

O3 (Ozone Browser) es una herramienta JavaScript que usa la semántica embebida en documentos Web para mejorar el entendimiento de un documento por parte del usuario.

Características:

Bookmarklet +Semantic Overlay. Plugins de Visualización dinámica (Twitter, GeoEvents, etc.) Visualización de conceptos relacionados. Vista Desarrollador –Developer view- que muestra las tripletas y las consultas

SPARQL. Ver figura 7.

24 http://www.dcs.shef.ac.uk/~gregoire/sparks/

12

Page 13: Estado del arte v3.0

Figura 7. Ozone Browser en acción: Parte izquierda resumen de un evento contenido en una página Web y derecha la vista Desarrollador respectiva. [36]

4. Alternativas para Publicar Información Estructurada.

4.1. Structured Blogging.

Structured Blogging25 es una forma de agregar metadatos semánticos a las entradas en los blogs, particularmente a eventos, revisiones y avisos clasificados (Ver figura 8). Soporta microformatos basados en XML o xHTML y que puedan ser convertidas entre los dos tipos. Los Plugins que ofrece Structured Blogging disponibles para Wordpress26 y MovableType27 permiten la publicación de contenido xHTML estructurado, con marcado de página compatible con microformatos y con bloques de XML fácilmente analizables. También están diseñados para transportar microcontenidos en todos los tipos de feeds XML, como RSS 2.0, Atom y RSS 1.0.

Otra característica bastante importante es la capacidad de conversión automática en RDF.

25 http://structuredblogging.org/index.php26 http://www.wordpress.org/27 http://www.movabletype.org/

13

Page 14: Estado del arte v3.0

Blog Entry

Reviews

Events

People

Figura 8. Microcontenidos soportados en Structured Blogging.

En su versión 1.0pre18 soporta los siguientes microformatos:

hCard hCalendar hReview relLicense relTag XFN XOXO

RDF

FOAF vCard-in-RDF28

iCal 29

Vocabulario CaptSolo30 para Currículos. RDF reviews de Danny Ayers

4.2. Drupal.

Drupal31 es un CMS open source bastante popular. Drupal facilita la creación de sitios web simplificando y manejando el flujo de datos, control de acceso, cuentas de usuarios y la codificación y almacenamiento de datos en la base de datos.

Dada la importancia y el sector del mercado que drupal acoge, se han desarrollado algunos módulos con el fin de integrar los contenidos de drupal a la Web Semántica, en la tabla 5 se describe los más significativos.

28 http://www.w3.org/2001/vcard-rdf/3.029 http://www.w3.org/2002/12/cal/ 30 http://captsolo.net/semweb/ 31 http://www.drupal.org/

14

Page 15: Estado del arte v3.0

Tabla 5. Módulos Drupal con soporte RDF [34]

Módulo DescripciónRDF Provee funcionalidad RDF para la plataforma 6.x de DrupalSemantic Markup Editor32

Editor de marcado para adición de RDFa. Aún en desarrollo.

SPARQL33 Habilita el uso de consultas SPARQL con la API RDF para Drupal 6.x.Rdf External Vocabulary Importer

EVOC34. Módulo que permite el uso de cualquier vocabulario RDF y expone sus clases y propiedades a otros módulos. Requiere de los módulos RDF y SPARQL.

Neologism35 Editor de vocabularios y herramienta de publicación para Drupal. Puede crear un vocabulario, añadir las clases y sus propiedades para instantáneamente publicarlo y hacerlo disponible a otros vía online. Soporta los formatos: HTML, RDF/XML y N3.

Calais Es la integración del Web Service Calais 36que automáticamente crea metadatos semánticos enriquecidos para sus contenidos. Usa procesado de lenguaje natural, aprendizaje automatizado y otros métodos. Para su uso se requiere obtener una clave API de manera libre en su sitio web.

5. Proyectos de Tagging Semántico

Diferentes servicios de marcado social ahora usan etiquetas semánticas, cada una de las cuales con un modelo diferente para la relación y con su criterio que los hace “semánticos”.

ZigTag37. Servicio que provee etiquetas –tags- semánticas obtenidas de su propia base de datos, recolectada automáticamente desde fuentes públicas. Provee una extensión para el navegador FireFox para facilitar su uso.

Fuzzy38. Es un proyecto que permite la representación de la semántica de las relaciones entre etiquetas con el uso de Mapas de temas –Topic Maps-. Aspecto interesante de este proyecto es que además de los aspectos característicos de los servicios de tagging tradicionales añade información más específica, tal como el tipo de recurso (video, página web, herramienta, etc.) el contexto geográfico, el tipo de conocimiento

32 http://drupal.org/project/semantic_markup_editor33 http://drupal.org/project/sparql34 http://drupal.org/project/evoc35 http://drupal.org/project/neologism36 http://drupal.org/project/opencalais37 http://zigtag.com/38 http://www.fuzzzy.com/

15

Page 16: Estado del arte v3.0

6. GOOGLE y el Marcado Semántico

Con el fin de mejorar la experiencia de búsqueda Google a partir de mayo del presente año implementó los Snippets enriquecidos (Rich Snippets). El Snippet como tal es un pequeño ejemplo del contenido de la página asociada a los términos de la búsqueda. Para poder desplegar un Rich Snippet, Google busca la presencia de formatos de marcado, en principio algunos microformatos y RDFa para mostrar información referente a Revisiones, personas, Negocios, Organizaciones, productos y Ratings.

Conjuntamente con la extensa documentación sobre los Rich Snippets, los microformatos y el soporte a RDFa que hace posible la explotación de esta nueva característica implementada en los resultados provistos por el buscador, se ha puesto a disposición una herramienta de Previsualización (Rich Snippets Testing Tool) de una página con la presencia de Microformatos o RDFa. Ver figura 9. [18]

Figura 9. Vista previa de ejemplo en Rich Snippets Testing Tool.

Esta herramienta examina su página y las respectivas anotaciones presentes en la misma. Como parte del proceso para obtener los Rich Snippets, se requiere el relleno de una forma, para con el tiempo habilitar esta innovación. [19]

Por otro lado, Google no garantiza la presentación de Rich Snippets como resultado de una búsqueda, aún cuando, existan las anotaciones respectivas y la herramienta de extracción no muestre inconvenientes al realizar las respectivas pruebas. Dentro de estas circunstancias contamos [13]:

Las anotaciones (datos estructurados de marcado) son incorrectas, engañosas o no son relevantes para el contenido de la página.

El site no es atractivo para el sistema de Google, (tiene muy pocas páginas publicadas o pocas con anotaciones).

16

Page 17: Estado del arte v3.0

Las anotaciones se encuentran ocultas al usuario. (usando “hidden” divs).

6.1. Revisiones.

Para tomar en consideración a las revisiones, Google soporta hReview y RDFa Review con las siguientes propiedades. En paréntesis el nombre de la propiedad hReview si difiere de RDFa Review. Además algunas veces en la página no se incluye directamente, sino que se muestran imágenes con el rating, usualmente estrellas; en cuyo caso se debe añadir la clase rating (class= “rating”), de esta forma Google extraerá el valor del texto alternativo. [GO-REVW]

Tabla 6. Propiedades RDFa Review y hReview soportadas por Google.

Propiedad Descripciónitemreviewed (item)

El ítem en revisión.

name (fn) El nombre del ítem en revisión. Hijo de item.rating Cualidad numérica que valora al ítem, por ejemplo en una

escala 1-5. Opcionalmente se puede definir el valor worst (default: 1) o best (default: 5)

reviewer El autor de la revisión.dtreviewed La fecha en la que el ítem fue revisado.description El cuerpo –contenido- de la revisión.summary Un corto resumen de la revisión.

También se reconoce las revisiones agregadas, las cuales muestran una valoración ponderada de todas las revisiones para el elemento, con este fin se agregan propiedades a considerar para una evaluación conjunta.

Tabla 7. Propiedades de las Revisiones Agregadas.

Propiedad Descripciónitemreviewed (item) El ítem en revisión.name (fn) El nombre del ítem being reviewed. Hijo de item.rating Contenedor para la información de rating. average Rating promedio de todas las revisiones. Hijo de rating. count Numero total de revisiones para el elemento.summary Corto resumen de las revisiones hechas al ítem.

17

Page 18: Estado del arte v3.0

6.2. Productos

Tabla 8. Propiedades de producto reconocidas, en paréntesis el nombre de la propiedad en el Microformato.

Propiedad Descripciónbrand Marca del producto. Ej. ACME.category La categoría a la que el producto pertenece. Ej. "Books—Fiction",

"Heavy Objects", o "Cars".description Descripcion del productname (fn) Nombre del productprice Precio. Número flotante, también acepta formato moneda.photo URL de la foto del productourl URL de la página del producto.

6.3. Últimos aportes.

El formato Person RDFa, fue el primero, pero, se han adicionado el soporte a los campos correspondientes a FOAF y vCard. De la misma forma para mejorar el indexando de video, los formatos de marcado de Facebook Share y el usado por Yahoo! SearchMonkey RDFa Video ahora son reconocidos. [22]

1. YAHOO!

Yahoo! desde el primer trimestre del 2008 cuenta con SearchMonkey, un framework para la creación de pequeñas aplicaciones que mejoren los resultados de búsqueda con datos y estructura adicional, como imágenes, pares clave/valor y enlaces adicionales. Estos resultados serán mostrados basados en dos templates:

a. Infobar. Resultado “sencillo”, difiere de la manera tradicional de mostrar los resultados con la presencia de un panel expandible con información adicional.

b. Enhanced Result. Un resultado más elaborado, que esta limitado a un conjunto de elementos específicos: título Title, resumen Summary, imagen Image, enlace Link que debe pertenecer al sitio para mayor información o para alguna acción posterior que el usuario desee hacer. El componente final es Dict, que es un par clave/valor que provee información concisa y estructurada tal como revisiones, especificaciones técnicas u horas de operación. Puede contener 4 dicts como máximo. Ver figura 10.

18

Page 19: Estado del arte v3.0

Figura 10. Resultado de búsqueda Yahoo! como Infobar (superior) y como Enhanced Result.

Los beneficios de SearchMonkey para los usuarios del buscador:

Mejora de los resultados de búsqueda de sitios y marcas establecidas. Personalización de la experiencia de búsqueda, permitiéndoles añadir

aplicaciones opcionales. Proveer enlaces relevantes y datos estructurados, para agilizar las tareas

efectuadas.

Para el propietario del site, los beneficios incluyen:

La explotación de las anotaciones semánticas incluidas en sus páginas, exponiendo esa información a una audiencia masiva.

Incrementar la cantidad y calidad del tráfico, suministrando mejor información y ayudando a los usuarios a determinar la relevancia de las páginas.

Una aplicación SearchMonkey consta de dos partes:

Data Services uno o más servicios de datos, que le provee información estructurada para mostrar como resultado en las búsquedas.

presentation application, que define como deben ser mostrada. Esto es definido mediante funciones PHP que serán almacenadas en el servidor de Yahoo.

19

Page 20: Estado del arte v3.0

Figura 11. Relación entre componentes de una aplicación SearchMonkey. [24]

2. HTML5

HTML, “Hypertext Markup Language” o Lenguaje marcado de hipertexto llega a su versión 5 con cambios. HTML 5 especifica dos variantes de sintaxis para HTML: un “clásico” HTML (text/html), la variante conocida como HTML5 y una variante XHTML conocida como sintaxis XHTML5 que deberá ser servida como XML (XHTML) (application/xhtml+xml). Esta es la primera vez que HTML y XHTML se han desarrollado en paralelo.

Los nuevos elementos estructurales que eran implementados con div, ahora tienen su propio elemento HTML5. En breves rasgos son:

section: Puede ser un capítulo, una sección de un capítulo o básicamente cualquier cosa que incluya su propio encabezamiento.

header: La cabecera de una página. No confundir con el elemento head footer: El final de la página. nav : Una colección de links a otras páginas article: Una entrada independiente en un blog, revista, etc. Ver figura 8.

20

Page 21: Estado del arte v3.0

21

Page 22: Estado del arte v3.0

Figura 12. Elementos HTML5 incorporados en relación a la versión anterior.

Aunque HTML5 es un trabajo en proceso Firefox 3.5, Safari, Opera, Chrome e incluso IE8 ya soportan algunas cosas y en muchas páginas ya se presentan ejemplos, principalmente del soporte a video y audio como elemento de HTML.

Otra característica importante, es la incorporación de elementos para resaltar el carácter semántico del contenido mostrado. [30]

aside: Es un bloque semántico que representa una nota, un consejo una explicación….

figure: Se utilizará para representar una imagen dialog: Se utilizará para representar una conversación entre varias personas time: Se utilizará para marcar un momento temporal en una historia meter: Se utilizará para indicar ciertas medidas dependiendo de los atributos progress: Representará el estado de cierto proceso video: Un video audio: En este caso un archivo de audio details: Más detalles sobre alguna cosa datagrid: Una tabla, una recopilación de datos formateados menu: Un listado, un menú…

22

Page 23: Estado del arte v3.0

a. MICRODATA: La propuesta para marcado semántico parte del Draft de HTML5.

En los últimos aportes de los desarrolladores de HTML5 se ha presentado la inclusión de los microdatos -Microdata- que suponen una especie de híbrido entre las sintaxis de microformatos y RDFa incorporado en la de HTML5 con el uso de los nuevos atributos ítem y sus propiedades respectivas.

Un ítem es un grupo de pares nombre-valor o propiedades -itemprop-. Para la creación de ítems se usa el atributo itemscope, cada propiedad, puede tomar un valor string o URL, para lo cual se requiere de los elementos a y su atributo href, al igual que se usa el elemento img y su atributo src para elementos que referencian o incrustan recursos externos. El uso de microdatos para añadir semántica a HTML es bastante sencillo, en la figura 13 se muestra el marcado de información referente a una persona añadiendo el elemento time para marcar una fecha en el ítem birthday.

Figura 13. Ejemplo del uso de microdata.

<div itemscope> <p>Hola, Mi nombre es <span itemprop="name">Martin</span>.</p> <p>Mi banda favorita es <span itemprop="band" itemscope> <span itemprop="name">Metallica</span>

</div><div itemscope> Nací el <time itemprop="birthday" datetime="1986-11-21"> 21 de Noviembre de 1986</time>.</div>

Los vocabularios como tales están regidos por los tipos de ítems que pueden ser representados. Los tipos (Types) son identificados como URL descritas dentro del atributo itemscope, por lo que un ítem sólo puede ser de un tipo, ya que este le da el contexto para las propiedades que posee dicho ítem.

En algunos casos, un ítem debe de ser identificado inequívocamente, por lo que surge la necesidad de un id para dicho elemento, como es el caso de un libro, persona, clase o curso. El atributo itemid añade esta capacidad mostrando la individualidad de un ítem. Véase la figura 14, que detalla a un libro, además mostrado el type que identifica el vocabulario, cuestión abordada anteriormente.

23

Page 24: Estado del arte v3.0

Figura 14. Representación de un libro con microdata asociada.

<dl itemscope itemtype="http://vocab.example.net/book" itemid="urn:isbn:0-330-34032-8"> <dt>Title <dd itemprop="title">The Reality Dysfunction <dt>Author <dd itemprop="author">Peter F. Hamilton <dt>Publication date <dd><time itemprop="pubdate" datetime="1996-01-26">26 January 1996</time></dl>

Vale recalcar que la especificación mostrada aquí sobre esta propuesta es parte del draft (3 de Noviembre 2009), el cual todavía se encuentra en etapa de discusión, por lo cual ciertos aspectos están muy poco detallados y sujetos a continuo cambio, tal es el caso de itemprop, que anteriormente se citaba como property. [32]

3. OBSERVACIONES

a. La adopción del soporte de Microformatos y RDF por parte de Yahoo! y últimamente Google constituye el mejor incentivo para que los Websites implementen rápidamente las anotaciones Semánticas.

b. La presencia de elementos de marcado, no garantiza la presentación de Rich Snippets de su Web debido a que la naturaleza de las anotaciones que usa Google para generarlos esta orientada a Web con información referente a revisiones, redes sociales y en un futuro cercano se irá ampliando el espectro a otros tipos de sites.

c. La implementación de aplicaciones SearchMonkey presentará los resultados de búsqueda como más atractivos y útiles, pero no cambiará el rankeado algorítmico para su web.

d. La propuesta de Google para ofrecer sus rich Snippets es más sencilla al sólo requerir la inclusión de anotaciones semánticas en su site y difiere de Yahoo! SearchMonkey, pues, al ser un framework, implica un trabajo adicional, a tal punto que ofrece la funcionalidad tanto para publicadores de contenidos como desarrolladores de aplicaciones SM, así como un repositorio de Aplicaciones disponibles para cualquier usuario Yahoo!.

e. Las nuevas características del HTML5 vislumbran un gran cambio en la web, ya que acorde con su adopción por parte de los principales navegadores, permitirán que los contenidos estén mejor estructurados, siendo un paso más hacia la web semántica.

24

Page 25: Estado del arte v3.0

4. REFERENCES

[1] Microformatos Wiki [Consultado a 2 de Noviembre 2009] [En línea] Disponible en: http://microformats.org/wiki/microformats

[2] Extensiones para Firefox [Consultado a 9 de Noviembre 2009] [En línea] Disponible en: http://microformats.org/wiki/firefox-extensions

[3] RDFa vs Microformatos [Consultado a 9 de Noviembre 2009] [En línea] Disponible en: http://evan.prodromou.name/RDFa_vs_microformats

[4] Microformat [Consultado a 4 de Noviembre 2009] [En línea] Disponible en: http://en.wikipedia.org/wiki/Microformat

[5] Accessibility problems with Microformats SNEE [Consultado a 24 de Noviembre 2009] [En línea] Disponible en: http://www.snee.com/bobdc.blog/2008/03/accessibility-problems-with-mi.html

[6] LAWLESS, Derek. An Introduction to Microformats. [Consultado a 24 de Noviembre 2009] [En línea] Disponible en: http://dereklawless.ie/articles/

[7] Discussion Moribund Microformats. [Consultado a 24 de Noviembre 2009] [En línea] Disponible en: http://microformats.org/wiki/exploratory-discussions#Moribund

[8] RDF [Consultado a 31 de Octubre 2009] [En línea] Disponible en: http://en.wikipedia.org/wiki/Resource_Description_Framework

[9] Rdf in HTML [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://research.talis.com/2005/erdf/wiki/Main/RdfInHtml

[10] RDFa XHTML [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://www.w3.org/TR/xhtml-rdfa-primer/

[11] RDFa [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://en.wikipedia.org/wiki/RDFa

[12] RDFa Syntax [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://www.w3.org/TR/rdfa-syntax

[13] Google Rich Snippets [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://knol.google.com/k/google-rich-snippets/google-rich-snippets/32la2chf8l79m/1#

[14] Introducing Rich Snippets [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://googlewebmastercentral.blogspot.com/2009/05/introducing-rich-snippets.html

[15] hReview [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://www.microformats.org/wiki/hreview

25

Page 26: Estado del arte v3.0

[16] An Update on Snippets [Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://googlewebmastercentral.blogspot.com/2009/10/help-us-make-web-better-update-on-rich.html

[17] Reviews [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=146645

[18] Rich Snippets Testing Tool [Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://www.google.com/webmasters/tools/richsnippets

[19] Form Interested in Rich Snippets[Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://www.google.com/support/webmasters/bin/request.py?contact_type=rich_snippets_feedback

[20] Products [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://www.google.com/support/webmasters/bin/answer.py?hl=en&amp;answer=146750

[21] Person [Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://www.google.com/support/webmasters/bin/answer.py?answer=146646

[22] Facebook Share and RDFa video [Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://googlewebmastercentral.blogspot.com/2009/09/supporting-facebook-share-and-rdfa-for.html

[23] Yahoo embraces semantic Web [Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://www.techcrunch.com/2008/03/13/yahoo-embraces-the-semantic-web-expect-the-web-to-organize-itself-in-a-hurry/

[24] SearchMonkey Guide [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://developer.yahoo.com/searchmonkey/smguide/

[25] SearchMonkey Framework [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://developer.yahoo.com/searchmonkey/

[26] Gallery SearchMonkey [Consultado a 7 de Noviembre 2009] [En línea] Disponible en: http://gallery.search.yahoo.com/

[27] HTML5 [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://www.w3.org/TR/html5/

[28] A preview of HTML5 [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://www.alistapart.com/articles/previewofhtml5/

[29] HTML5 guide [Consultado a 05 de Noviembre 2009] [En línea] Disponible en: http://dev.w3.org/html5/html-author/

[30] Nuevos elementos HTML5 [Consultado a 05 de Noviembre 2009] [En línea] Disponible en: http://techlosofy.com/nuevos-elementos-en-html-5-la-quinta-version-del-lenguaje-de-la-web/

26

Page 27: Estado del arte v3.0

[31]TOMBERG Vladimir, LAANPERE Mart: RDFa versus Microformats: Exploring the Potential for Semantic Interoperability of Mash-up Personal Learning Environments [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://ceur-ws.org/Vol-506/tomberg.pdf

[32] HTML5 Draft Standard – Microdata. [Consultado a 24 de Noviembre 2009] [En línea] Disponible en: http://www.whatwg.org/specs/web-apps/current-work/multipage/microdata.html#microdata

[33] CORLOSQUET Stéphane, CYGANIAK Richard, POLLERES Axel y DECKER Stefan: RDFa in Drupal: Bringing Cheese to the Web of Data. [Consultado a 24 de Enero 2010] [En línea] Disponible en: http://www.semanticscripting.org/SFSW2009/short_3.pdf

[34] Van TOMME, Kristof .Semantic Web: an introduction. [Consultado a 13 de Enero 2010] [En línea] Disponible en: http://www.slideshare.net/kvantomme/semantic-web-and-drupal-an-introduction

[35] Drupal RDF Project [Consultado a 13 de Enero 2010] [En línea] Disponible en: http://drupal.org/project/rdf

[36] Grégoire Burel, Amparo E. Cano, Vitaveska Lanfranchi: Ozone Browser: Augmenting the Web with Semantic Overlays [Consultado a 16 de Enero 2010] [En línea] Disponible en: http://www.semanticscripting.org/SFSW2009/challengesubmissions/submission1.pdf

[37] Ozone Browser [Consultado a 16 de Enero 2010] [En línea] Disponible en: http://www.slideshare.net/evhart/sparks-o3-browser-augmenting-the-web-with-semantic-overlays

[38] LACHICA Roy, Metadata Creation in Socio Semantic Tagging Systems. [Consultado a 13 de Enero 2010] [En línea] Disponible en: http://roy.lachica.no/docs/TMRA07-RoyLachica-Metadata-Creation-in-Socio-semantic-Tagging-Systems.pdf

27