Post on 17-Dec-2014
description
Caminando hacia la Web Semántica:
Datos abiertos enlazados
Jose Emilio Labra Gayo
Universidad of Oviedo, Spainhttp://www.di.uniovi.es/~labra
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Presentación
Director Escuela de Ingeniería InformáticaUniversidad de Oviedo, España
Fundador Equipo investigación WESO (WEb Semántica Oviedo)
Autor libro Web SemánticaPróxima apariciónEditorial NetBiblo, Colección Pcket Innovahttp://www.netbiblo.com
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
La charla en 1’
¿Qué pasa?
¿Porqué?
¿Cómo?
La era de los datos
Razones para publicar datos
Datos abiertos enlazados
Web Semántica: Mitos y retos
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
¡Cuidado…llega la
Web de datos!
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Evolución de la Web
Crecimiento casi exponencial
Fuente: Netcraft webserver survey
Octubre 2011: 504 millones de sitios Web
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
http://www.facebook.com/note.php?note_id=76191543919 http://beerpla.net/2008/08/14/how-to-find-out-the-number-of-videos-on-youtube/
Datos multimedia
Dispositivos + baratos: Cámaras, móviles, …Facebook: 15.000 mill. fotos (2009)
Youtube: 144 mill. de vídeos (2009)
Flickr: 5.000 mill. fotos (2010)
y más…..
Fuente: http://www.coverpop.com/pop/flickr_interesting
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Internet de las cosas
Cada vez más dispositivos estarán conectados a InternetFrigoríficos, coches, …
Frigorífico con Internet
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Y lo que falta…
Aumento de sensores y generadores de datosEjemplo: Acelerador de partículas LHC
producirá 15 petabytes de datos/año
http://www.youtube.com/watch?v=sfEbMV295Kk&feature=player_embedded
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Aún así…
Muchos datos no se están publicando
Reticencias para publicar datos
Razones para liberar datos
Incluso exigir datos abiertos
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Razones para los gobiernos
Datos públicos fomentan la investigación
Acelerar tasa de descubrimiento
Bien común de la ciudadanía
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Razones para los gobiernos
Facilitan contribuciones externas
Sabiduría de las masas
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Razones para los gobiernos
Mejorar calidad
Reducción de costes
Interoperabilidad
Ej. ¿Lista de municipios?
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Razones para los gobiernos
Trasparencia y liderazgoFomentar participación
Generar confianza
Evitar datos alternativos no-oficiales
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Si realmente quieres algo…
…déjalo libre
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Como ciudadanos…
…también podemos demandar datos abiertos…
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
…demandar datos abiertos
Cuando pertenecen a la humanidad
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
…demandar datos abiertos
Hechos de conocimiento común
Ejemplo: conocimiento científico
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
…demandar datos abiertos
Si han sido creados con dinero públicoSon nuestros
Los hemos pagado con nuestros impuestos
Retorno de inversión
OK, ¡vivan los datos abiertos!pero…
¿Cómo publicarlos?
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
El mayor reto = IntegraciónEn general, el problema no es informatizar algo
El problema es integrar los sistemas
Interoperabilidad
No basta con publicar datos…
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Accesibilidad Universal
Niveles de accesibilidadDiscapacidad física
Motivos técnicos: otros entornos
IntelectualAnalfabetismo
Barreras de conocimiento
Accesibilidad culturalOtros idiomas…
Accesibilidad para las máquinas
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Modelo de Estrellas*
★ Publicar los datos (en cualquier formato)
★★ Utilizar formato estructurado (Excel en lugar de imágenes escaneadas)
★★★ Usar formatos no propietarios (CSV en lugar de Excel)
★★★★ Usar URIs para identificar datos (otros sistemas puedan enlazar nuestros datos)
★★★★★ Enlazar con otros datos externos (proporcionar contexto)
* Enunciado por Tim Berners-Lee en Gov 2.0 Expo 2010
http://www.youtube.com/watch?v=ga1aSJXCFe0
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Formatos no estructurados
Formatos “caja negra”: Imágenes, vídeos, música, etc.
Formatos binarios: PDF, PS, etc.
Requieren técnicas de tratamiento de la señal, reconocimiento de patrones, etc.
★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Ejemplo: Servicio Público de Empleo
http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/
★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Formatos estructurados
Los datos tienen una estructura
Ejemplo: Hojas de cálculoProblema con formatos propietarios
Requieren herramientas que no son públicas
★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Ejemplo: Servicio Público de empleo
http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/9
★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Formatos no propietarios
Utilizar formatos abiertos estructurados
Ejemplos: CSV, HTML
Problema: Contenido depende del contexto
★ ★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
CSV
“Comma separated values” valores delimitados por comas
★ ★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
HTML
HTML está pensado para representar información que se visualiza en el navegador
El procesamiento puede requerir “screen scrapping”
★ ★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
URIs para identificar datos
Utilizar una URI para identificar un dato
Diferentes representaciones para cada tipo de dato
Negociación de contenido
★ ★ ★ ★
http://puzzles.org/pieza23471
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
XML
XML permite representar información estructurada
Los documentos pueden validarse (XML Schema)
Significado de etiquetas depende de la aplicación
★ ★ ★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Negociación de contenido
El protocolo de comunicación permite que el navegador informe al servidor del tipo de contenido que prefiere
El servidor devuelve una representación diferente según las preferencias del cliente
★ ★ ★ ★
cliente servidor
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
¿2 representaciones para lo mismo?
Ejemplo: Códigos de barras
★ ★ ★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Enlazar con otros datos
Asociar otros conjuntos de datos
Reutilización de datos
Inferencia de conocimiento
★ ★ ★ ★ ★
La mejor manera de explotar tus datos se le ocurrirá a otro
Jo Walsh, Rufus Pollock, http://www.okfn.org/files/talks/xtech_2007/
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2007)
★ ★ ★ ★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2008)
★ ★ ★ ★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2009)
★ ★ ★ ★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2010)
★ ★ ★ ★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2011)
★ ★ ★ ★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
La Web Semántica
Web semántica Web de Datos
Visión donde los datos se publican y se enlazan con otros datos
Objetivos:Reutilizar
Automatizar
Integrar
Tim Berners Lee, inventor de la WWW
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Hacia la web semántica
URIUnicode
XML
RDF
Query:SPARQL
RDF Schema
OntologiesOWL
Trust
Dig
ital
Si g
na t
ure
Unifying Logic
RulesRIF
Proof
Semantic web layer cake, by Tim Berners Lee
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
RDF
Resource Description Framework (1998)
Descripción de recursosRecurso = se identifica con URI
Se basa en tripletas
Sujeto Predicado Objeto
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Tripletas RDF
http://purl.org/dc/elements/1.1/creator
Sujeto
Puede ser:
URI
Nodo anónimo (bNode)
Predicado
Identificado por URI
Objeto
Valor de una propiedad
Puede ser:
URI
Literal
Nodo anónimo
Notación Turtle
@prefix dc: <http://purl.org/dc/elements/1.1/ >.
@prefix uni: <http://uniovi.es/> .
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
uni:biologia dc:creator uni:juan .
http://uniovi.es/biology
http://uniovi.es/juan
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Grafo RDF
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .@prefix uni: <http://uniovi.es/> .@prefix dc: <http://purl.org/dc/elements/1.1/> .
uni:biologia dc:creator uni:juan .uni:biologia dc:creator uni:ana .uni:juan rdf:type uni:Profesor .uni:ana rdf:type uni:Profesor .
Puede representarse en Notación Turtle
uni:biologia
uni:juan
dc:creator
uni:anadc:creator
uni:Profesor
rdf:type
rdf:type
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
RDF es composicional
uni:quimica
uni:ana
dc:creator
uni:luisdc:creator
uni:Becario
rdf:type
uni:biologia
uni:juan
dc:creator
dc:creator
uni:Profesor
rdf:type
rdf:type
uni:derechodc:creator
uni:Profesoruni:ana
rdf:type
uni:luis
uni:Becario
rdf:type
Grafo 1
Grafo 2
Grafo 3
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
RDF es composicional
uni:quimica
uni:ana
dc:creator
uni:luisdc:creator
uni:Becario
rdf:type
uni:biologia
uni:juan
dc:creator
dc:creator
uni:Profesor
rdf:type
rdf:type
uni:derechodc:creator
uni:Profesoruni:ana
rdf:type
uni:luis
uni:Becario
rdf:type
Grafo 1
Grafo 2
Grafo 3
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
RDF es composicional
uni:quimica
uni:anadc:creator
uni:luis
dc:creator
uni:Becario
rdf:type
uni:biologia
uni:juan
dc:creator
dc:creator
uni:Profesor
rdf:type
rdf:type
uni:derecho
dc:creator
Grafo 1+
Grafo 2+
Grafo 3
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Formatos RDF
Existen varios formatos:N3
RDF/XML
N-Triples
Turtle
etc.
¡Lo más importante es el modelo de grafo!
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
SPARQL
Simple Protocol and RDF Query LanguageLenguaje de consultas para la web semántica
Encaje de grafos
Extrae información de modelos RDF
Un protocoloDefine un mecanismo para invocar un servicio
También define un vocabulario para resultados
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
SPARQL
Ejemplo
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .@prefix uni: <http://uniovi.es/> .@prefix dc: <http://purl.org/dc/elements/1.1/> .
select ?n where { ?p rdf:type uni:Profesor. ?x dc:creator ?p . }
“Nombres de recursos cuyo autor sea un profesor”
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Encaje de grafosSELECT ?p ?c WHERE { ?p dc:creator ?c . ?c rdf:type uni:Profesor .}
uni:quimica
uni:anadc:creator
uni:luis
dc:creator
uni:Becario
rdf:type
uni:biologia
uni:juan
dc:creator
dc:creator
uni:Profesor
rdf:type
rdf:type
uni:derecho
dc:creator
?p
dc:creator ?c
uni:Profesor
rdf:type
?p
?c
Resultados ?p ?c
uni:biologia uni:juan
uni:quimica uni:anauni:biologia uni:ana
?p
?c
?p
?c
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
RDF Schema
Extiende RDF con un vocabulario de esquemaClass, Property, Resource,…
type, subClassOf, subPropertyOf,…
range, domain,…
RDF Schema permite inferencias
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
RDF Schema
rdf:type
uni:Profesor
rdfs:subClassOf
uni:Persona
Ejemplo
uni:juan
rdf:type
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
SPARQL + Inferencia
Las consultas SPARQL pueden combinarse con la inferencia
Ejemplo:@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .@prefix uni: <http://uniovi.es/> .@prefix dc: <http://purl.org/dc/elements/1.1/> .
select ?n where { ?p rdf:type uni:Persona. ?x dc:creator ?p . ?x foaf:name ?n . }
“Nombres de recursos cuyo autor sea una persona”
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
uni:quimica
uni:anadc:creator
uni:luis
dc:creator
uni:Becario
rdf:type
uni:biologia
uni:juan
dc:creator
dc:creator
uni:Profesor
rdf:type
rdf:type
uni:derecho
dc:creator
uni:Persona
rdfs:subClassOf
rdfs:subClassOf
SPARQL con inferenciaSELECT ?p ?c WHERE { ?p dc:creator ?c . ?c rdf:type uni:Persona .}
?p
dc:creator ?c
uni:Persona
rdf:type
?p
?c
Resultados ?p ?c
uni:biologia uni:juan
uni:quimica uni:anauni:biologia uni:ana
?p
?c
?p
?c
rdf:type
rdf:type
?p
?c
uni:derecho uni:luis
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Ontologías
RDF Schema permite hacer inferencias sencillasLimitaciones de expresividad
OWL (Web Ontology Language)
Añade más expresividad
Formalizar dominios concretos: ontologías
Expresividad vs Complejidad
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Mitos de la Web Semántica
Navegador inteligente
Una nueva Web
El cerebro global
La gran verdad: Una única ontología
Una etiqueta para cada cosa
Nadie querrá compartir datos
Demasiada apertura
Moda pasajera
No hay Killer application
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
El navegador inteligente
Mito:El objetivo es conseguir sistemas que
naveguen por internet de forma inteligente
Realidad:Objetivo = desarrollar tecnologías que faciliten
el procesamiento automático de la información de la Web y su integración
No es Inteligencia Artificial pero sí se utilizan técnicas de esa disciplina
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Una nueva Web
Mito:La Web Semántica ( Web 3.0) es una nueva
versión de la web que obligará a cambiar todo lo que ya hay
Realidad:Se propone transición gradual. Las tecnologías
ofrecerán valor añadido.
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
El cerebro global
Mito:El proyecto de la Web semántica generará un
cerebro global
Realidad:La web semántica facilitará un mejor uso de los
datos de la web.
Sí es un camino hacia la inteligencia colectiva
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
La gran verdad
Mito: Se propone la creación de una única
ontología con todo el conocimiento de la humanidad
Realidad: Múltiples ontologías para diferentes dominios
Facilitar la integración
Mejorar la descripción de dominios
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Una etiqueta para cada cosa
Mito: El objetivo es asignar una etiqueta similar a
RFID para cada cosa
RealidadNo es factible que cada cosa conlleve sus
propios metadatos
Pueden realizarse descripciones de recursos externas
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Nadie querrá compartir datos
Mito: Los proveedores de información no tendrán
motivación para adoptar tecnologías nuevas
Realidad:Lo harán cuando encuentren un retorno de
inversión adecuado
Posicionamiento semántico
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Demasiada apertura
Mito:Si se sacan los datos de las bases de datos, se
pierden
Realidad:Tecnologías para limitar acceso y controlar
privacidad
Declarar de dónde provienen los datos
Establecer propiedad legal de los datos
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Moda pasajera
Mito:Mito1: La Web semántica es algo nuevo
Mito 2: La Web semántica es algo viejo
Realidad:Planteada ya en 1994, visión a largo plazo
Exceso de entusiasmo vs escepticismoCasos de éxito: RSS, microformatos, XBRL,…
"A little semantics goes a long way"
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
No hay killer application
Mito:No se ha desarrollado una killer application
Realidad:¿Es necesaria?
¿Podría ser el proyecto Linked Open Data?
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Retos de la Web Semántica
Escalabilidad
¿Dónde están los agentes?
Privacidad y seguridad
Confianza
Manejar ambigüedad e imprecisión
¿Servicios web semánticos?
Grupo WESO
Creado en 2004
Depto. Informática - Universidad de Oviedo
8 investigadores
Multidisciplinar
Grupo WESO
Facultad de Ciencias, Oviedo
http://www.weso.es
Colaboradores
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Un caso práctico
Proyecto LeyChile, 2008
Biblioteca del Congreso nacional de ChileObjetivo: Añadir Linked Open Data
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Contexto BCN
300.000 normas y relacionesModificaciones, revisiones, etc.
Primera fase: sólo metadatos principales de normasTítulo, fechas, tipos, relaciones
Se excluye cuerpo de normas
Enlace con otros vocabularios
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Problema: Modelado del grafo
Una norma puede ser modificada por otraDecreto 296Publicado en 1995-02-17
Art..1. abc.Art. 2. def.Artí.3. ghi.
Decreto 12066Publicado en 2005-05-15
Art. 1. Modifca decreto 296 de la siguiente forma: substituye las palabras “a” por “xyz” en Art.1
Entonces, el decreto 296 debe ser:Decree 296
Art. 1. xyzbc.Art. 2. def.Art. 3. ghi.
URIs para todos
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Modelado de Grafohttp://datos.bcn.cl/recurso/cl/DTO/ministerio-del-interior/1995-02-17/296/Decreto 296
http://datos.bcn.cl/recurso/cl/DTO/ministerio-del-interior/1995-02-17/296/es@1995-02-17Original
http://datos.bcn.cl/recurso/cl/DTO/ministerio-del-interior/1995-02-17/296/es@2005-05-10Última versión
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Enlace con otros países (tratados internacionales…), DBPedia, Geonames…
Reutilización de vocabularios / OntologíasSKOS, DC, FOAF, DBPedia, ORG
Terminal SPARQL
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Terminal SPARQL
Ejemplo de consultaTodas las normas emitidas por una municipalidad entre 1995 y 2000que se modificaron después del 2005PREFIX dc: <http://purl.org/dc/elements/1.1/>
PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#>
SELECT ?normTitle ?creatorName ?pubDate ?pubDateOtherWHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > "1995" && ?pubDate < "2000" && ?pubDateOther > "2005")}ORDER BY (?pubDate)
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Visualización gráfica
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Representación geoespacial
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Catálogos Linked Data
10ders Information Services. Licitaciones públicas de la Unión Europea
ROCAS: Razonamiento semántico en la nube
ORIGIN: Gestión conocimiento en organizaciones: RRHH, Calidad, etc.
ORBITA: Visualización de Linked Data
RETINAS: Seguridad en tiempo real
BOPA: Buscador semántico Boletín Oficial P. de Asturias
Multilingual Web. Red temática europea + W3c
Otros Proyectos
Aplicaciones de Linked DataeGovernment, Buscadores, Confianza
Escalabilidad y TemporalidadRazonamiento distribuido
Algoritmos de recomendaciónRealimentación de ontologías e identificación
Visualización y consumo de LD
Multilingüismo
Líneas de investigación
Fin de la presentación
Más información: http://www.di.uniovi.es/~labra