INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

41
1 INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN Curso Doctorado “Sistemas Informáticos Avanzados” 2004/2005

description

INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN. Curso Doctorado “Sistemas Informáticos Avanzados” 2004/2005. Motivación. Repositorios Documentos. “Reporting”/Análisis. Sitios Web. ventas. ¡¡ Dominio e intereses comunes !!. BD Corporativas. BD Públicas (millones de registros). - PowerPoint PPT Presentation

Transcript of INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

Page 1: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

1

INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

Curso Doctorado“Sistemas Informáticos Avanzados”

2004/2005

Page 2: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

2Integración de Sistemas de Información

RepositoriosDocumentos

Clusters Altas Prestaciones

Servidores de Mapas

Motivación

BD Públicas(millones de registros)

Sitios Web“Reporting”/Análisis

ventas

BD Corporativas

¡¡ Dominio e

intereses comunes

!!

Page 3: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

3Integración de Sistemas de Información

Ejemplos

Plataformas integradas para

Bioinformática

Plataformas integradas para Hospitales

Sistemas de Información Geográfica

Integración de museos virtuales (Hypermuseum)

Comercio Electrónico

Etc.

Page 4: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

4Integración de Sistemas de Información

¡¡ Dominio e

intereses comunes

!!

RepositoriosDocumentos

Clusters Altas Prestaciones

Servidores de Mapas

Motivación

BD Públicas(millones de registros)

Sitios Web“Reporting”/Análisis

ventas

BD Corporativas

¿Cómo obtener el máximo de información de

todas las componentes?

¿Cómo crear organizaciones

virtuales por encima deellas?

Page 5: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

5Integración de Sistemas de Información

RepositoriosDocumentos

Clusters Altas Prestaciones

Servidores de Mapas

Motivación

BD Públicas(millones de registros)

Sitios Web“Reporting”/Análisis

ventas

BD Corporativas

MIDDLEWARE

Cliente/ServidorJDBC-ODBC

HTTPRMI, CORBA

SOAP ...

Page 6: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

6Integración de Sistemas de Información

RepositoriosDocumentos

Clusters Altas Prestaciones

Servidores de Mapas

Capas a estudiar

BD Públicas(millones de registros)

Sitios Web “Reporting”/Análisis BD Corporativas

MIDDLEWARE

COMPONENTES INTEGRACIÓN/COORDINACIÓN

ORGANIZACIÓN VIRTUAL

COMPONENTES

Page 7: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

7Integración de Sistemas de Información

Organizaciones Virtuales

ORGANIZACIÓN VIRTUAL

WorkflowUnidades

Organizativas

Proveedores Intermediarios Clientes

Perfiles: usuarios, grupos

Políticas globalesde acceso, seguridad y privacidad

Page 8: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

8Integración de Sistemas de Información

RepositoriosDocumentos

Clusters Altas Prestaciones

Servidores de Mapas

Capas a estudiar

BD Públicas(millones de registros)

Sitios Web “Reporting”/Análisis BD Corporativas

MIDDLEWARE

COMPONENTES INTEGRACIÓN/COORDINACIÓN

ORGANIZACIÓN VIRTUAL

COMPONENTES

Page 9: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

9Integración de Sistemas de Información

Integración/Coordinación

Dimensiones de estudio

en sistemas integrados

Au

ton

om

ía

Esca

labi

lidad

Heterogeneidad

Page 10: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

10Integración de Sistemas de Información

Integración/Coordinación

Au

ton

om

ía

Esca

labi

lidad

HeterogeneidadS

em

án

tica

Pla

tafo

rma

Sin

táct

ica

Page 11: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

11Integración de Sistemas de Información

Integración/Coordinación

Au

ton

om

ía

Esca

labi

lidad

HeterogeneidadS

em

án

tica

Pla

tafo

rma

Sin

táct

ica

MID

DELW

AR

E

Page 12: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

12Integración de Sistemas de Información

Integración/Coordinación

Au

ton

om

ía

Esca

labi

lidad

HeterogeneidadS

em

án

tica

Pla

tafo

rma

Sin

táct

ica

Page 13: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

13Integración de Sistemas de Información

Información

XMLOEMtablas objetos ASCII GIF MP3 WAV

datos

estructurados texto raw

RDBMS

ORDBMS

LoreOODBMS MM-SRI

Sistemas BBDD(universales)

ORDBMS(+Extensiones)

Información, Modelos de Datos

semi-estruct.

SGML HTML

documentos

Recuperación de la InformaciónNativas

(Tamino)

Page 14: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

14Integración de Sistemas de Información

Poder expresivo de formatos

tablastexto

objetos

XMLSGML

HTML

RECUBRIMIENTOS

Page 15: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

15Integración de Sistemas de Información

Conversiones

objetos XML

SGML

HTML

tuplas

texto

DTD oEsquema

DTD oEsquema

¿inferencia?

XHTML

EsquemaEsquema

¿extracción?

Page 16: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

16Integración de Sistemas de Información

Ejemplos

(libro#1,isbn:1231, titulo: ’Tesis’, capítulos: ( (cap#3, titulo:’t1’), (cap#4, titulo:’t2’)))

<libro> <isbn>1231</isbn> <titulo>Tesis</titulo> <capitulos> <titulo>t1</titulo> <titulo>t2</titulo> </capitulos></libro>

<html><body> <h1>Libro:</h1> <b> isbn : 1231</b> <b>titulo : Tesis</b> <b>capitulos:<ul> <li>Titulo : t1</i> <li>Titulo : t2</i></b></ul></body></html>

(isbn:1231, titulo:’Tesis’)

Tupla

Objeto

XML

HTML

Page 17: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

17Integración de Sistemas de Información

Integración Sintáctica

MODELO DE DATOS COMÚN o CANÓNICO:– Todas las fuentes exportarán sus datos a dicho modelo– Generalmente un modelo conceptual Orientado a

Objetos: UML, Ontologías, etc. MODELO DE ACCESO COMÚN

– Todas las fuentes son consultadas a través de un lenguaje común

– También Orientado a Objetos: OQL o similar RECUBRIDORES

– Dispondremos de mecanismos de traslación tanto de consultas como de respuestas

ESTRUCTURAS DE DATOS GLOBALES– Directorios, Catálogos de datos, esquemas globales,

etc.

Page 18: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

18Integración de Sistemas de Información

Integración/Coordinación

Au

ton

om

ía

Esca

labi

lidad

HeterogeneidadS

em

án

tica

Pla

tafo

rma

Sin

táct

ica

Page 19: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

19Integración de Sistemas de Información

Integración Semántica

Semántica: qué es y para qué sirve cada dato o información.

Diferentes conceptualizaciones utilizadas por diferentes administradores: relativismo.

Se expresa de muchas formas:– Conflictos de nombres (sinónimos, holónimos,...)– Conflictos de tipos (atributos, restricciones, etc.)– Conflictos de datos (objetos iguales?, valores

contradictorios?, etc.)– Conflicto de usos (diferentes aplicaciones)

Page 20: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

20Integración de Sistemas de Información

¿Qué es una ontología?

“Una especificación de una conceptualización” (Gruber’93)

Conceptualización: Expresa todo lo que “existe” en el sistema como conceptos y relaciones entre ellos.

Especificación: Formal, sin ambigüedad

Expresión de un consenso

Page 21: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

21Integración de Sistemas de Información

¿Por qué son útiles?

Definen una semántica formal– Permiten el procesamiento de información

por máquinas

Permiten una semántica del mundo real– Establecen una terminología por consenso– Unión entre el contenido procesable por

máquinas y por humanos

Page 22: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

22Integración de Sistemas de Información

Ontologías y Metadatos

RECURSOS

BD1::Galería.Autor http://museo.com/cgi? pintor...

Museo1.xml/pintura{id=4}....URIs

BD2::Escultura.obra

Artist Artifact MuseumStringcreates

title

exhibitedfname

lname

Ontología

Page 23: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

23Integración de Sistemas de Información

Axiomas lógicosAxiomas estructurales

MetadatosT

érm

inos

Tes

auru

s

Tax

onom

ías

Fra

mes

UM

L

O. D

escr

ipti

vas

O. E

xpre

siva

s

Dublin Core

WordNet

Yahoo!Diccionario Protégé

RDF(S)

OWLLite

OWLDL

OWLFull

Ontologías Ligeras Ontologías pesadas

WEB-based

Page 24: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

24Integración de Sistemas de Información

Ejemplo de ontología

Artist Artifact

Painting

Cubist Flemish

Museum

Sculpture

String

Sculptor

Painter

creates

sculpts

paints

title

exhibitedfname

lname

technique

paintsGuernica

Oil on canvastechnique

title

Pablo

Picasso

lname

fname

I1 I2

Page 25: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

25Integración de Sistemas de Información

Manejo de metadatos

Ontologías Esquemas– Expresadas en lenguaje natural– No son sistemas de tipos– Permiten describir datos/información de una

manera flexible Descubriendo metadatos:

– Lenguajes específicos: RQL, OWL-QL (solo una ontología)

– Buscadores basados en Recuperación de la Información (son aproximados!!)

Page 26: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

26Integración de Sistemas de Información

Schema Matching

¿Cómo asociamos automáticamente los elementos de los esquemas con la ontología o esquema global?

Mezcla, alineamiento o combinación? Numerosas aproximaciones:

– COMA (Do, 2001)– CUPID (Madhavan, 2001)– Artemis (Castano, 2001)– PROMPT-Protégé (Noy, 2001)– S-Match (Giunchiglia, 2004)

Page 27: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

27Integración de Sistemas de Información

Schema Matching

Nivel de elemento:– Similitud léxica (e.g. Distancia edición)– Diccionarios (sinónimos, hiperónimos, etc.)– Similitud de tipos (numéricos, tipos

nombrados,...) Nivel de estructura:

– Similitud entre árboles o grafos– Similitud taxonómica– Vecinos próximos

Nivel semántico (escasas propuestas)– Integración de axiomas consistente

Page 28: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

28Integración de Sistemas de Información

Integración/Coordinación

Au

ton

om

ía

Esca

labi

lidad

Heterogeneidad

Global-as-view

Local-as-view

Global/Local-as-view

Page 29: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

29Integración de Sistemas de Información

Autonomía de componentes

Fuerte relación con heterogeneidad:– A mayor autonomía, más redundancias,

heterogeneidades e inconsistencias.– A mayor autonomía, mayor DINAMICIDAD

del sistema integrado Varios aspectos:

– Autonomía en el diseño– Autonomía en la administración– Autonomía en el procesamiento de

consultas

Page 30: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

30Integración de Sistemas de Información

Autonomía de componentes

Principales enfoques (Levy 1999):

Global as view (GAV). El esquema global se crea a partir de los esquema locales.

Local as view (LAV). Los esquemas locales se definen a partir de un esquema global común.

Page 31: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

31Integración de Sistemas de Información

Ejemplo GAV

estudiante(id,nombre,grado)sigue(sno,id)profesor(sno,sname,dept#)

ug(id,nombre,grado,sno)tutor(sno,sname)

doctor(id,nombre,titulo)supervisa(sno,id)supervisor(sno,sname,dept)

Sg

S1

S2

GAV:estudiante(id, nombre, grado)={x,y,z | <x,y,z,_>ug <x,_,_,>doctor <x, y, z>doctor z = ‘phd’}

sigue(sno, id)={x, y | <x,_,_,y> ug <x,_,_,>doctor <x,y>supervisa}

profesor(sno, sname, dept)={x, y, z | <x,y>tutor <x,_,_,>supervisor <x,y,z> supervisor}

Page 32: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

32Integración de Sistemas de Información

Ejemplo LAV

estudiante(id,nombre,grado)sigue(sno,id)profesor(sno,sname,dept#)

ug(id,nombre,grado,sno)tutor(sno,sname)

doctor(id,nombre,titulo)supervisa(sno,id)supervisor(sno,sname,dept)

Sg

S1

S2

LAV:S1

tutor(sno,sname)={x,y | <x,y,_>profesor <x,z> sigue <z, _, w>estudiante w ‘phd’}...S2

doctor(id, nombre, titulo)={x, y, w | <x,y,z>estudiante z=‘phd’ w=null}...

Page 33: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

33Integración de Sistemas de Información

Pros y contras

GAV no soporta la evolución de los esquemas locales, pero facilita la reformulación de consultas globales a los esquemas locales.

En LAV los cambios del esquema local solo afectan a las reglas de ese esquema.

Pero, en LAV los cambios del esquema global afectan a todas las reglas de los esquemas locales!!, y la reformulación de consultas no es una tarea sencilla..

Page 34: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

34Integración de Sistemas de Información

Global/Local as View

El esquema global es una ontología consensuada.

Las fuentes de información se encargan de traducir localmente sus datos/consultas según la ontología de referencia.

Los cambios de los esquemas locales deben ser administrados por las componentes.

La ontología de referencia es invariante. ¿Lenguaje de consulta global?

Page 35: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

35

Aproximaciones de SS.II integrados

Page 36: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

36Integración de Sistemas de Información

BBDD Federadas/Warehouses

Diccionario de DatosEsquema Importado

ESQ.EXP.

ESQ.EXP.

ESQ.EXP.

ESQ.EXP.

ESQUEMA EXTERNO

USUARIOSUSUARIOS

BDD

Esquema Local

USUARIOS

BDD

Esquema Local

USUARIOS

BDD

Esquema Local

USUARIOS

BDD

Esquema Local

USUARIOS

ESQUEMA EXTERNO

H

AS

Page 37: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

37Integración de Sistemas de Información

Arquitectura I3-DARPA

Mediador

Intermediario

Aplicación Cliente

Aplicación Cliente

Aplicación Cliente

Mediador

Intermediario

Recubridor Recubridor Recubridor Recubridor

XML RDBMS XML ..

Interfacesde usuario

dinámico

diseñado

Servicios deCoordinación

Servicios deIntegración

Serviciosde conversión

Fuentes

AEH

Page 38: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

38Integración de Sistemas de Información

Fauna del I3-DARPA Intemediario (Facilitator): son dinámicos. En tiempo de

ejecución seleccionan las fuentes y las componentes necesarias para el acceso e integración de los datos. Son útiles para el descubrimiento de nuevos recursos y su incorporación a las aplicaciones.

Mediadores (Mediators): codifican las tareas de consolidación de datos, fusión y análisis.

– Descomponen las consultas complejas de las aplicaciones en sub-consultas ajustadas a la semántica y estructura de las fuentes. Planifican estas sub-consultas y las mandan a los recubridores implicados.

– Integran los resultados intermedios y, una vez elaborados, los mandan a la aplicación.

Recubridores (Wrappers): transladan las consultas al lenguaje de interrogación de los servidores, y transforman las respuestas en el formato uniforme utilizado en los mediadores.

Page 39: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

39Integración de Sistemas de Información

Otras emergentes: GRID

GRID: distribución transparente de procesos computacionales muy costosos.

Organizaciones Virtuales bien definidas y estrictas.

Middleware muy potente: OGSA (Open Grid Services Arquitecture)

Acceso integrado a datos aún pobre (OGSA-DAI)

Integración semántica aún en fase muy preliminar (GRID semántico) A

EH

Page 40: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

40Integración de Sistemas de Información

Otras emergentes: redes P2P

Redes para compartir recursos entre pares. Operaciones básicas:

– Anuncios en la red (broadcast)– Búsqueda de pares afines (o grupos)– Reunión e intercambio par a par

Alta escalabilidad (redes de miles de nodos) Alta autonomía (cada usuario decide qué

desea compartir y con quién) Alta heterogeneidad semántica!!. Redes P2P semánticas:

– RDF como lenguajes para buscar y anunciar– Grupos semánticos basados en sus metadatos ...

AEH

Page 41: INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN

41Integración de Sistemas de Información

¿qué falta?

Au

ton

om

ía

Esca

labi

lidad

HeterogeneidadS

em

án

tica

Pla

tafo

rma

Sin

táct

ica ¿textos e

imágenes?¿miles de

ontologías?¿organizaciones

virtuales dinámicas?¿seguridad,

privacidad, etc.?

Posible tamaño: la web de contenidos

(útiles) actual !!