Análisis crítico de los metadatos distribuidos por la IDEC presentacion

23
Análisis crítico de los metadatos distribuidos por la IDEC Motivación: Actualmente existen muchas voces críticas con la forma de funcionamiento de los catálogos de metadatos de las Infraestructuras de Datos Espaciales. Alumna: Paula Díaz Coordinador del proyecto: Joan Masó Datos Espaciales. A pesar del esfuerzo de documentar los metadatos de las capas, tal y como se realiza actualmente, los resultados de los buscadores basados en metadatos no suelen ser muy acertados.

Transcript of Análisis crítico de los metadatos distribuidos por la IDEC presentacion

Análisis crítico de los metadatos distribuidos por la IDEC

Motivación: Actualmente existen muchas voces críticas con la forma de

funcionamiento de los catálogos de metadatos de las Infraestructuras de

Datos Espaciales.

Alumna: Paula DíazCoordinador del proyecto: Joan Masó

Datos Espaciales.A pesar del esfuerzo de documentar los metadatos de las capas, tal y como se

realiza actualmente, los resultados de los buscadores basados en metadatos no

suelen ser muy acertados.

Estructura:

1. Introducción2. Metadatos: generación de la base de datos de

los metadatos de la IDEC3. Metadatos: Detección de errores en los

metadatos distribuidos por la IDEC4. Metadatos; orígenes

2

4. Metadatos; orígenes5. Metadatos: Errores y su origen6. Datos: Detección de carencias7. Búsquedas: Metadatos de la IDEC8. Búsquedas: La web oculta9. Conclusiones generales.

1. Introducción

• IDEC: Infraestructura de Datos Espaciales de Cataluña

3

Organismos registrados Documentos totalesVerano 2008 79 4880Verano 2009 (10/06/2009) 112 27007Utilizados en el estudio 111 14231

Se descartan los del ICC al ser muy voluminosos, semejantes entre si y por no poder obtener la lista de sus UUID.

2. Metadatos: Generación de la base de datos de los metadatos de la IDEC

• El estándar ISO 19115 establece tres categorías de elementos:• Obligatorios

• Condicionales• OpcionalesObtenidos los 14231 UUID, se

4

Obtenidos los 14231 UUID, se descargan los documentos XML y se construye una base de datos:14231 registros y 32 campos

3. Metadatos: Detección de errores en los metadatos distribuidos por la IDEC

• Errores referentes a elementos • obligatorios:

• Títulos de códigos ininteligibles: 27%• Fecha de creación del dato en blanco: 44%• Fecha de creación del dato posterior a edición: 10%• Categorías temáticas en idioma incorrecto: 11%

5

• Categorías temáticas en idioma incorrecto: 11%• Idiomas de los datos en blanco: 26%

• condicionales y opcionales:• Coordenadas no en ángulos: 5%• Coordenada mínima mayor a la máxima: 3%• Factor de escala incoherente: 3%

• Observaciones:• Título demasiado largos: 2%• Resumen que contiene el título: 4%

3. Metadatos: Detección de errores

PRESENCIA DE LAS CATEGORIAS TEMÁTICAS (ISO 19115) EN LOS DOCUMENTOS DE METADATOS

7476

Ejemplo 1/4CATEGORIAS TEMÁTICAS totalesimageryBaseMapsEarthCover 7073boundaries 1057biota 1015Medi Ambient 792location 760structure 732planningCadastre 537Bases mapes imatges cobertura terra 403elevation 343(en blanco) 323farming 273society 182economy 177

6

1060

1018

963

807

732

540

349

323

225

182

107

83 35 30 20 6 1274

Bas

es m

apas

Lím

ites

Bio

logi

co

Med

io a

mbi

ente

Loca

lizac

ión

Est

ruct

ura

Pla

nific

ació

n C

adas

tro

Ele

vaci

ón

(En

blan

co)

Agr

icul

tura

/Gan

ader

ía

Eco

nom

ía

Soc

ieda

d

Com

unic

ació

n de

Info

rmac

ión

Agu

as in

terio

res

Tra

nspo

rte

Clim

atol

ogia

/Met

eoro

l

Sal

ud

Océ

anos

Inte

ligen

cia

milit

ar

mediana

Categorías temáticas en lengua no inglesa.

economy 177environment 171Comunicació de serveis 99geoscientificInformation 71Economia 48Localització 47inlandWaters 33transportation 30climatologyMeteorologyAtmosphere 20Informació geocientífica 12utilitiesCommunication 8Elevació 6health 6Biològic 3Límits 3Planejament/Cadastre 3Aigües interiors 2Agricultura/Ramaderia 1oceans 1Total general 14231 11%

3. Metadatos: Detección de errores

FECHA EDICIÓN total

1988-01-01 151994-06-30 151996-02-29 302003-02-10 102006-05-08 128

XMIN>XMAX

• Coordenada mínima mayor a la máxima.

Ejemplo 2/4

3%

7

2006-05-08 1282006-05-10 2132008-02-06 11988-01-01 61994-06-30 61996-02-29 122007-05-23 12007-09-12 292007-11-19 12008-02-06 1

Total general 468

YMIN>YMAXTÍTULOS totalesCaracteres ininteligibles 3869 27%Mayor a 100 caracteres 252 2%Total general 4121

• Títulos de códigos numéricos ininteligibles.

27%

3. Metadatos: Detección de errores

FACTORES DE ESCALA MÁS REPRESENTADOS

33000

1000 o 1:5000 1000012

Resto de escalas

50000

Ejemplo 3/4FACTOR DE

ESCALAtotal

1000 o 1:5000 136(en blanco) 1183100000 296650000 12233000 31425000 70910000 1095000 1514

8

100000

5000

(en blanco)

2000

25000

33000

500

1000

• Factores de escala mixtos o demasiado pequeños para tratarse de un mapa

5000 15142000 10261000 2824500 280012 117RESTO 411Total general 14231

3%

3. Metadatos: Detección de errores

SISTEMA DE REFERENCIA núm. ArchivosUTM_31N - ED50 (g) 12669UTM_31N - ED50 (m) 742UTM_30N - ED50 (m) 23WGS84_33N (g) 20WGS84_Mundo (g) 15WGS84_31N (g) 1Sin SRH (g) 761Total general 14231

• Sistemas de referencia en unidades no en ángulos

Ejemplo 4/4

5%

9

12669

74223 20 15 1

761

0

2000

4000

6000

8000

10000

12000

14000

Doc

umen

tos

UTM_31N - ED50 (g)

UTM_31N - ED50 (m)

UTM_30N - ED50 (m)

WGS84_33N (g)

WGS84_Mundo (g)

WGS84_31N (g)Sin SR (g)

SISTEMAS DE REFERENCIA

4. Metadatos: Orígenes

• Comparación de los geoportales de la IDEC y del GOS: Geospatial One-Stop. (M.F.Goodchild, P.Fu, P.Rich, de

IDEC GOSEstándar ISO1911 / FGDC FGDC (CSDGM)

Palabra clave de

5 tipos

Palabra clave exacta

o aproximadaFecha edición "posterior a"

Fecha por período o revisión reciente

Búsqueda EscalaCategoría temática

10

P.Fu, P.Rich, de 2007)

• Diferencias esenciales• Gazetteer

• 5 variantes de publicación

Localización coordenadas

Localización (gazetteer)

OrganismoBúsqueda rápida

Formulario en líneaTransmisión directa

(XML)Transmisión desde un escritorio GIS

Recopilación automática

Publicación

de

metadatos

MetaD

Correo electrónico

Categoría temática

Formato

4. Metadatos: Orígenes

• ¿Como enviamos metadatos a la IDEC?• MetaD (2002, versión actual 3.0.5)

• Aplicación de creación, edición y transmisión de documentos de metadatos.

• Función de validación: “controla la obligatoriedad de los metadatos”

11

los metadatos”• Elementos obligatorios no validados: fechas de

creación, publicación y revisión.

• Correo electrónico• Fuente potencial de publicación de documentos de

metadatos con errores.

5. Metadatos: Errores y su origen

12

ERRORES DE LOS METADATOS Error (%)¿Los permite el

MetaD?Títulos de códigos ininteligibles 27% SIFecha de edición del metadato en blanco 2% NOFecha de creación del dato en blanco 44% SIFecha de creación del dato posterior a edición 10% SIFecha de creación por defecto: 1900-01-01 9% SICategorías temáticas en idioma incorrecto 11% NOCategorías temáticas en blanco 2% NOInformación de contacto en blanco 0.1% NOCoordenadas no en ángulos 5% SIMínima coordenada mayor a la máxima 3% NOIdioma de los datos en blanco 26% SIIdioma del metadato incorrecto 1.5% SIFactores de escala incoherentes 3% SIPromedio de error 11% 8/13

ADVERTENCIAS %¿Los permite

el MetaD?

Título demasiado largo 2% SIResumen que contiene el título 4% SI

5. Metadatos: Errores y su origen

• Conclusiones y propuestas de mejora del MetaD• Función de validación no evita errores de

comisión.• Algunos errores no se pueden generar con el

programa MetaD. • Función de validación a todos los documentos.

13

• Función de validación a todos los documentos.• Considerar la extracción automática de

metadatos desde los propios datos.• Recomendaciones:

• Incluir fecha e idioma del dato como elementos obligatorios

• Revisión de la fecha de creación por defecto:01-01-1900.• El editor utilice tesauros en la elección de la palabra

clave. • Test de la descripción geométrica y de topología.

6. Datos: Detección de carencias• Ráster: Ámbito y densidad de datos.

• Rasterización de los 13747 ámbitos• Contaje de capas en cada píxel de 0.03º x 0.03º

Leyenda

0: 65.514

13: 260.869

26: 456.225

Registros de metadatos de la IDEC en Julio de 2009 (ámbito de Cataluña)

N

14

26: 456.225

40: 666.607

53: 861.963

67: 1072.346

80: 1267.701

93: 1463.057

107: 1673.439

120: 1868.795

134: 2079.178

147: 2274.533

161: 2484.916

174: 2680.271

187: 2875.627

201: 3086.010

214: 3281.365

228: 3491.748

241: 3687.104

255: 3897.48620000 0 60000 m

6. Datos: Estructura de los datos y búsquedas

• Análisis visual en la selección de datos geográficos.

“El análisis visual de los datos usa la visualización como un canal de comunicación entre el ordenador y el usuario”, (INVISIP, Albertoni, 2004)

Categorías temáticas y escalas

Categorías temáticas y años Medio ambiente

15

escalas

0

100

200

300

400

500

600

Eco

nom

ía

Med

ioam

bien

te

Tra

nspo

rte

1/50000

1/10000

1/15000

1/5000

1/1000

años

0.00

20.00

40.00

60.00

80.00

100.00

120.00

140.00

160.00

Eco

nom

ía

Med

ioam

bien

te

Tra

nspo

rte2009

2008

2007

2006

2005

2004consulta por atributos: Categoría temática=”Medio

Ambiente” y Escala=[1,50000] y Año de creación>=2004

Medio ambiente

0

10

20

30

40

50

60

70

5000 50000

2006

2007

2008

ESCALA ( ?): N registres amb dades : 75 Moda : 5000 Mínim : 1000 Màxim : 50000 Rang : 49001 N valors diferents : 3 Llistat de freqüències 1: 1000 67: 5000 7: 50000

7. Búsquedas: Evaluación del Motor de la IDEC

• Modelo de información IDEC• Servicio de registro Web (WRS): INdicio (2005). • Gestión de catálogo de datos mediante

esquemas XML• Perfil ebRIM de registro de información del

16

• Perfil ebRIM de registro de información del OGC

• Catalogo de la IDEC oculto a Google pero• Hemos usado Google Desktop

• Buscador genérico de documentos en local con algoritmo Google (PageRank)

• Soporte para contenidos XML

7. Búsquedas: Evaluación del Motor de la IDEC

• Prueba piloto: comparación del buscador del catálogo de datos de la IDEC y el motor de búsqueda Google Desktop.

IDEC Google IDEC Google BDIDEC - BD

Ideunivers * 5054 1.3 3898

Resultados Tiempo (seg.)

IDEC: • Menos resultados. • Elementos concretos.

17

Ideunivers * 5054 1.3 3898España * 9361 1.2 15462003 1311 14528 29.2 1.6 1254 57Comercio 26 2666 13.8 0.9 4 22Biología 1032 1038 12.9 1.5 1015 17Transporte 410 390 4.7 1.1 30 380

Escala 2000 1027 44 13.2 0.7 1026 1Fecha edición 31/03/2009 1295 3 8.9 2.6 5 1290

DEPLAN 61 61 8.8 0.8 61 0Ayuntamiento de Cardedeu 4 6 9.7 1.5 4 0Àrea metropolitana de Barcelona

2067 2895 9.8 2.2 20652

Modelos digitales del terreno 312 344 6.2 1.1 320** -8Topográfico 9402 4766 28.8 1.0 3867** 9082SIG 142 9453 5.3 1.3 120** 22

**términos del título y título de la serie

palabras clave

Categorías temáticas

* Búsqueda no realizable

Organismo

búsqueda

rápida

• Elementos concretos.•Mayor precisión.

• Ordenación alfabética

Google Desktop: • Mas rápidas. • Busca en todo el

documento.•Menos concretas.

• Ordenación PageRank.

7. Búsquedas: Evaluación del Motor de la IDEC

• Propuestas de mejora en las búsquedas• Búsqueda más de un término (2 categorías

temáticas)• Búsqueda por aproximación ortográfica y

semántica. Orchestra (Hilbring, 2008)

18

• La inclusión de los formatos o la topología.• Fechas: anterioridad a una determinada fecha o

en un intervalo.• Ampliar las opciones de la búsqueda por escala.• Visualizar los resultados de una búsqueda en

una tabla.

8. Búsquedas: Acceso i enlace a los documentos de metadatos desde Internet

• La deep Web (Web oculta)• “Información que, siendo accesible a través de

Internet, no puede encontrarse mediante los buscadores tradicionales.” (http://www.idg.es/computerworld/)

• Los metadatos de la IDEC son parte de la Web

19

• Los metadatos de la IDEC son parte de la Web oculta• Ejemplo:

• si buscamos en Google el registro: {58964B84-24B9-44FF-8274-CAD378B657B4} "Presència d'ambients d'interès per la conservació de la biodiversitat - Ocells com a bioindicadors "

• No encontramos ningún resultado por tratarse de información extraída de una consulta a una Base de Datos.

Solución

• Realización de una página HTML de enlace a los XML descargados e Indexación por Google.

• Realización de la búsqueda en Google:

20

• Realización de la búsqueda en Google:• {58964B84-24B9-44FF-8274-CAD378B657B4}

"Presència d'ambients d'interès per la conservació de la biodiversitat - Ocells com a bioindicadors "

• Catalogado desde: http://www.creaf.uab.es/tmp/

21

9. Conclusiones generales.

• Metadatos: Presentan errores muy variados.• Fuentes: El MetaD no permite alguno de los errores

detectados. ¿Correo electrónico?. • Los errores dejan ocultos muchos documentos en las

búsquedas. El éxito de la búsqueda está relacionado con la calidad del metadato

22

con la calidad del metadato

• Datos: Menor densidad de datos S y NO de Cataluña.

• Búsquedas: • La búsqueda mediante el catálogo de la IDEC está

limitada a 7 elementos concretos. Google no permite filtro por elemento.

• El análisis visual permite analizar gran cantidad de metadatos de un modo más ágil.

FIN

AGRADECIMIENTOS.

23

AGRADECIMIENTOS.

La autora agradece sinceramente a Víctor Pascual Ayats (IDEC) la información ofrecida a lo largo del desarrollo del estudio; y en general a quienes han formado parte ofreciendo sus conocimientos y propuestas.