Calidad de datos: detección y corrección

19
Calidad de datos: detección y corrección Francisco Pando Unidad de Coordinación GBIF-España I Taller sobre calidad en bases de datos sobre biodiversidad 13-14 septiembre 2007. Madrid.

description

Calidad de datos: detección y corrección. I Taller sobre calidad en bases de datos sobre biodiversidad 13-14 septiembre 2007. Madrid. Francisco Pando Unidad de Coordinación GBIF-España. Guión. Conceptos Ciclo de vida de los datos y detección - PowerPoint PPT Presentation

Transcript of Calidad de datos: detección y corrección

Page 1: Calidad de datos: detección y corrección

Calidad de datos: detección y corrección

Francisco PandoUnidad de Coordinación GBIF-España

I Taller sobre calidad en bases de datos sobre biodiversidad

13-14 septiembre 2007. Madrid.

Page 2: Calidad de datos: detección y corrección

Guión

• Conceptos• Ciclo de vida de los datos y detección• Introducción de datos: interpretar,

distorsionar, errar• Captura de errores: validación y

detección• Diseño de base de datos y gestión de

errores• Virtualidad y realidad en las BBDD• Casos• La casa por los cimientos. Un ejemplo de

Eslovenia

Page 3: Calidad de datos: detección y corrección

Información original y derivada

Page 4: Calidad de datos: detección y corrección

Ciclo de vida de los datos y detección

Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for GBIF

Page 5: Calidad de datos: detección y corrección

Introducción de datos: interpretar, distorsionar, errar

Una base de datos debe conciliar dos requisitos en extremo irreconciliables:

1. Representar la realidad2. Que la información se encuentre, se pueda

comparar y analizar ( estandarizar y normalizar interpretar)

Estándares (o referencias) explícitos usados con consistencia

Page 6: Calidad de datos: detección y corrección

Componentes de la validación

Validación = detectar y corregir:

• Inexactitudes • Falta de datos • Potenciales errores (datos no

razonables)

La validación trata de garantizar la veracidad del registro

Page 7: Calidad de datos: detección y corrección

Captura de errores: validación y detección

• Validación: asegura que los datos se corresponden con el objeto. Incluye también el control de inexactitudes y pérdida de datos

Page 8: Calidad de datos: detección y corrección

Procedimiento

• Establecer procedimientos que no conlleven pérdida de datos• Las reglas de normalización deben

cubrir todos los casos• Los procedimientos no deben bloquear

el progreso del trabajo ante casos no contemplados o dudas

Page 9: Calidad de datos: detección y corrección

Procedimientos que permita que los errores detectados se corrijan en la base de datos

Page 10: Calidad de datos: detección y corrección

Por ejemplo:

http://data.gbif.org/occurrences/76377384/

Proporcionar al usuario la posibilidad de reportar errores o comentarios

Page 11: Calidad de datos: detección y corrección

Diseño de base de datos y gestión de errores

• Diseños normalizados de bases de datos

Page 12: Calidad de datos: detección y corrección

Diseño de base de datos y gestión de errores• Recomendación: distintos formatos de la misma información

debe calcularse de un campo a otro para su uso específico y no duplicar la información en campos paralelos

Campo UTM: 30TUF345871

Campo UTM: 30TUF38temporalcalculado

Campo UTM: 30TUF345871Campo UTM10: 30TUF38

Campo UTM: 30TUF345871Campo UTM10: 30TUF31

… Y si..

Page 13: Calidad de datos: detección y corrección

Virtualidad y realidad en las BBDD

Cuestión para debatir¿Debe el objeto reflejar toda la información acumulada a partir del el?

por ejemplo: ref. al Genbank, nombre de la camisa (Bot.) o de colección (Zool.)

Page 14: Calidad de datos: detección y corrección

Casos (1)

“Misma especie, misma localidad, al mismo sobre”

¡no hacer en casa!

Page 15: Calidad de datos: detección y corrección

Casos (2)

“Las malas identificaciones son errores que se han de corregir [i.e. eliminar]”

¡no hacer en casa!

Page 16: Calidad de datos: detección y corrección

Casos (3)

Page 17: Calidad de datos: detección y corrección

Casos (4)

Page 18: Calidad de datos: detección y corrección

Casos(3)

Herbar 3.4

Herbar 3.5

Page 19: Calidad de datos: detección y corrección

Para terminar:La casa por los cimientos: Un ejemplo de Eslovenia