Gestión de Calidad de Datos Tópicos a considerar Una tarea ...

6
1 UAS Carlos López Vázquez Gestión de Calidad de Datos Carlos López [email protected] Universitario Autónomo del Universitario Autónomo del Sur Sur - 2005 2005 Estrategias para Mejorar Viene de: Introducción Continúa con: Política de Calidad de Datos 2 UAS Carlos López Vázquez Tópicos a considerar Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW 3 UAS Carlos López Vázquez Una tarea siempre titánica... Volumen de datos tamaño empresa Tendencia es a manejar más datos » DW » BDOO » Herramientas de última generación » Intranet/Internet Se requieren planes... 4 UAS Carlos López Vázquez ===Define cómo ===> proceder en ese caso <==Solicita recursos== <=I nforma sobre problemas o bservados= =De fi nen qué datos serán mejorados=> Plan de Calidad de Datos (PCD) Infraestructura administrativa Administración del PCD Planes operacionales Objetivos claros para el negocio Administración del PCD Infraestructura administrativa Planes operacionales Objetivos claros para el negocio 5 UAS Carlos López Vázquez Algunas definiciones... Calidad Precisión ¿Correctitud? ¿Exactitud? Quality Precision Accuracy El idioma español tiene limitaciones en este aspecto... 6 UAS Carlos López Vázquez Una definición operativa... Def.: “...Calidad(A) > Calidad(B) si...” – intrínsecamente subjetiva – asociada a las necesidades – dos clientes podrían disentir – eso si el cliente “sabe lo que quiere”... 7 UAS Carlos López Vázquez Ejemplo de las dificultades... MINMAX: Cal(A)=5.0;Cal(B)=0.5 A<B StdDev: Cal(A)=2.04;Cal(B)=0.0 A<B RMSE: Cal(A)=5.0;Cal(B)=1.22 A<B 8 UAS Carlos López Vázquez Una definición operativa (2) ... dos clientes podrían disentir Hay cosas que todos quieren o esperan: !relevancia !correctitud !poder “ver” !acceso simple !seguridad !privacidad 9 UAS Carlos López Vázquez Son dimensiones diferentes... En Calidad de Datos se distinguen cuatro: Modelo de Datos (ej. relevancia) Valores mismos (ej. correctitud) Presentación (ej. poder “ver”) Tecnológicos (ej. acceso simple) El curso trata sobre la segunda dimensión

Transcript of Gestión de Calidad de Datos Tópicos a considerar Una tarea ...

Page 1: Gestión de Calidad de Datos Tópicos a considerar Una tarea ...

1

UA

S C

arlo

s L

ópez

Váz

quez

Gestión de Calidad de Datos

Carlos Ló[email protected]

Universitario Autónomo del Universitario Autónomo del Sur Sur -- 20052005

Estrategias para Mejorar

Viene de:

Introducción

Continúa con:

Política de Calidad de Datos

2

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

■ Introducción

■ Algunas definiciones

■ Estrategias

■ Qué datos mejorar

■ Caso de una única BD

■ Caso del DW

3

UA

S C

arlo

s L

ópez

Váz

quez

Una tarea siempre titánica...

■ Volumen de datos tamaño empresa

■ Tendencia es a manejar más datos» DW

» BDOO

» Herramientas de última generación

» Intranet/Internet

■ Se requieren planes...

4

UA

S C

arlo

s L

ópez

Váz

quez

===D

efin

e có

mo

===>

proc

eder

en

ese

caso

<==Solicita recursos==

<=Infor

ma sobre

problem

as obser

vados==Definen qué datos serán mejorados=>

Plan de Calidad de Datos (PCD)

Infraestructura administrativa

Administración del PCD

Planes operacionales

Objetivos claros para el negocio

Administración del PCD

Infraestructura administrativa

Planes operacionales

Objetivos claros para el negocio

5

UA

S C

arlo

s L

ópez

Váz

quez

Algunas definiciones...

▼Calidad

▼Precisión

▼¿Correctitud?

▼¿Exactitud?

▲Quality

▲Precision

▲Accuracy

■ El idioma español tiene limitaciones en este aspecto...

6

UA

S C

arlo

s L

ópez

Váz

quez

Una definición operativa...

Def.: “...Calidad(A) > Calidad(B) si...”– intrínsecamente subjetiva

– asociada a las necesidades

– dos clientes podrían disentir

– eso si el cliente “sabe lo que quiere”...

7

UA

S C

arlo

s L

ópez

Váz

quez

Ejemplo de las dificultades...

MINMAX: Cal(A)=5.0;Cal(B)=0.5 A<B

StdDev: Cal(A)=2.04;Cal(B)=0.0 A<B

RMSE: Cal(A)=5.0;Cal(B)=1.22 A<B 8

UA

S C

arlo

s L

ópez

Váz

quez

Una definición operativa (2) ...

– dos clientes podrían disentir

Hay cosas que todos quieren o esperan:

!relevancia

!correctitud

!poder “ver”

!acceso simple

!seguridad

!privacidad9

UA

S C

arlo

s L

ópez

Váz

quez

Son dimensiones diferentes...

En Calidad de Datos se distinguen cuatro:

■ Modelo de Datos (ej. relevancia)

■ Valores mismos (ej. correctitud)

■ Presentación (ej. poder “ver”)

■ Tecnológicos (ej. acceso simple)

El curso trata sobre la segunda dimensión

Page 2: Gestión de Calidad de Datos Tópicos a considerar Una tarea ...

10

UA

S C

arlo

s L

ópez

Váz

quez

Para los valores mismos...

...también se distinguen cuatro dimensiones:

■ Correctitud

■ Vigencia

■ Completitud

■ Consistencia

11

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (1)

<E,A,V1>

<E,A,V2>

<E,A,V3>

...

<E,A,V2>

<E,A,V>

Ej. <EMPLEADO,AÑO_NACIMIENTO,VALOR>

E=“1745”,E.AÑO_NACIMIENTO=”1960” 12

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (2)

Quizá lo mejor que pueda lograrse es...

<E,A,[VMAX,VMIN]>

Ej. < FECHA,TEMPERATURA_AMBIENTE, VALOR>

FECHA=“18071825.120000”,FECHA.TEMP=”19.60”

Un caso con dos problemas:

•No existe “verdadero”

•No existió nunca

13

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (3)

Las combinaciones formalmente posibles no necesariamente son válidas

Ej. EMPLEADO=“9999”

EMPLEADO.NOMBRE=“Jorge Batlle Ibáñez”

EMPLEADO.AÑO_NACIMIENTO=“1925”

EMPLEADO.CARGO=“Desconocido”

¡ Simplemente no es empleado!

14

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (4)

<E,A,”Juguetería/Bazar”>

<E,A,”JUGUETERIA/BAZAR”>

<E,A,”Jugueteria/Bazar”>

...

<E,A,”Jugueteria / Bazar”>

¡Hay varios valores “correctos”!

15

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (5)

En resumen:

• No siempre existe un “verdadero valor”

• Aún existiendo, puede ser inaccesible

• Métricas específicas al problema

• Métricas problemáticas

16

UA

S C

arlo

s L

ópez

Váz

quez

Para los valores mismos...

...también se distinguen cuatro dimensiones:

✔ Correctitud

■ Vigencia

■ Completitud

■ Consistencia

17

UA

S C

arlo

s L

ópez

Váz

quez

Vigencia (1)

ESTALLOVIENDO.NOW=TRUE

LUN MAR MIE JUE

Es algo que depende del tiempo...

18

UA

S C

arlo

s L

ópez

Váz

quez

Vigencia (2)

■ Datos permanentes– Fecha de nacimiento

– Tipo de sangre

– Lugar de nacimiento ≠ País de nacimiento!

■ Datos dinámicos|– Cambian ocasionalmente

» Nombre y/o apellido (ej.: USA)

» Dirección

– Cambian regularmente» Salario|

Page 3: Gestión de Calidad de Datos Tópicos a considerar Una tarea ...

19

UA

S C

arlo

s L

ópez

Váz

quez

Para los valores mismos...

...también se distinguen cuatro dimensiones:

✔ Correctitud

✔ Vigencia

■ Completitud

■ Consistencia

20

UA

S C

arlo

s L

ópez

Váz

quez

■ Cuatro posibilidades– El empleado no tiene teléfono ==>OK

– El empleado tiene teléfono, pero se ignora el número==>INC

– El empleado tiene un número que no figura en la guía ==>OK

– Se ignora si el empleado tiene teléfono ==>OK

Completitud (1)

■ EMPLEADO.HOMEPHONE=“Null”

■ Veamos un poco más de detalle21

UA

S C

arlo

s L

ópez

Váz

quez

Completitud (2)

■ El “Null” debería tener colores...» Valor desconocido de un atributo aplicable (el

registro es incompleto)

» Indicador de atributo no aplicable (el registro es completo)

» Atributo de aplicabilidad desconocida

» Valor especial de un atributo (el registro es completo)

■ Difícil de implementar...

22

UA

S C

arlo

s L

ópez

Váz

quez

Completitud (3)

■ Dos problemas:✔ Completitud de registros en la base

– Completitud de la base

■ Ej.: Lista de Empleados Activos

■ Ej.: Diccionario de neologismos

23

UA

S C

arlo

s L

ópez

Váz

quez

Para los valores mismos...

...también se distinguen cuatro dimensiones:

✔ Correctitud

✔ Vigencia

✔ Completitud

■ Consistencia

24

UA

S C

arlo

s L

ópez

Váz

quez

Consistencia (1)

■ Dos o más cosas no son incompatibles

■ Dos o más datos pueden ser correctos a la vez

■ Un par de casos típicos– Redundancia

– Consistencia interna

25

UA

S C

arlo

s L

ópez

Váz

quez

Consistencia (2)

■ Redundancia– Varias copias de lo mismo

– Actualización independiente

– Mantenimiento separado

Empleado.Dirección=“Aconcagua 1234”

Empleado.Dirección=“Rancagua 1234”

Empleado.Dirección=“Aconcagua 2134” 26

UA

S C

arlo

s L

ópez

Váz

quez

Consistencia (3)

■ Consistencia interna– Existen reglas a cumplir

» explícitas

» implícitas

Empleado.Dirección=“Aconcagua 1234”

Empleado.CP=“11600”

27

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

✔ Introducción

✔ Algunas definiciones

■ Estrategias

■ Qué datos mejorar

■ Caso de una única BD

■ Caso del DW

Page 4: Gestión de Calidad de Datos Tópicos a considerar Una tarea ...

28

UA

S C

arlo

s L

ópez

Váz

quez

Tres niveles, tres generaciones

Detección + corrección

Diseño de procesos

Mejora de procesos

29

UA

S C

arlo

s L

ópez

Váz

quez

Detección + corrección

Tácticas corrientes:– Laissez fair

– Comparar: » datos vs. realidad

» con otra base

» con reglas del negocio

30

UA

S C

arlo

s L

ópez

Váz

quez

Comparar datos con realidad...

■ Viable para pocos datos

■ Caro y lento

■ Útil para evaluar niveles de calidad mediante muestreo

■ Inviable para datos muy dinámicos

31

UA

S C

arlo

s L

ópez

Váz

quez

Comparar datos con otra base...

■ Trabajo de laboratorio (la realidad no entra)

■ Hipótesis implícitas» Existe una base, independiente, y redundante

» No tiene demasiados errores

■ La comparación puede no ser simple

■ Es un método seductor...

32

UA

S C

arlo

s L

ópez

Váz

quez

...con reglas del negocio... (1)

Se expresan como Data Edits...

■ Un único campo:– “el valor debe ser uno de {0,1,2...9}”

■ Múltiples campos:– “Ciudad y País deben coordinarse”

■ Relaciones probabilísticas:– “Hijos=4 y Edad=15 es improbable”

■ Si fallan, se revisan los casos anómalos33

UA

S C

arlo

s L

ópez

Váz

quez

...con reglas del negocio... (2)

A Favor:

■ Revelan muchas inconsistencias

■ No requiere una segunda base

En contra:

■ Difíciles de hallar/explicitar

■ Requieren “expertos”

■ Pueden cambiar con el tiempo

■ Se aplican una vez, o son permanentes

34

UA

S C

arlo

s L

ópez

Váz

quez

...con reglas del negocio... (3)

Ej.: Caso del Censo (López, JISS 1997)

■ Escaneado+interpretación automática

■ Sólo datos categóricos

■ Digitar dos veces, o sólo lo erróneo

■ Reglas derivadas de los datos ==>¡No hay experto!

■ Resultado de la simulación:35

UA

S C

arlo

s L

ópez

Váz

quez

0 2 4 6 8 10 12 14 16 18 200

10

20

30

40

50

60

70

80

90

100Overall results vs. effort level

3% of the surveys initially contaminatedwith 2 errors each; Marginal 0.10%

% of controlled data

% o

f err

ors

foun

d

Bes

t po

ssib

le o

p era

t ion

line

Expected duplicate performance locus

...con reglas del negocio... (4)

36

UA

S C

arlo

s L

ópez

Váz

quez

Tres niveles, tres generaciones

Detección + corrección

Mejora de procesos

Diseño de procesos

Page 5: Gestión de Calidad de Datos Tópicos a considerar Una tarea ...

37

UA

S C

arlo

s L

ópez

Váz

quez

Mejora de procesos

■ ¿Y la prevención?

■ Ej.: 1000 datos/día, 20 campos, 2% errores ==>¡400 errores/día!

38

UA

S C

arlo

s L

ópez

Váz

quez

Un ejemplo...

VENTAS

ÓRDENES

DESPACHO

FACTURACIÓN

39

UA

S C

arlo

s L

ópez

Váz

quez

Prevención...

■ Uso extenso de reglas del negocio

■ Quizá pequeños cambios» Ej.: habilitar/inhibir edición

■ Corrección temprana

■ Seguimiento

■ Más barato que corrección

■ Única alternativa si “llueven datos”

40

UA

S C

arlo

s L

ópez

Váz

quez

Tres niveles, tres generaciones

Detección + corrección

Mejora de procesos

Diseño de procesos

41

UA

S C

arlo

s L

ópez

Váz

quez

Diseño del proceso

■ “a prueba de errores”

■ Exitosa en manufactura

Ideas:

■ Eliminar re-digitación

■ Incorporar reglas

■ Reasignar propiedades

■ No hay muchos ejemplos con datos42

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

✔ Introducción

✔ Algunas definiciones

✔ Estrategias

■ Qué datos mejorar

■ Caso de una única BD

■ Caso del DW

43

UA

S C

arlo

s L

ópez

Váz

quez

¿Qué datos mejorar... primero?

■ Tan importante como la estrategia

■ Hay que lograr éxitos al principio

■ Buscar consensos

■ Considerar varios criterios:– estrategia global de la empresa

– relevancia para problemas ya conocidos

– distancia ser<==>deber ser

– impacto económico

44

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

✔ Introducción

✔ Algunas definiciones

✔ Estrategias

✔ Qué datos mejorar

■ Caso de una única BD

■ Caso del DW

45

UA

S C

arlo

s L

ópez

Váz

quez

Una única base

1) Definir estrategia

EstrategiaProblemas conocidosNivel de errorImpacto ($)

Datos prioritarios

Cambios lentos

Cambios rápidos

Caso intermedio

Page 6: Gestión de Calidad de Datos Tópicos a considerar Una tarea ...

46

UA

S C

arlo

s L

ópez

Váz

quez

Hay casos mezclados...

BD de Clientes:■ Cliente.FechaNacimiento

■ Cliente.Domicilio

■ Cliente.Saldo

¿Razones?– acotar el trabajo de limpieza

– asegurar un retorno 47

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

✔ Introducción

✔ Algunas definiciones

✔ Estrategias

✔ Qué datos mejorar

✔ Caso de una única BD

■ Caso del DW

48

UA

S C

arlo

s L

ópez

Váz

quez

Muchas bases...

A) Bases que no se solapan

49

UA

S C

arlo

s L

ópez

Váz

quez

Muchas bases...

B) Bases cliente-servidor

50

UA

S C

arlo

s L

ópez

Váz

quez

Muchas bases...

C) Bases solapadas pero independientes

51

UA

S C

arlo

s L

ópez

Váz

quez

Más de una base...

52

UA

S C

arlo

s L

ópez

Váz

quez

Vale la pena mencionar...

■ Problemas con datos, no con SGBD...

■ Duplicación por razones técnicas– Backup

– Redundancia quizá requerida

==> ¡Usar Master-Slave!

■ DW explícitamente crea redundancia

■ DW recibe datos de varias fuentes

53

UA

S C

arlo

s L

ópez

Váz

quez

El caso del DW

■ Identificar los datos requeridos

■ Identificar la(s) fuente(s)

■ Estimar niveles de error y caracterizar velocidad de cambios

Tres pasos:

54

UA

S C

arlo

s L

ópez

Váz

quez

Resumen

■ Plan operacional:– Detección+corrección

– Manejo de procesos

– Diseño de procesos

■ Pueden convivir

■ Datos críticos

■ Controlar redundancia