Gest ión de Calidad de Datos
description
Transcript of Gest ión de Calidad de Datos
1
UA
S C
arlo
s L
ópez
Váz
quez
Gestión de Calidad de Datos
Carlos Ló[email protected]
Universitario Autónomo del Sur - 2005Universitario Autónomo del Sur - 2005
Monitoreo, seguimiento y mejora del proceso
Viene de:
Métodos de Control Estadístico
2
UA
S C
arlo
s L
ópez
Váz
quez
El Ciclo de Gestión de Procesos
Establecer un Propietario del Proceso
Describir el Proceso Establecer Necesidades
del Cliente
Establecer Sistema de Medición
Identificar Oportunidades de Mejora
Instalar SQC; verificar Conformidad
Seleccionar Oportunidades
Hacer y Sostener las Mejoras
3
UA
S C
arlo
s L
ópez
Váz
quez
Tópicos a considerar
Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen
4
UA
S C
arlo
s L
ópez
Váz
quez
Introducción
Hay varias maneras de medir desempeño– Conteo de datos erróneos
» Reglas de Negocio no cumplidas» Seguimiento de Datos (Data tracking)» Ingreso duplicado
– Tamaño de datos erróneos» Efecto Godzilla
– Efecto de datos erróneos» Número de Quejas de Clientes
5
UA
S C
arlo
s L
ópez
Váz
quez
Reglas del Negocio
Def: Relaciones que tienen que cumplir los datos válidos– Sustanciales: Fecha Nacimiento < Fecha
Casamiento– Formales: Nro. Hijos ≥0
Surgen de:– Expertos en el tema– Análisis estadístico de datos
Son esencialmente especificaciones de
los datos
6
UA
S C
arlo
s L
ópez
Váz
quez
Reglas de Expertos
Son personales Son incompletas Son de difícil actualización (¡Hay que matar al experto!)
¡No requieren datos! Suelen redundar Hay software específico
7
UA
S C
arlo
s L
ópez
Váz
quez
Análisis Estadístico
Hoy conocido como “Minería de Datos” Busca relaciones predictivas empíricas
– No verificadas¿erróneos? Busca describir clases
– No clasificados¿erróneos? Registros individuales conclusiones
globales
100100101001001100100100100010001000100001001000100001000011111110010
8
UA
S C
arlo
s L
ópez
Váz
quez
Modelos predictivos
Modelos de regresión– Vol. Compra=f(ingreso, edad, nro. de hijos)
Típicamente vinculan datos cuantitativos Se analiza y=|Compra-f(x)|
– Si y<=y0 ok– Si y>y0¡sospechoso!
Para corregir se requiere acceso al “verdadero valor”
9
UA
S C
arlo
s L
ópez
Váz
quez
Clasificación
Buscan patrones en los datos– Cerveza+pañales+pizza– Perfume+bombones-leña
– Mañana de domingo+chorizos
Vinculan datos categóricos y cuantitativos Si alguien compra Leña y Perfume … Para corregir se requiere acceso al “verdadero
valor”
10
UA
S C
arlo
s L
ópez
Váz
quez
Tópicos a considerar
Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen
11
UA
S C
arlo
s L
ópez
Váz
quez
Sistemas de Medición
Tema muy importante Las Métricas definen el comportamiento Peligros
– Métricas inapropiadas – Administrar Métricas y no el proceso
Ejemplos
12
UA
S C
arlo
s L
ópez
Váz
quez
El caso de la Industria siderúrgica
Produce chapas, perfiles, varillas, etc. en serie Objetivo: producción bruta en Ton/mes Cambios ~8 hs. Grandes stocks Demora en cumplir pedidos
Resultado:
Ton/mes cumplidas, y clientes insatisfechos
13
UA
S C
arlo
s L
ópez
Váz
quez
Administrar la métrica
VW nombra CEO español Año 1: récord de ganancias Año 2: récord de ganancias Año 3: ¡CEO despedido!
Corto plazo vs. Largo plazo
14
UA
S C
arlo
s L
ópez
Váz
quez
Medir vs. no Medir
Lo esencial es invisible a los ojos Medir mal es peligroso
15
UA
S C
arlo
s L
ópez
Váz
quez
Cadenas de información
Cuentan con cuatro componentes: Requerimientos de Desempeño Definición de “qué medir” Dispositivo de medida y protocolos Resúmenes de Desempeño Serán los tópicos a tratar
16
UA
S C
arlo
s L
ópez
Váz
quez
En general…
Mejor poco y bueno, que mucho y malo… +medidas+complejidad+difícil y caro Sinergias
Medidas Ideas y oportunidades
Más tecnología
Más
17
UA
S C
arlo
s L
ópez
Váz
quez
En lo que sigue…
Se discutirán las cuatro componentes Se trabajará un ejemplo simple
– 5 procesos– 2 bases de datos
Objetivos a medir/mejorar/controlar:– Correctitud datos en DB A– Consistencia entre DB A y DB B– Tiempo para llegar a DB A
18
UA
S C
arlo
s L
ópez
Váz
quez
Esquema del ejemplo
19
UA
S C
arlo
s L
ópez
Váz
quez
Descripción del Ejemplo
campo 1 2 3 4 5 DB A DB B a c
b c c c
d c e c
f c
g c c
h c
Proceso
20
UA
S C
arlo
s L
ópez
Váz
quez
Cadenas de información
Requerimientos de Desempeño Definición de “qué medir” Dispositivo de medida y protocolos Resúmenes de Desempeño
21
UA
S C
arlo
s L
ópez
Váz
quez
Requerimientos de Desempeño
Diseño del SM debe admitir cosas del tipo de “La cadena debe”. Por ejemplo:
estar y mantenerse bajo Control producir no más de <x> defectos ser susceptible de mejora continua ser susceptible de cumplir requerimientos
futuros
22
UA
S C
arlo
s L
ópez
Váz
quez
Tópicos a considerar
Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen
23
UA
S C
arlo
s L
ópez
Váz
quez
¿Qué medir?
Cadenas suelen ser complejas– Muchos campos– Muchos cruces de cadenas
Desafíos– Qué procesos medir– Qué campos incluir – Qué números son relevantes
24
UA
S C
arlo
s L
ópez
Váz
quez
“Dispositivo” de medida
Contraste con “la realidad”
Data tracking– Más apropiado para datos– Más barato– Implementable en el sistema
– Muestreo– Encuesta
Digitación duplicada– “Database Bashing”
Ejércitos de digitadores Pérdida de tiempo Imagen empresa ¡Costo!
25
UA
S C
arlo
s L
ópez
Váz
quez
Método tradicional
Producto final
26
UA
S C
arlo
s L
ópez
Váz
quez
Para datos…
Métricas pueden ser:– Binarias: Correcto/incorrecto– Cuantitativas
Difícil declarar “Incorrecto” – Sólo si no cumple reglas– Sólo si hay errores de formato
Más difícil declarar “Correcto” Difícil acceso al “verdadero valor”
27
UA
S C
arlo
s L
ópez
Váz
quez
Tópicos a considerar
Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen
28
UA
S C
arlo
s L
ópez
Váz
quez
Data Tracking
Se marcan datos Se analizan cambios Se guarda fecha/hora
29
UA
S C
arlo
s L
ópez
Váz
quez
Los pasos claves son…
Muestrear al azar a la entrada, y marcar Seguir los registros marcados
– Al entrar a un proceso
– Al salir del proceso
Identificar dónde ocurren defectos/errores Identificar demoras Generar resúmenes cada tanto
30
UA
S C
arlo
s L
ópez
Váz
quez
Muestrear al azar
Aplicable a cadenas “continuas” o por lotes Eliminan sesgos:
– Pedidos consecutivos correlacionados– Preferencia del inspector por pedidos “grandes”
Procedimientos bien estudiados– Descritos en Manuales– Especificados en Estándares (MIL Std.)
31
UA
S C
arlo
s L
ópez
Váz
quez
r=1100% del total; r=0 no muestrear Otros requerimientos:
– Tamaño del lote
– Frecuencia de muestreo
– Tasa de ingreso al sistema
Muestrear al azar(2)
– Generar al azar
– Si aceptar el registro; si no, rechazarlo
1,0ix
rxi
1
1
Pasos: Especificar r Para cada registro:
32
UA
S C
arlo
s L
ópez
Váz
quez
Seguir los registros marcados
Usar un identificador único ya existente– No requiere cambio del modelo de datos
Agregar una etiqueta específica– Hay que modificar modelo
Invisibilidad… Ejemplo:
33
UA
S C
arlo
s L
ópez
Váz
quez
Ejemplo
1 2 3 4 5 DB A DB B a -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC-
b 408727 408727 408831 408831 408831 408831 408831 c SRBEX A A A A A
d DEC DEC DEC DEC DEC
e H23A F17B H23A F17B H23A
f $23.25 $23.25
g N Y N Y
h bf bf
Ingreso 2/24 10:00 2/24 12:15 3/1 12:00 3/5 08:00 3/10 08:00 3/6 0:13 3/12 0:30
Salida 2/24 10:45 2/24 17:00 3/2 12:00 3/5 10:15 3/10 17:00
Esperado 2/24 17:00 3/1 17:00 3/5 17:00 3/9 17:00 3/6 8:00 3/10 8:00
34
UA
S C
arlo
s L
ópez
Váz
quez
Tres tipos de cambios
Normalización Traducción Espúreos
– Corrección de errores– Creación de errores
35
UA
S C
arlo
s L
ópez
Váz
quez
Ejemplo
1 2 3 4 5 DB A DB B a -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC-
b 408727 408727 408831 408831 408831 408831 408831 c SRBEX A A A A A
d DEC DEC DEC DEC DEC
e H23A F17B H23A F17B H23A
f $23.25 $23.25
g N Y N Y
h bf bf
Ingreso 2/24 10:00 2/24 12:15 3/1 12:00 3/5 08:00 3/10 08:00 3/6 0:13 3/12 0:30
Salida 2/24 10:45 2/24 17:00 3/2 12:00 3/5 10:15 3/10 17:00
Esperado 2/24 17:00 3/1 17:00 3/5 17:00 3/9 17:00 3/6 8:00 3/10 8:00
36
UA
S C
arlo
s L
ópez
Váz
quez
Tiempos de ciclos
Tres tipos de análisis– Tiempo de proceso (Ci-Si)
– Puntualidad (Ci-Di)
– Tiempo en cola (Si-Ci-1)
Siendo:Si fecha/hora de comienzo del proceso i
Ci fecha/hora de culminación del proceso i
Di fecha/hora comprometida del proceso i
37
UA
S C
arlo
s L
ópez
Váz
quez
Ejemplo
1 2 3 4 5 DB A DB B a -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC-
b 408727 408727 408831 408831 408831 408831 408831 c SRBEX A A A A A
d DEC DEC DEC DEC DEC
e H23A F17B H23A F17B H23A
f $23.25 $23.25
g N Y N Y
h bf bf
Ingreso 2/24 10:00 2/24 12:15 3/1 12:00 3/5 08:00 3/10 08:00 3/6 0:13 3/12 0:30
Salida 2/24 10:45 2/24 17:00 3/2 12:00 3/5 10:15 3/10 17:00
Esperado 2/24 17:00 3/1 17:00 3/5 17:00 3/9 17:00 3/6 8:00 3/10 8:00
38
UA
S C
arlo
s L
ópez
Váz
quez
0 2 4 6 8 10 12 14 16 18 20
Cam
bios
por
reg
istr
o
Nro. de muestra
EspúreosNormalizaciónTraducción
Resumir resultados
Para Correctitud y Consistencia
Tres niveles:– Métrica
– Dónde
– Control
Un ejemplo de Métrica
Situación conocida Quizá poco preocupante Quizá legada ¡Seguro que no aporta valor!
39
UA
S C
arlo
s L
ópez
Váz
quez
b e d g a c0
5
10
15
20
25
30
35
40
45
50
Campo
Pro
porc
ión
de c
asos
)
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Los casos graves…
¿Qué es un gráfico de Pareto?
40
UA
S C
arlo
s L
ópez
Váz
quez
Otras gráficas útiles/posibles
Rastreando el campo “b”
3->4 4->DB A 2->3 1->2 In->1 0
5
10
15
20
25
30
35
40
45
50
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Puede usarse más de una representación
41
UA
S C
arlo
s L
ópez
Váz
quez
2 4 6 8 10 12 14 16 18 20 220
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4P
ropo
rcio
n de
def
ecto
s
Muestra
UCL
CL
LCL
Para el control…
Dado el campo “b”, y el proceso “3”…
Hay puntos fuera de rango Deben buscarse las causas
42
UA
S C
arlo
s L
ópez
Váz
quez
Algunos detalles…
Las muestras pueden demorar más o menos– La secuencia de entrada difiere de la de salida
Sólo incluir muestras ya completas
43
UA
S C
arlo
s L
ópez
Váz
quez
Detectando inconsistencias
La métrica es binaria: “consistente/inconsistente” En principio es similar a la correctitud Aislemos los espúreos…
0 2 4 6 8 10 12 14 16 18 20
Cam
bios
por
reg
istr
o
Nro. de muestra
EspúreosNormalizaciónTraducción
44
UA
S C
arlo
s L
ópez
Váz
quez
e g a c d0
5
10
15
20
25
30
34
Cas
os
0%
15%
29%
44%
59%
74%
88%
100%
Pro
porc
ión
de in
cons
iste
ncia
s
Analizando el ejemplo
Focalizando en los espúreos Casos más problemáticos: campos “e” y “g”
45
UA
S C
arlo
s L
ópez
Váz
quez
Rastreando el campo “e”
Mayoría entre 3 y 4 “e” tenía problemas de correctitud No es por tanto problema de inconsistencia
46
UA
S C
arlo
s L
ópez
Váz
quez
Rastreando el campo “g”
No está tan claro Errores altos, pero bajo control
2 4 6 8 10 12 14 16 18 20 220
0.05
0.1
0.15
0.2
0.25
Muestra
Pro
porc
ión
UCL
CL
LCL
47
UA
S C
arlo
s L
ópez
Váz
quez
Rastreando el campo “g” (2)
Hay que mirar más de cerca El campo “g” se genera ¡independientemente!
48
UA
S C
arlo
s L
ópez
Váz
quez
Un detalle…
Métodos y gráficos para Correctitud ≈ Consistencia– ¿Dónde están las diferencias?
Correctitud– Controla <realidad> vs. <DB A>
Consistencia– <DB A> vs. <DB B>– ¡<realidad> no entra!
49
UA
S C
arlo
s L
ópez
Váz
quez
Tiempos…
Hay que ser especialmente cuidadoso
Ilustremos la nomenclatura
tiempo
P3 terminadoP3 prometido
Comienza P3P2 terminado
P3 está retrasado en este lapso
50
UA
S C
arlo
s L
ópez
Váz
quez
Otras hipótesis…
Entrar en DB A implica la entrega de algo– Def. DA=Instante prometido de entrega
– Def. CA=Instante efectivo de entrega
– Def. TA = CA – DA (TA > 0 implica retraso)
DA depende de D1, D2, D3 y D4
El cliente siempre puede cancelar o cambiar antes de DA
51
UA
S C
arlo
s L
ópez
Váz
quez
Primer análisis: TA
UCL debería ser negativo Se debe/puede analizar el gráfico X, u otro Bajo control, pero 37% se entregan tarde
2 4 6 8 10 12 14 16 18 20 22-250
-200
-150
-100
-50
0
50
UCL
CL
LCL
Min
utos
Muestra
X-chart: TA
-500 -400 -300 -200 -100 0 100 200 3000
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Promedio=-100
Temprano Tarde
Área=37%
52
UA
S C
arlo
s L
ópez
Váz
quez
Si el servicio llega tarde…
Causas: Uno o más procesos tienen problemas El sistema (o algún proceso) no es capaz Clientes cambian la orden demasiado
frecuentemente ¿Cómo detectarlo, identificarlo y corregirlo?
– Repita análisis para T1, T2, T3 y T4 por separado
– Estime tiempo promedio <Ti>, y súmelo
53
UA
S C
arlo
s L
ópez
Váz
quez
Tiempos acumulados de 4 procesos
0 0.5 1 1.5 2 2.5 30
1
2
3
4
5
Dias
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.50
0.5
1
1.5
2
Dias
L2 (=1/2 dia,
=2 horas)
L4 (=1 dia,
=3 horas)
L1 (=1 dia,
=4 horas)
Distribucion de la suma L1+L2+L3+L4
(=4.5 dias, =42+22+32+22 horas)
L3 (=2 dias,
=2 horas)
Percentil 99%
Se asumen independientes
También llamada Capacidad del
Proceso
54
UA
S C
arlo
s L
ópez
Váz
quez
“Otra vez los clientes…”
Tienen derechos (¡!) Podría pensarse:
– “Avisan tarde, y el trabajo está casi hecho” Típicamente es lo contrario Tiempo en cola >> Tiempo en proceso Ideas “Just In Time”
55
UA
S C
arlo
s L
ópez
Váz
quez
Unos comentarios…
Podría prometerse un DA menor
No todo es espera– Tiempo de transmisión no considerado– Buffers (para manejar picos de trabajo)
Buffers suelen ocultar defectos
56
UA
S C
arlo
s L
ópez
Váz
quez
Tópicos a considerar
Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen
57
UA
S C
arlo
s L
ópez
Váz
quez
Cómo implementar Data Tracking
Será necesario implementar varios módulos Ilustraremos una arquitectura: DCI Es aplicable cuando:
– Pueden ponerse etiquetas– Los procesos están computarizados
La tendencia es hacia esto Veamos un esquema
58
UA
S C
arlo
s L
ópez
Váz
quez
Un posible esquema de DCI
Filtros
Muestreo/etiquetado
PostProcesamiento
Análisis/Reportes
Comunicaciones
59
UA
S C
arlo
s L
ópez
Váz
quez
Detalles…
Tan próximo como se pueda– Muestreo DENTRO del 1er. Proceso– Filtros DENTRO de cada proceso– BD secundaria CERCA del “dueño” del proceso
Fácil de implementar en una reingeniería Más difícil como cambios a un sistema ya
operativo
60
UA
S C
arlo
s L
ópez
Váz
quez
Tópicos a considerar
Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen
61
UA
S C
arlo
s L
ópez
Váz
quez
En Resumen
Concepto de Sistema de Medida– Cuatro componentes:
» Requerimientos» Ítems o características a medir» Instrumento y reglas para medir» Resúmenes apropiados
Requerimientos: la voz del cliente Requerimientos Qué medir Instrumento: Data Tracking Requerimientos Resúmenes apropiados
62
UA
S C
arlo
s L
ópez
Váz
quez
Resumen de Data Tracking
Es UN posible instrumento; hay otros Explota redundancia entre procesos y datos Objetivo:
– Controlar operación y mejorar» Correctitud» Consistencia» Tiempos de procesamiento
Uso extensivo de SQC
63
UA
S C
arlo
s L
ópez
Váz
quez
Gestión de Calidad de Datos
Carlos Ló[email protected]
Universitario Autónomo del Sur - 2005Universitario Autónomo del Sur - 2005
Monitoreo, seguimiento y mejora del proceso
Viene de:
Métodos de Control Estadístico