IBM Quality Stage

24
GESTIÓN DE CALIDAD DE DATOS E INFORMACIÓN MBA UQAM - Concentración en informática Trabajo individual Análisis de una herramienta de software para limpieza de datos: IBM InfoSphere QualityStage Carlos Takano ___________________ Resumen Este trabajo tiene como propósito ofrecer una perspectiva general de la problemática de calidad de datos que enfrentan muchas organizaciones, cómo enfrentar el problema desde la perspectiva de la limpieza de datos y qué funcionalidad ofrecen las herramientas especializadas para este propósito, específicamente IBM InfoSphere QualityStage. Justificación Actualmente vivimos en un mundo cada vez más interconectado y digitalizado. Disponemos de transpondedores y sensores de bajo costo, que se pueden implantar fácilmente en todo tipo de objetos: autos, mercaderías, medicinas, incluso animales. Por otro lado, la ubicuidad de las redes de comunicaciones permite interconectar estos objetos para que participen en procesos automatizados, dando lugar al “Internet de las cosas”, como lo llamó Kevin Ashton. También tenemos infraestructuras computacionales capaces de manejar y 1

Transcript of IBM Quality Stage

Page 1: IBM Quality Stage

GESTIÓN DE CALIDAD DE DATOS E INFORMACIÓNMBA UQAM - Concentración en informática

Trabajo individual

Análisis de una herramienta de software para limpieza de datos: IBM InfoS-phere QualityStage

Carlos Takano___________________

Resumen

Este trabajo tiene como propósito ofrecer una perspectiva general de la problemática de

calidad de datos que enfrentan muchas organizaciones, cómo enfrentar el problema desde

la perspectiva de la limpieza de datos y qué funcionalidad ofrecen las herramientas espe-

cializadas para este propósito, específicamente IBM InfoSphere QualityStage.

Justificación

Actualmente vivimos en un mundo cada vez más interconectado y digitalizado. Dispone-

mos de transpondedores y sensores de bajo costo, que se pueden implantar fácilmente en

todo tipo de objetos: autos, mercaderías, medicinas, incluso animales. Por otro lado, la

ubicuidad de las redes de comunicaciones permite interconectar estos objetos para que

participen en procesos automatizados, dando lugar al “Internet de las cosas”, como lo

llamó Kevin Ashton. También tenemos infraestructuras computacionales capaces de ma-

nejar y procesar, cada vez a mayor velocidad, grandes volúmenes de datos, tanto estructu-

rados como no estructurados, como imágenes, audio, video y documentos.

Esta abundancia de datos, sin embargo, no siempre da como resultado que los ejecutivos

y trabajadores del conocimiento tengan mejor información sobre lo que pasa en las orga-

nizaciones y su entorno, que necesitan para decidir qué acciones tomar, cuando buscan

mejorar la posición competitiva de sus empresas, atacar un problema o aprovechar una

oportunidad. Esto ocurre porque, con frecuencia, los datos no cumplen los requisitos de

calidad necesarios para producir buena información, ocasionando sobrecostos imputables

a diversas categorías, como decisiones inadecuadas, oportunidades de negocio perdidas,

1

Page 2: IBM Quality Stage

incumplimiento de regulaciones, errores al ejecutar procesos, trabajo para detectar y co-

rregir defectos en los datos, acciones preventivas para evitar que los datos contengan

errores, por ejemplo.

La calidad de los datos es un problema amplio y complejo, que comprende varias dimen-

siones y se presenta por diversas causas. Si bien es cierto que, en general, lo ideal es eli -

minar las causas de los problemas, en el caso de la calidad de los datos, ello no siempre

es viable. Por ejemplo, si los datos son generados por un tercero sobre el que no se tiene

control y no existe una fuente más adecuada para cubrir la necesidad, o cuando el costo

de hacer las modificaciones necesarias a los sistemas preexistentes es prohibitivo, la úni-

ca opción que resta es detectar los defectos y corregir los datos. A veces, las únicas accio-

nes correctivas posibles implican realizar algún tipo de proceso manual, que suele ser

lento, costoso y propenso a errores; sin embargo, cuando se cumplen ciertas condiciones,

es posible utilizar aplicaciones de software especializadas, como IBM InfoSphere Quali-

tyStage, para automatizar en su totalidad o en su mayoría el proceso de limpieza de datos;

esto permite obtener mejores resultados sobre la calidad de los datos, implementar un

proceso repetible, adaptable y fácil de gestionar, y reducir el costo y el riesgo.

Objetivo

Evaluar las capacidades de IBM InfoSphere QualityStage en relación con las necesidades

empresariales de limpieza de datos.

Problemática de calidad de los datos

Como ya se mencionó, la calidad de los datos es un problema amplio y complejo, que

comprende varias dimensiones y se presenta por diversas causas. Las dimensiones antes

mencionadas son los distintos aspectos por los que es conveniente evaluar la calidad de

los datos, siendo los principales: exactitud, completitud, oportunidad y consistencia.

La exactitud se define como la cercanía entre un dato y la representación correcta del

fenómeno real que representa, y puede ser sintáctica o semántica. La primera evalúa los

datos respecto del dominio de definición correspondiente, es decir, el conjunto de valores

2

Page 3: IBM Quality Stage

considerados válidos; la segunda lo hace tomando como referencia el valor real, lo que

normalmente es más complejo de evaluar que la anterior. Cuando se tiene la certeza de

que la proporción de errores es relativamente baja, y que en su mayoría se originan en

errores mecanográficos, la exactitud sintáctica tiende a coincidir con la exactitud semánti-

ca, y es aceptable reemplazar un dato considerado errado con el valor más cercano que

pertenezca al dominio de definición (Batini & Scannapieca, 2006). Esto se puede automa-

tizar utilizando funciones de comparación, como la distancia de edición, que se basa en la

cantidad mínima de caracteres que se debe insertar, eliminar, reemplazar o transponer

para convertir el dato bajo evaluación en un valor que pertenece al dominio de definición,

o un algoritmo basado en una representación fonética del dato bajo evaluación.

La completitud se puede evaluar desde tres perspectivas: el esquema, un atributo o la po-

blación (Batini & Scannapieca, 2006). En la primera, interesa saber si todas las entidades

y atributos de interés forman parte del modelo o estructura de datos; en la segunda, se

mide los valores faltantes para un atributo en particular a través de todas las instancias de

una entidad, por ejemplo cuántos trabajadores de una empresa no tienen registrado en la

base de datos correspondiente un número válido de DNI; en la tercera, la evaluación se

concentra en instancias o individuos faltantes respecto de un universo o población de re-

ferencia, por ejemplo, en la tabla donde se registra los datos de los empleados de una em-

presa debe existir exactamente una fila por cada empleado real.

La completitud del esquema depende de la calidad el diseño, lo que está fuera del alcance

de las herramientas de limpieza de datos, motivo por el cual no se abundará sobre el

tema.

Sobre la completitud de atributos, tenemos que, dentro del contexto de la calidad de los

datos, no todos los valores faltantes tienen el mismo significado. Por ejemplo, si se trata

de una tabla de personas en una base de datos relacional, donde un valor nulo representa

un valor faltante, se puede registrar lícitamente un valor nulo para la dirección de correo

electrónico básicamente por una de tres razones: 1) la persona no tiene dirección de co-

rreo electrónico, en cuyo caso el dato no está incompleto, 2) la persona tiene dirección de

correo electrónico, pero no se sabe cuál es, y 3) no se sabe si la persona tiene o no direc-

ción de correo electrónico (Batini & Scannapieca, 2006). Esta ambigüedad hace difícil

3

Page 4: IBM Quality Stage

automatizar la limpieza de datos en esta situación, ya que para saber cuál es el valor real,

hace falta alguna fuente de referencia, que no siempre está disponible o no tiene la sufi -

ciente credibilidad. Esto último aplica también para evaluar si las instancias o individuos

de una entidad representan al universo o población total.

La oportunidad se refiere a que los datos deben reflejar con prontitud los cambios que

ocurren en el mundo real, de manera que el valor actualizado esté disponible en el mo-

mento que se requiere. Si los datos se actualizan después del momento en que se requiere

usarlos, entonces no son oportunos. Un concepto relacionado con la oportunidad es la

volatilidad, que mide la frecuencia con que los datos varían: cuanto más volátil es un

dato, es más complejo mantenerlo oportunamente actualizado, ya que su periodo de vi-

gencia es más corto (Batini & Scannapieca, 2006).

La consistencia se refiere al cumplimiento de reglas de integridad lógica de los datos (Ba-

tini & Scannapieca, 2006). Por ejemplo, si el estado civil de una persona es “Casado”, su

edad no puede ser menor que 14 años, o la fecha en que termina una promoción no puede

ser menor que su fecha de inicio. La verificación de reglas de este tipo es apropiada para

ser implementada en una herramienta de software; sin embargo, no debe pasarse por alto

que definir el conjunto correcto, completo y autorizado de reglas que represente las ver-

daderas necesidades y características del negocio es una tarea difícil y compleja . Es co-

mún encontrar múltiples bases de datos en una organización, donde los datos de cada una

están estructurados según las reglas particulares de cada una (Reid & Catterall, 2005),

que no necesariamente son compatibles entre sí.

Herramientas para limpieza de datos

Una de las posibles soluciones al problema de datos de baja calidad es implementar un

proceso de limpieza de datos (en inglés, data cleansing, data cleaning o data scrubbing),

cuya finalidad es brindar consistencia a los diferentes conjuntos de datos que pueden ha-

ber sido creados bajo reglas diferentes e incompatibles (Reid & Catterall, 2005). La lim-

pieza de datos se ocupa de los problemas de datos una vez que ya han ocurrido, conside-

rando que las estrategias de prevención de errores pueden reducir muchos problemas,

pero no eliminarlos (Van den Broeck, Cunningham, Eeckels, & Herbst, 2005). Si bien es

4

Page 5: IBM Quality Stage

cierto que no todos los errores en los datos pueden ser corregidos automáticamente, las

herramientas de limpieza de datos ofrecen funcionalidad que permite:

Analizar patrones en los datos existentes, para comprender la naturaleza, alcance y

detalle de los problemas de calidad de datos.

Estandarizar y corregir los datos, para asegurar que su formato y contenido cumple

con las especificaciones aplicables a toda la organización.

Detectar posibles duplicados (análisis de coincidencias o data matching), para identi-

ficar registros duplicados entre fuentes de datos y dentro de ellas. Este es uno de los

problemas más frecuentes y que representan altos costos para las empresas (Eckerson,

2002).

Consolidar registros duplicados, que consiste en crear la mejor versión posible del

registro que sobrevivirá y eliminar los demás, combinando de manera inteligente los

datos disponibles. Esto brinda la oportunidad de completar algunos datos faltantes y

corregir otros en base a la evaluación y comparación de los registros duplicados.

Enriquecer los datos, complementando la información existente utilizando fuentes de

referencia externas. Si se tiene acceso a una fuente de datos considerada confiable,

por ejemplo la base de datos de identificación del RENIEC, se puede añadir atributos

adicionales a los datos que ya se tienen.

Estandarización de datos

En muchas fuentes de datos existen elementos de datos que contienen información encu-

bierta, difícil de encontrar e interpretar, como los campos de texto libre utilizados para

almacenar direcciones postales, nombres de personas, nombres de empresas y descripcio-

nes de productos, entre otros. El texto libre permite que los operadores ingresen los datos

sin respetar estándares. Por ejemplo, en el caso de una dirección, se puede utilizar dife-

rentes abreviaturas para el mismo término, ingresar los elementos en diferente orden,

omitir algunos de ellos, etc. Una dirección es un dato que puede descomponerse en varios

elementos, como un tipo de vía, un nombre de vía, un número municipal, un número de

interior, una urbanización, un distrito, una provincia y un departamento, por ejemplo.

5

Page 6: IBM Quality Stage

La estandarización consiste transformar el contenido de estos campos, separándolo en

elementos sencillos que tengan sólo un tipo específico de información (componentes léxi-

cos o tokens), con el fin obtener como resultado una representación que tenga un formato

consistente. En este proceso, también se convierte términos que tienen varias formas de

escribirse, pero el mismo significado, a una forma estándar preferida. Por ejemplo, las

abreviaturas “Ca.”, “CA”, “CL” y “Cl.”, que significan “Calle”, se pueden convertir a la

forma preferida “Ca.”. Esta característica permite también corregir algunos errores meca-

nográficos, por ejemplo, convertir “Carlso” en “Carlos”, todo esto a través de reglas con-

figurables.

Análisis de coincidencias (data matching, object identification o record linking)

Cuando existen canales independientes e incompatibles para registrar datos sobre el mis-

mo concepto de negocio, incrementa la probabilidad de que existan varios registros de

datos que se refieren al mismo objeto o persona del mundo real. Por ejemplo, cuando se

registra más de una vez la misma persona creando diferentes códigos de cliente. Esto lle-

va a tener una visión fragmentada de la información, que carece de integración y consis-

tencia, limitando su valor para la organización.

La solución ideal debería atacar esta causa raíz; sin embargo, esto no siempre es viable,

ya que para lograrlo, por lo general, se requiere realizar cambios costosos, riesgosos y

complejos en los sistemas de información, por ejemplo, con una iniciativa para gestionar

datos maestros (MDM, por las siglas de Master Data Management).

Si no es posible resolver el problema de registros duplicados en su origen, una alternativa

es realizar un análisis de coincidencias o (en inglés, data matching, object identification o

record linkage), que es “probablemente la actividad de calidad de los datos más impor-

tante y ampliamente estudiada” (Batini & Scannapieca, 2006).

Por ejemplo, si se tiene los datos mostrados en la siguiente tabla:

N° Nombre Dirección Zona postal

1 GARCIA, FRANCISCO JAVIER CALLE ALFA 528 LIMA 41

2 WONG, MILAGROS ANA JAVIER PRADO OESTE 2499 LIMA 27

6

Page 7: IBM Quality Stage

3 GARZA, FRANCISCO X. CALLE ALFA 528 LIMA 41

4 GARCIAA, FRANCIS CL ALFA 528 LIMA 41

5 MENCHELLI, JUAN CARLOS AV. AREQUIPA 340 LIMA 1

6 WONG, M. AV. JAVIER PRADO 2499 LIMA 27

7 GARCIA, SUSANA CL ALFA 528 LIMA 41

Es probable que los registros 1, 3 y 4 correspondan a la misma persona, lo mismo ocurre

con los registros 2 y 6. El análisis de coincidencias, entonces, no sólo debe buscar coinci-

dencias exactas, también aproximadas. A esto se debe añadir que no siempre se cuenta

con un identificador confiable que permita discriminar con seguridad si se trata del mis-

mo individuo o no, como en el ejemplo mostrado.

En términos generales, el proceso funciona de la siguiente manera (Batini & Scannapieca,

2006):

Estandarizar los datos para corregir errores simples y facilitar la comparación.

Reducir el espacio de búsqueda, utilizando un criterio general para identificar grupos

de posibles duplicados. En el ejemplo mostrado, si se utiliza el apellido para este pro-

pósito, se podría identificar tres grupos: registros 1, 3, 4 y 7; registros 2 y 6; registro

5. Esto se realiza con el fin de minimizar la cantidad de registros que pasan por un

proceso más fino de comparación. Si no se realizara esta etapa, cada registro debería

compararse contra todos los demás registros de todas las fuentes de entrada, lo que

puede requerir recursos de procesamiento significativos si se tiene un alto volumen de

registros, como es normalmente el caso.

Aplicar funciones de comparación al interior de cada grupo de posibles duplicados,

comparando cada registro del grupo contra todos los demás. Estas funciones deben

proporcionar como resultado un indicador que exprese la distancia entre los registros

de cada grupo. Cuanto menor sea la distancia, mayor será la probabilidad de que se

trate de una coincidencia.

Aplicar un modelo de decisión para determinar, dentro de cada grupo, qué registros

definitivamente coinciden, qué registros definitivamente no coinciden y qué registros

son probables coincidencias y deben pasar por un nuevo ciclo o ser revisados por una

persona, que tomará la decisión correspondiente.

7

Page 8: IBM Quality Stage

Revisar los resultados del proceso y, de ser necesario, iniciar un nuevo ciclo de proce-

samiento, tomando un criterio diferente para reducir el espacio de búsqueda.

Generalidades de IBM InfoSphere QualityStage

IBM InfoSphere QualityStage forma parte de la plataforma de integración de datos IBM

InfoSphere Integration Server. Goza de integración completa con otros productos de esta

plataforma, incluyendo metadatos, reglas de transformación y monitoreo compartidos

La funcionalidad principal que ofrece, centrada en la automatización del proceso de lim-

pieza de datos, es la siguiente:

Investigar los datos fuente para comprender la naturaleza, alcance y detalle de los

problemas de calidad de datos.

Estandarizar los datos para asegurar que su formato y contenido cumple con las espe-

cificaciones aplicables a toda la organización, incluyendo estándares para nombres de

personas y empresas y limpieza y verificación de direcciones postales.

Análisis de coincidencias, para identificar registros duplicados entre conjuntos de

datos y dentro de ellos.

Supervivencia de registros, para eliminar los registros duplicados y crear la mejor

versión a partir de los datos disponibles.

Es una herramienta de nivel empresarial, que puede procesar datos sobre una plataforma

de procesamiento en paralelo masivo, lo que brinda escalabilidad y desempeño óptimo.

Capacidades de IBM InfoSphere QualityStage

Investigación de datos

La investigación de datos en IBM InfoSphere QualityStage permite comprender las ca-

racterísticas de los datos fuente, ayuda a determinar qué problemas de calidad y posibles

anomalías existen y qué reglas de estandarización se debe aplicar y brinda información

útil para hacer un estimado inicial del esfuerzo requerido en la implementación de los

procesos de limpieza de datos.

8

Page 9: IBM Quality Stage

Esta capacidad se puede utilizar también para hacer seguimiento a la calidad de los datos

una vez implementados los procesos automatizados de limpieza.

IBM InfoSphere QualityStage ofrece dos tipos de investigación: de caracteres y de pala-

bras. En la investigación de caracteres, si el diseño indica que un campo debe almacenar,

por ejemplo, un número telefónico, la herramienta determina los patrones presentes en los

datos y la frecuencia con que se presentan. En este ejemplo, podría encontrarse patrones

formados por siete dígitos consecutivos (9999999), por un grupo de tres y un grupo de

cuatro dígitos separados por un guión (999-9999) y algún patrón inesperado (por ejemplo,

que incluya alguna letras en lugar de números), lo que permite determinar cuántos regis-

tros que no cumplen el formato esperado existen. También es posible determinar la fre-

cuencia con que ocurre cada valor individual, permitiendo detectar que se utilizan valores

diferentes para representar el mismo significado. Por ejemplo, un campo para almacenar

el género de una persona podría tener los valores esperados “M” (masculino) y “F” (fe-

menino), pero también “H” (hombre), valores nulos o en blanco o cualquier otro valor

que no corresponde al dominio de definición teórico.

La investigación de palabras utiliza las técnicas de estandarización que se describen en el

siguiente acápite. Ofrece reportes que muestran los patrones de datos, realizando el análi-

sis por componentes léxicos o tokens, no por caracteres como en el caso anterior, así

como la frecuencia de ocurrencia de cada valor individual. Esto facilita la personalización

de las reglas de análisis léxico o parsing que se debe usar para estandarizar los datos más

adelante, que implica un esfuerzo importante y significativo en un proyecto de limpieza

de datos.

Estandarización de datos

La estandarización de datos en IBM InfoSphere QualityStage permite acondicionar los

datos y prepararlos para otros usos, como obtener información de soporte a la toma de

decisiones y detectar posibles registros duplicados. Acondicionar los datos significa hacer

que todas las instancias del mismo tipo de datos, por ejemplo, una dirección o la descrip-

ción de un producto, tengan una representación consistente, con la misma estructura y

formato, respetando un estándar para las abreviaturas, entre otras características.

9

Page 10: IBM Quality Stage

Para realizar la estandarización, IBM InfoSphere QualityStage se basa en archivos de

reglas, que permiten definir:

Clases de datos, miembros y versiones estandarizadas. Por ejemplo, para el tipo de

vía podemos tener:

Clase Miembro Forma estándar

Tipo de vía AV AV

Tipo de vía AV. AV

Tipo de vía AVE AV

Tipo de vía AVE. AV

Tipo de vía CA CL

Tipo de vía CA. CL

Tipo de vía CL CL

… … …

Reglas de estandarización, que contienen la lógica que se debe ejecutar cuando los

datos de entrada corresponden a un patrón. Estas reglas se escriben en un lenguaje

propietario, de propósito específico, denominado Pattern Action Language. Esto per-

mite implementar reglas complejas para realizar el análisis léxico o parsing.

IBM InfoSphere QualityStage incluye archivos de reglas de nombres, direcciones y orga-

nización político-administrativa para varios países. Estas reglas son un punto de partida

que se puede personalizar según las necesidades específicas de cada proyecto.

Al realizar la estandarización, es posible añadir atributos adicionales a cada registro para

facilitar la creación de bloques con posibles duplicados que es la etapa siguiente en el

proceso de limpieza de datos. Por ejemplo, si se trata de nombres de personas, IBM In-

foSphere QualityStage puede determinar si se trata de un hombre o una mujer y añadir el

atributo correspondiente al resultado.

Análisis de coincidencias

Una vez que los datos han pasado por el proceso de estandarización, quedan listos para el

análisis de coincidencias o matching. Esto puede servir para identificar duplicados o para

10

Page 11: IBM Quality Stage

otras aplicaciones que requieran agrupar individuos según alguna característica común,

por ejemplo, realizar un análisis de las compras realizadas por un grupo de personas que

pertenecen al mismo hogar. Una vez agrupados los datos, es posible enriquecerlos inclu-

yendo atributos adicionales de fuentes de referencia externas.

Para realizar el análisis, IBM InfoSphere QualityStage utiliza múltiples criterios, como el

contenido de información, la completitud, la confiabilidad, la frecuencia contextual y la

representación de los datos (IBM Corporation, 2011).

El contenido de información se refiere a que no todos los atributos ni todos los valores

tienen el mismo poder para establecer qué registros son similares y cuáles no. Por ejem-

plo, el poder discriminante de un apellido es menor que el de un número de DNI. Si iden-

tificamos dos personas que se apellidan “Espinoza”, la probabilidad de que se trate de la

misma persona es mucho menor que si identificamos dos registros que tienen el DNI N°

07728277. De la misma manera, si consideramos sólo el dato del apellido, si dos personas

se apellidan “Jiménez” (un apellido frecuente), es menos probable que se trate de la mis-

ma persona que si el apellido es “Kuczynski” (menos común). Para esto, IBM InfoSphere

QualityStage ofrece herramientas que determinan la frecuencia con que ocurren los térmi-

nos a utilizar para el análisis de coincidencias.

IBM InfoSphere QualityStage ofrece más de veinticinco funciones de comparación, in-

cluyendo comparaciones exactas, diversos algoritmos para calcular aproximaciones en

datos textuales, numéricos, fechas y espaciales y el uso de fuentes de referencia.

Otro factor de suma importancia es elegir adecuadamente los criterios para establecer los

grupos de posibles coincidencias. IBM InfoSphere QualityStage realiza la comparación

sólo entre miembros del mismo grupo, para optimizar el uso de recursos computaciona-

les. Si se usa un criterio que incluye individuos con baja probabilidad de coincidencia en

el mismo grupo, el procesamiento demandará recursos en exceso. Si se usa un criterio

demasiado restrictivo, se puede producir un exceso de falsos negativos, lo que ocurre

cuando se identifica como único un registro que en verdad está duplicado, porque su par

pertenece a otro bloque. En este aspecto, IBM InfoSphere QualityStage brinda mucha

flexibilidad para definir los criterios para crear bloques. Se puede hacer combinando va-

rias columnas, incluyendo columnas especiales que genera el proceso de estandarización

11

Page 12: IBM Quality Stage

para este propósito, como la representación fonética de un dato utilizando algoritmos

como NYSIIS y Soundex.

También es importante es asignar correctamente los puntos de corte para determinar qué

registros calificar como coincidencias y qué registros considerar como no coincidencias.

Entre esto dos extremos, hay “zonas grises”, en cuyo caso los registros deben ser revisa-

dos por una persona o pasar por un nuevo ciclo de análisis utilizando un criterio diferente

para crear bloques. Esto se ilustra en la siguiente figura:

Tomado de (IBM Corporation, 2011)

En la figura, “Low cutoff” corresponde al valor de corte por debajo del cual se considera

no coincidencia y “High cutoff” corresponde al valor de corte por encima del cual se con-

sidera coincidencia. La zona denominada “Clerical”corresponde a los casos dudosos en

los que se debe realizar procesos adicionales o tomar la decisión en forma manual.

IBM InfoSphere QualityStage ofrece herramientas para diseñar procesos de análisis de

coincidencias con varias pasadas, para mejorar la confiabilidad al identificar coinciden-

cias. Las pasadas pueden ser dependientes (los resultados de cada una se calculan tenien-

12

Page 13: IBM Quality Stage

do en cuenta los anteriores) o independientes (los resultados de cada una se calculan sin

tener en cuenta los anteriores).

Otra característica de interés es que se puede definir procesos de análisis de coincidencias

utilizando fuentes de referencia externa, lo que permite enriquecer los datos poblando

atributos con valores obtenidos de la fuente de referencia.

Consolidación de registros duplicados

Una vez realizado el análisis de coincidencias, muchas veces es necesario procesar los

grupos de registros duplicados para obtener una versión única, el registro sobreviviente,

combinando de manera inteligente los mejores datos disponibles, por ejemplo completan-

do algunos datos faltantes y corregir otros en base a la evaluación y comparación de los

registros duplicados.

Para este propósito, IBM InfoSphere QualityStage ofrece diferentes técnicas, por ejem-

plo: tomar el registro más reciente o el más antiguo, tomar el valor más largo o el más

corto, el valor más frecuente, comparar con un valor de referencia, según la fuente de

datos.

Conclusiones

La calidad de los datos se debe estudiar y atacar desde diferentes perspectivas, como

la exactitud, la completitud, la oportunidad y la consistencia.

Dentro de los problemas de calidad de los datos, uno de los problemas más frecuentes

e importantes, que representan altos costos para las empresas, pero a la vez uno de los

más estudiados es la presencia de registros duplicados.

La limpieza de datos se ocupa de los problemas de datos una vez que ya han ocurrido,

pero es una solución conveniente cuando no es viable técnica o económicamente ata-

car las causas raíz.

En general, las capacidades que ofrecen las herramientas especializadas en limpieza

de datos son:

13

Page 14: IBM Quality Stage

o Analizar patrones en los datos existentes, para comprender la naturaleza, al-

cance y detalle de los problemas de calidad de datos.

o Estandarizar y corregir los datos, para asegurar que su formato y contenido

cumple con las especificaciones aplicables a toda la organización.

o Detectar posibles duplicados entre fuentes de datos y dentro de ellas.

o Consolidar registros duplicados, creando la mejor versión posible del registro

que sobrevivirá y eliminar los demás, combinando de manera inteligente los

datos disponibles.

o Enriquecer los datos, complementando la información existente utilizando

fuentes de referencia externas.

IBM InfoSphere QualityStage es una herramienta útil para resolver problemas comu-

nes de calidad de datos, ya que permite automatizar en su totalidad o en su mayoría el

proceso de limpieza de datos; esto permite obtener mejores resultados sobre la calidad

de los datos, implementar un proceso repetible, adaptable y fácil de gestionar, y redu-

cir el costo y el riesgo.

Bibliografía

Alur, N., Jha, A., Rosen, B., & Skov, T. (2008). IBM WebSphere QualityStage Method-

ologies, Standardization, and Matching. IBM Corporation.

Ashton, K. (2009). RFID Journal. Obtenido de That 'Internet of Things' Thing:

http://www.rfidjournal.com/articles/view?4986

Batini, C., & Scannapieca, M. (2006). Data Quality: Concepts, Methodologies and Tech-

niques. Springer Verlag.

Eckerson, W. (2002). Data Quality and the bottom line: Achieving business success

through a commitment to high quality data. The Data Warehouse Insttute.

IBM Corporation. (2011). IBM InfoSphere QualityStage Version 8 Release 7 User's

Guide.

Reid, A., & Catterall, M. (2005). Invisible data quality issues in a CRM implementation.

Journal of Database Marketing & Customer Strategy Management, 12(4), 305-

314.

14

Page 15: IBM Quality Stage

Van den Broeck, J., Cunningham, S., Eeckels, R., & Herbst, K. (2005). Data cleaning:

Detecting, diagnosing, and editing data abnormalities. PLoS Medicine, 2(10),

e267.

15