Mantenimiento de Un Almacén de Datos

5
Mantenimiento de un almacén de datos Un almacén de datos es una base de datos diseñada para dar soporte al proceso de toma de decisiones en una organización. Un sistema de almacén de datos integra en un único repositorio, información histórica procedente de distintas fuentes de datos operacionales de la organización o externas a ella. Para que el almacén de datos sea en todo momento un reflejo fiel de la organización a la que sirve, debe ser actualizado periódicamente. Este proceso puede consumir muchos recursos, y en algunos casos inhabilitar el almacén de datos para los usuarios. En organizaciones donde el sistema debe estar disponible para los analistas en todo momento, el mantenimiento del almacén se convierte en un punto crítico del sistema. Por este motivo la investigación en estrategias eficientes de mantenimiento de almacenes de datos ha recibido la atención de los investigadores desde la aparición de esta tecnología. ETL (Extracción, transformación y Load (Carga))

description

ETL

Transcript of Mantenimiento de Un Almacén de Datos

Page 1: Mantenimiento de Un Almacén de Datos

Mantenimiento de un almacén de datos

Un almacén de datos es una base de datos diseñada para dar soporte al proceso de toma de decisiones en una organización. Un sistema de almacén de datos integra en un único repositorio, información histórica procedente de distintas fuentes de datos operacionales de la organización o externas a ella. Para que el almacén de datos sea en todo momento un reflejo fiel de la organización a la que sirve, debe ser actualizado periódicamente. Este proceso puede consumir muchos recursos, y en algunos casos inhabilitar el almacén de datos para los usuarios. En organizaciones donde el sistema debe estar disponible para los analistas en todo momento, el mantenimiento del almacén se convierte en un punto crítico del sistema. Por este motivo la investigación en estrategias eficientes de mantenimiento de almacenes de datos ha recibido la atención de los investigadores desde la aparición de esta tecnología.

ETL (Extracción, transformación y Load (Carga))

Fases

Extracción: es el proceso que extrae datos de las fuentes operacionales para enviarlos al almacén de datos (selección de datos).

Page 2: Mantenimiento de Un Almacén de Datos

Debe realizarse una selección de registros y campos de los sistemas operacionales, ya que no todos los datos de las fuentes son relevantes para el almacén de datos. Ejemplo: la Figura 2 ilustra una selección de datos de la fuente operacional; se han seleccionado dos campos del registro (categoría e importe) y sólo interesan los registros que en categoría contengan como valor 1, 2 o 3 y que la fecha sea 30-09-2004.

Transformación: es el proceso que prepara los datos de la manera adecuada, para ser incorporados al almacén de datos. El proceso de transformación se compone de las siguientes actividades: limpieza de datos, integración de formato, integración semántica, conversión de estructuras internas, integración de datos, resumen o agregación de datos.

Tiene :

Limpieza de datos, Limpieza moderada, limpieza intensa, Integracion de formato, integración semántica,

Conversión de estructuras internas: frecuentemente, los datos son estructurados de forma distinta, cuando pasan de un sistema operacional a un sistema de almacén de datos. En la Tabla 2, se muestra un ejemplo.

Carga: una vez que la información ha sido extraída de las fuentes y transformada, puede ser añadida al almacén de datos. Después de la carga inicial la estrategia de mantenimiento más frecuente consiste en actualizar el almacén periódicamente (diariamente, semanalmente, etc.).

Page 3: Mantenimiento de Un Almacén de Datos

Tareas

Transformación de datos.

En el desarrollo del sistema de información de una organización, es frecuente la creación de bases de datos independientes que son diseñadas para satisfacer los requisitos de las aplicaciones a las que sirven, generando problemas de heterogeneidad. En la referencia se describen dos tipos de heterogeneidad:

• Heterogeneidad de formato: hace referencia a las diferencias entre definiciones locales, tales como tipo de datos, formato o precisión

• Heterogeneidad semántica: hace referencia a las diferencias en el significado de los datos (variación en la manera en la que los datos con el mismo significado son representados y estructurados en diferentes sistemas). Como ejemplo, se puede ilustrar una empresa donde en el área de producción se utiliza como unidad de medida el metro y en el área de ventas la unidad de mediada utilizada es la yardas. En estas situaciones, la información debe ser integrada semánticamente antes de ser registrada en el almacén de datos, para que las personas (analistas) que toman decisiones en la empresa, puedan disponer de los datos de una manera segura y puedan realizar análisis que conduzcan a una correcta y oportuna toma de decisiones.

Arquitectura general para la integración de datos.Las fuentes de datos (sistemas operacionales) se comunican con el almacén de datos a través de un wrapper/monitor (Figura 13), cuya función principal es detectar actualizaciones en las fuentes de datos y enviarlas al almacén de datos. El trabajo del módulo integrador es integrar los datos seleccionados de las diferentes fuentes, solucionar cualquier conflicto y propagarlo al almacén de datos

Page 4: Mantenimiento de Un Almacén de Datos