Almacén de datos

41
Año de la Promoción de la Industria Responsable y del Compromiso Climático “Universidad Privada San Pedro” Integrantes: Balcázar Vega Kelly Xiomara Moran Gallo Jhonatan Chamba Jiménez Segundo Curso: Base de Datos II Tema: Almacén de Datos (data warehouse) Profesor(a): Rivera Montero Freddy

Transcript of Almacén de datos

Page 1: Almacén de datos

Año de la Promoción de la Industria Responsable y del Compromiso Climático

“Universidad Privada

San Pedro”

Integrantes:

Balcázar Vega Kelly Xiomara Moran Gallo Jhonatan Chamba Jiménez Segundo

Curso: Base de Datos II

Tema: Almacén de Datos (data warehouse)

Profesor(a): Rivera Montero Freddy

Sullana 2014

Page 2: Almacén de datos

Universidad san Pedro

Facultad Ing. Informática y de Sistemas

Escuela de Ingeniería

Almacén de Datos

Profesor: Rivera Montero Freddy

Autores: Moran Gallo Jhonatan

Balcázar Vega Kelly

Chamba Jiménez Segundo

Sullana, Mayo 6

Page 3: Almacén de datos

Índice

1 Introducción

2 Presentación

3 Resumen

4 Almacén de Datos

4.1 Definiciones de almacén de datos

4.1.1 Definición de Bill Inmon

4.1.2 Definición de Ralph Kimball

4.1.3 Una definición más amplia de almacén de datos

5 Arquitectura

5.1 Nivel operacional

5.2 Almacén de datos o DW

5.3 Nivel departamental (Data Mart)

5.4 Nivel individual

6 Función de un Almacén de Datos

7 Procesos

8 Cubos de Información

8.1 Dimensiones

8.2 Variables

8.3 Ejemplos

9 Limpieza de Datos

10. ¿Qué es estandarización? importancia de la estandarización de direcciones para

las empresas de hoy en día?

11. ¿Cómo está integrado un almacén de datos?

Page 4: Almacén de datos

11.1 Metadatos

11.2 Funciones ETL (extracción, transformación y carga)

11.3 Middleware

12 Diseño de un almacén de datos

13 Almacén de datos especial

14 Los elementos básicos de un Almacén de Datos (Data WareHouse)

15 Objetivos de Un Almacén de Datos

16 Características

16.4 No Volátil

16.3 De tiempo variante

16.2 Temático

16.1 Integrado

17 Ventajas e Inconvenientes

17.1 Ventajas

17.2 Inconvenientes

18 Conclusiones

19 Bibliografía

Page 5: Almacén de datos

1. Introducción

Desde un inicio, las bases de datos se convirtieron en una herramienta fundamental de

control y manejo de las operaciones comerciales. Fue así como en unos pocos años en

grandes empresas y negocios existía un considerable número de información almacenada

en diferentes fuentes de datos y estas ya habían alcanzado un tamaño considerablemente

grande.

Con esta gran acumulación de información, los directivos de tales empresas y negocios

se dieron cuenta que esta podría tener un fin útil, al estar reflejada la mayoría de sus

operaciones comerciales durante los llamados ciclos de negocios propios del mercado.

A su vez, los mercados empresariales han experimentado una transformación radical. Las

empresas demandan mayor rapidez y eficiencia en la entrega de productos, y mejora en

todos los servicios existentes, por lo que se hace imprescindible encontrar formas más

eficaces de distribuir los productos, más facilidades para hacer estudios de mercado

basados en la información de las operaciones comerciales de las empresas y de sus

clientes y, en definitiva, mayor rapidez a la hora de tomar decisiones.

Por tanto, pensaron en lo ideal que sería unificar las diferentes fuentes de información de

las cuales disponían, en un único lugar, al que sólo se le incorporaría información

relevante, sobre la base de una estructura organizada, integrada, lógica, dinámica y de

fácil explotación. La respuesta a esto fueron los Almacenes de Datos o Data Warehouse

(DW).

Sin embargo, para hacer un uso eficiente de la información histórica almacenada en un

DW para la ayuda a la toma de decisiones, era vital garantizar que estos datos fueran

fáciles de obtener, estandarizados y confiables.

Así y todo, el problema de la limpieza de datos es poco tratado o evitado por muchas

empresas, al no considerar adecuadamente el impacto para el negocio de tener

almacenada información deficiente.

Page 6: Almacén de datos

2. Presentación

A continuación presentamos todo lo referente a lo que es un almacén de datos o un data

warehouse y todo lo más importante de este tema, veremos información como algunas de

sus definiciones, características, como es su arquitectura, ventajas, desventajas y una

amplia información que espero les pueda servir para que se informen y aclaren sus

dudas acerca de este tema.

Page 7: Almacén de datos

3. Resumen

Los almacenes de datos son el centro de atención para las grandes empresas de hoy en

día, ya que constituyen uno de los soportes fundamentales para el proceso de toma de

decisiones gerenciales; de ahí la importancia de que la información guardada en ellos sea

confiable y con calidad. Uno de los procesos en la construcción de estos y que contribuye

a lograr este objetivo es la limpieza de datos, y junto con ella la estandarización de

direcciones.

Para comunicarse efectivamente con sus clientes, por teléfono o por correo, una empresa

debe mantener una lista de sus clientes extraordinariamente limpia y con sus direcciones

normalizadas. Esto evita problemas como el de la pérdida de credibilidad o de imagen de

la organización, al hacer envíos precisos y al brindarle al cliente un servicio más rápido y

profesional.

Page 8: Almacén de datos

4. Almacén de Datos

Un Almacén de Datos o Data Warehouse (DW) es un almacén de información temática

orientado a cubrir las necesidades de aplicaciones de los sistemas de Soporte de

Decisiones (DSS) y de la Información de Ejecutivos (EIS), que permite acceder a la

información corporativa para la gestión, control y apoyo a la toma de decisiones.

Dicha información es construida a partir de bases de datos que registran las

transacciones de los negocios de las organizaciones (bases de datos operacionales), y su

importancia reside en elementos como los siguientes:

Contribuye a la toma de decisiones tácticas y estratégicas proporcionando un

sentido automatizado para identificar información clave desde volúmenes de datos

generados por procesos tradicionales o elementos de software.

Posibilita medir las acciones y los resultados de una mejor forma.

Los procesos empresariales pueden ser optimizados. El tiempo perdido esperando

por información que finalmente es incorrecta o no encontrada, es eliminada.

Permite a los usuarios dar prioridad a decisiones y acciones, por ejemplo, a qué

segmentos de clientes deben ir dirigidas las siguientes acciones de marketing.

4.1 Definiciones de almacén de datos

4.1.1 Definición de Bill Inmon

Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes de

datos, define un data warehouse (almacén de datos) en términos de las características del

repositorio de datos:

Orientado a temas.- Los datos en la base de datos están organizados de manera

que todos los elementos de datos relativos al mismo evento u objeto del mundo

real queden unidos entre sí.

Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo

quedan registrados para que los informes que se puedan generar reflejen esas

variaciones.

Page 9: Almacén de datos

No volátil.- La información no se modifica ni se elimina, una vez almacenado un

dato, éste se convierte en información de sólo lectura, y se mantiene para futuras

consultas.

Integrado.- La base de datos contiene los datos de todos los sistemas

operacionales de la organización, y dichos datos deben ser consistentes.

Inmon defiende una metodología descendente (top-down) a la hora de diseñar un

almacén de datos, ya que de esta forma se considerarán mejor todos los datos

corporativos. En esta metodología los Data marts se crearán después de haber terminado

el data warehouse completo de la organización.

4.1.2 Definición de Ralph Kimball

Ralph Kimball2 es otro conocido autor en el tema de los data warehouse, define un

almacén de datos como: "una copia de las transacciones de datos específicamente

estructurada para la consulta y el análisis". También fue Kimball quien determinó que un

data warehouse no era más que: "la unión de todos los Data marts de una entidad".

Defiende por tanto una metodología ascendente (bottom-up) a la hora de diseñar un

almacén de datos.

4.1.3 Una definición más amplia de almacén de datos

Las definiciones anteriores se centran en los datos en sí mismos. Sin embargo, los

medios para obtener esos datos, para extraerlos, transformarlos y cargarlos, las técnicas

para analizarlos y generar información, así como las diferentes formas para realizar la

gestión de datos son componentes esenciales de un almacén de datos. Muchas

referencias a un almacén de datos utilizan esta definición más amplia. Por lo tanto, en

esta definición se incluyen herramientas para extraer, transformar y cargar datos,

herramientas para el análisis (inteligencia empresarial) y herramientas para gestionar y

recuperar los metadatos.

Page 10: Almacén de datos

5. Arquitectura

Los bloques funcionales que se corresponden con un sistema de información completo

que utiliza un DW se muestran gráficamente en la Figura:

Arquitectura de un Data Warehouse

5.1 Nivel operacional

Contiene datos primitivos (operacionales) que están siendo permanentemente

actualizados, usados por los sistemas operacionales tradicionales que realizan

operaciones transaccionales.

5.2 Almacén de datos o DW

Contiene datos primitivos correspondientes a sucesivas cargas del DW y algunos datos

derivados. Los datos derivados son datos generados a partir de los datos primitivos al

aplicarles algún tipo de procesamiento (resúmenes).

5.3 Nivel departamental (Data Mart)

Page 11: Almacén de datos

Contiene casi exclusivamente datos derivados. Cada departamento de la empresa

determina su nivel departamental con información de interés a dicho nivel. Va a ser el

blanco de salida sobre el cual los datos en el almacén son organizados y almacenados

para las consultas directas por los usuarios finales, los desarrolladores de reportes y otras

aplicaciones.

Entre las características de un data mart destacan:

Usuarios limitados.

Área específica.

Tiene un propósito específico.

Tiene una función de apoyo.

5.4 Nivel individual

Contiene pocos datos, resultado de aplicar heurísticas, procesos estadísticos, etc., a los

datos contenidos en el nivel anterior. El nivel individual es el objetivo final de un DW.

Desde este nivel accederá el usuario final y se podrán plantear diferentes hipótesis, así

como navegar a través de los datos contenidos en el DW.

6. Función de un Almacén de Datos

En un almacén de datos lo que se quiere es contener datos que son necesarios o útiles

para una organización, es decir, que se utiliza como un repositorio de datos para

posteriormente transformarlos en información útil para el usuario. Un almacén de datos

debe entregar la información correcta a la gente indicada en el momento óptimo y en el

formato adecuado. El almacén de datos da respuesta a las necesidades de usuarios

expertos, utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de información

ejecutiva (EIS) o herramientas para hacer consultas o informes. Los usuarios finales

pueden hacer fácilmente consultas sobre sus almacenes de datos sin tocar o afectar la

operación del sistema.

En el funcionamiento de un almacén de datos son muy importantes las siguientes ideas:

Integración de los datos provenientes de bases de datos distribuidas por las

diferentes unidades de la organización y que con frecuencia tendrán diferentes

estructuras (fuentes heterogéneas). Se debe facilitar una descripción global y un

análisis comprensivo de toda la organización en el almacén de datos.

Page 12: Almacén de datos

Separación de los datos usados en operaciones diarias de los datos usados en el

almacén de datos para los propósitos de divulgación, de ayuda en la toma de

decisiones, para el análisis y para operaciones de control. Ambos tipos de datos

no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy

distintos y podrían entorpecerse entre sí.

Periódicamente, se importan datos al almacén de datos de los distintos sistemas de

planeamiento de recursos de la entidad (ERP) y de otros sistemas de software

relacionados con el negocio para la transformación posterior. Es práctica común

normalizar los datos antes de combinarlos en el almacén de datos mediante herramientas

de extracción, transformación y carga (ETL). Estas herramientas leen los datos primarios

(a menudo bases de datos OLTP de un negocio), realizan el proceso de transformación al

almacén de datos (filtración, adaptación, cambios de formato, etc.) y escriben en el

almacén.

7. Procesos

Existen un conjunto básico de procesos detrás de una arquitectura de un DW de suma

importancia para el mismo.

Primeramente se realiza el proceso de extracción, que consiste en estudiar y entender los

datos fuente, tomando aquellos que son de utilidad para el almacén. Una vez que los

datos son extraídos, éstos se transforman a una forma presentable y de valor para los

usuarios. Este proceso incluye corrección de errores, resolución de problemas de

dominio, borrado de campos que no son de interés, generación de claves, agregación de

información, etc.

Al terminar el proceso de transformación, se hace la carga de los datos en el DW y

seguido se realizan controles de calidad para asegurar que la misma sea correcta.

Cuando la información se encuentra disponible, se le informa al usuario. Es importante

publicar todos los cambios que se hayan realizado. En este momento ya el usuario final

puede realizar consultas. Este debe disponer de herramientas de consulta y

procesamiento de datos.

A veces es aconsejable seguir el camino inverso de carga. Por ejemplo, pueden

alimentarse los sistemas con información depurada del DW o almacenar en el mismo

Page 13: Almacén de datos

alguna consulta generada por el usuario que sea de interés, por eso se realiza la

retroalimentación de datos o feedback.

También se realiza el proceso de auditoría, que permite conocer de dónde proviene la

información así como qué cálculos la generaron.

Ya construido el DW, es de interés para la empresa que llegue la información a la mayor

cantidad de usuarios pero, por otro lado, se tiene sumo cuidado de protegerla contra

posibles 'hackers', 'snoopers' o espías (seguridad).

Además, se deben realizar actividades de backup y restauración de la información, tanto

de la almacenada en el DW como de la que circula desde los sistemas fuente al almacén.

8. Cubos de Información

Los cubos de información o cubos OLAP funcionan como los cubos de rompecabezas en

los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de

organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones,

los cubos OLAP tienen un número indefinido de dimensiones, razón por la cual también

reciben el nombre de hipercubos. Un cubo OLAP contendrá datos de una determinada

variable que se desea analizar, proporcionando una vista lógica de los datos provistos por

el sistema de información hacia el data warehouse, esta vista estará dispuesta según

unas dimensiones y podrá contener información calculada. El análisis de los datos está

basado en las dimensiones del hipercubo, por lo tanto, se trata de un análisis

multidimensional.

A la información de un cubo puede acceder el ejecutivo mediante "tablas dinámicas" en

una hoja de cálculo o a través de programas personalizados. Las tablas dinámicas le

permiten manipular las vistas (cruces, filtrados, organización, totales) de la información

con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de

información se producen con mucha rapidez. Llevando estos conceptos a un data

warehouse, éste es una colección de datos que está formada por «dimensiones» y

«variables», entendiendo como dimensiones a aquellos elementos que participan en el

análisis y variables a los valores que se desean analizar.

8.1 Dimensiones

Page 14: Almacén de datos

Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas

de análisis de las variables (forman parte de la tabla de dimensiones). Son catálogos de

información complementaria necesaria para la presentación de los datos a los usuarios,

como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la

información general complementaria a cada uno de los registros de la tabla de hechos.

8.2 Variables

También llamadas “indicadores de gestión”, son los datos que están siendo analizados.

Forman parte de la tabla de hechos. Más formalmente, las variables representan algún

aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las

variables son representadas por valores detallados y numéricos para cada instancia del

objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a las

variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las

mismas. Las dimensiones poseen una granularidad menor, tomando como valores un

conjunto de elementos menor que el de las variables; ejemplos de dimensiones podrían

ser: “productos”, “localidades” (o zonas), “el tiempo” (medido en días, horas, semanas,

etc.)

8.3 Ejemplos

Ejemplos de variables podrían ser:

Beneficios

Gastos

Ventas

etc.

Ejemplos de dimensiones podrían ser:

producto (diferentes tipos o denominaciones de productos)

localidades (o provincia, o regiones, o zonas geográficas)

tiempo (medido de diferentes maneras, por horas, por días, por meses, por

años, ...)

tipo de cliente (casado/soltero, joven/adulto/anciano, ...)

etc.

Page 15: Almacén de datos

Según lo anterior, podríamos construir un cubo de información sobre el índice de ventas

(variable a estudiar) en función del producto vendido, la provincia, el mes del año y si el

cliente está casado o soltero (dimensiones). Tendríamos un cubo de 4 dimensiones.

9. Limpieza de Datos

Generalmente las empresas no cuentan con aplicaciones únicas para cada parte de la

operativa del negocio, sino que pueden tener replicaciones y distintos sistemas para

atender un mismo conjunto de operaciones, y en esos casos es probable que las bases

de datos de los sistemas operacionales contengan datos duplicados, a veces erróneos,

superfluos o incompletos. A esto se le suman los posibles errores a la hora de la entrada

de datos a los sistemas de datos operacionales. Estas, y otras mostradas en la Figura,

son algunas de las cuestiones que contribuyen a la suciedad de los datos.

Algunos errores que provocan suciedad en los datos

La limpieza de datos se encuentra dentro del proceso de transformación de datos. Esta,

es mucho más que simplemente actualizar registros con datos buenos. Una limpieza de

datos seria, involucra descomposición y reensamblaje de datos. La limpieza de datos se

puede dividir en seis pasos: separar en elementos, estandarizar, verificar, machear,

agrupar y documentar.

Por ejemplo, si tenemos direcciones de clientes las cuales queremos limpiar, lo primero

sería separar este campo en los elementos principales de la dirección (Calle, No., Entre

Calles, Código Postal, etc.). Lo segundo sería estandarizar los elementos, o sea lograr

Page 16: Almacén de datos

que estos queden de forma normalizada. Luego se verificaría si los elementos

estandarizados contienen errores en su contenido, y ya estaríamos listos para machear

(hacer parejas o correspondencias) y agrupar, que consiste en reconocer que algunas de

las partes de la dirección constituyen una agrupación, por ejemplo, si se tienen dos

direcciones iguales de diferentes clientes que están relacionados de alguna forma (son

hermanos o están casados), estos forman un grupo. Por último se documentarían los

resultados de los pasos anteriores en metadatos.

Esto ayuda a que las siguientes limpiezas sean más capaces de reconocer direcciones y

a que los usuarios finales de las aplicaciones puedan llevar a cabo mejor las operaciones

de un DW.

Como se puede apreciar, sería bastante tedioso llevar manualmente este proceso, y para

hacerlo automatizado se necesitaría de aplicaciones sofisticadas que contengan

algoritmos de análisis gramatical (parsing) de direcciones, algoritmos de macheo, e

inmensas tablas con gran cantidad de entradas que provea sinónimos para las diferentes

partes de las direcciones.

En algunos casos es posible crear programas de limpieza efectivos. Pero en el caso de

bases de datos grandes, imprecisas e inconsistentes, el uso de las herramientas

comerciales, ya existentes, puede ser casi obligatorio.

Page 17: Almacén de datos

10. ¿QUE ES ESTANDARIZACION? IMPORTANCIA DE LA

ESTANDARIZACION DE DIRECCIONES PARA LAS EMPRESAS DE

HOY EN DIA?

La estandarización forma parte de los seis pasos necesarios para llevar a cabo la limpieza

de datos. Esta consiste en separar la información en diferentes campos, así como unificar

ciertos criterios para un mejor manejo y manipulación de los datos.

Tener datos estandarizados, consistentes y con calidad, resulta muy útil y a veces de vital

importancia para las empresas que utilizan almacenes de datos. Un ejemplo de ello son

aquellas organizaciones cuyos datos referentes a sus clientes son de gran valor. El

manejo de los nombres y direcciones de los clientes no es tarea fácil. Más del 50% de las

compañías en Internet no pueden responder a las necesidades de todos sus clientes y no

se pueden relacionar con ellos a causa de la falta de calidad en sus datos.

Para comunicarse efectivamente con sus clientes, por teléfono, por correo o por cualquier

otra vía, una empresa debe mantener una lista de sus clientes extraordinariamente limpia.

Esto no solo provoca que existan menos correos devueltos y más envíos precisos, sino

que además, mejora la descripción y análisis de los clientes, que se traduce en un servicio

más rápido y profesional.

Hay muchos ejemplos de aplicaciones basadas en la información del cliente que

necesitan que sus datos, y principalmente sus direcciones tengan integridad, algunos de

ellos son:

Sistemas CRM (Customer Relationship Management, Gestión de las Relaciones

con el Cliente)

E-Business (Negocios electrónicos)

Call Centers (Oficina o compañía centralizada que responde llamadas telefónicas

de clientes o que hacen llamadas a clientes (telemarketing))

Sistemas de Marketing

Del mismo modo, podemos mencionar algunas de las organizaciones que mayormente

son beneficiadas por la limpieza de los datos de sus clientes.

Bancos y Finanzas

Gobierno

Salud

Page 18: Almacén de datos

Telecomunicaciones

11. ¿Cómo esta integrado un almacén de datos?

11.1 Metadatos

Uno de los componentes más importantes de la arquitectura de un almacén de datos son

los metadatos. Se define comúnmente como "datos acerca de los datos", en el sentido de

que se trata de datos que describen cuál es la estructura de los datos que se van a

almacenar y cómo se relacionan.

El metadato documenta, entre otras cosas, qué tablas existen en una base de datos, qué

columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar. Los

datos son de interés para el usuario final, el metadato es de interés para los programas

que tienen que manejar estos datos. Sin embargo, el rol que cumple el metadato en un

entorno de almacén de datos es muy diferente al rol que cumple en los ambientes

operacionales. En el ámbito de los data warehouse el metadato juega un papel

fundamental, su función consiste en recoger todas las definiciones de la organización y el

concepto de los datos en el almacén de datos, debe contener toda la información

concerniente a:

Tablas

Columnas de tablas

Relaciones entre tablas

Jerarquías y Dimensiones de datos

Entidades y Relaciones

11.2 Funciones ETL (extracción, transformación y carga)

Los procesos de extracción, transformación y carga (ETL) son importantes ya que son la

forma en que los datos se guardan en un almacén de datos (o en cualquier base de

datos). Implican las siguientes operaciones:

Extracción. Acción de obtener la información deseada a partir de los datos

almacenados en fuentes externas.

Transformación. Cualquier operación realizada sobre los datos para que puedan

ser cargados en el data warehouse o se puedan migrar de éste a otra base de

datos.

Page 19: Almacén de datos

Carga. Consiste en almacenar los datos en la base de datos final, por ejemplo el

almacén de datos objetivo normal.

11.3 Middleware

Middleware es un término genérico que se utiliza para referirse a todo tipo de software de

conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de

aplicaciones distribuidas sobre plataformas heterogéneas. Estos servicios funcionan como

una capa de abstracción de software distribuida, que se sitúa entre las capas de

aplicaciones y las capas inferiores (sistema operativo y red). El middleware puede verse

como una capa API, que sirve como base a los programadores para que puedan

desarrollar aplicaciones que trabajen en diferentes entornos sin preocuparse de los

protocolos de red y comunicaciones en que se ejecutarán. De esta manera se ofrece una

mejor relación costo/rendimiento que pasa por el desarrollo de aplicaciones más

complejas, en menos tiempo.

La función del middleware en el contexto de los data warehouse es la de asegurar la

conectividad entre todos los componentes de la arquitectura de un almacén de datos.

12. Diseño de un almacén de datos

Para construir un Data Warehouse se necesitan herramientas para ayudar a la migración

y a la transformación de los datos hacia el almacén. Una vez construido, se requieren

medios para manejar grandes volúmenes de información. Se diseña su arquitectura

dependiendo de la estructura interna de los datos del almacén y especialmente del tipo de

consultas a realizar. Con este criterio los datos deben ser repartidos entre numerosos

data marts. Para abordar un proyecto de data warehouse es necesario hacer un estudio

de algunos temas generales de la organización o empresa, los cuales se describen a

continuación:

Situación actual de partida.- Cualquier solución propuesta de data warehouse

debe estar muy orientada por las necesidades del negocio y debe ser compatible

con la arquitectura técnica existente y planeada de la compañía.

Tipo y características del negocio.- Es indispensable tener el conocimiento

exacto sobre el tipo de negocios de la organización y el soporte que representa la

información dentro de todo su proceso de toma de decisiones.

Page 20: Almacén de datos

Entorno técnico.- Se debe incluir tanto el aspecto del hardware (mainframes,

servidores, redes,...) así como aplicaciones y herramientas. Se dará énfasis a los

Sistemas de soporte a decisiones (DSS), si existen en la actualidad, cómo operan,

etc.

Expectativas de los usuarios.- Un proyecto de data warehouse no es

únicamente un proyecto tecnológico, es una forma de vida de las organizaciones y

como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento

sobre su bondad.

Etapas de desarrollo.- Con el conocimiento previo, ya se entra en el desarrollo de

un modelo conceptual para la construcción del data warehouse.

Prototipo.- Un prototipo es un esfuerzo designado a simular tanto como sea

posible el producto final que será entregado a los usuarios.

Piloto.- El piloto de un data warehouse es el primero, o cada uno de los primeros

resultados generados de forma iterativa que se harán para llegar a la construcción

del producto final deseado.

Prueba del concepto tecnológico.- Es un paso opcional que se puede necesitar

para determinar si la arquitectura especificada del data warehouse funcionará

finalmente como se espera.

13. Almacén de datos especial

Almacén de datos especial es una colección de datos orientados al tema, integrados, no

volátiles, variantes en el tiempo y que añaden la geografía de los datos, para la toma de

decisiones. Sin embargo la componente geográfica no es un dato agregado, sino que es

una dimensión o variable en la tecnología de la información, de tal manera que permita

modelar todo el negocio como un ente holístico, y que a través de herramientas de

procesamiento analítico en línea (OLAP), no solamente se posea un alto desempeño en

consultas multidimensionales sino que adicionalmente se puedan visualizar

espacialmente los resultados.

El almacén de datos especial forma parte de un extensivo Sistema de Información

Geográfica para la toma de decisiones, éste al igual que los SIG, permiten que un gran

número de usuarios accedan a información integrada, a diferencia de un simple almacén

de datos que está orientado al tema, el Data warehouse especial adicionalmente es Geo-

Page 21: Almacén de datos

Relacional, es decir que en estructuras relacionales combina e integra los datos

espaciales con los datos descriptivos.

Actualmente es geo-objetos, esto es que los elementos geográficos se manifiestan como

objetos con todas sus propiedades y comportamientos, y que adicionalmente están

almacenados en una única base de datos Objeto-Relacional.

Los Data Warehouse Especiales son aplicaciones basadas en un alto desempeño de las

bases de datos, que utilizan arquitecturas Cliente-Servidor para integrar diversos datos en

tiempo real. Mientras los almacenes de datos trabajan con muchos tipos y dimensiones de

datos, muchos de los cuales no referencian ubicación especial, a pesar de poseerla

intrínsecamente, y sabiendo que un 80% de los datos poseen representación y ubicación

en el espacio, en los Data warehouse especiales, la variable geográfica desempeña un

papel importante en la base de información para la construcción del análisis, y de igual

manera que para un Data warehouse, la variable tiempo es imprescindible en los análisis,

para los Data warehouse especiales la variable geográfica debe ser almacenada

directamente en ella.

Page 22: Almacén de datos

14. Los elementos básicos de un Almacén de Datos (Data

WareHouse)

Sistema fuente: sistemas operacionales de registros donde sus funciones son

capturar las transacciones del negocio. A los sistemas fuentes también se le conoce

como Legacy System.

Área de trafico de datos: es un área de almacenamiento y grupo de procesos, que

limpian transforman, combinan, remover los duplicados, guardan, archivan y preparan

los datos fuente para ser usados en el Data WareHouse.

Servidor de presentación: la maquina física objetivo en donde los datos del Data

WareHouse son organizados y almacenados para queries directos por los usuarios

finales, reportes y otras aplicaciones.

Modelo dimensional: una disciplina especifica para el modelado de datos que es

una alternativa para los modelos de entidad – relación.

Procesos de negocios: un coherente grupo de actividades de negocio que hacen

sentido a los usuarios del negocio del Data WareHouse.

Data Mart: un subgrupo lógico del Data WareHouse completo.

Data WareHouse: búsquedas fuentes de datos de la empresa. Y es la unión de todos

los data marts que la constituyen.

Almacenamiento operacional de datos: es el punto de integración por los sistemas

operacionales. Es el acceso al soporte de decisiones por los ejecutivos.

OLAP: actividad general de búsquedas para presentación de texto y números del

Data WareHouse, también un estilo dimensional especifico de búsquedas y

presentación de información y que es ejemplificada por vendedores de OLAP.

ROLAP: un grupo de interfases de usuarios y aplicaciones que le dan a la base de

datos relacional un estilo dimensional.

MOLAP: un grupo de interfases de usuarios, aplicaciones y propietarios de

tecnología de bases de datos que tienen un fuerte estilo dimensional.

Aplicaciones para usuarios finales: una colección de herramientas que hacen los

queries, analizan y presentan la información objetivo para el soporte de las

necesidades del negocio.

Herramientas de acceso a datos por usuarios finales: un cliente de Data

WareHouse.

Page 23: Almacén de datos

Ad Hoc Query Tool: un tipo especifico de herramientas de acceso a datos por

usuarios finales que invita al usuario a formas sus propios queries manipulando

directamente las tablas relacionales y sus uniones.

Modelado de aplicaciones: un sofisticado tipo de cliente de Data WareHouse con

capacidades analíticas que transforma o digiere las salidas del Data WareHouse.

Meta Data: toda la información en el ambiente del Data WareHouse que no son así

mismo los datos actuales.

15. Objetivos de Un Almacén de Datos

Los objetivos fundamentales de un Almacén de Datos o Data WareHouse son:

Hace que la información de la organización sea accesible: los contenidos del Data

WareHouse son entendibles y navegables, y el acceso a ellos son caracterizado

por el rápido desempeño. Estos requerimientos no tienen fronteras y tampoco

limites fijos. Cuando hablamos de entendible significa, que los niveles de la

Page 24: Almacén de datos

información sean correctos y obvios. Y Navegables significa el reconocer el

destino en la pantalla y llegar a donde queramos con solo un clic. Rápido

desempeño significa, cero tiempo de espera. Todo lo demás es un compromiso y

por consiguiente algo que queremos mejorar.

Hacer que la información de la organización sea consistente: la información de una

parte de la organización puede hacerse coincidir con la información de la otra

parte de la organización. Si dos medidas de la organización tienen el mismo

nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas

no significan la misma cosa, entonces son etiquetados diferentes. Información

consistente significa, información de alta calidad. Significa que toda la información

es contabilizada y completada. Todo lo demás es un compromiso y por

consiguiente algo que queremos mejorar.

Es información adaptable y elástica: el Data WareHouse esta diseñado para

cambios continuos. Cuando se le hacen nuevas preguntas al Data WareHouse, los

datos existentes y las tecnologías no cambian ni se corrompen. Cuando se

agregan datos nuevos al Data WareHouse, los datos existentes y las tecnologías

tampoco cambian ni se corrompen. El diseño de Data Marts separados que hacen

al Data WareHouse, deben ser distribuidos e incrementados. Todo lo demás es un

compromiso y por consiguiente algo que queremos mejorar.

Es un seguro baluarte que protege los valores de la información: el Data

WareHouse no solamente controla el acceso efectivo a los datos, si no que da a

los dueños de la información gran visibilidad en el uso y abusos de los datos, aún

después de haber dejado el Data WareHouse. Todo lo demás es un compromiso y

por consiguiente algo que queremos mejorar.

Es la fundación de la toma de decisiones: el Data WareHouse tiene los datos

correctos para soportar la toma de decisiones. Solo hay una salida verdadera del

Data WareHouse: las decisiones que son hechas después de que el Data

WareHouse haya presentado las evidencias. La original etiqueta que preside el

Data WareHouse sigue siendo la mejor descripción de lo que queremos construir:

un sistema de soporte a las decisiones.

16. Características

Page 25: Almacén de datos

Un DW es un conjunto de datos con las siguientes características:

16.1 Integrado

Los datos almacenados en el datawarehouse deben integrarse en una estructura

consistente, por lo que las inconsistencias existentes entre los diversos sistemas

operacionales deben ser eliminadas. La información suele estructurarse también en

distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.

En la siguiente imagen podemos ver cómo se maneja la información en distintas

aplicaciones y lo que buscamos con la integración seria escoger de todas un estándar de

información para que uniformice los datos y se introduzcan al repositorio

16.2 Temático

Sólo los datos necesarios

para el proceso de generación del conocimiento del negocio se integran desde el entorno

operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento

por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser

consolidados en una única tabla del datawarehouse. De esta forma, las peticiones de

información sobre clientes serán más fáciles de responder dado que toda la información

reside en el mismo lugar.

Page 26: Almacén de datos

En la siguiente imagen se muestra cómo se maneja un sistema de información orientada

a sus aplicaciones y otra temática una diferencia importante entre estas está en la

interrelación de la información. Los datos operacionales (aplicaciones) mantienen una

relación continua entre dos o más tablas basadas en una regla comercial. Las del data

warehouse miden espectros de tiempo y las relaciones encontradas en la data warehouse

(podremos indagar en toda la información pasada relacionada entre todas las

aplicaciones).

16.3 De tiempo variante

El tiempo es parte implícita de la información contenida en un datawarehouse. En los

sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio

en el momento presente. Por el contrario, la información almacenada en el

datawarehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto,

el datawarehouse se carga con los distintos valores que toma una variable en el tiempo

para permitir comparaciones.

Page 27: Almacén de datos

Los datos históricos son de poco uso en el procedimiento operacional. La información del

depósito por el contrario, debe incluir los datos históricos para usarse en la identificación y

evaluación de tendencias.

16.4 No Volátil

 El almacén de información de un datawarehouse existe para ser leído, pero no

modificado. La información es por tanto permanente, significando la actualización del

datawarehouse la incorporación de los últimos valores que tomaron las distintas variables

contenidas en él sin ningún tipo de acción sobre lo que ya existía.

Como se puede observar en la imagen en la base de datos operacional la actualización

(actualizar, borrar y modificar) se hace regularmente, mientras en el data warehouse sea

una sola actualización  esto hace que cuando tengamos que tomar una decisión con esta

información tengamos seguridad de esta.

Page 28: Almacén de datos

17. Ventajas e Inconvenientes

17.1 Ventajas

Hay muchas ventajas por las que es recomendable usar un almacén de datos. Algunas de

ellas son:

Los almacenes de datos hacen más fácil el acceso a una gran variedad de datos a

los usuarios finales

Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la

decisión tales como informes de tendencia, por ejemplo: obtener los ítems con la

mayoría de las ventas en un área en particular dentro de los últimos dos años;

informes de excepción, informes que muestran los resultados reales frente a los

objetivos planteados a priori.

Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el

valor operacional de las aplicaciones empresariales, en especial la gestión de

relaciones con clientes.

17.2 Inconvenientes

Utilizar almacenes de datos también plantea algunos inconvenientes, algunos de ellos

son:

Page 29: Almacén de datos

A lo largo de su vida los almacenes de datos pueden suponer altos costos. El

almacén de datos no suele ser estático. Los costos de mantenimiento son

elevados.

Los almacenes de datos se pueden quedar obsoletos relativamente pronto

A veces, ante una petición de información estos devuelven una información

subóptima, que también supone una pérdida para la organización.

A menudo existe una delgada línea entre los almacenes de datos y los sistemas

operacionales. Hay que determinar qué funcionalidades de estos se pueden

aprovechar y cuáles se deben implementar en el data warehouse, resultaría

costoso implementar operaciones no necesarias o dejar de implementar alguna

que sí vaya a necesitarse.

18. Conclusiones

Los almacenes de datos son el centro de atención de las grandes empresas

actuales, porque son una colección de datos donde se encuentra integrada la

Page 30: Almacén de datos

información de estas, proporcionando una herramienta para que puedan hacer un

mejor uso de la información y para el soporte al proceso de toma de decisiones

gerenciales.

Existen numerosas causas que provocan suciedad en los registros de los sistemas

operacionales, lo que trae como consecuencia que haya gran cantidad de datos

almacenados en las empresas que carece de la calidad adecuada para ser

utilizada de forma confiable.

El problema de la limpieza de datos es uno de los tres problemas fundamentales

de los DW. Sin embargo, es poco tratado o evitado por muchas organizaciones, ya

que no consideran adecuadamente el impacto negativo que puede ocasionar para

el negocio el tener almacenada información deficiente.

En algunos casos es posible crear programas de limpieza a la medida para la

empresa en cuestión, pero en el caso de bases de datos con grandes números de

registros puede ser casi obligatorio el uso de las herramientas comerciales ya

existentes.

Para las organizaciones actuales, la estandarización de las direcciones de sus

listas de clientes es un punto fundamental a tener en cuenta, ya que direcciones

de un DW que no tengan esta característica pueden provocar pérdida de

credibilidad de las organizaciones, que a su vez, lleva a la pérdida de clientes

como consecuencia de un servicio poco eficaz.

Page 31: Almacén de datos

19. Bibliografía

Casares C. (Nov/2005) - Data

Warehousing, http://www.programacion.com/bbdd/tutorial/warehouse/15/

#warehousing_desarrollo_confi

Hussain S.; Beg J. (Oct/2005). - Data Quality: A Problem and an

Approach, http://doc.advisor.com/doc/13060

Kimball R. (Oct/2005) -Dealing with Dirty

Data, http://www.dbmsmag.com/9609d14.html

Martín J.; Morrás C.; García M. L.; Tello L. I.;Vivancos A. J. (Oct/2005) - Sistemas

de soporte a la gestión del

negocio, http://www.tid.es/presencia/publicaciones/comsid/esp/articulos/vol812/

soporte/soporte.html

Torres H.; Visitación M.; Grau A.; Mar M.; Barranco H.; Soldado M. (Oct/2005). -

Bases de datos y data warehouse: Herramientas estratégicas para

la eficacia comercial, http://www-lsi.ugr.es/~rosana/ investigacion/bd_efsi04.pdf

Laudon Keneth C., Laudon Jane P., Sistemas de Información Gerencial (8ª ed.)

México, Pearson Educación, (2004)

http://www.dwinfocenter.org/casefor.html

http://datawarehouse.ittoolbox.com/

http://dwhucv.blogspot.com/p/caracteristicas-de-un-datawarehouse.html