Dw ruiz-navarro-huaquin-mera

21
Universidad Austral de Chile Facultad de Cs. Económicas y Administrativas Escuela de Ingeniería Comercial Laboratorio de Sistemas de Información Empresarial ADMI – 273 “Data Warehouse” Integrantes: Carol Ruiz Pablo Navarro Jorge Huaquin Marisa Mera Ayudante: Jose Luis Carrasco Valdivia, 06 de Junio de 2010

Transcript of Dw ruiz-navarro-huaquin-mera

Page 1: Dw ruiz-navarro-huaquin-mera

Universidad Austral de ChileFacultad de Cs. Económicas y Administrativas

Escuela de Ingeniería Comercial

Laboratorio de Sistemas de Información EmpresarialADMI – 273

“Data Warehouse”

Integrantes:Carol Ruiz

Pablo NavarroJorge HuaquinMarisa Mera

Ayudante:Jose Luis Carrasco

Valdivia, 06 de Junio de 2010

Page 2: Dw ruiz-navarro-huaquin-mera

INTRODUCCION

Hoy en día toda empresa necesita depositar mucha confianza en la toma de decisiones sobre los negocios por lo que requerimos hechos y cifras, con las que tomaremos decisiones en nuestra empresa y estas deberán ser mas aceleradas; por este motivo se requieren herramientas que nos ayuden a minimizar el tiempo para analizar mucha información con mayor velocidad y precisión; El Componente de Bussines Intelligence que resuelve este caos de los datos es el Data Warehouse el cual es un conjunto de procesos y acciones, es una colección de datos orientados a un tema, integrados y no volátiles en el soporte al proceso de toma de decisiones de la gerencia.

Page 3: Dw ruiz-navarro-huaquin-mera

I. DEFINICION DE CONCEPTOS

1. BUSINESS INTELLIGENCE

Business Intelligence es la habilidad para transformar los datos en información, y la información en conocimiento, de forma que se pueda optimizar el proceso de toma de decisiones en los negocios.

Desde un punto de vista más pragmático, y asociándolo directamente con las tecnologías de la información, podemos definir Business Intelligence como el conjunto de metodologías, aplicaciones y tecnologías que permiten reunir, depurar y transformar datos de los sistemas transaccionales e información desestructurada (interna y externa a la compañía) en información estructurada, para su explotación directa (reporting, análisis OLTP / OLAP, alertas...) o para su análisis y conversión en conocimiento, dando así soporte a la toma de decisiones sobre el negocio.

Los principales productos de Business Intelligence que existen hoy en día son:

- Cuadros de Mando Integrales (CMI)- Sistemas de Soporte a la Decisión (DSS)- Sistemas de Información Ejecutiva (EIS)

Por otro lado, los principales componentes de orígenes de datos en el Business Intelligence que existen en la actualidad son:

- Datamart- Datawarehouse

Los sistemas y componentes del BI se diferencian de los sistemas operacionales en que están optimizados para preguntar y divulgar sobre datos. Esto significa típicamente que, en un datawarehouse, los datos están desnormalizados para apoyar consultas de alto rendimiento, mientras que en los sistemas operacionales suelen encontrarse normalizados para apoyar operaciones continuas de inserción, modificación y borrado de datos. En este sentido, los procesos ETL (extracción, transformación y

Page 4: Dw ruiz-navarro-huaquin-mera

carga), que nutren los sistemas BI, tienen que traducir de uno o varios sistemas operacionales normalizados e independientes a un único sistema desnormalizado, cuyos datos estén completamente integrados.

En definitiva, una solución BI completa permite:

- Observar ¿qué está ocurriendo?- Comprender ¿por qué ocurre?- Predecir ¿qué ocurriría?- Colaborar ¿qué debería hacer el

equipo?- Decidir ¿qué camino se debe

seguir?

Page 5: Dw ruiz-navarro-huaquin-mera

BI como solución tecnológica

- Centralizar, depurar y afianzar los datos. Las tecnologías de BI permiten reunir, normalizar y centralizar toda la información de la empresa, mediante un almacén de datos, permitiendo así su explotación sin esfuerzo. De esta forma, los departamentos comercial, operativo y financiero basan las decisiones estratégicas en la misma información.

- Descubrir información no evidente para las aplicaciones actuales.

- Optimizar el rendimiento de los sistemas. Las plataformas de BI se diseñan para perfeccionar al máximo las consultas de alto nivel, realizando las transformaciones oportunas a cada sistema (OLTP - OLAP), y liberando los servidores operacionales.

BI como ventaja competitiva

- Seguimiento real del plan estratégico. Si su empresa dispone de plan estratégico, el business intelligence le permite, mediante un cuadro de mando, crear, manejar y monitorizar las métricas y los objetivos estratégicos propuestos en ese plan, para poder detectar a tiempo las desviaciones, adoptando las acciones oportunas para corregirlas.

- Mejorar la competitividad. Este mecanismo les permite maximizar su rentabilidad.

- Obtener el verdadero valor de las aplicaciones de gestión. Con el business intelligence, todos los empleados, desde el director general hasta el último analista, tienen acceso a información adecuada, integrada y actualizada

Ejemplo de Business Intelligence

Operador de telecomunicaciones

Este ejemplo hace referencia a uno de los mayores operadores de telecomunicación del mundo, con más de 91 millones de clientes en 220 países de los cinco continentes. Esta organización cuenta con 190.000 empleados y ofrece una gama completa de servicios de telecomunicaciones: telefonía local, internacional y móvil; internet y multimedia; transporte de datos; y difusión de TV por cable. En los últimos años, la empresa ha venido utilizando los sistemas informáticos como un arma estratégica fundamental en la batalla entre operadores de telecomunicaciones. El objetivo de una de sus principales iniciativas ha sido reducir las inconsistencias en los datos y compartir la información de manera más eficaz entre las diferentes

Page 6: Dw ruiz-navarro-huaquin-mera

áreas de negocio, implementando en toda la organización estándares en el campo del software de gestión.

2. ERP

Los sistemas de planificación de recursos empresariales (en inglés ERP, Enterprise Resource Planning) son sistemas de gestión de información que integran y automatizan muchas de las prácticas de negocio asociadas con los aspectos operativos o productivos de una empresa.

Se caracterizan por estar compuestos por diferentes partes integradas en una única aplicación. Estas partes son de diferente uso, por ejemplo: producción, ventas, compras, logística, contabilidad (de varios tipos), gestión de proyectos, GIS (sistema de información geográfica), inventarios y control de almacenes, pedidos, nóminas, etc. Sólo podemos definir un ERP como la integración de todas estas partes. El ERP integra todo lo necesario para el funcionamiento de los procesos de negocio de la empresa.

Objetivos y características de un ERP

Los objetivos principales de un sistema ERP son: - Optimización de los procesos empresariales. - Acceso a toda la información de forma confiable, precisa y

oportuna (integridad de datos). - La posibilidad de compartir información entre todos los

componentes de la organización. - Eliminación de datos y operaciones innecesarias (o

redundantes). - Reducción de tiempos y de los costes de los procesos (mediante

procesos de reingeniería).

Las características que distinguen a un ERP de un simple software empresarial es que debe ser un sistema integral, modular y adaptable

IntegralPorque permite controlar los diferentes procesos de la compañía

bajo la óptica de que todos los departamentos de una empresa se relacionan entre sí, es decir, que el resultado de un proceso es punto de inicio del siguiente. Por ejemplo, si un cliente hace un pedido esto representa que se crea una orden de venta que desencadena el proceso de producción, de control de inventarios, de planificación de distribución del producto, cobro, y por supuesto sus respectivos movimientos contables. Si la empresa no usa un ERP y son soluciones departamentales no integradas las que controlan todos los procesos mencionados, la información se duplica y crece el margen de contaminación en la información (sobre todo por errores de captura). Con un ERP, el operador simplemente captura el pedido y el sistema

Page 7: Dw ruiz-navarro-huaquin-mera

se encarga de todo lo demás, por lo que la información no se manipula y se encuentra protegida.

ModularUna de sus ventajas, tanto económica como técnica es que la

funcionalidad se encuentra dividida en módulos, que pueden instalarse de acuerdo con los requerimientos del cliente.

AdaptableLos ERP están creados para adaptarse a la condición de cada

empresa. Esto se logra por medio de la configuración o parametrización de los procesos de acuerdo con las salidas que se necesiten de cada uno. La parametrización es el valor añadido fundamental que se debe hacer con cualquier ERP para adaptarlo a las necesidades concretas de cada empresa.

Módulos de un ERP

Los módulos de un sistema ERP varían dependiendo de las características de la empresa, pues son muy diferentes los requerimientos en organizaciones en las que, por ejemplo, su principal negocio es la producción, la distribución o los servicios. Algunos de los módulos más comunes son: - Gestión Financiera - Gestión de Ventas - Gestión de Compras - Gestión de la Distribución y Logística - Gestión y planificación de la Producción - Gestión de Proyectos - Gestión de Recursos Humanos

Ejemplos de ERP en empresas internacionales

KFC

El manejo de ERP dentro de una empresa de más de 60 años como KFC es notable, actualmente presenta cambios tecnológicos en su sitio web, para hacer los negocios más rápidos con empresas como TACO BELL, PIZZA HUT, servicios online, sin necesidad de estar presente.

GM

GM siendo una empresa con mayor demanda de vehículos alrededor del mundo, necesita contar con información confiable oportuna y veraz, por tal razón trabajan en red con los demás países. De igual manera el usuario de ésta pagina podrá desplazarse de un lugar a otro dentro de las páginas web de las marcas de vehículos de

Page 8: Dw ruiz-navarro-huaquin-mera

GM ( Chevrolet, Cadillac, Saturn, Buick y Hummer), Indagando y aportando información relevante para la organización.

3. ETL

Extract, Transform and Load (Extraer, transformar y cargar en inglés, frecuentemente abreviado a ETL) es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.

Los procesos ETL también se pueden utilizar para la integración con sistemas heredados.

a) Extraer

La primera parte del proceso ETL consiste en extraer los datos desde los sistemas de origen. La mayoría de los proyectos de almacenamiento de datos fusionan datos provenientes de diferentes sistemas de origen. Cada sistema separado puede usar una organización diferente de los datos o formatos distintos. Los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes. La extracción convierte los datos a un formato preparado para iniciar el proceso de transformación.

Una parte intrínseca del proceso de extracción es la de analizar los datos extraídos, de lo que resulta un chequeo que verifica si los datos cumplen la pauta o estructura que se esperaba. De no ser así los datos son rechazados.

Un requerimiento importante que se debe exigir a la tarea de extracción es que ésta cause un impacto mínimo en el sistema origen. Si los datos a extraer son muchos, el sistema de origen se podría ralentizar e incluso colapsar, provocando que éste no pueda utilizarse con normalidad para su uso cotidiano. Por esta razón, en sistemas grandes las operaciones de extracción suelen programarse en horarios o días donde este impacto sea nulo o mínimo.

b) Transformar

Page 9: Dw ruiz-navarro-huaquin-mera

La fase de transformación aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados. Algunas fuentes de datos requerirán alguna pequeña manipulación de los datos. No obstante en otros casos pueden ser necesarias aplicar algunas de las siguientes transformaciones:

- Seleccionar sólo ciertas columnas para su carga (por ejemplo, que las columnas con valores nulos no se carguen).

- Traducir códigos (por ejemplo, si la fuente almacena una "H" para Hombre y "M" para Mujer pero el destino tiene que guardar "1" para Hombre y "2" para Mujer).

- Codificar valores libres (por ejemplo, convertir "Hombre" en "H" o "Sr" en "1").

- Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad * precio).

- Unir datos de múltiples fuentes (por ejemplo, búsquedas, combinaciones, etc.).

- Calcular totales de múltiples filas de datos (por ejemplo, ventas totales de cada región).

- Generación de campos clave en el destino.- Transponer o pivotar (girando múltiples columnas en filas o

viceversa).- Dividir una columna en varias (por ejemplo, columna "Nombre:

García, Miguel"; pasar a dos columnas "Nombre: Miguel" y "Apellido: García").

- La aplicación de cualquier forma, simple o compleja, de validación de datos, y la consiguiente aplicación de la acción que en cada caso se requiera:- Datos OK: Entregar datos a la siguiente etapa (Carga).- Datos Erróneos: Ejecutar políticas de tratamiento de

excepciones (por ejemplo, rechazar el registro completo, dar al campo erróneo un valor nulo o un valor centinela).

c) Carga

La fase de carga es el momento en el cual los datos de la fase anterior (transformación) son cargados en el sistema de destino. Dependiendo de los requerimientos de la organización, este proceso puede abarcar una amplia variedad de acciones diferentes. En algunas bases de datos se sobrescribe la información antigua con nuevos datos. Los data warehouse mantienen un historial de los registros de manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo.

Existen dos formas básicas de desarrollar el proceso de carga:

- Acumulación simple: La acumulación simple es la más sencilla y común, y consiste en realizar un resumen de todas las

Page 10: Dw ruiz-navarro-huaquin-mera

transacciones comprendidas en el período de tiempo seleccionado y transportar el resultado como una única transacción hacia el data warehouse, almacenando un valor calculado que consistirá típicamente en un sumatorio o un promedio de la magnitud considerada.

- Rolling: El proceso de Rolling por su parte, se aplica en los casos en que se opta por mantener varios niveles de granularidad. Para ello se almacena información resumida a distintos niveles, correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos en alguna o varias de las dimensiones de la magnitud almacenada (por ejemplo, totales diarios, totales semanales, totales mensuales, etc.).

La fase de carga interactúa directamente con la base de datos de destino. Al realizar esta operación se aplicarán todas las restricciones y triggers (disparadores) que se hayan definido en ésta (por ejemplo, valores únicos, integridad referencial, campos obligatorios, rangos de valores). Estas restricciones y triggers (si están bien definidos) contribuyen a que se garantice la calidad de los datos en el proceso ETL, y deben ser tenidos en cuenta.

Ejemplo de ETL

Oracle Warehouse Builder (OWB)

Oracle Warehouse Builder es un cliente de ETL que permite al usuario tomar ventaja de múltiples herramientas de ETL que hacen más fácil la gestión de datos. Oracle Warehouse Builder cuenta con funciones completas de modelado, los datos del cribado de calidad, las herramientas de auditoría, así como los datos y características de gestión de metadatos. Oracle Warehouse Builder utiliza la base de datos Oracle para almacenar metadatos y se ha incorporado un motor de transformación que da a Oracle Warehouse Builder mayor rendimiento y mayor seguridad que sus competidores. Oracle Warehouse Builder también es fácilmente escalable a las necesidades del usuario y que permite a los líderes empresariales de todos los orígenes para mejorar su empresa, utilizando el software.

4. INTERFASE WEB

Hace ya algunos años comenzó el fenómeno de la revolución de la comunicación entre seres humanos: Internet y la WWW. Con la aparición de la web se hizo posible que cualquier persona pudiera ofrecer información particularizada a los demás y encontrar documentos interactivos sobre cualquier tema, lograr informarse en

Page 11: Dw ruiz-navarro-huaquin-mera

tiempo real, relacionados unos con otros mediante enlaces que permitían saltar de página en página alrededor del mundo.

Las páginas web por ende supusieron la aparición de las interfaces web, interfaces gráficas de usuario con unos elementos comunes de presentación y navegación que pronto se convirtieron en estándares en toda la industria web. Este tipo de interfaces deben servir de intermediarias entre unos usuarios genéricos, no acostumbrados generalmente al uso de aplicaciones informáticas, y unos sistemas de información y procesos transaccionales que corren por debajo, debiendo posibilitar la localización de la información deseada, el entendimiento claro de las funcionalidades ofrecidas, la realización práctica de tareas específicas por parte de los usuarios y la navegación intuitiva por las diferentes páginas que forman el sitio web.

Ejemplo

Cualquier interacción que se pueda producir entre un usuario y una página web, al realizar una búsqueda de información etc.

5. INTERFASE CLIENTE-SERVIDOR

QUE ES UN CLIENTE

Es el que inicia un requerimiento de servicio. El requerimiento inicial puede convertirse en múltiples requerimientos de trabajo a través de redes LAN o WAN. La ubicación de los datos o de las aplicaciones es totalmente transparente para el cliente.

QUE ES UN SERVIDOR

Page 12: Dw ruiz-navarro-huaquin-mera

Es cualquier recurso de cómputo dedicado a responder a los requerimientos del cliente. Los servidores pueden estar conectados a los clientes a través de redes LANs o WANs, para proveer de múltiples servicios a los clientes y ciudadanos tales como impresión, acceso a bases de datos, fax, procesamiento de imágenes, etc.

Esta arquitectura consiste básicamente en un cliente que realiza peticiones a otro programa (el servidor) que le da respuesta. Aunque esta idea se puede aplicar a programas que se ejecutan sobre una sola computadora es más ventajosa en un sistema operativo multiusuario distribuido a través de una red de computadoras.

En esta arquitectura la capacidad de proceso está repartida entre los clientes y los servidores, aunque son más importantes las ventajas de tipo organizativo debidas a la centralización de la gestión de la información y la separación de responsabilidades, lo que facilita y clarifica el diseño del sistema.

La separación entre cliente y servidor es una separación de tipo lógico, donde el servidor no se ejecuta necesariamente sobre una sola máquina ni es necesariamente un sólo programa. Los tipos específicos de servidores incluyen los servidores web, los servidores de archivo, los servidores del correo, etc. Mientras que sus propósitos varían de unos servicios a otros, la arquitectura básica seguirá siendo la misma.

Ejemplo:

Visitar un sitio web es un buen ejemplo de la arquitectura cliente/servidor. El servidor web sirve las páginas web al navegador (el cliente). La mayoría de los servicios de Internet son tipo de servidores. Por ejemplo, si estás leyendo este artículo en Wikipedia, la computadora y el navegador web serían considerados un cliente, y las computadoras, las bases de datos, y los usos que componen Wikipedia serían considerados el servidor.

6. MODELO DE DATOS

Un modelo de datos es un lenguaje orientado a describir una Base de Datos. Típicamente un modelo de datos permite describir:

- Las estructuras de datos de la base: El tipo de los datos que hay en la base y la forma en que se relacionan.

- Las restricciones de integridad: Un conjunto de condiciones que deben cumplir los datos para reflejar correctamente la realidad deseada.

Page 13: Dw ruiz-navarro-huaquin-mera

- Operaciones de manipulación de los datos: típicamente, operaciones de agregado, borrado, modificación y recuperación de los datos de la base.

Un modelo de datos es un lenguaje que, típicamente, tiene dos sublenguajes:

Lenguaje de Definición de Datos o DDL (Data definition Language), orientado a describir de una forma abstracta las estructuras de datos y las restricciones de integridad.

Lenguaje de Manipulación de Datos o DML (Data Manipulation Language), orientado a describir las operaciones de manipulación de los datos.

A la parte del DML orientada a la recuperación de datos, usualmente se le llama Lenguaje de Consulta o QL (Query Language).

Una opción bastante usada a la hora de clasificar los modelos de datos es hacerlo de acuerdo al nivel de abstracción que presentan:

Modelos de Datos ConceptualesSon los orientados a la descripción de estructuras de datos y

restricciones de integridad. Se usan fundamentalmente durante la etapa de Análisis de un problema dado y están orientados a representar los elementos que intervienen en ese problema y sus relaciones. El ejemplo más típico es el Modelo Entidad-Relación.

Modelos de Datos LógicosSon orientados a las operaciones más que a la descripción de una

realidad. Usualmente están implementados en algún Manejador de Base de Datos. El ejemplo más típico es el Modelo Relacional, que cuenta con la particularidad de contar también con buenas características conceptuales (Normalización de bases de datos).

Modelos de Datos FísicosSon estructuras de datos a bajo nivel implementadas dentro del

propio manejador. Ejemplos típicos de estas estructuras son los Árboles B+, las estructuras de Hash, etc.

A. ER (Entidad Relación)

Page 14: Dw ruiz-navarro-huaquin-mera

El Modelo Entidad-Relación, también conocido como DER (diagramas entidad-relación) es una herramienta de modelado para bases de datos, propuesto por Peter Chen en 1976, mediante el cual se pretende 'visualizar' los objetos que pertenecen a la Base de Datos como entidades (se corresponde al concepto de clase, cada tupla representaría un objeto, de la Programación Orientada a Objetos) las cuales tienen unos atributos y se vinculan mediante relaciones.

Es una representación conceptual de la información. Mediante una serie de procedimientos se puede pasar del modelo E-R a otros, como por ejemplo el modelo relacional.

El modelado entidad-relación es una técnica para el modelado de datos utilizando diagramas entidad relación.

B. UML (Lenguaje de Modelado Unificado)

Es el lenguaje de modelado de sistemas de software más conocido y utilizado en la actualidad; está respaldado por el OMG (Object Management Group). Es un lenguaje gráfico para visualizar, especificar, construir y documentar un sistema. UML ofrece un estándar para describir un "plano" del sistema (modelo), incluyendo aspectos conceptuales tales como procesos de negocio y funciones del sistema, y aspectos concretos como expresiones de lenguajes de programación, esquemas de bases de datos y componentes reutilizables.

En UML 2.0 hay 13 tipos diferentes de diagramas. Para comprenderlos de manera concreta, a veces es útil categorizarlos jerárquicamente, como se muestra en la figura de la derecha.

Los Diagramas de Estructura enfatizan en los elementos que deben existir en el sistema modelado:

- Diagrama de clases - Diagrama de componentes - Diagrama de objetos - Diagrama de estructura compuesta (UML 2.0)- Diagrama de despliegue - Diagrama de paquetes

Page 15: Dw ruiz-navarro-huaquin-mera

Los Diagramas de Comportamiento enfatizan en lo que debe suceder en el sistema modelado:

- Diagrama de actividades - Diagrama de casos de uso - Diagrama de estados - Diagrama de secuencia

Los Diagramas de Interacción son un subtipo de diagramas de comportamiento, que enfatiza sobre el flujo de control y de datos entre los elementos del sistema modelado:

- Diagrama de secuencia - Diagrama de comunicación , que es una versión

simplificada del Diagrama de colaboración (UML 1.x)- Diagrama de tiempos (UML 2.0)- Diagrama global de interacciones o Diagrama de vista

de interacción (UML 2.0)

C. OO (Orientado a Objetos)

El modelo de bases de datos orientado a objetos es una adaptación a los sistemas de bases de datos. Se basa en el concepto de encapsulamiento de datos y código que opera sobre estos en un objeto. Los objetos estructurados se agrupan en clases. El conjunto de clases está estructurado en sub y superclases basado en una extensión del concepto ISA del modelo Entidad - Relación. Puesto que el valor de un dato en un objeto también es un objeto, es posible representar el contenido del objeto dando como resultado un objeto compuesto.

El propósito de los sistemas de bases de datos es la gestión de grandes cantidades de información. Las primeras bases de datos surgieron del desarrollo de los sistemas de gestión de archivos. Estos sistemas primero evolucionaron en bases de datos de red o en bases de datos jerárquicas y, más tarde, en bases de datos relacionales.

El modelo orientado a objetos se basa en encapsular código y datos en una única unidad, llamada objeto. El interfaz entre un objeto y el resto del sistema se define mediante un conjunto de mensajes.

Un objeto tiene asociado:

- Un conjunto de variables que contienen los datos del objeto. El valor de cada variable es un objeto.

- Un conjunto de mensajes a los que el objeto responde.- Un método, que es un trozo de código para implementar cada

mensaje. Un método devuelve un valor como respuesta al mensaje.

Page 16: Dw ruiz-navarro-huaquin-mera

El término mensaje en un contexto orientado a objetos, no

implica el uso de un mensaje físico en una red de computadoras, si no que se refiere al paso de solicitudes entre objetos sin tener en cuenta detalles específicos de implementación.

La capacidad de modificar la definición de un objeto sin afectar al resto del sistema está considerada como una de las mayores ventajas del modelo de programación orientado a objetos.

7. ETAPAS DEL DISEÑO DE UN DW

La metodología propuesta por SAS Institute: la "Rapid Warehousing Methodology" consta de 5 fases:

- Definición de objetivos

- Definición de los requerimientos de información

- Diseño y modelización

- Implementación

- Revisión

Definición de los objetivos

Se definirá el alcance del sistema y cuales son las funciones que el Data Warehouse realizará como suministrador de información de

Page 17: Dw ruiz-navarro-huaquin-mera

negocio estratégica para la empresa. Se definirán así mismo, los parámetros que permitan evaluar el éxito del proyecto.

Definición de los requerimientos de información

Tal como sucede en todo tipo de proyectos, sobre todo si involucran técnicas novedosas como son las relativas al Data Warehouse, es analizar las necesidades y hacer comprender las ventajas que este sistema puede reportar.

Diseño y modelización

Los requerimientos de información identificados durante la anterior fase proporcionarán las bases para realizar el diseño y la modelización del Data Warehouse.

En esta fase se identificarán las fuentes de los datos (sistema operacional, fuentes externas,..) y las transformaciones necesarias para, a partir de dichas fuentes, obtener el modelo lógico de datos del Data Warehouse. Este modelo estará formado por entidades y relaciones que permitirán resolver las necesidades de negocio de la organización.

El modelo lógico se traducirá posteriormente en el modelo físico de datos que se almacenará en el Data Warehouse y que definirá la arquitectura de almacenamiento del Data Warehouse adaptándose al tipo de explotación que se realice del mismo.

La mayor parte estas definiciones de los datos del Data Warehouse estarán almacenadas en los metadatos y formarán parte del mismo.

Implementación

La implantación de un Data Warehouse lleva implícitos los siguientes pasos:

- Extracción de los datos del sistema operacional y transformación de los mismos.

- Carga de los datos validados en el Data Warehouse. Esta carga deberá ser planificada con una periodicidad que se adaptará a las necesidades de refresco detectadas durante las fases de diseño del nuevo sistema.

- Explotación del Data Warehouse mediante diversas técnicas dependiendo del tipo de aplicación que se dé a los datos:

Query & ReportingOn-line analytical processing (OLAP)Executive Information System (EIS) ó Información de gestión

Page 18: Dw ruiz-navarro-huaquin-mera

Decision Support Systems (DSS)Visualización de la informaciónData Mining ó Minería de Datos, etc.

La información necesaria para mantener el control sobre los datos se almacena en los metadatos técnicos (cuando describen las características físicas de los datos) y de negocio (cuando describen cómo se usan esos datos). Dichos metadatos deberán ser accesibles por los usuarios finales que permitirán en todo momento tanto al usuario, como al administrador que deberá además tener la facultad de modificarlos según varíen las necesidades de información.

Con la finalización de esta fase se obtendrá un Data Warehouse disponible para su uso por parte de los usuarios finales y el departamento de informática.

Revisión

La construcción del Data Warehouse no finaliza con la implantación del mismo, sino que es una tarea iterativa en la que se trata de incrementar su alcance aprendiendo de las experiencias anteriores. Después de implantarse, debería realizarse una revisión del Data Warehouse planteando preguntas que permitan, después de los seis o nueve meses posteriores a su puesta en marcha, definir cuáles serían los aspectos a mejorar o potenciar en función de la utilización que se haga del nuevo sistema.

8. MODELOS DE DW

A. Star Schema

Consiste en estructurar la información en procesos, vistas y métricas recordando a una estrella (por ello el nombre star schema). Es decir, tendremos una visión multidimensional de un proceso que medimos a través de unas métricas. A nivel de diseño, consiste en una tabla de hechos (fact table) en el centro para el hecho objeto de análisis y una o varias tablas de dimensión (dimension table) por cada dimensión de análisis que participa de la descripción de ese hecho. En la tabla de hecho encontramos los atributos destinados a medir (cuantificar) el hecho: sus métricas. Mientras, en las tablas de dimensión, los atributos se destinan a elementos de nivel (que representan los distintos niveles de las jerarquías de dimensión) y a atributos de dimensión (encargados de la descripción de estos elementos de nivel). En el esquema en estrella la tabla de hechos es la única tabla del esquema que tiene múltiples joins que la conectan con otras tablas (foreign keys hacia otras tablas). El resto de tablas del esquema (tablas de dimensión) únicamente hacen join con esta tabla de hechos. Las tablas de dimensión se encuentran además

Page 19: Dw ruiz-navarro-huaquin-mera

totalmente desnormalizadas, es decir, toda la información referente a una dimensión se almacena en la misma tabla.

B. Snowflake Schema

Es un esquema de representación derivado del esquema en estrella, en el que las tablas de dimensión se normalizan en múltiples tablas. Por esta razón, la tabla de hechos deja de ser la única tabla del esquema que se relaciona con otras tablas, y aparecen nuevas joins gracias a que las dimensiones de análisis se representan ahora en tablas de dimensión normalizadas. En la estructura dimensional normalizada, la tabla que representa el nivel base de la dimensión es la que hace join directamente con la tabla de hechos. La diferencia entre ambos esquemas (star y snowflake) reside entonces en la estructura de las tablas de dimensión. Para conseguir un esquema en copo de nieve se ha de tomar un esquema en estrella y conservar la tabla de hechos, centrándose únicamente en el modelado de las tablas de dimensión, que si bien en el esquema en estrella se encontraban totalmente denormalizadas, ahora se dividen en subtablas tras un proceso de normalización. Es posible distinguir dos tipos de esquemas en copo de nieve, un snowflake completo (en el que todas las tablas de dimensión en el esquema en estrella aparecen ahora normalizadas en el snowflake) o un snowflake parcial (sólo se lleva a cabo la normalización de algunas de ellas).

Page 20: Dw ruiz-navarro-huaquin-mera

9. AREA DE NEGOCIO PARA APLICAR BI

Área Seleccionada: Maderera

La maderera es una microempresa que se dedica a la venta de maderas elaboradas cepilladas y manufacturadas, además de pisos, frisos, marcos de puertas y ventanas, en general madera estructural. También se dedica a las prestaciones de servicios tales como dimensionado, impregnación y secado. Esta fue elegida debido a que al ser una microempresa no cuenta con ningún tipo de sistema que le proporcione la información necesaria para llevar a cabo la toma de desiciones.

Page 21: Dw ruiz-navarro-huaquin-mera

CONCLUSION

Un DW en cambio, está orientado a mejorar el proceso de toma de decisiones, el cual resulta ser un proceso muy variable a través del tiempo debido a las diversas y cambiantes situaciones en las cuales se deben analizar los datos, haciendo de su diseño un proceso definido en una forma mucho menos precisa.

Es muy importante considerar que los profesionales informáticos que participen en el proyecto, tengan un conocimiento del tema de negocios que contemplará existiendo un trabajo en conjunto con los usuarios finales de la aplicación, esto debido a que se debe tener por lo menos una proyección de los requerimientos futuros para poder darle un cierto nivel de flexibilidad a la estructura dimensional.