Business Intelligence - KIMBALL
-
Author
jaime-albert-armas-rodriguez -
Category
Documents
-
view
218 -
download
0
Embed Size (px)
Transcript of Business Intelligence - KIMBALL
-
7/24/2019 Business Intelligence - KIMBALL
1/22
INGENIERA DE SISTEMAS
DE INFORMACIN
METODOLOGA RALPH KIMBALL
DATAWAREHOUSE
BUSINESS INTELLIGENCE
Jaime Albert Armas Rodrguez
-
7/24/2019 Business Intelligence - KIMBALL
2/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 2
INTRODUCCIN _______________________________________________________ 3
CAPITULO I : DATAWAREHOUSE __________________________________________ 4
1. Definicin de Data Warehouse _____________________________________________ 4
2. Arquitectura de Data Warehouse___________________________________________ 5
3. Objetivos de una Datawarehuse:____________________________________________ 7
4. Elementos y Procesos bsicos de un Data Warehouse ___________________________ 8
5. Procesos Bsicos del Data Warehouse ETL)___________________________________ 9
CAPITULO II: Metodologa Kimball. ______________________________________ 10
2. Metodologa Ralph Kimball _________________________________________ 102.1. Planificacin ________________________________________________________________ 12
2.2. Anlisis de Requerimientos ____________________________________________________ 12
2.3. Modelado dimensional________________________________________________________ 14
2.3.1. Elegir el proceso de negocio: _______________________________________________ 152.3.2. Establecer el nivel de granularidad:__________________________________________ 15
2.3.3. Elegir las dimensiones: ____________________________________________________ 15
2.3.4. Identificar las tablas de hechos y medidas:____________________________________ 15
2.3.5. Modelo grfico de alto nivel: _______________________________________________ 16
2.3.6. Identificacin de atributos de dimensiones y tablas de hechos ___________________ 16
2.3.7. Implementar el modelo dimensional detallado:________________________________ 16
2.3.8. Prueba del modelo:_______________________________________________________ 17
2.3.9. Revisin y validacin del modelo____________________________________________ 17
2.4.0. Documentos finales_______________________________________________________ 17
2.4. Diseo Fsico ________________________________________________________________ 17
2.5. Diseo del sistema de Extraccin, Transformacin y Carga (ETL). _____________________ 182.6. Especificacin y desarrollo de aplicaciones de BI___________________________________ 18
2.7. Diseo y Desarrollo de la presentacin de datos: __________________________________ 19
2.8. Diseo de la arquitectura tcnica: _______________________________________________ 19
CONCLUSIONES ______________________________________________________ 20
RECOMENDACIONES __________________________________________________ 21
BIBLIOGRAFIA ________________________________________________________ 22
-
7/24/2019 Business Intelligence - KIMBALL
3/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 3
INTRODUCCIN
La inteligencia de negocios permite a las empresas poder explotar la informacin
empresarial para apoyar en la toma de decisiones. En ese marco SQL Server 2012
Analysis Services proporciona un intervalo de soluciones para crear e implementar lasbases de datos analticas que se usan como respaldo para la toma de decisiones en las
aplicaciones Excel, Reporting Services y otras de Business Intelligence. La transferencia
y consolidacin de datos en el Datamart puede ser implementada a travs de SQL Server
Integration Services, el componente de SQL Server 2012 que provee la capacidad de
desarrollar procesos complejos de extraccin de datos.
Desde su aparicin, a mediados de los aos 70, las bases de datos (y la teora sobre
bases de datos) no se han detenido. Las primeras versiones de las bases de datos se
centraron alrededor de un nico repositorio sirviendo a todos los propsitos orientados
al procesamiento de la informacin (desde el transaccional, pasando por elprocesamiento batch, hasta lo analtico). En la mayora de los casos, el principal foco de
las primeras bases de datos fueron los sistemas operacionales o transaccionales. En las
ltimas dcadas, ha surgido una nocin ms sofisticada de las bases de datos. Por un
lado, el objetivo de servir a las necesidades operacionales, y por otro, cubrir las
necesidades analticas de la informacin.
El mercado de Data Warehousing consiste de herramientas, tecnologas y metodologas
que permiten la construccin, uso, manejo y mantenimiento del hardware y software
usado tanto para un data warehouse como para los datos en s mismos. Las encuestas y
la realidad marcan que los proyectos de Data Warehousing (o asociados al concepto deData Warehouse) son las mayores iniciativas despus de finalizado los esfuerzos de Y2K.
El presente trabajo monogrfico comprende temas relacionados con la definicin de
datawarehouse, arquitectura del datawarehouse, objetivos de un datawarehouse,
Elementos y Procesos bsicos de un Datawarehouse, Procesos Bsicos del Data
Warehouse (ETL) y Metodologa Ralph Kimball.
-
7/24/2019 Business Intelligence - KIMBALL
4/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 4
CAPITULO I : DATAWAREHOUSE
1.Definicin de Data Warehouse
Unalmacn de datos (Data Warehouse) es una coleccin de datos orientada a un
determinado mbito (empresa,organizacin,etc.), integrado, no voltil y variable en
el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Es
unaestructura de datos donde la informacin contenida est diseada para favorecer
el anlisis y la divulgacin eficiente de datos. Losalmacenes de datos contienen a
menudo grandes cantidades de informacin que se subdividen a veces en unidades
lgicas ms pequeas dependiendo del subsistema de la entidad del que procedan o
para el que sea necesario.
Dichas unidades se denominan Data Marts.
Un Data Warehouse es unaBase de Datos que contiene:
Datos empresariales
Integrar coleccin de datos histricos
Datos: dirigidos al usuario, consolidados y consistentes
Datos estructurados paradistribucin y consultas
Un Data Warehouse es un repositorio de datos de muy fcil acceso,
alimentado de numerosas fuentes, transformadas en grupos de
informacin sobre temas especficos denegocios,para permitir nuevasconsultas, anlisis, reportes y decisiones.
Existen dos grandes autores con respecto al tema Data Warehouse: Bill Inmon y Ralph
Kimball:
Bill Inmon: "El Data Warehouse es una coleccin de datos orientados al tema,
integrados, no voltiles e historiados, organizados para el apoyo de
unproceso de ayuda a la decisin"
Ralph Kimball: "El Data Warehouse es una copia de las transacciones de datos
especficamente estructurada para la consulta y el anlisis; es la unin de todos
los Data Marts de una entidad".
http://www.monografias.com/trabajos12/alma/alma.shtmlhttp://www.monografias.com/trabajos6/napro/napro.shtmlhttp://www.monografias.com/trabajos10/esda/esda.shtmlhttp://www.monografias.com/trabajos31/almacenes-datos/almacenes-datos.shtmlhttp://www.monografias.com/trabajos34/base-de-datos/base-de-datos.shtmlhttp://www.monografias.com/trabajos11/travent/travent.shtmlhttp://www.monografias.com/trabajos10/formulac/formulac.shtml#FUNChttp://www.monografias.com/trabajos11/grupo/grupo.shtmlhttp://www.monografias.com/trabajos15/plan-negocio/plan-negocio.shtmlhttp://www.monografias.com/trabajos14/administ-procesos/administ-procesos.shtml#PROCEhttp://www.monografias.com/trabajos14/administ-procesos/administ-procesos.shtml#PROCEhttp://www.monografias.com/trabajos15/plan-negocio/plan-negocio.shtmlhttp://www.monografias.com/trabajos11/grupo/grupo.shtmlhttp://www.monografias.com/trabajos10/formulac/formulac.shtml#FUNChttp://www.monografias.com/trabajos11/travent/travent.shtmlhttp://www.monografias.com/trabajos34/base-de-datos/base-de-datos.shtmlhttp://www.monografias.com/trabajos31/almacenes-datos/almacenes-datos.shtmlhttp://www.monografias.com/trabajos10/esda/esda.shtmlhttp://www.monografias.com/trabajos6/napro/napro.shtmlhttp://www.monografias.com/trabajos12/alma/alma.shtml -
7/24/2019 Business Intelligence - KIMBALL
5/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 5
2.Arquitectura de Data Warehouse
Laarquitectura de un Data Warehouse se la utiliza para representar cual es la estructura
final de los datos, la forma en que se comunican esos datos, su procesamiento ypresentacin. La misma est constituida por diferentes partes que se encuentran
interconectadas, las cuales son:
Base de datos operacional / Nivel de base de datos externo: los sistemas
operacionales procesan datos para apoyar las necesidades operacionales crticas.
Para hacer eso, se han creado las bases de datos operacionales histricas que
proveen una estructura de procesamiento eficiente, para un nmero
relativamente pequeo de transacciones comerciales bien definidas.
A causa del enfoque limitado de los sistemas operacionales, las bases de datosdiseadas para soportar estos sistemas, tienen dificultad para acceder a los datos
para otra gestin o propsitos informticos. Ciertamente, la meta del Data
Warehousing, es liberar la informacin que es almacenada en bases de datos
operacionales y combinarla con la informacin desde otra fuente de datos,
generalmente externa.
Nivel de acceso a la informacin: El nivel de acceso a la informacin de la
arquitectura Data Warehouse, es el nivel del que el usuario final se encarga
directamente. En particular, representa las herramientas que el usuario final
normalmente usa da a da. Actualmente, existen herramientas ms y mssofisticadas para manipular, analizar y presentar los datos, sin embargo, hay
problemas significativos al tratar de convertir los datos tal como han sido
http://www.monografias.com/trabajos6/arma/arma.shtmlhttp://www.monografias.com/trabajos15/sistemas-control/sistemas-control.shtmlhttp://www.monografias.com/trabajos7/plane/plane.shtmlhttp://www.monografias.com/trabajos11/contrest/contrest.shtmlhttp://www.monografias.com/trabajos11/contrest/contrest.shtmlhttp://www.monografias.com/trabajos7/plane/plane.shtmlhttp://www.monografias.com/trabajos15/sistemas-control/sistemas-control.shtmlhttp://www.monografias.com/trabajos6/arma/arma.shtml -
7/24/2019 Business Intelligence - KIMBALL
6/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 6
recolectados y que se encuentran contenidos en los sistemas operacionales en
informacin fcil y transparente para las herramientas de los usuarios finales.
Una de las claves para esto es encontrar unlenguaje de datos comn que puede
usarse a travs de toda la empresa.
Nivel de acceso a los datos: El nivel de acceso a los datos de la arquitectura Data
Warehouse est involucrado con el nivel de acceso a la informacin para
relacionarse con el nivel operacional. El nivel de acceso a los datos no solamente
conecta DBMS"s diferentes y sistemas dearchivos sobre el mismohardware,sino
tambin a los fabricantes yprotocolos dered.
Una de las claves de una estrategia Data Warehousing es proveer a los usuarios
finales con "acceso a datos universales", significa que, por lo menos, los usuarios
finales sin tener en cuenta la herramienta de acceso a la informacin o ubicacin,
deberan ser capaces de acceder a cualquier o todos los datos en la empresa que esnecesaria para ellos, para hacer su trabajo. El nivel de acceso a los datos es
responsable de la interfaz entre las herramientas de acceso a la informacin y las
bases de datos operacionales. En algunos casos, esto es todo lo que un usuario final
necesita:
Nivel de directorio de datos (Metadata): A fin de proveer el acceso a los datos
universales, es absolutamente necesario mantener alguna forma de directorio
de datos o repositorio de la informacin Metadata. La Metadata es la
informacin alrededor de los datos dentro de la empresa.
A fin de tener un depsito totalmente funcional, es necesario tener una variedad
de Metadata disponibles, informacin sobre las vistas de datos de los usuarios
finales e informacin sobre las bases de datos operacionales. Idealmente, los
usuarios finales deberan de acceder a los datos desde el Data Warehouse o
desde las bases de datos operacionales, sin tener que conocer dnde residen los
datos o la forma en que se han almacenados.
Nivel de gestin de proceso: El nivel de gestin de procesos tiene que ver con
la programacin de diversas tareas que deben realizarse para construir y
mantener el Data Warehouse y la informacin del directorio de datos.
Este nivel puede depender del alto nivel de control de trabajo para muchos
procesos (procedimientos)que deben ocurrir para mantener el Data Warehouse
actualizado.
Nivel de mensaje de la aplicacin: El nivel de mensaje de la aplicacin tiene que
ver con el transporte de informacin alrededor de la red de la empresa. El
mensaje de aplicacin se refiere tambin como "subproducto", pero puede
involucrar slo protocolos de red.
http://www.monografias.com/trabajos35/concepto-de-lenguaje/concepto-de-lenguaje.shtmlhttp://www.monografias.com/trabajos7/arch/arch.shtmlhttp://www.monografias.com/Computacion/Hardware/http://www.monografias.com/trabajos12/mncerem/mncerem.shtmlhttp://www.monografias.com/Computacion/Redes/http://www.monografias.com/trabajos34/el-trabajo/el-trabajo.shtmlhttp://www.monografias.com/Computacion/Programacion/http://www.monografias.com/trabajos14/control/control.shtmlhttp://www.monografias.com/trabajos13/mapro/mapro.shtmlhttp://www.monografias.com/trabajos/transporte/transporte.shtmlhttp://www.monografias.com/trabajos/transporte/transporte.shtmlhttp://www.monografias.com/trabajos13/mapro/mapro.shtmlhttp://www.monografias.com/trabajos14/control/control.shtmlhttp://www.monografias.com/Computacion/Programacion/http://www.monografias.com/trabajos34/el-trabajo/el-trabajo.shtmlhttp://www.monografias.com/Computacion/Redes/http://www.monografias.com/trabajos12/mncerem/mncerem.shtmlhttp://www.monografias.com/Computacion/Hardware/http://www.monografias.com/trabajos7/arch/arch.shtmlhttp://www.monografias.com/trabajos35/concepto-de-lenguaje/concepto-de-lenguaje.shtml -
7/24/2019 Business Intelligence - KIMBALL
7/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 7
Nivel de DW: En el Data Warehouse (ncleo) es donde ocurre la data actual,
usada principalmente para usos estratgicos. Se puede pensar del Data
Warehouse simplemente como una vistalgica o virtual de datos.
En un Data Warehouse fsico (copias), en algunos casos, muchas copias de datos
operacionales y/o externos, son almacenadas realmente en una forma que esfcil de acceder y es altamente flexible.
Nivel de organizacin de datos: El componente final de la arquitectura Data
Warehouse es la organizacin de los datos. Tambin denominada gestin de
copia o rplica, incluye todos los procesos necesarios como seleccionar, editar,
resumir, combinar y cargar datos en el depsito y acceder a la informacin desde
bases de datos operacionales y/o externas.
La organizacin de datos involucra con frecuencia una programacin compleja,
donde se estn creando las herramientas Data Warehousing para ayudar en esteproceso.
3.Objetivos de una Datawarehuse:
Losobjetivos fundamentales de un Data Warehouse son:
Hacer que la informacin de la organizacin sea accesible, donde los contenidos
del Data Warehouse son entendibles (informacin correcta y obvia) y navegables
(reconocer el destino en la pantalla), y el acceso a ellos son caracterizados porel rpido desempeo (cero tiempo de espera). Estos requerimientos no tiene
fronteras y tampoco limites fijos.
Hacer que la informacin de la organizacin sea consistente. La informacin de
una parte dela organizacin puede hacerse coincidir con la informacin de la
otra parte de la organizacin.
Proporcionar informacin adaptable y elstica. El Data Warehouse est diseado
para cambios continuos. Al realizarse nuevas preguntas o agregar datos nuevos
sobre el Data Warehouse, los datos existentes y las tecnologas no cambian ni se
corrompen.
Es un seguro baluarte que protege los valores de la informacin. El Data
Warehouse controla el acceso efectivo a los datos, como as tambin da a los
"dueos" de la informacin gran visibilidad en el uso y abusos de los datos.
Es la fundacin de la toma de decisiones. El Data Warehouse tiene los datos
correctos para soportar la toma de decisiones.
http://www.monografias.com/trabajos15/logica-metodologia/logica-metodologia.shtmlhttp://www.monografias.com/trabajos16/objetivos-educacion/objetivos-educacion.shtmlhttp://www.monografias.com/trabajos15/indicad-evaluacion/indicad-evaluacion.shtmlhttp://www.monografias.com/trabajos6/napro/napro.shtmlhttp://www.monografias.com/trabajos5/segu/segu.shtmlhttp://www.monografias.com/trabajos14/nuevmicro/nuevmicro.shtmlhttp://www.monografias.com/trabajos14/nuevmicro/nuevmicro.shtmlhttp://www.monografias.com/trabajos5/segu/segu.shtmlhttp://www.monografias.com/trabajos6/napro/napro.shtmlhttp://www.monografias.com/trabajos15/indicad-evaluacion/indicad-evaluacion.shtmlhttp://www.monografias.com/trabajos16/objetivos-educacion/objetivos-educacion.shtmlhttp://www.monografias.com/trabajos15/logica-metodologia/logica-metodologia.shtml -
7/24/2019 Business Intelligence - KIMBALL
8/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 8
4.Elementos y Procesos bsicos de un Data Warehouse
Los elementos bsicos de un Data Warehouse son los siguientes:
Sistema Fuente:Son los sistemas operacionales (Legacy System) deregistros que
tienen comofuncin capturar las transacciones del negocio.
rea de trfico de datos: Es un rea dealmacenamiento ygrupo de procesos,
que limpian, transforman, combinan, guardan, archivan, etc., los datos fuentes
para ser usados en el Data Warehouse.
Servidor de presentacin: Es la maquina fsica donde los datos del Data
Warehouse son organizados y almacenados por consultas realizadas por los
usuarios finales, reportes y otras aplicaciones.
Modelo dimensional:Es unadisciplina especfica para el modelado de datos que
es una alternativa para losmodelos de entidad-relacin (DER).
Procesos de negocios:Es un coherente grupo de actividades de negocio que le
dan sentido a los usuarios del negocio del Data Warehouse.
Data Mart:Es un subgrupo lgico del Data Warehouse.
Data Warehouse:Es la unin de todos los Data Marts que la constituyen.
Almacenamiento operacional de datos: Es el punto de integracin por los
sistemas operacionales. Es el acceso al soporte de decisiones de los ejecutivos
deuna empresa.
OLAP: Es un estilo dimensional especfico de bsquedas y presentacin de
informacin, que es ejemplificado por vendedores de OLAP.
ROLAP.Es un grupo de interfaces de usuarios y aplicaciones que le dan a la base
de datos relacional un estilo dimensional.
MOLAP. Es un grupo de interfaces de usuarios, aplicaciones y propietarios
detecnologa de bases de datos que tienen un fuerte estilo dimensional.
Aplicaciones para usuarios finales.Es una coleccin de herramientas que hacen
las consultas, las analizan y luego presentan la informacin necesaria y objetiva
para el soporte de las necesidades de negocio.
Herramientas de acceso a datos por usuarios finales.Son los "clientes" del Data
Warehouse
http://www.monografias.com/trabajos7/regi/regi.shtmlhttp://www.monografias.com/trabajos7/mafu/mafu.shtmlhttp://www.monografias.com/trabajos12/dispalm/dispalm.shtmlhttp://www.monografias.com/trabajos14/dinamica-grupos/dinamica-grupos.shtmlhttp://www.monografias.com/Fisica/index.shtmlhttp://www.monografias.com/trabajos14/disciplina/disciplina.shtmlhttp://www.monografias.com/trabajos/adolmodin/adolmodin.shtmlhttp://www.monografias.com/trabajos11/funpro/funpro.shtmlhttp://www.monografias.com/trabajos11/empre/empre.shtmlhttp://www.monografias.com/Tecnologia/index.shtmlhttp://www.monografias.com/trabajos11/sercli/sercli.shtmlhttp://www.monografias.com/trabajos11/sercli/sercli.shtmlhttp://www.monografias.com/Tecnologia/index.shtmlhttp://www.monografias.com/trabajos11/empre/empre.shtmlhttp://www.monografias.com/trabajos11/funpro/funpro.shtmlhttp://www.monografias.com/trabajos/adolmodin/adolmodin.shtmlhttp://www.monografias.com/trabajos14/disciplina/disciplina.shtmlhttp://www.monografias.com/Fisica/index.shtmlhttp://www.monografias.com/trabajos14/dinamica-grupos/dinamica-grupos.shtmlhttp://www.monografias.com/trabajos12/dispalm/dispalm.shtmlhttp://www.monografias.com/trabajos7/mafu/mafu.shtmlhttp://www.monografias.com/trabajos7/regi/regi.shtml -
7/24/2019 Business Intelligence - KIMBALL
9/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 9
Modelado de aplicaciones.Es un sofisticado tipo decliente de Data Warehouse
con capacidades analticas que transforma o difiere las salidas del Data
Warehouse
Meta Data.Es toda la informacin en el "ambiente"del Data Warehouse. No son
los datos actuales.
5.Procesos Bsicos del Data Warehouse ETL)
Los procesos bsicos del Data Warehouse son:
Extraccin:Es el primer paso de obtener informacin hacia el ambiente del DataWarehouse. Consiste en extraer los datos desde los sistemas de origen.
Cada sistema separado puede usar una organizacin diferente de los datos o
formatos distintos. La extraccin convierte los datos a un formato preparadopara iniciar el proceso de transformacin.
Un parte intrnseca del proceso de extraccin es la de analizar los datos
extrados, se realiza un chequeo, el cual verifica si los datos cumplen la pauta o
estructura que se esperaba. Si no es as son rechazados.
Transformacin: luego de que la informacin fue extrada, se pueden realizardiferentes pasos de transformacin, como ser: limpieza de la informacin, botar
a labasura lo que consideramos innecesario, seleccionar campos especficos que
consideremos necesarios para el Data Warehouse, realizar combinacionesfuentes de datos, etc.
Carga:al final del proceso de transformacin, los datos estn en forma para sercargados. Dependiendo de los requerimientos de la organizacin, este proceso
puede abarcar una amplia variedad deacciones diferentes.
Las formas ms bsicas para desarrollar el proceso de carga son dos:
Acumulacin simple: consiste en realiza un resumen de todas las
transacciones comprendida en el periodo de tiempo seleccionado y
transportar el resultado como una nica transaccin hacia el Data
Warehouse para su almacenamiento.
Rolling: almacena informacin resumida a distintos niveles,
correspondientes a distintas agrupaciones de la unidad de tiempo o
diferentes niveles jerrquicos. (Casos de varios niveles de granularidad).
http://www.monografias.com/trabajos11/sercli/sercli.shtmlhttp://www.monografias.com/trabajos15/medio-ambiente-venezuela/medio-ambiente-venezuela.shtmlhttp://www.monografias.com/trabajos11/teosis/teosis.shtmlhttp://www.monografias.com/trabajos11/recibas/recibas.shtmlhttp://www.monografias.com/trabajos4/acciones/acciones.shtmlhttp://www.monografias.com/trabajos4/acciones/acciones.shtmlhttp://www.monografias.com/trabajos11/recibas/recibas.shtmlhttp://www.monografias.com/trabajos11/teosis/teosis.shtmlhttp://www.monografias.com/trabajos15/medio-ambiente-venezuela/medio-ambiente-venezuela.shtmlhttp://www.monografias.com/trabajos11/sercli/sercli.shtml -
7/24/2019 Business Intelligence - KIMBALL
10/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 10
CAPITULO II: Metodologa Kimball.
2. Metodologa Ralph Kimball
La metodologa se basa en lo que Kimball denomina Ciclo de Vida Dimensional delNegocio (Business Dimensional Lifecycle) (Kimball et al 98, 08, Mundy & Thornthwaite
06). Este ciclo de vida del proyecto de DW, est basado en cuatro principios bsicos:
Centrarse en el negocio: Hay que concentrarse en la identificacin de losrequerimientos del negocio y su valor asociado, y usar estos esfuerzos para
desarrollar relaciones slidas con el negocio, agudizando el anlisis del mismo y
la competencia consultiva de los implementadores.
Construir una infraestructura de informacin adecuada:Disear una base de
informacin nica, integrada, fcil de usar, de alto rendimiento donde sereflejar la amplia gama de requerimientos de negocio identificados en la
empresa.
Realizar entregas en incrementos significativos:crear el almacn de datos (DW)en incrementos entregables en plazos de 6 a 12 meses. Hay que usa el valor de
negocio de cada elemento identificado para determinar el orden de aplicacin
de los incrementos. En esto la metodologa se parece a las metodologas giles
de construccin de software.
Ofrecer la solucin completa:proporcionar todos los elementos necesarios paraentregar valor a los usuarios de negocios.
Para comenzar, esto significa tener un almacn de datos slido, bien diseado,
con calidad probada, y accesible. Tambin se deber entregar herramientas de
consulta ad hoc, aplicaciones para informes y anlisis avanzado, capacitacin,
soporte, sitio web y documentacin.
La metodologa de Kimball, llamada Modelo Dimensional (Dimensional Modeling), se
basa en lo que se denomina Ciclo de Vida Dimensional del Negocio (Business
Dimensional Lifecycle). Esta metodologa es considerada una de las tcnicas favoritas ala hora de construir un Data Warehouse.
En el Modelo Dimensional se constituyen modelos de tablas y relaciones con el
propsito de optimizar la toma de decisiones.
El Modelo Dimensional es una tcnica de diseo lgico que tiene como objetivo
presentar los datos dentro de un marco de trabajo estndar e intuitivo, para permitir su
acceso con un alto rendimiento.
Cada Modelo Dimensional est compuesta por una tabla con una llave combinada,
llamada tabla de hechos, y con un conjunto de tablas ms pequeas llamadas tablas dedimensiones.
-
7/24/2019 Business Intelligence - KIMBALL
11/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 11
Los elementos de estas tablas se pueden definir de la siguiente manera:
Hechos: es una coleccin de piezas de datos y datos de contexto. Cada hecho
representa una parte del negocio, una transaccin o un evento.
Dimensiones: es una coleccin de miembros, unidades o individuos del mismo
tipo.
Medidas: son atributos numricos de un hecho que representan el
comportamiento del negocio relativo a una dimensin.
La construccin de una solucin de DW/BI (Datawarehouse/Business Intelligence) es
sumamente compleja, y Kimball nos propone una metodologa que nos ayuda a
simplificar esa complejidad. Las tareas de esta metodologa (ciclo de vida) se muestran
en la figura 1.
La metodologa se basa en lo que Kimball denomina Ciclo de Vida Dimensional del
Negocio (Business Dimensional Lifecycle) (Kimball et al 98, 08, Mundy & Thornthwaite
06). Este ciclo de vida del proyecto de DW, est basado en cuatro principios bsicos:
Tecnologa (Camino Superior). Implica tareas relacionadas con softwareespecfico, por ejemplo, Microsoft SQL Analysis Services.
Datos (Camino del medio). En la misma disearemos e implementaremos elmodelo dimensional, y desarrollaremos el subsistema de Extraccin,
Transformacin y Carga (Extract, Transformation, and Load - ETL) para cargar el
DW.
Aplicaciones de Inteligencia de Negocios (Camino Inferior). En esta ruta seencuentran tareas en las que diseamos y desarrollamos las aplicaciones de
negocios para los usuarios finales.
Estas rutas se combinan cuando se instala finalmente el sistema.
La metodologa propuesta por Kimball, est compuesta por las siguientes fases:
-
7/24/2019 Business Intelligence - KIMBALL
12/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 12
2.1. Planificacin
En este proceso se determina el propsito del proyecto de DW/BI, sus objetivos
especficos y el alcance del mismo, los principales riesgos y una aproximacin
inicial a las necesidades de informacin.
En la visin de programas y proyectos de Kimball, Proyecto, se refiere a una
iteracin simple del KLC (Kimball Life Cycle), desde el lanzamiento hasta el
despliegue.
Esta tarea incluye las siguientes acciones tpicas de un plan de proyecto:
Definir el alcance (entender los requerimientos del negocio).
Identificar las tareas
Programar las tareas
Planificar el uso de los recursos.
Asignar la carga de trabajo a los recursos
Elaboracin de un documento final que representa un plan del proyecto.
Adems en esta parte definimos cmo realizar la administracin o gestin de
esta subfase que es todo un proyecto en s mismo, con las siguientes actividades:
Monitoreo del estado de los procesos y actividades.
Rastreo de problemas
Desarrollo de un plan de comunicacin comprensiva que direccione la
empresa y las reas de TI.
2.2. Anlisis de Requerimientos
La definicin de los requerimientos es en gran medida un proceso de entrevistar
al personal de negocio y tcnico, pero siempre conviene tener un poco de
preparacin previa. Se debe aprender tanto como se pueda sobre el negocio, los
competidores, la industria y los clientes del mismo. Hay que leer todos los
informes posibles de la organizacin; rastrear los documentos de estrategia
interna; entrevistar a los empleados, analizar lo que se dice en la prensa acerca
de la organizacin, la competencia y la industria. Se deben conocer los trminosy la terminologa del negocio.
Parte del proceso de preparacin es averiguar a quin se debe realmente
entrevistar. Esto normalmente implica examinar cuidadosamente el
organigrama de la organizacin. Hay bsicamente cuatro grupos de personas con
las que hablar desde el principio: el directivo responsable de tomar las decisiones
estratgicas; los administradores intermedios y de negocio responsables de
explorar alternativas estratgicas y aplicar decisiones; personal de sistemas, si
existen, la gente que realmente sabe qu tipos de problemas informticos y de
datos existen; y por ltimo, la gente que se necesita entrevistar por razonespolticas.
-
7/24/2019 Business Intelligence - KIMBALL
13/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 13
A partir de las entrevistas, podemos identificar temas analticos y procesos de
negocio. Los temas analticos agrupan requerimientos comunes en un tema
comn (ver tabla 1).
Tabla 1: Temas Analticos
Tema Analtico Anlisis oRequerimiento
inferido o pedido
Proceso delnegocio del
soporte
Comentarios
Planificacin de
ventas
Anlisis histrico
de rdenes de
revendedores
Ordenes de
compras
Por cliente, por
pas, por regin
de ventas
Proyeccin de
ventas
Ordenes de
compras
La proyeccin es
un progreso de
negocio que usa
las ordenes
como entrada
Por otra parte, a partir del anlisis se puede construir una herramienta de la
metodologa denominada matriz de procesos/dimensiones (Bus Matrix en
ingls).
Una dimensin es una forma o vista o criterio por medio de cual se pueden
sumariar, cruzar o cortar datos numricos a analizar, datos que se denominan
medidas (measures en ingls).
Esta matriz tiene en sus filas los procesos de negocio identificados, y en lascolumnas, las dimensiones identificadas.
Un ejemplo de esta matriz se puede observar en la tabla 2. Cada X en la
interseccin de las filas y columnas significa que en el proceso de negocio de la
fila seleccionada se identifican las dimensiones propuestas.
Tabla 2: Matriz de procesos/dimensiones (Bus Matrix).
Dimensin
Proceso deNegocio
Tiempo Producto Empleados Clientes(Revendedores)
Geografade
ventas
Importes
Proyeccin de
Ventas
X X X X X X
Compras X X X X X X
Control de
llamadas
X X X X X X
Finalmente se busca priorizar los requerimientos o procesos de negocios ms
crticos.
-
7/24/2019 Business Intelligence - KIMBALL
14/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 14
2.3. Modelado dimensional
La creacin de un modelo dimensional es un proceso dinmico y altamente
iterativo. Un esquema general se puede ver en la figura 2.
Fig. 2: Diagrama de flujo del proceso dimensional de Kimball
El proceso de diseo comienza con un modelo dimensional de alto nivel obtenido
a partir de los procesos priorizados de la matriz descrita en el punto anterior.
El proceso iterativo consiste en cuatro pasos:
1. Elegir el proceso de negocio.
2. Establecer el nivel de granularidad.
3. Elegir las dimensiones.
4. Identificar medidas y las tablas de hechos.
-
7/24/2019 Business Intelligence - KIMBALL
15/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 15
2 3 1 Elegir el proceso de negocio:
El primer paso es elegir el rea a modelizar. Esta es una decisin de la
direccin, y depende fundamentalmente del anlisis derequerimientos y de
los temas analticos anotados en la etapa anterior.
2 3 2 Establecer el nivel de granularidad:
La granularidad significa especificar el nivel de detalle. La eleccin de la
granularidad depende de los requerimientos del negocio y lo que es posible
a partir de los datos actuales. La sugerencia general es comenzar a disear
el DW al mayor nivel de detalle posible, ya que se podra luego realizar
agrupamientos al nivel deseado. En caso contrario no sera posible abrir
(drill-down) las sumarizaciones en caso de que el nivel de detalle no lo
permita.
2 3 3 Elegir las dimensiones:
Las dimensiones surgen naturalmente de las discusiones del equipo, y
facilitadas por la eleccin del nivel de granularidad y de la matriz de
procesos/dimensiones. Las tablas de dimensiones tienen un conjunto de
atributos (generalmente textuales) que brindan una perspectiva o forma de
anlisis sobre una medida en una tabla hechos.
Una forma de identificar las tablas de dimensiones es que sus atributos son
posibles candidatos para ser encabezado en los informes, tablas pivot,
cubos, o cualquier forma de visualizacin, unidimensional o
multidimensional.
2 3 4 Identificar las tablas de hechos y medidas:
El ltimo paso consiste en identificar las medidas que surgen de los procesos
de negocios. Una medida es un atributo (campo) de una tabla que se desea
analizar, sumarizando o agrupando sus datos, usando los criterios de corteconocidos como dimensiones.
Las medidas habitualmente se vinculan con el nivel de granularidad del
punto 2.3.2., y se encuentran en tablas que denominamos tablas de hechos
(fact en ingls). Cada tabla de hechos tiene como atributos una o ms
medidas de un proceso organizacional, de acuerdo a los requerimientos. Un
registro contiene una medida expresada en nmeros, como ser cantidad,
tiempo, dinero, etc., sobre la cual se desea realizar una operacin de
agregacin (promedio, conteo, suma, etc.) en funcin de una o ms
dimensiones. La granularidad es el nivel de detalle que posee cada registrode una tabla de hechos.
-
7/24/2019 Business Intelligence - KIMBALL
16/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 16
2 3 5 Modelo grfico de alto nivel:
Para concluir con el proceso dimensional inicial se realiza un grfico
denominado modelo dimensional de alto nivel (o grfico deburbujas, Bubble
chart, en el lxico de Kimball), como ilustra la figura 3.
Ejemplo de Modelo final de alto nivel de la sesin inicial de diseo
2 3 6 Identificacin de atributos de dimensiones y tablas de hechos
La segunda parte de la sesin inicial de diseo consiste en completar cada
tabla con una lista de atributos bien formada. Una lista de este tipo se
muestra en la figura 4. Esta lista o grilla se forma colocando en las filas los
atributos de la tabla, y en las columnas la siguiente informacin:
Caractersticas relacionadas con la futura tabla dimensional delalmacn de datos (target), por ejemplo tipo de datos, si es clave
primaria, valores de ejemplo, etc. Por razones de espacio no
describiremos todas las columnas, para mayor informacin puede
consultarse la referencia
El origen de los datos (source, por lo general atributos de las tablas
transaccionales).
Reglas de conversin, transformacin y carga (ETL rules), que nos dicen
como transformar los datos de las tablas de origen a las del almacn
de datos.
2 3 7 Implementar el modelo dimensional detallado:
-
7/24/2019 Business Intelligence - KIMBALL
17/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 17
Este proceso consiste simplemente en completar la informacin
incompleta de los pasos anteriores. El objetivo en general es identificar
todos los atributos tiles y sus ubicaciones, definiciones y reglas de
negocios asociadas que especifican cmo se cargan estos datos. Para este
cometido se usa la misma planilla del punto anterior.
2 3 8 Prueba del modelo:
Si el modelo ya est estable, lo que se hace habitualmente es probarlo
contra los requerimientos del negocio. Haciendo la pregunta prctica de
Cmo podemos obtener esta informacin en particular del modelo? Para
las pruebas podemos usar diseos de reportes estructurados, de usuarios
actuales, diseos de cubos prospectivos,etc.
2 3 9 Revisin y validacin del modelo
Un vez que tenemos confianza plena en el modelo, ingresamos en esta
etapa final (ver figura 2), lo cual implica revisar el modelo con diferentes
audiencias, cada una con diferentes conocimientos tcnicos y del negocio.
En el rea de sistemas deberan revisarlo losprogramadores y analistas de
los sistemas, y el DBA si existe. Tambin debera revisarse con usuarios y
personas del negocio que tenganmucho conocimiento de los procesos y
que quizs no hayan participado del diseo del modelo. Finalmente
podemos hacer un documento que enuncie una serie de preguntas del
negocio (tomadas a partir de losrequerimientos), y las conteste por medio
del modelo.
2 4 0 Documentos finales
El producto final, como se puede ver en la Figura 2, son una serie de
documentos (solo mencionamos los ms importantes), a saber:
Modelo de datos inicial de alto nivel
Lista de atributos Diagrama de tablas de hechos
Definicin de campos de medida
Diagrama de tablas de dimensiones
Descripcin de los atributos de las dimensiones
Matriz DW (o DW Bus Matrix) completa
2.4. Diseo Fsico
Se centra en la seleccin de las estructuras necesarias para soportar el diseolgico. Un elemento principal de este proceso es la definicin de estndares del
-
7/24/2019 Business Intelligence - KIMBALL
18/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 18
entorno de la base de datos. La indexacin y las estrategias de particionamiento
se determinan en esta etapa.
En esta parte, intentamos contestar las siguientes preguntas:
Cmo puede determinar cun grande ser el sistema de DW/BI?
Cules son los factores de uso que llevarn a una configuracin ms
grande y ms compleja?
Cmo se debe configurar el sistema?
Cunta memoria y servidores se necesitan? Qu tipo de
almacenamiento y procesadores?
Cmo instalar el software en los servidores de desarrollo, prueba y
produccin?
Qu necesitan instalar los diferentes miembros del equipo de DW/BI en
sus estaciones de trabajo?
Cmo convertir el modelo de datos lgico en un modelo de datos fsicos
en la base de datos relacional?
Cmo conseguir un plan de indexacin inicial?
Debe usarse la particin en las tablas relacionales?
2.5. Diseo del sistema de Extraccin, Transformacin y Carga ETL).
El sistema de Extraccin, Transformacin y Carga (ETL) es la base sobre la cual se
alimenta el Datawarehouse. Si el sistema ETL se disea adecuadamente, puede
extraer los datos de los sistemas de origen de datos, aplicar diferentes reglaspara aumentar la calidad y consistencia de los mismos, consolidar la informacin
proveniente de distintos sistemas, y finalmente cargar (grabar) la informacin en
el DW en un formato acorde para la utilizacin por parte de las herramientas de
anlisis.
2.6. Especificacin y desarrollo de aplicaciones de BI
Una parte fundamental de todo proyecto de DW/BI est en proporcionarles a
una gran comunidad de usuarios una forma ms estructurada y por lo tanto, ms
fcil, de acceder al almacn de datos.
Proporcionamos este acceso estructurado a travs de lo que llamamos
aplicaciones de inteligencia de negocios (Business IntelligenceAplications).
Las aplicaciones de BI son la cara visible de la inteligencia de negocios: los
informes y aplicaciones de anlisis proporcionan informacin til a los usuarios.
Las aplicaciones de BI incluyen un amplio espectro de tipos de informes y
herramientas de anlisis, que van desde informes simples de formato fijo a
sofisticadas aplicaciones analticas que usan complejos algoritmos e informacin
del dominio. Kimball divide a estas aplicaciones en dos categoras basadas en el
nivel de sofisticacin, y les llama informes estndar y aplicaciones analticas.
-
7/24/2019 Business Intelligence - KIMBALL
19/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 19
2.7. Diseo y Desarrollo de la presentacin de datos:
Tiene como principales actividades la extraccin, transformacin y carga (ETL).
Estas actividades son altamente crticas ya que tienen que ver con la materia
prima del Data Warehouse que son los datos.
2.8. Diseo de la arquitectura tcnica:
En esta fase se deben tener en cuenta tres factores: los requerimientos de negocio, los
actuales entornos tcnicos, y las directrices tcnicas y estratgicas futuras planificadas
por la compaa, lo que permitir establecer el diseo de la arquitectura tcnica del
entorno del Data Warehouse.
El proceso de diseo de la arquitectura tcnica est compuesto de 8 pasos:
1. Establecer un grupo de trabajo de arquitectura.
2. Requisitos relacionados con la arquitectura.
3. Documento de requisitos arquitectnicos.
4. Desarrollo de un modelo arquitectnico de alto nivel.
5. Diseo y especificacin de los subsistemas.
6. Determinar las fases de aplicacin de la arquitectura.
7. Documento de la arquitectura tcnica.
8. Revisar y finalizar la arquitectura tcnica.
-
7/24/2019 Business Intelligence - KIMBALL
20/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 20
CONCLUSIONES
Unalmacn de datos (Data Warehouse) es una coleccin de datos orientada a
un determinado mbito (empresa, organizacin, etc.), integrado, no voltil y
variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que
se utiliza.
Laarquitectura de un Data Warehouse se la utiliza para representar cual es la
estructura final de los datos, la forma en que se comunican esos datos, su
procesamiento y presentacin.
Los procesos bsicos del Data Warehouse son Extraccin, transformacin y
carga.
La metodologa de Kimball proporciona una base emprica y metodolgica
adecuada para las implementaciones de almacenes de datos pequeos y
medianos, dada su gran versatilidad y su enfoque ascendente, que permiteconstruir los almacenes en forma escalonada. Adems presenta una serie de
herramientas, tales como planillas, grficos y documentos, que proporcionan
una gran ayuda para iniciarse en el mbito de la construccin de un
Datawarehouse.
http://www.monografias.com/trabajos12/alma/alma.shtmlhttp://www.monografias.com/trabajos6/napro/napro.shtmlhttp://www.monografias.com/trabajos6/arma/arma.shtmlhttp://www.monografias.com/trabajos6/arma/arma.shtmlhttp://www.monografias.com/trabajos6/napro/napro.shtmlhttp://www.monografias.com/trabajos12/alma/alma.shtml -
7/24/2019 Business Intelligence - KIMBALL
21/22
Business Intelligence Metodologa Ralph Kimball
Jaime Albert Armas Rodrguez 21
RECOMENDACIONES
Para la implementacin de un sistema Datawarehouse se recomienda lo siguiente:
Seguir una metodologa probada Comprender con mucha claridad los requerimientos del negocio.
Disear una arquitectura que responda los procesos del negocio a los volmenes de
datos y a la infraestructura de TI.
-
7/24/2019 Business Intelligence - KIMBALL
22/22
Business Intelligence Metodologa Ralph Kimball
BIBLIOGRAFIA
Ralph Kimball, The Datawarehouse Lifecycle Toolkit, 2ndEdition, New York, wiley,
2008.
Paginas Sugeridas:
http://addkw.com
www.ucasal.edu.ar
http://addkw.com/http://addkw.com/http://www.ucasal.edu.ar/http://www.ucasal.edu.ar/http://www.ucasal.edu.ar/http://addkw.com/