Business Intelligence - KIMBALL

of 22 /22
7/24/2019 Business Intelligence - KIMBALL http://slidepdf.com/reader/full/business-intelligence-kimball 1/22  INGENIERÍA DE SISTEMAS DE INFORMACIÓN METODOLOGÍA RALPH KIMBALL DATAWAREHOUSE BUSINESS INTELLIGENCE Jaime Albert Armas Rodríguez 

Embed Size (px)

Transcript of Business Intelligence - KIMBALL

  • 7/24/2019 Business Intelligence - KIMBALL

    1/22

    INGENIERA DE SISTEMAS

    DE INFORMACIN

    METODOLOGA RALPH KIMBALL

    DATAWAREHOUSE

    BUSINESS INTELLIGENCE

    Jaime Albert Armas Rodrguez

  • 7/24/2019 Business Intelligence - KIMBALL

    2/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 2

    INTRODUCCIN _______________________________________________________ 3

    CAPITULO I : DATAWAREHOUSE __________________________________________ 4

    1. Definicin de Data Warehouse _____________________________________________ 4

    2. Arquitectura de Data Warehouse___________________________________________ 5

    3. Objetivos de una Datawarehuse:____________________________________________ 7

    4. Elementos y Procesos bsicos de un Data Warehouse ___________________________ 8

    5. Procesos Bsicos del Data Warehouse ETL)___________________________________ 9

    CAPITULO II: Metodologa Kimball. ______________________________________ 10

    2. Metodologa Ralph Kimball _________________________________________ 102.1. Planificacin ________________________________________________________________ 12

    2.2. Anlisis de Requerimientos ____________________________________________________ 12

    2.3. Modelado dimensional________________________________________________________ 14

    2.3.1. Elegir el proceso de negocio: _______________________________________________ 152.3.2. Establecer el nivel de granularidad:__________________________________________ 15

    2.3.3. Elegir las dimensiones: ____________________________________________________ 15

    2.3.4. Identificar las tablas de hechos y medidas:____________________________________ 15

    2.3.5. Modelo grfico de alto nivel: _______________________________________________ 16

    2.3.6. Identificacin de atributos de dimensiones y tablas de hechos ___________________ 16

    2.3.7. Implementar el modelo dimensional detallado:________________________________ 16

    2.3.8. Prueba del modelo:_______________________________________________________ 17

    2.3.9. Revisin y validacin del modelo____________________________________________ 17

    2.4.0. Documentos finales_______________________________________________________ 17

    2.4. Diseo Fsico ________________________________________________________________ 17

    2.5. Diseo del sistema de Extraccin, Transformacin y Carga (ETL). _____________________ 182.6. Especificacin y desarrollo de aplicaciones de BI___________________________________ 18

    2.7. Diseo y Desarrollo de la presentacin de datos: __________________________________ 19

    2.8. Diseo de la arquitectura tcnica: _______________________________________________ 19

    CONCLUSIONES ______________________________________________________ 20

    RECOMENDACIONES __________________________________________________ 21

    BIBLIOGRAFIA ________________________________________________________ 22

  • 7/24/2019 Business Intelligence - KIMBALL

    3/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 3

    INTRODUCCIN

    La inteligencia de negocios permite a las empresas poder explotar la informacin

    empresarial para apoyar en la toma de decisiones. En ese marco SQL Server 2012

    Analysis Services proporciona un intervalo de soluciones para crear e implementar lasbases de datos analticas que se usan como respaldo para la toma de decisiones en las

    aplicaciones Excel, Reporting Services y otras de Business Intelligence. La transferencia

    y consolidacin de datos en el Datamart puede ser implementada a travs de SQL Server

    Integration Services, el componente de SQL Server 2012 que provee la capacidad de

    desarrollar procesos complejos de extraccin de datos.

    Desde su aparicin, a mediados de los aos 70, las bases de datos (y la teora sobre

    bases de datos) no se han detenido. Las primeras versiones de las bases de datos se

    centraron alrededor de un nico repositorio sirviendo a todos los propsitos orientados

    al procesamiento de la informacin (desde el transaccional, pasando por elprocesamiento batch, hasta lo analtico). En la mayora de los casos, el principal foco de

    las primeras bases de datos fueron los sistemas operacionales o transaccionales. En las

    ltimas dcadas, ha surgido una nocin ms sofisticada de las bases de datos. Por un

    lado, el objetivo de servir a las necesidades operacionales, y por otro, cubrir las

    necesidades analticas de la informacin.

    El mercado de Data Warehousing consiste de herramientas, tecnologas y metodologas

    que permiten la construccin, uso, manejo y mantenimiento del hardware y software

    usado tanto para un data warehouse como para los datos en s mismos. Las encuestas y

    la realidad marcan que los proyectos de Data Warehousing (o asociados al concepto deData Warehouse) son las mayores iniciativas despus de finalizado los esfuerzos de Y2K.

    El presente trabajo monogrfico comprende temas relacionados con la definicin de

    datawarehouse, arquitectura del datawarehouse, objetivos de un datawarehouse,

    Elementos y Procesos bsicos de un Datawarehouse, Procesos Bsicos del Data

    Warehouse (ETL) y Metodologa Ralph Kimball.

  • 7/24/2019 Business Intelligence - KIMBALL

    4/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 4

    CAPITULO I : DATAWAREHOUSE

    1.Definicin de Data Warehouse

    Unalmacn de datos (Data Warehouse) es una coleccin de datos orientada a un

    determinado mbito (empresa,organizacin,etc.), integrado, no voltil y variable en

    el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Es

    unaestructura de datos donde la informacin contenida est diseada para favorecer

    el anlisis y la divulgacin eficiente de datos. Losalmacenes de datos contienen a

    menudo grandes cantidades de informacin que se subdividen a veces en unidades

    lgicas ms pequeas dependiendo del subsistema de la entidad del que procedan o

    para el que sea necesario.

    Dichas unidades se denominan Data Marts.

    Un Data Warehouse es unaBase de Datos que contiene:

    Datos empresariales

    Integrar coleccin de datos histricos

    Datos: dirigidos al usuario, consolidados y consistentes

    Datos estructurados paradistribucin y consultas

    Un Data Warehouse es un repositorio de datos de muy fcil acceso,

    alimentado de numerosas fuentes, transformadas en grupos de

    informacin sobre temas especficos denegocios,para permitir nuevasconsultas, anlisis, reportes y decisiones.

    Existen dos grandes autores con respecto al tema Data Warehouse: Bill Inmon y Ralph

    Kimball:

    Bill Inmon: "El Data Warehouse es una coleccin de datos orientados al tema,

    integrados, no voltiles e historiados, organizados para el apoyo de

    unproceso de ayuda a la decisin"

    Ralph Kimball: "El Data Warehouse es una copia de las transacciones de datos

    especficamente estructurada para la consulta y el anlisis; es la unin de todos

    los Data Marts de una entidad".

    http://www.monografias.com/trabajos12/alma/alma.shtmlhttp://www.monografias.com/trabajos6/napro/napro.shtmlhttp://www.monografias.com/trabajos10/esda/esda.shtmlhttp://www.monografias.com/trabajos31/almacenes-datos/almacenes-datos.shtmlhttp://www.monografias.com/trabajos34/base-de-datos/base-de-datos.shtmlhttp://www.monografias.com/trabajos11/travent/travent.shtmlhttp://www.monografias.com/trabajos10/formulac/formulac.shtml#FUNChttp://www.monografias.com/trabajos11/grupo/grupo.shtmlhttp://www.monografias.com/trabajos15/plan-negocio/plan-negocio.shtmlhttp://www.monografias.com/trabajos14/administ-procesos/administ-procesos.shtml#PROCEhttp://www.monografias.com/trabajos14/administ-procesos/administ-procesos.shtml#PROCEhttp://www.monografias.com/trabajos15/plan-negocio/plan-negocio.shtmlhttp://www.monografias.com/trabajos11/grupo/grupo.shtmlhttp://www.monografias.com/trabajos10/formulac/formulac.shtml#FUNChttp://www.monografias.com/trabajos11/travent/travent.shtmlhttp://www.monografias.com/trabajos34/base-de-datos/base-de-datos.shtmlhttp://www.monografias.com/trabajos31/almacenes-datos/almacenes-datos.shtmlhttp://www.monografias.com/trabajos10/esda/esda.shtmlhttp://www.monografias.com/trabajos6/napro/napro.shtmlhttp://www.monografias.com/trabajos12/alma/alma.shtml
  • 7/24/2019 Business Intelligence - KIMBALL

    5/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 5

    2.Arquitectura de Data Warehouse

    Laarquitectura de un Data Warehouse se la utiliza para representar cual es la estructura

    final de los datos, la forma en que se comunican esos datos, su procesamiento ypresentacin. La misma est constituida por diferentes partes que se encuentran

    interconectadas, las cuales son:

    Base de datos operacional / Nivel de base de datos externo: los sistemas

    operacionales procesan datos para apoyar las necesidades operacionales crticas.

    Para hacer eso, se han creado las bases de datos operacionales histricas que

    proveen una estructura de procesamiento eficiente, para un nmero

    relativamente pequeo de transacciones comerciales bien definidas.

    A causa del enfoque limitado de los sistemas operacionales, las bases de datosdiseadas para soportar estos sistemas, tienen dificultad para acceder a los datos

    para otra gestin o propsitos informticos. Ciertamente, la meta del Data

    Warehousing, es liberar la informacin que es almacenada en bases de datos

    operacionales y combinarla con la informacin desde otra fuente de datos,

    generalmente externa.

    Nivel de acceso a la informacin: El nivel de acceso a la informacin de la

    arquitectura Data Warehouse, es el nivel del que el usuario final se encarga

    directamente. En particular, representa las herramientas que el usuario final

    normalmente usa da a da. Actualmente, existen herramientas ms y mssofisticadas para manipular, analizar y presentar los datos, sin embargo, hay

    problemas significativos al tratar de convertir los datos tal como han sido

    http://www.monografias.com/trabajos6/arma/arma.shtmlhttp://www.monografias.com/trabajos15/sistemas-control/sistemas-control.shtmlhttp://www.monografias.com/trabajos7/plane/plane.shtmlhttp://www.monografias.com/trabajos11/contrest/contrest.shtmlhttp://www.monografias.com/trabajos11/contrest/contrest.shtmlhttp://www.monografias.com/trabajos7/plane/plane.shtmlhttp://www.monografias.com/trabajos15/sistemas-control/sistemas-control.shtmlhttp://www.monografias.com/trabajos6/arma/arma.shtml
  • 7/24/2019 Business Intelligence - KIMBALL

    6/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 6

    recolectados y que se encuentran contenidos en los sistemas operacionales en

    informacin fcil y transparente para las herramientas de los usuarios finales.

    Una de las claves para esto es encontrar unlenguaje de datos comn que puede

    usarse a travs de toda la empresa.

    Nivel de acceso a los datos: El nivel de acceso a los datos de la arquitectura Data

    Warehouse est involucrado con el nivel de acceso a la informacin para

    relacionarse con el nivel operacional. El nivel de acceso a los datos no solamente

    conecta DBMS"s diferentes y sistemas dearchivos sobre el mismohardware,sino

    tambin a los fabricantes yprotocolos dered.

    Una de las claves de una estrategia Data Warehousing es proveer a los usuarios

    finales con "acceso a datos universales", significa que, por lo menos, los usuarios

    finales sin tener en cuenta la herramienta de acceso a la informacin o ubicacin,

    deberan ser capaces de acceder a cualquier o todos los datos en la empresa que esnecesaria para ellos, para hacer su trabajo. El nivel de acceso a los datos es

    responsable de la interfaz entre las herramientas de acceso a la informacin y las

    bases de datos operacionales. En algunos casos, esto es todo lo que un usuario final

    necesita:

    Nivel de directorio de datos (Metadata): A fin de proveer el acceso a los datos

    universales, es absolutamente necesario mantener alguna forma de directorio

    de datos o repositorio de la informacin Metadata. La Metadata es la

    informacin alrededor de los datos dentro de la empresa.

    A fin de tener un depsito totalmente funcional, es necesario tener una variedad

    de Metadata disponibles, informacin sobre las vistas de datos de los usuarios

    finales e informacin sobre las bases de datos operacionales. Idealmente, los

    usuarios finales deberan de acceder a los datos desde el Data Warehouse o

    desde las bases de datos operacionales, sin tener que conocer dnde residen los

    datos o la forma en que se han almacenados.

    Nivel de gestin de proceso: El nivel de gestin de procesos tiene que ver con

    la programacin de diversas tareas que deben realizarse para construir y

    mantener el Data Warehouse y la informacin del directorio de datos.

    Este nivel puede depender del alto nivel de control de trabajo para muchos

    procesos (procedimientos)que deben ocurrir para mantener el Data Warehouse

    actualizado.

    Nivel de mensaje de la aplicacin: El nivel de mensaje de la aplicacin tiene que

    ver con el transporte de informacin alrededor de la red de la empresa. El

    mensaje de aplicacin se refiere tambin como "subproducto", pero puede

    involucrar slo protocolos de red.

    http://www.monografias.com/trabajos35/concepto-de-lenguaje/concepto-de-lenguaje.shtmlhttp://www.monografias.com/trabajos7/arch/arch.shtmlhttp://www.monografias.com/Computacion/Hardware/http://www.monografias.com/trabajos12/mncerem/mncerem.shtmlhttp://www.monografias.com/Computacion/Redes/http://www.monografias.com/trabajos34/el-trabajo/el-trabajo.shtmlhttp://www.monografias.com/Computacion/Programacion/http://www.monografias.com/trabajos14/control/control.shtmlhttp://www.monografias.com/trabajos13/mapro/mapro.shtmlhttp://www.monografias.com/trabajos/transporte/transporte.shtmlhttp://www.monografias.com/trabajos/transporte/transporte.shtmlhttp://www.monografias.com/trabajos13/mapro/mapro.shtmlhttp://www.monografias.com/trabajos14/control/control.shtmlhttp://www.monografias.com/Computacion/Programacion/http://www.monografias.com/trabajos34/el-trabajo/el-trabajo.shtmlhttp://www.monografias.com/Computacion/Redes/http://www.monografias.com/trabajos12/mncerem/mncerem.shtmlhttp://www.monografias.com/Computacion/Hardware/http://www.monografias.com/trabajos7/arch/arch.shtmlhttp://www.monografias.com/trabajos35/concepto-de-lenguaje/concepto-de-lenguaje.shtml
  • 7/24/2019 Business Intelligence - KIMBALL

    7/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 7

    Nivel de DW: En el Data Warehouse (ncleo) es donde ocurre la data actual,

    usada principalmente para usos estratgicos. Se puede pensar del Data

    Warehouse simplemente como una vistalgica o virtual de datos.

    En un Data Warehouse fsico (copias), en algunos casos, muchas copias de datos

    operacionales y/o externos, son almacenadas realmente en una forma que esfcil de acceder y es altamente flexible.

    Nivel de organizacin de datos: El componente final de la arquitectura Data

    Warehouse es la organizacin de los datos. Tambin denominada gestin de

    copia o rplica, incluye todos los procesos necesarios como seleccionar, editar,

    resumir, combinar y cargar datos en el depsito y acceder a la informacin desde

    bases de datos operacionales y/o externas.

    La organizacin de datos involucra con frecuencia una programacin compleja,

    donde se estn creando las herramientas Data Warehousing para ayudar en esteproceso.

    3.Objetivos de una Datawarehuse:

    Losobjetivos fundamentales de un Data Warehouse son:

    Hacer que la informacin de la organizacin sea accesible, donde los contenidos

    del Data Warehouse son entendibles (informacin correcta y obvia) y navegables

    (reconocer el destino en la pantalla), y el acceso a ellos son caracterizados porel rpido desempeo (cero tiempo de espera). Estos requerimientos no tiene

    fronteras y tampoco limites fijos.

    Hacer que la informacin de la organizacin sea consistente. La informacin de

    una parte dela organizacin puede hacerse coincidir con la informacin de la

    otra parte de la organizacin.

    Proporcionar informacin adaptable y elstica. El Data Warehouse est diseado

    para cambios continuos. Al realizarse nuevas preguntas o agregar datos nuevos

    sobre el Data Warehouse, los datos existentes y las tecnologas no cambian ni se

    corrompen.

    Es un seguro baluarte que protege los valores de la informacin. El Data

    Warehouse controla el acceso efectivo a los datos, como as tambin da a los

    "dueos" de la informacin gran visibilidad en el uso y abusos de los datos.

    Es la fundacin de la toma de decisiones. El Data Warehouse tiene los datos

    correctos para soportar la toma de decisiones.

    http://www.monografias.com/trabajos15/logica-metodologia/logica-metodologia.shtmlhttp://www.monografias.com/trabajos16/objetivos-educacion/objetivos-educacion.shtmlhttp://www.monografias.com/trabajos15/indicad-evaluacion/indicad-evaluacion.shtmlhttp://www.monografias.com/trabajos6/napro/napro.shtmlhttp://www.monografias.com/trabajos5/segu/segu.shtmlhttp://www.monografias.com/trabajos14/nuevmicro/nuevmicro.shtmlhttp://www.monografias.com/trabajos14/nuevmicro/nuevmicro.shtmlhttp://www.monografias.com/trabajos5/segu/segu.shtmlhttp://www.monografias.com/trabajos6/napro/napro.shtmlhttp://www.monografias.com/trabajos15/indicad-evaluacion/indicad-evaluacion.shtmlhttp://www.monografias.com/trabajos16/objetivos-educacion/objetivos-educacion.shtmlhttp://www.monografias.com/trabajos15/logica-metodologia/logica-metodologia.shtml
  • 7/24/2019 Business Intelligence - KIMBALL

    8/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 8

    4.Elementos y Procesos bsicos de un Data Warehouse

    Los elementos bsicos de un Data Warehouse son los siguientes:

    Sistema Fuente:Son los sistemas operacionales (Legacy System) deregistros que

    tienen comofuncin capturar las transacciones del negocio.

    rea de trfico de datos: Es un rea dealmacenamiento ygrupo de procesos,

    que limpian, transforman, combinan, guardan, archivan, etc., los datos fuentes

    para ser usados en el Data Warehouse.

    Servidor de presentacin: Es la maquina fsica donde los datos del Data

    Warehouse son organizados y almacenados por consultas realizadas por los

    usuarios finales, reportes y otras aplicaciones.

    Modelo dimensional:Es unadisciplina especfica para el modelado de datos que

    es una alternativa para losmodelos de entidad-relacin (DER).

    Procesos de negocios:Es un coherente grupo de actividades de negocio que le

    dan sentido a los usuarios del negocio del Data Warehouse.

    Data Mart:Es un subgrupo lgico del Data Warehouse.

    Data Warehouse:Es la unin de todos los Data Marts que la constituyen.

    Almacenamiento operacional de datos: Es el punto de integracin por los

    sistemas operacionales. Es el acceso al soporte de decisiones de los ejecutivos

    deuna empresa.

    OLAP: Es un estilo dimensional especfico de bsquedas y presentacin de

    informacin, que es ejemplificado por vendedores de OLAP.

    ROLAP.Es un grupo de interfaces de usuarios y aplicaciones que le dan a la base

    de datos relacional un estilo dimensional.

    MOLAP. Es un grupo de interfaces de usuarios, aplicaciones y propietarios

    detecnologa de bases de datos que tienen un fuerte estilo dimensional.

    Aplicaciones para usuarios finales.Es una coleccin de herramientas que hacen

    las consultas, las analizan y luego presentan la informacin necesaria y objetiva

    para el soporte de las necesidades de negocio.

    Herramientas de acceso a datos por usuarios finales.Son los "clientes" del Data

    Warehouse

    http://www.monografias.com/trabajos7/regi/regi.shtmlhttp://www.monografias.com/trabajos7/mafu/mafu.shtmlhttp://www.monografias.com/trabajos12/dispalm/dispalm.shtmlhttp://www.monografias.com/trabajos14/dinamica-grupos/dinamica-grupos.shtmlhttp://www.monografias.com/Fisica/index.shtmlhttp://www.monografias.com/trabajos14/disciplina/disciplina.shtmlhttp://www.monografias.com/trabajos/adolmodin/adolmodin.shtmlhttp://www.monografias.com/trabajos11/funpro/funpro.shtmlhttp://www.monografias.com/trabajos11/empre/empre.shtmlhttp://www.monografias.com/Tecnologia/index.shtmlhttp://www.monografias.com/trabajos11/sercli/sercli.shtmlhttp://www.monografias.com/trabajos11/sercli/sercli.shtmlhttp://www.monografias.com/Tecnologia/index.shtmlhttp://www.monografias.com/trabajos11/empre/empre.shtmlhttp://www.monografias.com/trabajos11/funpro/funpro.shtmlhttp://www.monografias.com/trabajos/adolmodin/adolmodin.shtmlhttp://www.monografias.com/trabajos14/disciplina/disciplina.shtmlhttp://www.monografias.com/Fisica/index.shtmlhttp://www.monografias.com/trabajos14/dinamica-grupos/dinamica-grupos.shtmlhttp://www.monografias.com/trabajos12/dispalm/dispalm.shtmlhttp://www.monografias.com/trabajos7/mafu/mafu.shtmlhttp://www.monografias.com/trabajos7/regi/regi.shtml
  • 7/24/2019 Business Intelligence - KIMBALL

    9/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 9

    Modelado de aplicaciones.Es un sofisticado tipo decliente de Data Warehouse

    con capacidades analticas que transforma o difiere las salidas del Data

    Warehouse

    Meta Data.Es toda la informacin en el "ambiente"del Data Warehouse. No son

    los datos actuales.

    5.Procesos Bsicos del Data Warehouse ETL)

    Los procesos bsicos del Data Warehouse son:

    Extraccin:Es el primer paso de obtener informacin hacia el ambiente del DataWarehouse. Consiste en extraer los datos desde los sistemas de origen.

    Cada sistema separado puede usar una organizacin diferente de los datos o

    formatos distintos. La extraccin convierte los datos a un formato preparadopara iniciar el proceso de transformacin.

    Un parte intrnseca del proceso de extraccin es la de analizar los datos

    extrados, se realiza un chequeo, el cual verifica si los datos cumplen la pauta o

    estructura que se esperaba. Si no es as son rechazados.

    Transformacin: luego de que la informacin fue extrada, se pueden realizardiferentes pasos de transformacin, como ser: limpieza de la informacin, botar

    a labasura lo que consideramos innecesario, seleccionar campos especficos que

    consideremos necesarios para el Data Warehouse, realizar combinacionesfuentes de datos, etc.

    Carga:al final del proceso de transformacin, los datos estn en forma para sercargados. Dependiendo de los requerimientos de la organizacin, este proceso

    puede abarcar una amplia variedad deacciones diferentes.

    Las formas ms bsicas para desarrollar el proceso de carga son dos:

    Acumulacin simple: consiste en realiza un resumen de todas las

    transacciones comprendida en el periodo de tiempo seleccionado y

    transportar el resultado como una nica transaccin hacia el Data

    Warehouse para su almacenamiento.

    Rolling: almacena informacin resumida a distintos niveles,

    correspondientes a distintas agrupaciones de la unidad de tiempo o

    diferentes niveles jerrquicos. (Casos de varios niveles de granularidad).

    http://www.monografias.com/trabajos11/sercli/sercli.shtmlhttp://www.monografias.com/trabajos15/medio-ambiente-venezuela/medio-ambiente-venezuela.shtmlhttp://www.monografias.com/trabajos11/teosis/teosis.shtmlhttp://www.monografias.com/trabajos11/recibas/recibas.shtmlhttp://www.monografias.com/trabajos4/acciones/acciones.shtmlhttp://www.monografias.com/trabajos4/acciones/acciones.shtmlhttp://www.monografias.com/trabajos11/recibas/recibas.shtmlhttp://www.monografias.com/trabajos11/teosis/teosis.shtmlhttp://www.monografias.com/trabajos15/medio-ambiente-venezuela/medio-ambiente-venezuela.shtmlhttp://www.monografias.com/trabajos11/sercli/sercli.shtml
  • 7/24/2019 Business Intelligence - KIMBALL

    10/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 10

    CAPITULO II: Metodologa Kimball.

    2. Metodologa Ralph Kimball

    La metodologa se basa en lo que Kimball denomina Ciclo de Vida Dimensional delNegocio (Business Dimensional Lifecycle) (Kimball et al 98, 08, Mundy & Thornthwaite

    06). Este ciclo de vida del proyecto de DW, est basado en cuatro principios bsicos:

    Centrarse en el negocio: Hay que concentrarse en la identificacin de losrequerimientos del negocio y su valor asociado, y usar estos esfuerzos para

    desarrollar relaciones slidas con el negocio, agudizando el anlisis del mismo y

    la competencia consultiva de los implementadores.

    Construir una infraestructura de informacin adecuada:Disear una base de

    informacin nica, integrada, fcil de usar, de alto rendimiento donde sereflejar la amplia gama de requerimientos de negocio identificados en la

    empresa.

    Realizar entregas en incrementos significativos:crear el almacn de datos (DW)en incrementos entregables en plazos de 6 a 12 meses. Hay que usa el valor de

    negocio de cada elemento identificado para determinar el orden de aplicacin

    de los incrementos. En esto la metodologa se parece a las metodologas giles

    de construccin de software.

    Ofrecer la solucin completa:proporcionar todos los elementos necesarios paraentregar valor a los usuarios de negocios.

    Para comenzar, esto significa tener un almacn de datos slido, bien diseado,

    con calidad probada, y accesible. Tambin se deber entregar herramientas de

    consulta ad hoc, aplicaciones para informes y anlisis avanzado, capacitacin,

    soporte, sitio web y documentacin.

    La metodologa de Kimball, llamada Modelo Dimensional (Dimensional Modeling), se

    basa en lo que se denomina Ciclo de Vida Dimensional del Negocio (Business

    Dimensional Lifecycle). Esta metodologa es considerada una de las tcnicas favoritas ala hora de construir un Data Warehouse.

    En el Modelo Dimensional se constituyen modelos de tablas y relaciones con el

    propsito de optimizar la toma de decisiones.

    El Modelo Dimensional es una tcnica de diseo lgico que tiene como objetivo

    presentar los datos dentro de un marco de trabajo estndar e intuitivo, para permitir su

    acceso con un alto rendimiento.

    Cada Modelo Dimensional est compuesta por una tabla con una llave combinada,

    llamada tabla de hechos, y con un conjunto de tablas ms pequeas llamadas tablas dedimensiones.

  • 7/24/2019 Business Intelligence - KIMBALL

    11/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 11

    Los elementos de estas tablas se pueden definir de la siguiente manera:

    Hechos: es una coleccin de piezas de datos y datos de contexto. Cada hecho

    representa una parte del negocio, una transaccin o un evento.

    Dimensiones: es una coleccin de miembros, unidades o individuos del mismo

    tipo.

    Medidas: son atributos numricos de un hecho que representan el

    comportamiento del negocio relativo a una dimensin.

    La construccin de una solucin de DW/BI (Datawarehouse/Business Intelligence) es

    sumamente compleja, y Kimball nos propone una metodologa que nos ayuda a

    simplificar esa complejidad. Las tareas de esta metodologa (ciclo de vida) se muestran

    en la figura 1.

    La metodologa se basa en lo que Kimball denomina Ciclo de Vida Dimensional del

    Negocio (Business Dimensional Lifecycle) (Kimball et al 98, 08, Mundy & Thornthwaite

    06). Este ciclo de vida del proyecto de DW, est basado en cuatro principios bsicos:

    Tecnologa (Camino Superior). Implica tareas relacionadas con softwareespecfico, por ejemplo, Microsoft SQL Analysis Services.

    Datos (Camino del medio). En la misma disearemos e implementaremos elmodelo dimensional, y desarrollaremos el subsistema de Extraccin,

    Transformacin y Carga (Extract, Transformation, and Load - ETL) para cargar el

    DW.

    Aplicaciones de Inteligencia de Negocios (Camino Inferior). En esta ruta seencuentran tareas en las que diseamos y desarrollamos las aplicaciones de

    negocios para los usuarios finales.

    Estas rutas se combinan cuando se instala finalmente el sistema.

    La metodologa propuesta por Kimball, est compuesta por las siguientes fases:

  • 7/24/2019 Business Intelligence - KIMBALL

    12/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 12

    2.1. Planificacin

    En este proceso se determina el propsito del proyecto de DW/BI, sus objetivos

    especficos y el alcance del mismo, los principales riesgos y una aproximacin

    inicial a las necesidades de informacin.

    En la visin de programas y proyectos de Kimball, Proyecto, se refiere a una

    iteracin simple del KLC (Kimball Life Cycle), desde el lanzamiento hasta el

    despliegue.

    Esta tarea incluye las siguientes acciones tpicas de un plan de proyecto:

    Definir el alcance (entender los requerimientos del negocio).

    Identificar las tareas

    Programar las tareas

    Planificar el uso de los recursos.

    Asignar la carga de trabajo a los recursos

    Elaboracin de un documento final que representa un plan del proyecto.

    Adems en esta parte definimos cmo realizar la administracin o gestin de

    esta subfase que es todo un proyecto en s mismo, con las siguientes actividades:

    Monitoreo del estado de los procesos y actividades.

    Rastreo de problemas

    Desarrollo de un plan de comunicacin comprensiva que direccione la

    empresa y las reas de TI.

    2.2. Anlisis de Requerimientos

    La definicin de los requerimientos es en gran medida un proceso de entrevistar

    al personal de negocio y tcnico, pero siempre conviene tener un poco de

    preparacin previa. Se debe aprender tanto como se pueda sobre el negocio, los

    competidores, la industria y los clientes del mismo. Hay que leer todos los

    informes posibles de la organizacin; rastrear los documentos de estrategia

    interna; entrevistar a los empleados, analizar lo que se dice en la prensa acerca

    de la organizacin, la competencia y la industria. Se deben conocer los trminosy la terminologa del negocio.

    Parte del proceso de preparacin es averiguar a quin se debe realmente

    entrevistar. Esto normalmente implica examinar cuidadosamente el

    organigrama de la organizacin. Hay bsicamente cuatro grupos de personas con

    las que hablar desde el principio: el directivo responsable de tomar las decisiones

    estratgicas; los administradores intermedios y de negocio responsables de

    explorar alternativas estratgicas y aplicar decisiones; personal de sistemas, si

    existen, la gente que realmente sabe qu tipos de problemas informticos y de

    datos existen; y por ltimo, la gente que se necesita entrevistar por razonespolticas.

  • 7/24/2019 Business Intelligence - KIMBALL

    13/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 13

    A partir de las entrevistas, podemos identificar temas analticos y procesos de

    negocio. Los temas analticos agrupan requerimientos comunes en un tema

    comn (ver tabla 1).

    Tabla 1: Temas Analticos

    Tema Analtico Anlisis oRequerimiento

    inferido o pedido

    Proceso delnegocio del

    soporte

    Comentarios

    Planificacin de

    ventas

    Anlisis histrico

    de rdenes de

    revendedores

    Ordenes de

    compras

    Por cliente, por

    pas, por regin

    de ventas

    Proyeccin de

    ventas

    Ordenes de

    compras

    La proyeccin es

    un progreso de

    negocio que usa

    las ordenes

    como entrada

    Por otra parte, a partir del anlisis se puede construir una herramienta de la

    metodologa denominada matriz de procesos/dimensiones (Bus Matrix en

    ingls).

    Una dimensin es una forma o vista o criterio por medio de cual se pueden

    sumariar, cruzar o cortar datos numricos a analizar, datos que se denominan

    medidas (measures en ingls).

    Esta matriz tiene en sus filas los procesos de negocio identificados, y en lascolumnas, las dimensiones identificadas.

    Un ejemplo de esta matriz se puede observar en la tabla 2. Cada X en la

    interseccin de las filas y columnas significa que en el proceso de negocio de la

    fila seleccionada se identifican las dimensiones propuestas.

    Tabla 2: Matriz de procesos/dimensiones (Bus Matrix).

    Dimensin

    Proceso deNegocio

    Tiempo Producto Empleados Clientes(Revendedores)

    Geografade

    ventas

    Importes

    Proyeccin de

    Ventas

    X X X X X X

    Compras X X X X X X

    Control de

    llamadas

    X X X X X X

    Finalmente se busca priorizar los requerimientos o procesos de negocios ms

    crticos.

  • 7/24/2019 Business Intelligence - KIMBALL

    14/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 14

    2.3. Modelado dimensional

    La creacin de un modelo dimensional es un proceso dinmico y altamente

    iterativo. Un esquema general se puede ver en la figura 2.

    Fig. 2: Diagrama de flujo del proceso dimensional de Kimball

    El proceso de diseo comienza con un modelo dimensional de alto nivel obtenido

    a partir de los procesos priorizados de la matriz descrita en el punto anterior.

    El proceso iterativo consiste en cuatro pasos:

    1. Elegir el proceso de negocio.

    2. Establecer el nivel de granularidad.

    3. Elegir las dimensiones.

    4. Identificar medidas y las tablas de hechos.

  • 7/24/2019 Business Intelligence - KIMBALL

    15/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 15

    2 3 1 Elegir el proceso de negocio:

    El primer paso es elegir el rea a modelizar. Esta es una decisin de la

    direccin, y depende fundamentalmente del anlisis derequerimientos y de

    los temas analticos anotados en la etapa anterior.

    2 3 2 Establecer el nivel de granularidad:

    La granularidad significa especificar el nivel de detalle. La eleccin de la

    granularidad depende de los requerimientos del negocio y lo que es posible

    a partir de los datos actuales. La sugerencia general es comenzar a disear

    el DW al mayor nivel de detalle posible, ya que se podra luego realizar

    agrupamientos al nivel deseado. En caso contrario no sera posible abrir

    (drill-down) las sumarizaciones en caso de que el nivel de detalle no lo

    permita.

    2 3 3 Elegir las dimensiones:

    Las dimensiones surgen naturalmente de las discusiones del equipo, y

    facilitadas por la eleccin del nivel de granularidad y de la matriz de

    procesos/dimensiones. Las tablas de dimensiones tienen un conjunto de

    atributos (generalmente textuales) que brindan una perspectiva o forma de

    anlisis sobre una medida en una tabla hechos.

    Una forma de identificar las tablas de dimensiones es que sus atributos son

    posibles candidatos para ser encabezado en los informes, tablas pivot,

    cubos, o cualquier forma de visualizacin, unidimensional o

    multidimensional.

    2 3 4 Identificar las tablas de hechos y medidas:

    El ltimo paso consiste en identificar las medidas que surgen de los procesos

    de negocios. Una medida es un atributo (campo) de una tabla que se desea

    analizar, sumarizando o agrupando sus datos, usando los criterios de corteconocidos como dimensiones.

    Las medidas habitualmente se vinculan con el nivel de granularidad del

    punto 2.3.2., y se encuentran en tablas que denominamos tablas de hechos

    (fact en ingls). Cada tabla de hechos tiene como atributos una o ms

    medidas de un proceso organizacional, de acuerdo a los requerimientos. Un

    registro contiene una medida expresada en nmeros, como ser cantidad,

    tiempo, dinero, etc., sobre la cual se desea realizar una operacin de

    agregacin (promedio, conteo, suma, etc.) en funcin de una o ms

    dimensiones. La granularidad es el nivel de detalle que posee cada registrode una tabla de hechos.

  • 7/24/2019 Business Intelligence - KIMBALL

    16/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 16

    2 3 5 Modelo grfico de alto nivel:

    Para concluir con el proceso dimensional inicial se realiza un grfico

    denominado modelo dimensional de alto nivel (o grfico deburbujas, Bubble

    chart, en el lxico de Kimball), como ilustra la figura 3.

    Ejemplo de Modelo final de alto nivel de la sesin inicial de diseo

    2 3 6 Identificacin de atributos de dimensiones y tablas de hechos

    La segunda parte de la sesin inicial de diseo consiste en completar cada

    tabla con una lista de atributos bien formada. Una lista de este tipo se

    muestra en la figura 4. Esta lista o grilla se forma colocando en las filas los

    atributos de la tabla, y en las columnas la siguiente informacin:

    Caractersticas relacionadas con la futura tabla dimensional delalmacn de datos (target), por ejemplo tipo de datos, si es clave

    primaria, valores de ejemplo, etc. Por razones de espacio no

    describiremos todas las columnas, para mayor informacin puede

    consultarse la referencia

    El origen de los datos (source, por lo general atributos de las tablas

    transaccionales).

    Reglas de conversin, transformacin y carga (ETL rules), que nos dicen

    como transformar los datos de las tablas de origen a las del almacn

    de datos.

    2 3 7 Implementar el modelo dimensional detallado:

  • 7/24/2019 Business Intelligence - KIMBALL

    17/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 17

    Este proceso consiste simplemente en completar la informacin

    incompleta de los pasos anteriores. El objetivo en general es identificar

    todos los atributos tiles y sus ubicaciones, definiciones y reglas de

    negocios asociadas que especifican cmo se cargan estos datos. Para este

    cometido se usa la misma planilla del punto anterior.

    2 3 8 Prueba del modelo:

    Si el modelo ya est estable, lo que se hace habitualmente es probarlo

    contra los requerimientos del negocio. Haciendo la pregunta prctica de

    Cmo podemos obtener esta informacin en particular del modelo? Para

    las pruebas podemos usar diseos de reportes estructurados, de usuarios

    actuales, diseos de cubos prospectivos,etc.

    2 3 9 Revisin y validacin del modelo

    Un vez que tenemos confianza plena en el modelo, ingresamos en esta

    etapa final (ver figura 2), lo cual implica revisar el modelo con diferentes

    audiencias, cada una con diferentes conocimientos tcnicos y del negocio.

    En el rea de sistemas deberan revisarlo losprogramadores y analistas de

    los sistemas, y el DBA si existe. Tambin debera revisarse con usuarios y

    personas del negocio que tenganmucho conocimiento de los procesos y

    que quizs no hayan participado del diseo del modelo. Finalmente

    podemos hacer un documento que enuncie una serie de preguntas del

    negocio (tomadas a partir de losrequerimientos), y las conteste por medio

    del modelo.

    2 4 0 Documentos finales

    El producto final, como se puede ver en la Figura 2, son una serie de

    documentos (solo mencionamos los ms importantes), a saber:

    Modelo de datos inicial de alto nivel

    Lista de atributos Diagrama de tablas de hechos

    Definicin de campos de medida

    Diagrama de tablas de dimensiones

    Descripcin de los atributos de las dimensiones

    Matriz DW (o DW Bus Matrix) completa

    2.4. Diseo Fsico

    Se centra en la seleccin de las estructuras necesarias para soportar el diseolgico. Un elemento principal de este proceso es la definicin de estndares del

  • 7/24/2019 Business Intelligence - KIMBALL

    18/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 18

    entorno de la base de datos. La indexacin y las estrategias de particionamiento

    se determinan en esta etapa.

    En esta parte, intentamos contestar las siguientes preguntas:

    Cmo puede determinar cun grande ser el sistema de DW/BI?

    Cules son los factores de uso que llevarn a una configuracin ms

    grande y ms compleja?

    Cmo se debe configurar el sistema?

    Cunta memoria y servidores se necesitan? Qu tipo de

    almacenamiento y procesadores?

    Cmo instalar el software en los servidores de desarrollo, prueba y

    produccin?

    Qu necesitan instalar los diferentes miembros del equipo de DW/BI en

    sus estaciones de trabajo?

    Cmo convertir el modelo de datos lgico en un modelo de datos fsicos

    en la base de datos relacional?

    Cmo conseguir un plan de indexacin inicial?

    Debe usarse la particin en las tablas relacionales?

    2.5. Diseo del sistema de Extraccin, Transformacin y Carga ETL).

    El sistema de Extraccin, Transformacin y Carga (ETL) es la base sobre la cual se

    alimenta el Datawarehouse. Si el sistema ETL se disea adecuadamente, puede

    extraer los datos de los sistemas de origen de datos, aplicar diferentes reglaspara aumentar la calidad y consistencia de los mismos, consolidar la informacin

    proveniente de distintos sistemas, y finalmente cargar (grabar) la informacin en

    el DW en un formato acorde para la utilizacin por parte de las herramientas de

    anlisis.

    2.6. Especificacin y desarrollo de aplicaciones de BI

    Una parte fundamental de todo proyecto de DW/BI est en proporcionarles a

    una gran comunidad de usuarios una forma ms estructurada y por lo tanto, ms

    fcil, de acceder al almacn de datos.

    Proporcionamos este acceso estructurado a travs de lo que llamamos

    aplicaciones de inteligencia de negocios (Business IntelligenceAplications).

    Las aplicaciones de BI son la cara visible de la inteligencia de negocios: los

    informes y aplicaciones de anlisis proporcionan informacin til a los usuarios.

    Las aplicaciones de BI incluyen un amplio espectro de tipos de informes y

    herramientas de anlisis, que van desde informes simples de formato fijo a

    sofisticadas aplicaciones analticas que usan complejos algoritmos e informacin

    del dominio. Kimball divide a estas aplicaciones en dos categoras basadas en el

    nivel de sofisticacin, y les llama informes estndar y aplicaciones analticas.

  • 7/24/2019 Business Intelligence - KIMBALL

    19/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 19

    2.7. Diseo y Desarrollo de la presentacin de datos:

    Tiene como principales actividades la extraccin, transformacin y carga (ETL).

    Estas actividades son altamente crticas ya que tienen que ver con la materia

    prima del Data Warehouse que son los datos.

    2.8. Diseo de la arquitectura tcnica:

    En esta fase se deben tener en cuenta tres factores: los requerimientos de negocio, los

    actuales entornos tcnicos, y las directrices tcnicas y estratgicas futuras planificadas

    por la compaa, lo que permitir establecer el diseo de la arquitectura tcnica del

    entorno del Data Warehouse.

    El proceso de diseo de la arquitectura tcnica est compuesto de 8 pasos:

    1. Establecer un grupo de trabajo de arquitectura.

    2. Requisitos relacionados con la arquitectura.

    3. Documento de requisitos arquitectnicos.

    4. Desarrollo de un modelo arquitectnico de alto nivel.

    5. Diseo y especificacin de los subsistemas.

    6. Determinar las fases de aplicacin de la arquitectura.

    7. Documento de la arquitectura tcnica.

    8. Revisar y finalizar la arquitectura tcnica.

  • 7/24/2019 Business Intelligence - KIMBALL

    20/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 20

    CONCLUSIONES

    Unalmacn de datos (Data Warehouse) es una coleccin de datos orientada a

    un determinado mbito (empresa, organizacin, etc.), integrado, no voltil y

    variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que

    se utiliza.

    Laarquitectura de un Data Warehouse se la utiliza para representar cual es la

    estructura final de los datos, la forma en que se comunican esos datos, su

    procesamiento y presentacin.

    Los procesos bsicos del Data Warehouse son Extraccin, transformacin y

    carga.

    La metodologa de Kimball proporciona una base emprica y metodolgica

    adecuada para las implementaciones de almacenes de datos pequeos y

    medianos, dada su gran versatilidad y su enfoque ascendente, que permiteconstruir los almacenes en forma escalonada. Adems presenta una serie de

    herramientas, tales como planillas, grficos y documentos, que proporcionan

    una gran ayuda para iniciarse en el mbito de la construccin de un

    Datawarehouse.

    http://www.monografias.com/trabajos12/alma/alma.shtmlhttp://www.monografias.com/trabajos6/napro/napro.shtmlhttp://www.monografias.com/trabajos6/arma/arma.shtmlhttp://www.monografias.com/trabajos6/arma/arma.shtmlhttp://www.monografias.com/trabajos6/napro/napro.shtmlhttp://www.monografias.com/trabajos12/alma/alma.shtml
  • 7/24/2019 Business Intelligence - KIMBALL

    21/22

    Business Intelligence Metodologa Ralph Kimball

    Jaime Albert Armas Rodrguez 21

    RECOMENDACIONES

    Para la implementacin de un sistema Datawarehouse se recomienda lo siguiente:

    Seguir una metodologa probada Comprender con mucha claridad los requerimientos del negocio.

    Disear una arquitectura que responda los procesos del negocio a los volmenes de

    datos y a la infraestructura de TI.

  • 7/24/2019 Business Intelligence - KIMBALL

    22/22

    Business Intelligence Metodologa Ralph Kimball

    BIBLIOGRAFIA

    Ralph Kimball, The Datawarehouse Lifecycle Toolkit, 2ndEdition, New York, wiley,

    2008.

    Paginas Sugeridas:

    http://addkw.com

    www.ucasal.edu.ar

    http://addkw.com/http://addkw.com/http://www.ucasal.edu.ar/http://www.ucasal.edu.ar/http://www.ucasal.edu.ar/http://addkw.com/