Post on 02-Mar-2016
Metodologas para el Data WareHousingMg. Samuel Oporto Daz
Mapa del Curso
Tabla de ContenidoAntecedentesMetodologa KimballPlanificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento
ObjetivosPresentar los enfoques para el desarrollo de DWHPresentar la metodologa de Kimball
ANTECEDENTES
Metodologas OLAP / OLTPDWH no es solamente crear un conjunto de reportes que corren peridicamente.Se trata de preguntas que hay que alcanzar y que puede llevar a lugares imprevistos.
Sistemas de InformacinData WarehouseLos procesos a automatizar son repetibles y previsibles.Modelado Entidad Relacin.Atencin en una rpida modificacin en lnea de los datos.El uso de los datos es exploratorio y menos predictible.Modelado multidimensional.Enfocado en la carga y la presentacin de los datos
Conceptos ClaveDatamart. Repositorio de datos especifico.Diseado para responder las preguntas especficas.Diseado para servir las necesidades de unidades de negocio (ventas, comercializacin, operaciones, contabilidad, etc.)Es construido usando modelado dimensional
Data warehouse. Repositorio de datos organizacional Almacena datos de toda la empresa y de todas las reas.Es una coleccin empresarial de datamarts.Contiene data masiva e integrada
Inteligencia de Negocios.Reportes y anlisis de datos almacenadas en el DWHData warehouse/business intelligence (DW/BI) se refiere al sistema completo de extremo a extremo.
Metodologas para el DWH
Top-DownBottom-UpHybridFederatedProfesionalBill InmonRodolfo KimballMuchos profesionalesDoug HackneynfasisDWHDataMartsDWH y DataMartsIntegrado a entornos BI heterogneosDiseoModelo normalizado basado en la empresaEl modelo dimensional de datamarts, usa esquema de estrellaModelos locales y uno o mas esquemas de estrellaUna arquitectura de arquitecturas; comparte dimensiones, hechos, reglas, definiciones a travs de la organizacinArquitecturaCompuesto de varios niveles de reas de inters y datamarts dependientesrea de inters y datamartsModelo empresarial normalizado de alto nivel;datamarts inciales.Realidad del cambio en organizaciones y sistemasData setDWH datos a nivel atmico;datamarts datos sumarizadosContiene datos atmicos y sumarizadosCarga datamarts con datos atmicos y sumarizados va un rea de inters no persistenteUso de cualquiera significado posible para integrar las necesidades de negocio
Historia de DWHInmon.1990Publica Building the Data WarehouseMejora su libro y define una arquitectura como una coleccin de fuentes dispares en almacenes de datos detalles y variantes en el tiempo.
Kimball1996Publica The Data Warehouse Toolkit2002Mejora su libro y define multiples bases de datos llamados datamarts que son organizados por procesos de negocio, pero usan medios de datos estandarizados para la empresa.Top-DownBotton-Up
Enfoques acerca del DWHBill Inmon Normalizado.Building the Data WarehouseCorporate Information Factory
Ralph Kimball -> Dimensional.The Data Warehouse Lifecycle ToolkitThe Data Warehouse Toolkit
Enfoques acerca del DWHBill Inmon Top-DownEl DWH usa modelo de datos de toda la empresaEl DWH es un depsito de datamartsMs tiempo para implementar.Fracasos por falta de paciencia y de compromiso
Ralph Kimball -> Bottom-UpInicia con un datamart, luego otros datamarts.El flujo de datos:fuente datamart datamart DWHRpido de implementar, por etapasNecesita asegurar:La consistencia de la metadata.Estar seguro que cada cosa es llamado por su nombre.
ENFOQUE INMON
El modelo InmonConsiste de todas las bases y sistemas de informacin de una organizacinModelo CIF (Corporate Information Factory)Fabrica de Informacin corporativa.
Define el medio ambiente de las bases de datos como:OperacionalDWH atmicoDepartamentalIndividual
El DH es parte de un todo ms grande (CIF)
Modelado InmonTres niveles en el modelado de los datosEntidad RelacinRelaciones entre entidades, atributos y relaciones
Modelo MID-Level (MID-Level Model o *DIS*)Conjunto de items de datosConjunto de datos por departamentoCuatro construcciones:Agrupamiento de datos primariosAgrupamiento de datos secundariosConectoresDatos de Tipo de
Modelo de datos fsicoOptimizado para mejor rendimiento (de-normalizado
Modelado InmonRelacin entre los niveles Uno y Dos del modelo de datos de Inmon
ENFOQUE KIMBALL
Enfoque KimballEl modelo dimensional se inicia con tablas:De hechos De dimensionesLos hechos contienen metricasLas dimensiones contienen atributosPuede contener grupos de datos repetidosLos datos no estn normalizadosAccesible al usuario final
El ciclo de vida Kimball
El ciclo de vida KimballIlustra el flujo general de implementacin de un DWH.
Identifica secuencia de tareas ordenadas y actividades principales que debe suceder concurrentemente.
Muchas necesidades deben ser acomodadas para lograr nica necesidad de la organizacin.
No todos los detalles de las tareas del ciclo de vida deben ser ejecutados en todos los proyectos.
Ciclos de vida KLC, SDLC, y DBLCKimball LifeCycleSystem Development Life CycleData Base Life Cycle
Ciclo de VidaPlanificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento
Planificacin del programa/proyectoVisin de programas y proyectos de KimballProyecto, se refiere a una iteracin simple del KLC Desde el lanzamiento hasta el despliegue.
Programa, se refiere a la amplia coordinacin progresiva de recursos, infraestructura, tiempos y comunicacin a travs de mltiples proyectos Un programa contiene proyectos mltiples
En la realidad los programas no necesariamente inician antes del proyecto, aunque debera ser as.
Planificacin del programa/proyectoPlanificacin de proyecto.Definir el alcance Entender los requerimientos del negocio.Identificar tareasProgramacin de tareasPlanificar el uso de los recursos.Asignar la carga de trabajo a los recursosEl documento final representa un plan del proyecto.
Administracin del programa/proyectoRefuerza el plan del proyecto.
Actividades:Monitoreo del estado de los procesos y actividades.Rastreo de problemasDesarrollo de un plan de comunicacin comprensiva que direccione la empresa y las reas de TI
Lnea de desarrolloLuego de definir los requerimientos del negocio, enfocar el proyecto a tres lneas (tracks) concurrentes:TecnologaDatosAplicaciones de BIEl flujo de actividad de las lneas, se indican por las flechasLa dependencia entre tareas se indican por el alineamiento vertical de las tareas
Ejercicio 1Identifique roles para el equipo de desarrollo de un DWH
Ejercicio 1Identifique roles para el equipo de desarrollo de un DWH
Front Office: Sponsor y Directores
Ejecutivos: Jefe de Proyecto, Lder Proyecto del Negocio.
Lnea regular: Equipo de proyecto principal.Analista del sistema de negocioModelador de datosDBADiseador ETL
Desarrollador de aplicaciones para el usuario final.
Equipos especiales: Seguridad, Calidad
Ejercicio 1
Ejercicio 2Identifique los recursos necesarios para el desarrollo del proyecto.
Ejercicio 2Identifique los recursos necesarios para el desarrollo del proyecto.
Los recursos pueden ser:HumanosEquipamientoServicios de tercerosTiempo
Ciclo de VidaPlanificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento
Definicin de requerimientos del negocioEl xito del proyecto depende de una comprensin slida de las necesidades de negocio.
Comprender los factores claves que dirigen el negocio es crucial para traducir exitosamente las necesidades de negocio en las consideraciones de diseo
Requerimientos del NegocioRequerimientos de uso de informacinTipo de informacin que las personas necesitan.Tipo de anlisis.
Requerimiento de datosFuente de datosCalidad de datos y limpieza de datosAlmacenamiento de datosCarga de datos
Proceso de definicin de requerimientos
Bus MatrixRelaciona los procesos organizacionales a las entidades u objetos que participan en el proceso.Cada fila es un proceso y cada columna una dimensin
Priorizacin de Procesos
Recoleccin de RequerimientosQuin va ha ir a recoger los requerimientos?.
Los usuarios pueden ser clasificados como:Ejecutivos SeniorAdministradores de departamentos claveAnalistas de negocioDBA de sistemas operacionalesPersonal de TI
Los ejecutivos senior le darn un sentido de direccin y alcance para su almacn de los datos.
Ciclo de VidaPlanificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento
Diseo de la arquitectura tecnolgicaMarco arquitectural completo del proyecto
Consideraciones a tomarse en cuenta:Las necesidades de negocioMedio ambiente tecnolgico actualDireccin tcnica estratgica planeada.
Seleccin de producto e instalacinBasado en la arquitectura tcnica diseada.
Evaluacin y seleccin dePlataforma de hardwareDBMS (base de datos)Herramienta ETLHerramientas de consultas (query tools)Herramienta de reportes.
Instalacin de productos/componentes/herramientas.
Prueba de productos instalados para garantizar la integracin de extremo a extremo con el entorno del DWH.
Ciclo de VidaPlanificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento
Lnea de datosDiseo del modelo dimensionalDiseo del modelo fsico ETL
Modelado dimensionalAnlisis de los datos de un proceso de negocio para:identificar la granularidad de las tablas de hechosdimensiones y atributos asociadoshechos numricos.
Contiene los mismos datos y relaciones que un modelo normalizado en la 3FN, pero estructurado de manera diferente.
Mejora el entendimiento y desempeo de consultas al DW
Las construcciones primarias son:Tablas de hechosTablas de dimensiones
Modelado dimensional tabla de hechosContiene mtricas derivadas de un proceso de negocio o un evento.Ventas, contabilidad, logstica, etc.
El MD debe ser estructurado alrededor de un proceso del negocio
Se disea vistas similares y consistentes de los datos para toda la organizacin.
La granularidad de la tabla de hechos, debe ser el ms atmico posibleEsto permite mayor flexibilidad y extensibilidad.
Modelado dimensional tabla de dimensionesContiene la descripcin de atributos y caractersticas asociadas con medidas de eventos tangibles y especficos, tales como clientes, productos, representantes de ventas.
Los atributos de dimensin son usados por limitar, agrupar, o rotular una pregunta.
Las relaciones jerarquicas N:1 son denormalizadas en tablas de dimensin simples.
Esquema de estrellaUna tabla de hechosVarias tablas de dimensiones.Ejemplo:Asuma este esquema para una cadena de venta al por menor.El hecho puede ser el ingreso de dinero.
Esquema de copo de nieveEs una variacin del esquema de estrella.Es un esquema ms complejo que el esquema de estrella porque las tablas que describen las dimensiones estn normalizadas.
Esquema de copo de nieveDesventajas:Las tablas de hecho ocupan +90% del almacenamiento, (el beneficio es poco).Normalizar las tablas de dimensin pueda deteriorar la ejecucin de un DWH.
Ventajas:Es apropiado si se presenta alguna de las siguientes condiciones:Una dimensin es esparcidaUna dimensin tiene una lista muy larga de atributos
En la prctica, muchos DWH normalizarn algunas dimensiones y otros no (usan una combinacin de copo de nieve y de estrella)
Diseo fsicoPreparando el entorno de base de datos.
Preparando la seguridad apropiada.
Estrategia preliminar de afinamiento (tuning) de indexacin y agregacin.
Si son apropiadas las bases de datos OLAP que se disean durante este proceso.
ETL Diseo y desarrolloEs la fase ms importante.Corresponde al 70% del riesgo y esfuerzo de un proyecto de DWH.Capacidades de sistema ETL:ExtraccinLimpieza y conformidadEntrega y administracin
ETLLos datos en bruto son extrados de los sistemas operacionales y transformados en informacin significativa para el negocio
Los procesos ETL deben diseados mucho antes que cualquier datos sea extrada de la fuente
Se verifica la calidad de los datos de entrada.Las condiciones de calidad de datos se controlan continuamente
Ciclo de VidaPlanificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento
Aplicacin del BIAplicaciones que consultan, analizan y presentan informacin desde el modelo dimensional.
Las aplicaciones BI entregan valor al negocio desde la solucin DW/BI.
La meta es entregar capacidades al negocio para soportar y mejorar la toma de decisiones.Diseo de Aplicaciones BI.Desarrollo de aplicaciones BI.
Aplicacin del BIDiseo de Aplicaciones BI.Identifica las aplicaciones de BI candidatas y interfaces de navegacin apropiadasOrienta las necesidades de los usuarios.Produce la especificacin de las aplicaciones BI
Desarrollo de aplicaciones BI.Configuracin de la metadata del negocio y de la infraestructura de herramientas.Construccin y validacin de aplicaciones BI analticas y operacionales y un portal de navegacin.
Ciclo de VidaPlanificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento
DespliegueSi la planificacin se ha ejecutado se puede asegurar:Los resultados de las lneas de tecnologa, datos y aplicacin del BI.Disponibilidad de la infraestructura de capacitacin y apoyo.
El despliegue debe ser bien sincronizado.
El despliegue debe ser aplazado si todas las piezas, tales como entrenamiento, documentacin, y validacin de datos, no estn listos para la liberacin de produccin.
MantenimientoCuando el sistema esta en produccinIncluye:Tareas tcnico operacionales que son necesarias para mantener el sistema operando ptimamente.Monitorio del uso.Tuning del desempeo.Mantenimiento de la tabla de ndices.Backup del sistema.Apoyo permanente, capacitacin y comunicacin con los usuarios finales
CrecimientoLos DWH tienden a expandirse (si son exitosos)
Es considerado como un signo de xito.
Nuevos requerimientos deben ser priorizados.
Empezar el ciclo de nuevoConstruir sobre las bases ya establecidas.Enfoque en los nuevos requerimientos
PREGUNTAS
*