Data Warehouse

41
Ing. Johny Pretell C. Lima, Semestre 2014-1 CARRERA DE INGENIERIA DE SISTEMAS

description

Data Warehouse

Transcript of Data Warehouse

  • Ing. Johny Pretell C.

    Lima, Semestre 2014-1

    CARRERA DE INGENIERIA DE SISTEMAS

  • CARRERA DE INGENIERA DE SISTEMAS 2

    01. Metodologas para el DWH

    02. Data Warehouse.- Conceptos

    03. Mapa del Proceso BI

    04. Data Marts.- Construccin

    05. Tcnica Multidimensional

    Agenda

  • Metodologas OLAP / OLTP

    Sistemas de Informacin Data Warehouse

    Los procesos a automatizar sonrepetibles y previsibles.

    Modelado Entidad Relacin. Atencin en una rpida

    modificacin en lnea de los

    datos.

    El uso de los datos es exploratorio y menos predictible.

    Modelado multidimensional. Enfocado en la carga y la

    presentacin de los datos

    DWH no es solamente crear un conjunto de reportes que corren peridicamente.

    Se trata de preguntas que hay que alcanzar y que puede llevar a lugares imprevistos.

  • Conceptos Clave

    Datamart. Repositorio de datos especifico. Diseado para responder las preguntas especficas. Diseado para servir las necesidades de unidades de negocio

    (ventas, comercializacin, operaciones, contabilidad, etc.)

    Es construido usando modelado dimensional

    Data warehouse. Repositorio de datos organizacional Almacena datos de toda la empresa y de todas las reas. Es una coleccin empresarial de datamarts. Contiene data masiva e integrada

    Inteligencia de Negocios. Reportes y anlisis de datos almacenadas en el DWH Data warehouse/business intelligence (DW/BI) se refiere al sistema

    completo de extremo a extremo.

  • Metodologas para el DWH

    Top-Down Bottom-Up Hybrid Federated

    Profesional Bill Inmon Rodolfo Kimball Muchos profesionales Doug Hackney

    nfasis DWH DataMarts DWH y DataMarts Integrado a entornos BI heterogneos

    Diseo Modelo normalizado basado en la empresa

    El modelo dimensional de datamarts, usa esquema de estrella

    Modelos locales y uno o mas esquemas de estrella

    Una arquitectura de arquitecturas; comparte dimensiones, hechos, reglas, definiciones a travs de la organizacin

    Arquitectura Compuesto de varios niveles de reas de inters y datamarts dependientes

    rea de inters y datamarts

    Modelo empresarial normalizado de alto nivel;datamarts inciales.

    Realidad del cambio en organizaciones y sistemas

    Data set DWH datos a nivel atmico;datamarts datos sumarizados

    Contiene datos atmicos y sumarizados

    Carga datamarts con datos atmicos y sumarizados va un rea de inters no persistente

    Uso de cualquiera significado posible para integrar las necesidades de negocio

  • Historia de DWH

    Inmon.

    1990 Publica Building the Data Warehouse

    2002 Mejora su libro y define una arquitectura como

    una coleccin de fuentes dispares en

    almacenes de datos detalles y variantes en el

    tiempo.

    Kimball

    1996 Publica The Data Warehouse Toolkit

    2002 Mejora su libro y define multiples bases de

    datos llamados datamarts que son

    organizados por procesos de negocio, pero

    usan medios de datos estandarizados para la

    empresa.

    Top-Down

    Botton-Up

  • Enfoques acerca del DWH

    Bill Inmon Normalizado. Building the Data Warehouse Corporate Information Factory

    Ralph Kimball -> Dimensional. The Data Warehouse Lifecycle Toolkit The Data Warehouse Toolkit

  • Enfoques acerca del DWH

    Bill Inmon Top-Down El DWH usa modelo de datos de toda la empresa El DWH es un depsito de datamarts Ms tiempo para implementar. Fracasos por falta de paciencia y de compromiso

    Ralph Kimball -> Bottom-Up Inicia con un datamart, luego otros datamarts. El flujo de datos: fuente datamart

    datamart DWH Rpido de implementar, por etapas Necesita asegurar:

    La consistencia de la metadata. Estar seguro que cada cosa es llamado por su nombre.

  • CARRERA DE INGENIERA DE SISTEMAS

    ENFOQUE INMON

  • El modelo Inmon

    Consiste de todas las bases y sistemas de informacin de una organizacin Modelo CIF (Corporate Information Factory) Fabrica de Informacin corporativa.

    Define el medio ambiente de las bases de datos como: Operacional DWH atmico Departamental Individual

    El DH es parte de un todo ms grande (CIF)

  • Modelado Inmon

    Tres niveles en el modelado de los datos

    Entidad Relacin Relaciones entre entidades, atributos y relaciones

    Modelo MID-Level (MID-Level Model o *DIS*) Conjunto de items de datos Conjunto de datos por departamento Cuatro construcciones:

    1. Agrupamiento de datos primarios

    2. Agrupamiento de datos secundarios

    3. Conectores

    4. Datos de Tipo de

    Modelo de datos fsico Optimizado para mejor rendimiento (de-normalizado

  • Modelado Inmon

    Relacin entre los niveles Uno y Dos del modelo de datos de Inmon

  • CARRERA DE INGENIERA DE SISTEMAS

    ENFOQUE KIMBALL

  • Enfoque Kimball

    El modelo dimensional se inicia con tablas: De hechos De dimensiones

    Los hechos contienen metricas Las dimensiones contienen atributos

    Puede contener grupos de datos repetidos

    Los datos no estn normalizados Accesible al usuario final

  • El ciclo de vida Kimball

  • El ciclo de vida Kimball

    Ilustra el flujo general de implementacin de un DWH.

    Identifica secuencia de tareas ordenadas y actividades principales que debe suceder concurrentemente.

    Muchas necesidades deben ser acomodadas para lograr nica necesidad de la organizacin.

    No todos los detalles de las tareas del ciclo de vida deben ser ejecutados en todos los proyectos.

  • Ciclos de vida KLC, SDLC, y DBLC

    DB Initial Study

    Ejecucin

    Operacin

    Mantenimiento

    DB Design

    Comprobacin

    Planificacin

    Anlisis

    Diseo del

    Sistema detallado

    Ejecucin

    Mantenimiento

    Kimball LifeCycle System Development Life Cycle Data Base Life Cycle

  • CARRERA DE INGENIERA DE SISTEMAS

    Metodologia

    Propuesta por

    Cognos

    (adaptacin de

    Kimball)

  • Ciclo de Vida

    Planificacin del proyecto Requerimientos del Negocio Lnea tecnolgica

    Arquitectura tecnolgica Seleccin e instalacin de productos

    Lnea de datos Modelo dimensional Modelo fsico ETL

    Lnea de aplicacin del BI Diseo del BI Desarrollo del BI

    Despliegue Despliegue Crecimiento Mantenimiento

  • CARRERA DE INGENIERA DE SISTEMAS

    Qu es Data Warehouse?

    Un almacn de datos analticos orientados a undeterminado mbito de la empresa (organizacin, rea,

    tema, etc.), integrado, no voltil y variable en el tiempo.

  • CARRERA DE INGENIERA DE SISTEMAS

    Data Warehouse y Data MartsDatos en

    un Entorno

    OLAP

    Data MartsData

    Warehouse

    Data desde

    Sistemas

    Operationales

    Presupuesto

    Produccion

    Contabilidad

    Data

    EmpresarialOLTP

    OLTP

    OLTP

    Ventas

  • CARRERA DE INGENIERA DE SISTEMAS

    ETL Extraer, transformar y cargar abreviado como ETL es el proceso

    que permite a las organizaciones mover datos desde mltiples

    fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de

    datos, data mart, o data warehouse para analizar, o en otro

    sistema operacional para apoyar un proceso de negocio.

    Los datos de los sistemas OLAP son obtenidos desde lossistemas OLTP.

    Este no es un proceso trivial, existen cientos de potencialesproblemas al momento de obtener los datos

  • CARRERA DE INGENIERA DE SISTEMAS

    Inteligencia

    de Negocios

    Metodologa

    Kimball

    Planeamiento

    del Proyecto

    Modelo

    del

    Negocio

    Modelado

    Dimensional

    Modelado

    FsicoETL

    Reportes

    Minera de

    Datos

    Mapa del Proceso para Implementar

    una Base de Datos Estratgica

    (DWH) para el Negocio

  • CARRERA DE INGENIERA DE SISTEMAS

    Ejemplo de una Arquitectura DWH

  • CARRERA DE INGENIERA DE SISTEMAS

    Datamart o Data Warehouse

    Tabla de hechos Tabla de Dimensiones

    Estructura del Datamart

  • CARRERA DE INGENIERA DE SISTEMAS

    Hechos Dimensiones

    Eventos que ocurren

    dinmicamente en el negocio de

    la empresa.

    Ejem. Admisin de alumnos.

    La tabla de hechos es la tabla

    primaria del modelo dimensional,

    y contiene los valores del negocio

    que se desea analizar lasmedidas - indicadores.

    Cada tabla de hechos contiene las

    claves externas, que se

    relacionan con sus respectivas

    tablas de dimensiones, y las

    columnas con los valores que

    sern analizados.

    Cada dimensin describe un

    aspecto del negocio y proporciona

    el acceso intuitivo y simple a

    datos.

    Cada dimensin se define por su

    clave primaria que sirve para

    mantener la integridad referencial

    en la tabla de hechos a la que se

    relaciona.

    Un cubo requiere que se defina al

    menos una dimensin en su

    esquema.

  • CARRERA DE INGENIERA DE SISTEMAS

    Construccin del

    Data Warehouse

    o Data Mart

  • CARRERA DE INGENIERA DE SISTEMAS

    Construiremos el modelo del Data Mart de

    ventas en tres etapas:

    Etapa 1 Construccin de las Dimensiones

    Etapa 2 Armado de la Tabla de Hechos

    Etapa 3 Definicin de las Medidas

    Ejemplo

  • CARRERA DE INGENIERA DE SISTEMAS

    Dimensiones

    Medidas Tiempo Sucursal Vendedor Cliente Producto

    Ventas_Importe X X X X X

    Ventas_Costo X X X X X

    Ventas_Unidades X X X X X

    Ventas_ImporteTotal X X X X X

    Ventas_Ganancia X X X X X

    Ventas_Promedio X X X X X

    Ejemplo: Los ejecutivos de Ventas

    necesitan informacin sobre

  • CARRERA DE INGENIERA DE SISTEMAS

    Tiempo Vendedor

    Sucursal

    Tabla de Hechos o

    FACT TABLE

    Ventas

    Cliente

    Definiendo las

    Dimensiones(Esquema Estrella)

    Producto

  • CARRERA DE INGENIERA DE SISTEMAS

    Tcnica Dimensional

    Medida

    ?qu

    ?quin?cmo

    ?cundo

  • CARRERA DE INGENIERA DE SISTEMAS

    Tcnica Dimensional

    Monto vendidoUnidades vendidas

    PRODUCTO

    CLIENTE

    ORGANIZACIN

    TIEMPO

    SUCURSAL

    VEMNDEDOR

  • CARRERA DE INGENIERA DE SISTEMAS

    Tcnica Dimensional

    Monto vendidoUnidades vendidas

    PRODUCTO

    CLIENTEVENDEDOR

    TIEMPO

    Producto

    Marca

    Famila

    Proveed

    Dia

    Mes

    Trim

    Anual

    Cliente

    Zona

    Personal

    Sucursal

    Seccin

  • CARRERA DE INGENIERA DE SISTEMAS

    Dimensiones

    Medidas Tiempo Sucursal Vendedor Cliente Producto

    Ventas_Importe X X X X X

    Ventas_Costo X X X X X

    Ventas_Unidades X X X X X

    Ventas_ImporteTotal X X X X X

    Ventas_Ganancia X X X X X

    Ventas_Promedio X X X X X

    Dimensin Tiempo

    * Ao ** Semestre *** Trimestre **** Mes ***** Da

    Dimensin Sucursal

    * Sucursal ** Tipo Sucursal *** Pas **** Provincia ***** Ciudad

    Dimensin Vendedor

    * Sucursal ** Seccin *** Vendedor

    Dimensin Cliente

    * Pas ** Provincia *** Ciudad **** Razn Social

    Dimensin Tiempo Dimensin Sucursal Dimensin Vendedor

    Dimensin Cliente

  • CARRERA DE INGENIERA DE SISTEMAS

    Dimensiones

    Medidas Tiempo Sucursal Vendedor Cliente Producto

    Ventas_Importe X X X X X

    Ventas_Costo X X X X X

    Ventas_Unidades X X X X X

    Ventas_ImporteTotal X X X X X

    Ventas_Ganancia X X X X X

    Ventas_Promedio X X X X X

    Esquema

    Copo de Nieve

  • CARRERA DE INGENIERA DE SISTEMAS

    Definiendo la

    Tabla de Hechos

    Dimensiones

    Medidas Tiempo Sucursal Vendedor Cliente Producto

    Ventas_Importe X X X X X

    Ventas_Costo X X X X X

    Ventas_Unidades X X X X X

    Ventas_ImporteTotal X X X X X

    Ventas_Ganancia X X X X X

    Ventas_Promedio X X X X X

    Fact_Ventas

    ID_Tiempo ID_Producto ID_Cliente ID_Vendedor ID_Sucursal

    +

    IDs

    de las D

    imensio

    nes

  • CARRERA DE INGENIERA DE SISTEMAS

    Fact_Ventas

    ID_Fecha ID_Producto ID_Cliente ID_Vendedor Ventas_Importe Ventas_Costo

    Ventas_Unidades

    Fact_Ventas

    ID_Tiempo ID_Producto ID_Cliente ID_Vendedor ID_Sucursal

    Medidas

    A la tabla de hechos le puedo agregar las mediciones

  • CARRERA DE INGENIERA DE SISTEMAS

    Dimensin Tiempo

    * Ao ** Semestre *** Trimestre **** Mes ***** Da

    Dimensin Sucursal

    * Sucursal ** Tipo Sucursal *** Pas **** Provincia ***** Ciudad

    Dimensin Vendedor

    * Sucursal ** Seccin *** Vendedor

    Dimensin Cliente

    * Pas ** Provincia *** Ciudad **** Razn Social

    Fact_Ventas

    ID_Fecha ID_Producto ID_Cliente ID_Vendedor Ventas_Importe Ventas_Costo

    Ventas_Unidades

    Dimensin Tiempo Dimensin SucursalDimensin Vendedor

    Dimensin Cliente

  • CARRERA DE INGENIERA DE SISTEMAS

    XXXXXVentas_Promedio

    XXXXXVentas_Ganancia

    XXXXXVentas_ImporteTotal

    XXXXXVentas_Unidades

    XXXXXVentas_Costo

    XXXXXVentas_Importe

    ProductoClienteVendedorSucursalTiempoMedidas

    Dimensiones

    XXXXXVentas_Promedio

    XXXXXVentas_Ganancia

    XXXXXVentas_ImporteTotal

    XXXXXVentas_Unidades

    XXXXXVentas_Costo

    XXXXXVentas_Importe

    ProductoClienteVendedorSucursalTiempoMedidas

    Dimensiones

  • CARRERA DE INGENIERA DE SISTEMAS

    Conclusiones

    Finales

  • CARRERA DE INGENIERA DE SISTEMAS

    Para la Prxima Clase

    Tema a Tratar: - REUQERIMIENTOS DEL NEGOCIO

    Fin de la Sesin 04