Data Warehouse
-
Upload
luis-antonio-zamudio-chamorro -
Category
Documents
-
view
42 -
download
5
description
Transcript of Data Warehouse
-
Ing. Johny Pretell C.
Lima, Semestre 2014-1
CARRERA DE INGENIERIA DE SISTEMAS
-
CARRERA DE INGENIERA DE SISTEMAS 2
01. Metodologas para el DWH
02. Data Warehouse.- Conceptos
03. Mapa del Proceso BI
04. Data Marts.- Construccin
05. Tcnica Multidimensional
Agenda
-
Metodologas OLAP / OLTP
Sistemas de Informacin Data Warehouse
Los procesos a automatizar sonrepetibles y previsibles.
Modelado Entidad Relacin. Atencin en una rpida
modificacin en lnea de los
datos.
El uso de los datos es exploratorio y menos predictible.
Modelado multidimensional. Enfocado en la carga y la
presentacin de los datos
DWH no es solamente crear un conjunto de reportes que corren peridicamente.
Se trata de preguntas que hay que alcanzar y que puede llevar a lugares imprevistos.
-
Conceptos Clave
Datamart. Repositorio de datos especifico. Diseado para responder las preguntas especficas. Diseado para servir las necesidades de unidades de negocio
(ventas, comercializacin, operaciones, contabilidad, etc.)
Es construido usando modelado dimensional
Data warehouse. Repositorio de datos organizacional Almacena datos de toda la empresa y de todas las reas. Es una coleccin empresarial de datamarts. Contiene data masiva e integrada
Inteligencia de Negocios. Reportes y anlisis de datos almacenadas en el DWH Data warehouse/business intelligence (DW/BI) se refiere al sistema
completo de extremo a extremo.
-
Metodologas para el DWH
Top-Down Bottom-Up Hybrid Federated
Profesional Bill Inmon Rodolfo Kimball Muchos profesionales Doug Hackney
nfasis DWH DataMarts DWH y DataMarts Integrado a entornos BI heterogneos
Diseo Modelo normalizado basado en la empresa
El modelo dimensional de datamarts, usa esquema de estrella
Modelos locales y uno o mas esquemas de estrella
Una arquitectura de arquitecturas; comparte dimensiones, hechos, reglas, definiciones a travs de la organizacin
Arquitectura Compuesto de varios niveles de reas de inters y datamarts dependientes
rea de inters y datamarts
Modelo empresarial normalizado de alto nivel;datamarts inciales.
Realidad del cambio en organizaciones y sistemas
Data set DWH datos a nivel atmico;datamarts datos sumarizados
Contiene datos atmicos y sumarizados
Carga datamarts con datos atmicos y sumarizados va un rea de inters no persistente
Uso de cualquiera significado posible para integrar las necesidades de negocio
-
Historia de DWH
Inmon.
1990 Publica Building the Data Warehouse
2002 Mejora su libro y define una arquitectura como
una coleccin de fuentes dispares en
almacenes de datos detalles y variantes en el
tiempo.
Kimball
1996 Publica The Data Warehouse Toolkit
2002 Mejora su libro y define multiples bases de
datos llamados datamarts que son
organizados por procesos de negocio, pero
usan medios de datos estandarizados para la
empresa.
Top-Down
Botton-Up
-
Enfoques acerca del DWH
Bill Inmon Normalizado. Building the Data Warehouse Corporate Information Factory
Ralph Kimball -> Dimensional. The Data Warehouse Lifecycle Toolkit The Data Warehouse Toolkit
-
Enfoques acerca del DWH
Bill Inmon Top-Down El DWH usa modelo de datos de toda la empresa El DWH es un depsito de datamarts Ms tiempo para implementar. Fracasos por falta de paciencia y de compromiso
Ralph Kimball -> Bottom-Up Inicia con un datamart, luego otros datamarts. El flujo de datos: fuente datamart
datamart DWH Rpido de implementar, por etapas Necesita asegurar:
La consistencia de la metadata. Estar seguro que cada cosa es llamado por su nombre.
-
CARRERA DE INGENIERA DE SISTEMAS
ENFOQUE INMON
-
El modelo Inmon
Consiste de todas las bases y sistemas de informacin de una organizacin Modelo CIF (Corporate Information Factory) Fabrica de Informacin corporativa.
Define el medio ambiente de las bases de datos como: Operacional DWH atmico Departamental Individual
El DH es parte de un todo ms grande (CIF)
-
Modelado Inmon
Tres niveles en el modelado de los datos
Entidad Relacin Relaciones entre entidades, atributos y relaciones
Modelo MID-Level (MID-Level Model o *DIS*) Conjunto de items de datos Conjunto de datos por departamento Cuatro construcciones:
1. Agrupamiento de datos primarios
2. Agrupamiento de datos secundarios
3. Conectores
4. Datos de Tipo de
Modelo de datos fsico Optimizado para mejor rendimiento (de-normalizado
-
Modelado Inmon
Relacin entre los niveles Uno y Dos del modelo de datos de Inmon
-
CARRERA DE INGENIERA DE SISTEMAS
ENFOQUE KIMBALL
-
Enfoque Kimball
El modelo dimensional se inicia con tablas: De hechos De dimensiones
Los hechos contienen metricas Las dimensiones contienen atributos
Puede contener grupos de datos repetidos
Los datos no estn normalizados Accesible al usuario final
-
El ciclo de vida Kimball
-
El ciclo de vida Kimball
Ilustra el flujo general de implementacin de un DWH.
Identifica secuencia de tareas ordenadas y actividades principales que debe suceder concurrentemente.
Muchas necesidades deben ser acomodadas para lograr nica necesidad de la organizacin.
No todos los detalles de las tareas del ciclo de vida deben ser ejecutados en todos los proyectos.
-
Ciclos de vida KLC, SDLC, y DBLC
DB Initial Study
Ejecucin
Operacin
Mantenimiento
DB Design
Comprobacin
Planificacin
Anlisis
Diseo del
Sistema detallado
Ejecucin
Mantenimiento
Kimball LifeCycle System Development Life Cycle Data Base Life Cycle
-
CARRERA DE INGENIERA DE SISTEMAS
Metodologia
Propuesta por
Cognos
(adaptacin de
Kimball)
-
Ciclo de Vida
Planificacin del proyecto Requerimientos del Negocio Lnea tecnolgica
Arquitectura tecnolgica Seleccin e instalacin de productos
Lnea de datos Modelo dimensional Modelo fsico ETL
Lnea de aplicacin del BI Diseo del BI Desarrollo del BI
Despliegue Despliegue Crecimiento Mantenimiento
-
CARRERA DE INGENIERA DE SISTEMAS
Qu es Data Warehouse?
Un almacn de datos analticos orientados a undeterminado mbito de la empresa (organizacin, rea,
tema, etc.), integrado, no voltil y variable en el tiempo.
-
CARRERA DE INGENIERA DE SISTEMAS
Data Warehouse y Data MartsDatos en
un Entorno
OLAP
Data MartsData
Warehouse
Data desde
Sistemas
Operationales
Presupuesto
Produccion
Contabilidad
Data
EmpresarialOLTP
OLTP
OLTP
Ventas
-
CARRERA DE INGENIERA DE SISTEMAS
ETL Extraer, transformar y cargar abreviado como ETL es el proceso
que permite a las organizaciones mover datos desde mltiples
fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de
datos, data mart, o data warehouse para analizar, o en otro
sistema operacional para apoyar un proceso de negocio.
Los datos de los sistemas OLAP son obtenidos desde lossistemas OLTP.
Este no es un proceso trivial, existen cientos de potencialesproblemas al momento de obtener los datos
-
CARRERA DE INGENIERA DE SISTEMAS
Inteligencia
de Negocios
Metodologa
Kimball
Planeamiento
del Proyecto
Modelo
del
Negocio
Modelado
Dimensional
Modelado
FsicoETL
Reportes
Minera de
Datos
Mapa del Proceso para Implementar
una Base de Datos Estratgica
(DWH) para el Negocio
-
CARRERA DE INGENIERA DE SISTEMAS
Ejemplo de una Arquitectura DWH
-
CARRERA DE INGENIERA DE SISTEMAS
Datamart o Data Warehouse
Tabla de hechos Tabla de Dimensiones
Estructura del Datamart
-
CARRERA DE INGENIERA DE SISTEMAS
Hechos Dimensiones
Eventos que ocurren
dinmicamente en el negocio de
la empresa.
Ejem. Admisin de alumnos.
La tabla de hechos es la tabla
primaria del modelo dimensional,
y contiene los valores del negocio
que se desea analizar lasmedidas - indicadores.
Cada tabla de hechos contiene las
claves externas, que se
relacionan con sus respectivas
tablas de dimensiones, y las
columnas con los valores que
sern analizados.
Cada dimensin describe un
aspecto del negocio y proporciona
el acceso intuitivo y simple a
datos.
Cada dimensin se define por su
clave primaria que sirve para
mantener la integridad referencial
en la tabla de hechos a la que se
relaciona.
Un cubo requiere que se defina al
menos una dimensin en su
esquema.
-
CARRERA DE INGENIERA DE SISTEMAS
Construccin del
Data Warehouse
o Data Mart
-
CARRERA DE INGENIERA DE SISTEMAS
Construiremos el modelo del Data Mart de
ventas en tres etapas:
Etapa 1 Construccin de las Dimensiones
Etapa 2 Armado de la Tabla de Hechos
Etapa 3 Definicin de las Medidas
Ejemplo
-
CARRERA DE INGENIERA DE SISTEMAS
Dimensiones
Medidas Tiempo Sucursal Vendedor Cliente Producto
Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X
Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X
Ejemplo: Los ejecutivos de Ventas
necesitan informacin sobre
-
CARRERA DE INGENIERA DE SISTEMAS
Tiempo Vendedor
Sucursal
Tabla de Hechos o
FACT TABLE
Ventas
Cliente
Definiendo las
Dimensiones(Esquema Estrella)
Producto
-
CARRERA DE INGENIERA DE SISTEMAS
Tcnica Dimensional
Medida
?qu
?quin?cmo
?cundo
-
CARRERA DE INGENIERA DE SISTEMAS
Tcnica Dimensional
Monto vendidoUnidades vendidas
PRODUCTO
CLIENTE
ORGANIZACIN
TIEMPO
SUCURSAL
VEMNDEDOR
-
CARRERA DE INGENIERA DE SISTEMAS
Tcnica Dimensional
Monto vendidoUnidades vendidas
PRODUCTO
CLIENTEVENDEDOR
TIEMPO
Producto
Marca
Famila
Proveed
Dia
Mes
Trim
Anual
Cliente
Zona
Personal
Sucursal
Seccin
-
CARRERA DE INGENIERA DE SISTEMAS
Dimensiones
Medidas Tiempo Sucursal Vendedor Cliente Producto
Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X
Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X
Dimensin Tiempo
* Ao ** Semestre *** Trimestre **** Mes ***** Da
Dimensin Sucursal
* Sucursal ** Tipo Sucursal *** Pas **** Provincia ***** Ciudad
Dimensin Vendedor
* Sucursal ** Seccin *** Vendedor
Dimensin Cliente
* Pas ** Provincia *** Ciudad **** Razn Social
Dimensin Tiempo Dimensin Sucursal Dimensin Vendedor
Dimensin Cliente
-
CARRERA DE INGENIERA DE SISTEMAS
Dimensiones
Medidas Tiempo Sucursal Vendedor Cliente Producto
Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X
Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X
Esquema
Copo de Nieve
-
CARRERA DE INGENIERA DE SISTEMAS
Definiendo la
Tabla de Hechos
Dimensiones
Medidas Tiempo Sucursal Vendedor Cliente Producto
Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X
Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X
Fact_Ventas
ID_Tiempo ID_Producto ID_Cliente ID_Vendedor ID_Sucursal
+
IDs
de las D
imensio
nes
-
CARRERA DE INGENIERA DE SISTEMAS
Fact_Ventas
ID_Fecha ID_Producto ID_Cliente ID_Vendedor Ventas_Importe Ventas_Costo
Ventas_Unidades
Fact_Ventas
ID_Tiempo ID_Producto ID_Cliente ID_Vendedor ID_Sucursal
Medidas
A la tabla de hechos le puedo agregar las mediciones
-
CARRERA DE INGENIERA DE SISTEMAS
Dimensin Tiempo
* Ao ** Semestre *** Trimestre **** Mes ***** Da
Dimensin Sucursal
* Sucursal ** Tipo Sucursal *** Pas **** Provincia ***** Ciudad
Dimensin Vendedor
* Sucursal ** Seccin *** Vendedor
Dimensin Cliente
* Pas ** Provincia *** Ciudad **** Razn Social
Fact_Ventas
ID_Fecha ID_Producto ID_Cliente ID_Vendedor Ventas_Importe Ventas_Costo
Ventas_Unidades
Dimensin Tiempo Dimensin SucursalDimensin Vendedor
Dimensin Cliente
-
CARRERA DE INGENIERA DE SISTEMAS
XXXXXVentas_Promedio
XXXXXVentas_Ganancia
XXXXXVentas_ImporteTotal
XXXXXVentas_Unidades
XXXXXVentas_Costo
XXXXXVentas_Importe
ProductoClienteVendedorSucursalTiempoMedidas
Dimensiones
XXXXXVentas_Promedio
XXXXXVentas_Ganancia
XXXXXVentas_ImporteTotal
XXXXXVentas_Unidades
XXXXXVentas_Costo
XXXXXVentas_Importe
ProductoClienteVendedorSucursalTiempoMedidas
Dimensiones
-
CARRERA DE INGENIERA DE SISTEMAS
Conclusiones
Finales
-
CARRERA DE INGENIERA DE SISTEMAS
Para la Prxima Clase
Tema a Tratar: - REUQERIMIENTOS DEL NEGOCIO
Fin de la Sesin 04