Balanceo e Integracion
-
Upload
henry-maizares-hatte -
Category
Documents
-
view
144 -
download
0
Transcript of Balanceo e Integracion
Fundamentos DWH y Calidad de Datos
La solucin: los servicios de datosNecesidades empresariales Iniciativas de TI Proyectos de integracin de datosMejorar decisiones y cumplir con la normativa Modernizar el negocio y reducir los costos de TI Eliminacin de sistemas heredados Fusiones y adquisiciones Aumentar la rentabilidad del negocio Subcontratar funciones secundarias BPO SaaS
Inteligencia empresarial
Consolidacin de aplicaciones
Hubs de productos, proveedores y clientes
Almacenamiento de datos
Migracin de datos
Consolidacin de datos Servicios de datos
Gestin de datos maestros
Sincronizacin de datos
Servicios de datos
Plataforma de productos de Informatica Informatica PowerExchange Informatica Data Explorer Informatica Data Quality Informatica PowerCenter
Automatizacin de todo el ciclo de vida de la integracin de datosGarantizar la coherencia de los datos, realizar anlisis de impacto y supervisar constantemente la calidad de la informacinData Explorer Data Quality
Auditora, control y creacin de informes
AccesoA cualquier sistema, por lotes o en tiempo real
DeteccinBuscar y perfilar cualquier tipo de datos de cualquier fuente
Limpieza
IntegracinTransformar y conciliar datos de todo tipo
EntregaEntregar los datos adecuados en el momento y formato adecuados
Validar, corregir y estandarizar datos de todo tipo
PowerExchange
PowerCenter
Desarrollo y gestinDesarrollar y colaborar con un repositorio comn y metadatos compartidos
Fundamentos del DWH
Introduccin al DWH: Qu es? Arquitectura de un DWH Modelado de Datos y Metadatos Esquemas en Estrella Procesos y Estrategias de carga del DWH Herramientas de Integracin de Datos Herramientas de Reporting y Anlisis
Qu es un Data Warehouse?
Orientado a un TemaColeccin de informacin relacionada organizada alrededor de un tema central
IntegradoDatos de mltiples orgenes; consistencia de datos
Variable en el tiempoFotos en el tiempo Basado en fechas/periodos
No-voltilSlo lectura para usuarios finales
Menos frecuencia de cambios/actualizacionesUsado para el Soporte a Decisiones y Anlisis de Negocio
Orientado a TemaLos usuarios piensan en trminos de cosas y sus relaciones, no en trminos de procesos, funciones o aplicaciones.Proveedor Pedido Realiza Cliente
Proporciona Orden de Compra
Contiene Producto Inventario
Compuesta por
Recuperado desde
Integrado
ContieneConvenciones de Nombres Descripciones Atributos fsicos de los datos Valores de los datos
Consistentes
Admin. Marketing Datos
Operaciones
Ventas Cuentas
Variable en el tiempo Entorno
Operacional
Data WarehouseDatos en fotos Horizonte de 5 10 aos Refleja la perspectiva desde un momento en el tiempo
Datos con valores actuales Horizonte de 30 - 90 das Exactitud en los accesos
Id de cliente nombre direccin telfono ratio de crdito
Id de cliente fecha desde fecha hasta nombre direccin telfono ratio de crdito
No-Voltilinsercin cambio carga lectura
borrado Sistema OLTP(dinmico)
Sistema DSS(ms esttico)
Un Data Warehouse es ...
un modelo de datos de soporte a decisiones que representa la informacin que una compaa necesita para tomar BUENAS decisiones estratgicas. basado en la estructura de un sistema de gestin de base de datos relacional el cual puede ser usado para INTER-RELACIONAR los datos contenidos en l. con el propsito de proporcionar a los usuarios finales un acceso SENCILLO a la informacin.
un CONCEPTO, no una COSA
Para qu construir un Warehouse?
Para tener un mayor conocimiento del negocio Para tomar mejores decisiones y en un tiempo menor Para mejorar y ser ms efectivos Para no perder distancia con la competencia en definitiva $$$
Visin del UsuarioUsuarios FinalesPanel de ConsultaRepresentacin de Negocio
Base de Datos
Solucin integrada de: Consultas, informes y anlisis.Capa semntica que da una representacin de los datos desde el punto de vista de negocio.
Los usuarios utilizan trminos de negocio, no trminos informticos.
Arquitectura de un DWH
Nomenclatura
DWH: Data Warehouse DataMart OLTP: On-Line Transaction Processing OLAP: On-Line Analytic Processing ROLAP: Relational On-Line Analytic Processing MOLAP: Multidimensional On-Line Analytic Processing ODS: Object Data Store DSS: Decision Support System ETL: Extract, Transform and Load ETQL: Extract, Transform, Quality and Load EII: Enterprise Information Integration EAI: Enterprise Application Integration ERP: Enterprise Resource Planning
Directo de OLTP a OLAPLifeLife Information System Life OLAP
HealthHealth Information System Health Query
Auto Information System
AutoAuto Analysis
Directo de OLTP a OLAP
Es bueno, si los datos lo son. Horizonte de tiempo limitado Compite con OLTP por los recursos Uso frecuente para hojas de clculo No tiene metadatos (o slo implcitos) Principalmente, para jefes de departamentos, no se considera informacin para las masas No hay informacin cruzada entre los diferentes sistemas
Data Warehouse Virtual: Directo o Federado
LifeLife Information System
HealthHealth Information System
EII"Customer" OLAP
Auto Information System
Auto
Data Warehouse TotalLifeLife Information System
Extract: COBOL, SQL, Etc.Life OLAP MDD Tools
HealthHealth Information System
Extract: COBOL, SQL, Etc.
Enterprise Data WarehouseHealth R/OLAP Star Schema
Auto Information System
Auto
Extract: COBOL, SQL, Etc.
Auto SQL Query
Data Marts No EstructuradosLifeLife Information System
Extract: COBOL, SQL, Etc.
Life Data Mart
Life OLAP MDD Tools
HealthHealth Information System
Extract: COBOL, SQL, Etc.
Health Data Mart
Health R/OLAP Star Schema
Auto Information System
Auto
Extract: COBOL, SQL, Etc.
Auto Data Mart
Auto SQL Query
Data Marts EstructuradosLife OLTP EXTRACT SELECT TRANSFORM INTEGRATE LOAD Health OLTP Cleanse Data for: Names Formats Values Domains Metadata Life Data MartLife OLAP MDD Tools
Enterprise Data Warehouse "Customer"
Health Data Mart
Health R/OLAP Star Schema
Auto OLTP
Auto Data Mart
Auto SQL Query
OLAP (Online Analytic Processing)
Herramientas orientadas a consulta/anlisis Puede ser ROLAP o MOLAP 'Multi-dimensional', es decir, puede ser visualizada como cuadrculas' o 'cubos' Consulta interactiva de datos, siguiendo un hilo a travs de mltiples pasos -- 'drill-down' Visualizacin como tablas cruzadas, y tablas pivotantes Actualizacin de la base de datos Capacidad de modelizacin (motor de clculo) Pronsticos, tendencias y anlisis estadstico.
Ejemplo uso de una herramienta de consultaInformacin solicitada
Informacin disponible
Condiciones
El interfaz de usuario simple Trabaja contra representacin de negocio de los datos Todos los componentes en una pantalla
Integracin Datos no slo en entornos analticos Importancia de la Calidad
Los informes son la capa visible Herramientas de OLAP / Business Intelligence / Cuadro de Mando
Extraccin Limpieza de Datos
Servidores Red Bases de Datos
Transformacin Middleware Carga de Datos
Data Marts Estructurados: Visin Completa
Tcnicas de Modelizacin Estructural
En esta seccin veremos tcnicas que afectarn a diversos puntosConsideraciones de Tiempo Tcnicas de Optimizacin
Consideraciones de TiempoStaging Area ESTRUCTURAL Actualidad de Datos Agrupaciones basadas en tiempo Retencin de Histrico Data Warehouse Data Marts Relacional Dimensional
Todo el DW se ve afectado por cambios temporales porque por definicin es Tiempo-dependiente Preguntas importantes:Cuan actual deben ser los datos para satisfacer las necesidades de negocio? Cunta historia necesitamos en nuestro negocio? Qu niveles de agregacin son necesarios para qu ciclos de negocio?
Tiempo
Cul es el impacto del Tiempo en cada Almacn de Datos?
Tcnicas de Modelizacin Temporal
Unidades de tiempoCalendarios de negocio
TcnicasFoto (Snapshot) Trazado de Auditora
Metadatos temporalesFechas Efectivas de Inicio y Fin Fecha de cambio en Fuentes (evento) Fecha de cambio en Destinos (carga)
Foto (Snapshot)
Dos tcnicas diferentesMltiples Tablas Tabla nica
Uso de Fecha Efectiva Inicio en un ejemplo. Metadatos a nivel de registroFoto (SNAPSHOT) Nov 2001 CLIENTE Num Cliente Oct 2001 Nombre CLIENTE Apellido1 Num Apellido2 Cliente Nombre Gnero Apellido1 Fecha Carga Apellido2 Gnero Fecha Carga CLIENTE O bie n Num Cliente Fecha Efectiva Inicio Nombre Apellido1 Apellido2 Gnero Fecha Carga
Foto (Snapshot) Mltiple
Una tabla para cada perodo Se guardan TODOS los datos (cambien o no) Nombre de la tabla refleja el perodo Buen enfoque de (extraccin/carga/modelado) para Data Marts. Cada mes, en el ejemplo, representa los datos tal y como estaban Mal enfoque para Staging, ya que hay mucha replicacin de datosFoto (SNAPSHOT)Nov 2001 CLIENTE Num Cliente Nombre Oct 2001 CLIENTE Apellido1 Apellido2 Cliente Num Gnero Nombre Fecha Carga Apellido1 Apellido2 Gnero Fecha Carga
CLIENTE O bien Num Cliente Fecha Efectiva Inicio Nombre Apellido1 Apellido2 Gnero Fecha Carga
Foto (Snapshot) nica
Se guardan TODOS los datos (cambien o no) Buen enfoque para Data Marts y puede ser til en el Warehouse. Mal enfoque para Staging, ya que hay mucha replicacin de datos Time Stamps imprescindiblesFoto (SNAPSHOT) Nov 2001 CLIENTE Num Cliente Oct 2001 Nombre CLIENTE Apellido1 Num Apellido2 Cliente Nombre Gnero Apellido1 Fecha Carga Apellido2 Gnero Fecha Carga Fe cha Efe ctiva de Negocio CLIENTE Num Cliente Fe cha Efe ctiva Inicio Nombre Apellido1 Apellido2 Gnero Fecha Carga
O bien
Foto (Snapshot) nica
Fechas (Time Stamps) necesarias para identificar la validez de los datos:Fecha efectiva de Inicio Fecha efectiva de Fin (no est en el ejemplo) Fecha de CargaNum Cliente Fecha Efectiva Inicio 2304 31/10/2001 5590 31/10/2001 6720 31/10/2001 7841 31/10/2001 2304 30/11/2001 5590 30/11/2001 6720 30/11/2001 7841 30/11/2001 Vemos la duplicidad de los datos Nombre Juan Reyes Julia Astur Carlos Mrquez Luis Tesquilo Juan Reyes Julia Picado Carlos Mrquez Luis Tesquilo Gnero Hombre Mujer Hombre Hombre Mujer Hombre Fecha Carga 01/11/2001 01/11/2001 01/11/2001 01/11/2001 01/12/2001 01/12/2001 01/12/2001 01/12/2001
Trazado de AuditoraCLIENTE ID_cliente nombre apellido1 apellido2 gnero fecha_aniversario
Guarda los cambios de los datos de inters Informacin:Fecha del cambio Razn del cambio Cmo se ha detectado ...
AUDITORIA CLIENTE ID_cliente fecha_inicio_efectiva nombre apellido1 apellido2 gnero fecha_aniversario fecha_carga
Metadato a nivel registro
Slo se extraen/cargan valores modificados
Fecha de Negocio (no Metadato)
Trazado de AuditoraNum Cliente 2304 5590 6720 7841 5590 Fecha Efectiva Inicio 31/10/2001 31/10/2001 31/10/2001 31/10/2001 30/11/2001 Nombre Juan Reyes Julia Astur Carlos Mrquez Luis Tesquilo Julia Picado Gnero Hombre Mujer Hombre Fecha aniversario 01/01/1964 06/03/1948 19/09/1960 25/07/1952 06/03/1948 Fecha Carga 01/11/2001 01/11/2001 01/11/2001 01/11/2001 01/12/2001
Mujer
Slo cambios en la tabla Usado en Staging Area y Data Warehouse Posible en Data Marts, pero no es habitual ya que no es claro para un usuario final
Tcnicas de Optimizacin Estructural y FsicaStaging Area ESTRUCTURAL Actualidad de Datos Agrupaciones basadas en tiempo Retencin de Histrico Seguridad Distribucin Acceso Navegacin Herramientas Rendimiento Tamao Disponibilidad Recuperacin DBMS Cmo debe optimizarse cada almacn de datos en la Implementacin? Tiempo Data Data Marts Warehouse Relacional Dimensional
Implementacin
FSICO
Uso
Posicin
Tcnicas de Optimizacin
DerivacinData Warehouse y Data Marts Usos
PLIZA RESIDENCIAL num_pliza total_cobertura supl_terremotos supl_inundaciones supl_viento supl_robos supl_arte total_supleme ntos
Facilitar acceso Consistencia resultados
PLIZA
va Deri
cin
num_pliza cdigo_tipo_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio
una de
total_supleme ntos= supl_terremotos + supl_inundaciones + supl_viento + supl_robo + supl_arte
PLIZA_AUTOMOVIL
num_pliza total_colisin ...
Tcnicas de OptimizacinData WarehousePLIZA RESIDENCIAL num_pliza total_cobertura supl_terremotos supl_inundaciones supl_viento supl_robos supl_arte total_suplementos fecha_carga PLIZA
AgregacinNo cambio de granularidad Objetivo: Facilitar el acceso a los datos
num_pliza cdigo_tipo_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio fecha_carga
una de
PLIZA_AUTOMOVIL num_pliza total_colisin descuento_cliente indic_precio_especial fecha_carga
AGREGACIN
PLIZA RESIDENCIAL num_pliza cdigo_tipo_pliza fe cha_inicio_pliza fe cha_inicio_cobertura fe cha_fin_cobertura trminos cantidad_prima cantidad_servicio total_cobertura supl_terremotos supl_inundaciones supl_viento supl_robos supl_arte total_suplementos fecha_carga
AGREGACINPLIZA_AUTOMOVIL num_pliza total_colisin descuento_cliente indic_precio_especial cdigo_tipo_pliza fe cha_inicio_pliza fe cha_inicio_cobertura fe cha_fin_cobertura trminos cantidad_prima cantidad_servicio fecha_carga
Data Marts
Tcnicas de OptimizacinCLIENTE id_cliente fecha_alta_cliente fecha_baja_cliente nombre apellido1 apellido2 grupo_edad gnero estado_civil indic_cliente_perdido fecha_carga RESUMEN ANUAL CLIENTES id_cliente ao_resumen valor_inicio_ao valor_final_ao total_cuenta_inicio_ao total_cuenta_final_ao total_aos_como_cliente
SumarizacinHistrica Agrupada
AO num_ao
BASE CLIENTELA ANUAL id_zona id_producto cdigo_tipo num_ao cuenta_cliente
TRIMESTRE num_trimestre
BASE CLIENTELA id_zona id_producto cdigo_tipo num_me s cuenta_cliente
MES num_mes
Tcnicas de Optimizacin
Particionamiento HorizontalParticiones por filas Todos los campos repetidos en las nuevas tablas Uso
RESUMEN ANUAL CLIENTES id_cliente ao_resumen cdigo_re gin valor_inicio_ao valor_final_ao total_cuenta_inicio_ao total_cuenta_final_ao total_aos_como_cliente
Aislar datos sensibles Reduccin tamao tablas
RESUMEN ANUAL CLIENTES - SUR id_cliente ao_resumen valor_inicio_ao valor_final_ao total_cuenta_inicio_ao total_cuenta_final_ao total_aos_como_cliente
RESUMEN ANUAL CLIENTES - NORTE id_cliente ao_resumen valor_inicio_ao valor_final_ao total_cuenta_inicio_ao total_cuenta_final_ao total_aos_como_cliente
Tcnicas de Optimizacin
CLIENTE
Particionamiento VerticalDivisin por columnas Posibilidad de columnas redundantes Uso
id_cliente fecha_alta_cliente fecha_baja_cliente nombre apellido1 apellido2 grupo_edad gnero estado_civil indic_cliente_perdido num_cuenta_debito nombre_banco_debito num_autorizacin_dbito rango_crdito fecha_ultimo_check_credito fecha_carga Campos con Datos Sensible s
Campos con Datos no Sensible s
Seguridad Distribucin
CLIENTE id_cliente fecha_alta_cliente fecha_baja_cliente nombre apellido1 apellido2 grupo_edad gnero estado_civil indic_cliente_perdido fecha_carga
CLIENTE_SEGURO id_cliente fecha_alta_cliente fecha_baja_cliente nombre apellido1 apellido2 num_cuenta_debito nombre_banco_debito num_autorizacin_dbito rango_crdito fecha_ultimo_check_credito
Puede ser que tengamos Horizontal y Vertical a la vez
Tcnicas de OptimizacinPLIZA RESIDENCIAL num_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio total_cobertura supl_terremotos supl_viento supl_inundacin supl_pieles supl_arte supl_joyas supl_otros fecha_carga
Particionamiento por EstabilidadBasado en frecuencia de cambio Uso en Staging Area
Velocidad de carga Separar datos ms voltiles minimiza cambios
PLIZA RESIDENCIAL
Claves Primarias en ambas tablas
num_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio total_cobertura supl_terremotos supl_viento supl_inundacin fecha_carga
PLIZA RESIDENCIAL num_pliza fecha_inicio_pliza supl_pieles supl_arte supl_joyas supl_otros fecha_carga
Metadatos a Nivel Registro en ambas tablas
Tcnicas de OptimizacinFichero Master Ve ntas
Claves AlternativasCaso especial de derivacin Creada artificialmente para identificar entidades Habitualmente un entero Staging DW DM Hay que mantener un mapeo
Nmero_factura Nmero_clie nte ...
Identificador Factura Identificador Cliente
Fichero Master Marketing ID_campaa ID_clie nte ... PLIZAS ID_Pliza ID_Tomador ... Identificador Pliza Identificador Asegurado Identificador campaa Identificador Cliente
Generacin Claves Alternativas
MAPEO_ID_CLIENTE cdigo_sist_origen id_cliente_origen fecha_inicio fecha_fin num_id_cliente fecha_carga
CLIENTE num_id_cliente fecha_alta fecha_baja grupo_edad ... fecha_carga
Tcnicas de OptimizacinPLIZA_AUTOMOVIL
VEHCULO num_bastidor fecha_inicio_vehculo num_pliza marca modelo ... ind_ABS ind_airbag ind_ESP fecha_carga
Pre-Joins
num_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminostotal_colisin descuento_cliente indic_precio_especial cdigo_tipo_pliza ... fecha_carga
Caso especial de Agregacin Data Warehouse y Data Marts Existe redundancia de Informacin
PLIZA_Y_VEHCULO num_bastidor fecha_inicio_vehculo num_pliza fecha_inicio_cobe rtura fecha_fin_cobe rtura trminostotal_colisin descuento_cliente indic_precio_espe cial cdigo_tipo_pliza marca modelo ... ind_ABS ind_airbag ind_ESP fecha_carga
Incrementeo uso espacio
Acceso mucho ms rpido En el DW
Mantendremos tambin las tablas separadas para cuando no necesitemos la Join
Tcnicas de Optimizacin
Cadenas de DatosCaso especial de Agregacin Eficiente para Reporting NUNCA en operacionales o Staging, pero muy til en DW y DM
Tcnicas de Optimizacin
Balancear diferentes FactoresRendimiento Seguridad Distribucin
Recuperacin e rrores Tamao & Crecimie nto
Bases de Datos del Data Ware hose Estabilidad
Histrico Plataforma Acceso & Nave gacin
Fundamentos DWHEsquemas en Estrella
Puntos Fuertes de la Modelizacin Dimensional
Coincide con las percepciones de los usuarios Estructura predecible, estndar Facilita el desarrollo de consultas y anlisis Las herramientas OLAP pueden hacer suposiciones Cada dimensin es equivalente para todos los datos Puede ser modificada fcilmente Usa perspectivas de modelizacin comunes Simplifica la agregacin
Modelizacin Dimensional Regla de OroLos Esquemas en Estrella deberan ser utilizados para cualquier dato accedido directamente por los usuarios finales.
El Esquema en Estrella
Hechos Dimensiones De-normalizado (generalmente) Tiene caminos de unin bien diseados Paraleliza la visin de los datos por el usuario Son fcilmente modificables Simplifica la comprensin y navegacin por los metadatos Amplia la eleccin de herramientas de usuario final
Modelizacin Dimensional
Tablas de Hechos: contienen datos cuantitativos sobre el negocioLa clave primaria es una concatenacin de claves de dimensin, incluyendo el tiempo Cada elemento de la clave primaria compuesta es una clave de integridad referencial hacia una tabla de dimensin. Contienen menos atributos, pero muchos ms registros
Tablas de Dimensin: gestionan datos descriptivos que reflejan las diversas dimensiones del negocioContienen muchos atributos pero menos (pocos) registros La clave primaria ayuda a componer las claves primarias de las tablas de hechos
Esquema en Estrella (conceptual)
Diseo de una Tabla de Hechos
Elija el PROCESO del Data Mart
Comience el contenido del data mart a partir de datos de un solo origen
Defina la GRANULARIDAD de la tabla de hechos
Elija el nivel granular ms bajo posible Transacciones individuales o fotos
Elija las DIMENSIONES
Reflejan el contenido de la tabla de hechos y la granularidad
Elija los HECHOS
Los hechos individuales y el mbito de estos hechos deben ser especficos a la granularidad de la tabla de hechos
Identifique el Proceso Departamental
Cul es el proceso o funcin subyacente para el DM? Cul es el mbito aproximado del DM? Quin usar el DM? A qu preguntas les gustara a los usuarios que contestaran los datos del DM?
Determine los Hechos
Qu hechos estn disponibles?Cules son los datos cuantitativos fundamentales que hay por debajo? Los hechos ms tiles son los numricos y aditivos
Qu nivel de detalle (granularidad) necesita mantener?Sern datos atmicos (todo el detalle) o datos agregados (sumarizados)?
Si son agregados, cmo (usando qu algoritmo)? Para qu propsito de negocio?
Cul es la frecuencia de carga de datos requerida?
Cada transaccin? Cada hora? Da? Semana? Mes?
Tablas de Hechos Sin Hechos - EVENTOS
Eventos: Algo que ha ocurridoEjemplo: Asistencia de estudiantes a una clase, asientos de pasajeros de lnea area o habitaciones de hotel ocupadas
Enlace el evento a:Tiempo / estudiante / profesor / curso / facilidades
Tpico para crear un hecho vacoAsistencia = 1
La granularidad es el evento individual de asistencia a claseFUENTE: Kimball, 1998
Las Agregaciones Pueden:
Asegurar la consistencia entre data marts Ser hechas reutilizables para mantenerlas de manera centralizada Mejorar el rendimiento del usuario Reducir los recursos necesarios para preparar las consultas (CPU, disco, memoria) Ser utilizadas en base a:Frecuencia de acceso Efecto del nmero de registros
Determine las Dimensiones
Qu dimensiones pueden necesitar los usuarios?Cules son los conceptos fundamentales (entidades o temas) con los que los usuarios trabajarn?
Siempre existirn al menos dos dimensiones; quiz hasta una decena. El tiempo ser una dimensin prcticamente siempre Cul es el identificador (clave primaria) de cada una de las dimensiones?No_Cliente, ID_Cuenta, NoFactura
Los atributos de la dimensin se convierten en las cabeceras de los registros SQL
Para Cada Tabla de Dimensin
Establezca la clave primaria para cada registro dimensional Use la clave primaria como una parte de la clave compuesta de la tabla de hechos Identifique los atributos de inters para los usuariosQu atributos deben ser de-normalizados? Qu otros atributos podran tener valores significativos? Hay alguna oportunidad de incluir datos de fuera? Cules?
Aydese de los valores reales contenidos en los atributos
La Dimensin de Tiempo
Debe ser da a da durante 5-10 aos Separe los campos de semana, mes, da, ao, da de la semana, vacaciones, estaciones, etc. Trimestres naturales y fiscales Crela como una sola tabla en el DWH Cargue el contenido en los DM a medida que se necesiten
Establezca Relaciones
Dibuje la relacin visualmente Identifique la cardinalidad (1-N) Entre la tabla de hechos . . . y cada tabla de dimensin Una Imagen vale ms . . .
Mtodos para Identificar Dimensiones y Hechos
Informes de Concepto Reuniones y Entrevistas Requerimientos Especiales del Proyecto Documentos sobre mbito del Proyecto Peticiones de Informacin Cartas a los Reyes Magos Modelos y Bases de Datos Existentes Informes Actuales (y Deseados)
Ejemplo: Intereses de la Divisin Financiera
La divisin financiera ha preparado la siguiente lista de funcionalidades deseables en el data mart. Muchos de estos datos son informacin de cliente / demogrfica. Nos permitir evaluar el impacto de Costos en nuestros clientes, ubicacin y uso por nuestros clientes, Costos incurridos por ubicacin para servir a nuestros clientes y otros tipos de evaluaciones financieras relativas a Costos, uso, etc. Este tipo de informacin ser muy valiosa para dirigir los aspectos financieros y polticos de las planificaciones y soluciones futuras a los problemas actuales. Esta informacin nos permitir contestar mejor a las importantes preguntas que aparecern durante ese proceso.
Ejemplo: Frase de Ejemplo de Misin
Capture datos de nuestro sistema para realizar evaluaciones por zonas de nuestros clientes, intereses y beneficios y para asesorar el impacto de Costos sobre nuestra base de clientes.
Ejemplo: Preguntas a la Divisin Financiera1.
Datos demogrficos de nuestros clientes - el tipo de datos que aparece en un censo (tipo de vivienda, valor de la vivienda, ocupacin, sexo, educacin, ingresos, etc.) Puede ser usado para enviar mensajes oficiales, evaluacin de intereses de penalizacin, y mercado objetivo.
2. Clientes por clase de inters definicin por clientes residenciales, comerciales, industriales, gobierno y multifamiliares. 3. Beneficio demogrfico por cliente y consumo como valor de la vivienda, ingresos o educacin.
Ejemplo: Preguntas a la Divisin Financiera (2)4. Informacin sobre el servicio al cliente incluyendo beneficio por los diferentes tipos de intereses y cobros por zona geogrfica, beneficio y consumo. 5. Beneficio total por clase de cliente y categora de intereses a lo largo de los ltimos cinco aos. Qu clases de clientes dan ms beneficio? 6. Presupuesto del ao en curso por zona debe mostrar el presupuesto actual y en qu reas se han ido incurriendo esos Costos. 7. Valor de activos por zona un informe que muestre el valor depreciativo de los activos propios por zona.
Ejemplo: El Esquema Financiero en Estrella
Fundamentos DWHProcesos y Carga de Datos
Mapeo de Datos
Mapeo LGICO describe cmo ir desde donde se encuentra hasta donde quiere ir
Mapeo FSICO Indica las rutas, baches, desvos atajos de la carretera
TRANSPORTE Decida si est conduciendo un coche deportivo o un camin de recogida de chatarra
PLANIFICACIN Indica cundo saldr y cunto espera que le lleve llegar al destino
Soluciones de Extraccin, Transformacin y Carga de Datos (ETL)
Aproximacin de primera generacin (o crecimiento casero) Mapean origen a destino con capacidades variables de transformacin y limpieza Generan cdigo o directamente deben programarse Suelen controlar metadatos limitadosFUENTE: Doug Hackney, 1998
Plataformas de Integracin de Datos
Soluciones integradas Capacidad de implantacin a nivel corporativo Metadatos completos, abiertos y extensibles Abanico de transformaciones y reglas de negocio Anlisis, entrega y planificacin integradas Gestin Ad-hoc de agregaciones Monitorizacin y Auditora integradas Funciones avanzadas de Calidad de Datos Versionados, despliegues inteligentes
Proceso de Diseo1. CREACIN DE REPOSITORIO 4. CREACIN DE MAPPINGS
2. IMPORTACIN DE DEFICIONES DE ORGENES
Def Origen Mapeo Def Destino 3. CREACIN DE ESQUEMA DESTINO
Transformaciones Ms Comunes
Creacin de valores por defecto para los nulos Gestin de fechas Seleccin o filtrado de datos origen Unin de orgenes heterogneos (SAP+Ficheros+Tablas+) Normalizacin de los ficheros de datos Generacin de esquemas en estrella Creacin de estrategias de actualizacin Creacin y actualizacin de agregaciones Creacin de dimensiones slowly-changing
Algunas TransformacionesSeleccin de datos del Origen representa la consulta o primer filtrado/ordenacin de los datos origen Normalizacin convierte registros de orgenes relacionales o VSAM a registros normalizados (clusulas OCCURS, REDEFINES) Clculo de Expresiones/Nuevos Campos realiza clculos a nivel de campo Filtro funciona como un filtro condicional de los registros procesados Agregacin realiza clculos agregados (totales o incrementales) Rango limita los registros a los primeros o ltimos de un rango Estrategia de Actualizacin para marcar cada registro como insercin, actualizacin, borrado, o registro rechazado Lookup busca valores complementarios y los pasa a otros objetos Procedimientos Externos/Almacenados llama a programas desarrollados en otros lenguajes o en la base de datos Generador de Secuencia genera nuevos identificadores nicos
Trabajo con TransformacionesEjemplo: Estrategia de Actualizacin
ORIGEN
EXTRACCIN DEL ORIGEN
LOOKUP Busca Job_IDs en el destino T_JOBS
ESTRATEGIA DE ACTUALIZACIN Basado en la coincidencia de Job_IDs,
DESTINO
Diseo de Cargas
Ordene los datos por secuencias especficas de carga Fuerce a reglas limitadas de integridad de datos Busque la carga correcta de cada paso Construya estadsticas de carga y mensajes de error Cree el plan para cargas fallidas qu debe ocurrir Produzca la notificacin inmediata y automtica en caso de fallos (y/o xitos) en las cargasFUENTE: ONeil, 1997
Consejos sobre Planificacin de Cargas
Orden de carga cargue primero las tablasindependientes
Determine la ventana necesaria de carga use las Ejecute cargas en paralelo
horas de inicio y final para determinar el tiempo necesario para las cargasEjecucin concurrente Uso de threads, desarrollos multiproceso, paralelizacin de base de datos No sobrecargue los sistemas origen o destino
Carque en paralelo un mismo destinoDatos de sistemas independientes que van al mismo destino
Cargue mltiples destinos en paraleloDatos del mismo origen que vayan a diferentes destinos ahorre accesos de lectura
Plan de Carga de DestinosPrimero, tablas independientes Despus, tablas que no contienen claves forneas a otras tablas Por ltimo, las tablas que contienen claves forneas a otras tablas Tenga cuidado con transacciones de base de datos e intervalos de commit: los datos pueden estar cargados pero no validados
Planificacin de CargasTiming
PlanificacinPlanificacin propio de la herramienta Planificador genricoControl^M, Tareas Programadas de Windows
Ejecucin manual Ejecucin peridicacada n minutos/horas/das un mximo de veces/ para siempre
Ejecucin concretaEn un momento determinado Cada primer martes de mes a las 21:43
Scripts de carga (.bat, .sh, JCL)
Ejecucin basada en eventosDisponibilidad del fichero origen Slo si la carga anterior acab bien/mal
Monitorizacin de Cargas El mantenimiento de un data mart es una revisin constante de los procesos para optimizar valores de datos, pasos, tiempos, recursos utilizados, accesos a sistemas origen o destino debido a los constantes requerimientos nuevos de los usuarios finales y el crecimiento en funcionalidad y volumen de datos que eso conlleva
La Creacin de un Data Warehouse Sostenible y sus Data Marts Incrementales Requiere la Automatizacin de los Procesos de Carga
Fundamentos DWHHerramientas de Integracin de Datos
Integracin de Datos, ms all del BI
El ETL se ha quedado relegado a entornos analticos Aparecen necesidades de Integracin de datos para otro tipo de proyectosExternalizacin Migraciones Integracin de Aplicaciones, BBDD Sincronizacin etc
Un proceso simple?
ETL
Ensanchando el concepto de Integracin de Datos EIM, ContentManagement
Metadatos
Complex Data Exchange
Data Grid High Availability
Data Profiling
Data
Web Services (SOA)
Quality ETL Federation DWL
Real Time
Aplicaciones y Midleware(SAP, Siebel, TIBCO, Biztalk, )
EAI
BIChanged Data Capture Mainframe Auditing Scheduling Team Base Develop/(BO, SAS, Microstrategy, Hyperion, Cognos )
Bases de Datos(Oracle, Microsoft, IBM, )
Acceso Universal a los DatosEntrega de datos a Sistemas, Procesos y OrganizacionesSystemsIBM MQSeries TIBCO webMethods SAP NetWeaver XI SAP NetWeaver SAP IDOC SAP BCI SAP DMI SAP BW Oracle DB2 UDB DB2/400 SQL Server Sybase ADABAS Datacom DB2 IDMS IMS Web Services XML JMS ODBC Peoplesoft Oracle Apps Siebel SAS Informix Teradata ODBC Flat Files Web Logs VSAM C-ISAM Complex Files Tape Formats
XML, Messaging, and Web Services
Packaged Applications
Relational and Flat Files
Mainframe and Midrange
Flat Files, XLS, PPT Oracle SQL Server FTP Encrypted Stream Industry Formats XML, PDF, DOC,
Etc etc .
Informatica PowerCenterPuntos de inters como plataforma de integracin de datos (1/2) Permite integrar mltiples fuentes de datos heterogneas
Desarrollo de alta productividad
Herramientas de trabajo visuales. Interfaz grfico totalmente intuitivo Asistentes de transformacin NO hay generacin de cdigo Deteccin de errores (debugger integrado) Reutilizacin de componentes Anlisis de Impacto Anlisis del Linaje de datos Presentacin Web Metadatos y Autodocumentacin Metadatos extensibles Despliegues guiados. Rollback Versionado
Fcil de mantener: Metadatos corporativos
Informatica PowerCenterPuntos de inters como plataforma de integracin de datos (2/2)
Plataforma de Alto rendimientoGrid computing Alta Disponibilidad Tolerancia a fallos y recuperacin automtica Soporte a cargas BULK
Capacidades de Tiempo realConectores WebServices, ESB, EAI
Adaptabilidad y escalabilidad
Plataforma, recursos, volumen y usuarios
Capacidad de expandir las Transformaciones con mdulos externos (PL/Sql, C++, ) Autodocumentacin Planificador integrado
Informatica PowerCenterTrabajar como pienso Del papel TABLA REFERENCIA DESTINO
MAESTRO
DATAWAREHOUSE
DETALLE
UNION
TOTALES
SALIDA_XML
Informatica PowerCenter a la prctica
Informatica PowerCenter Metadata ReporterPresentacin web de los metadatos del repositorio
Fundamentos DWHHerramientas de Reporting y Anlisis
Tipos de Herramientas OLAPHerramientas de Consulta y Generacin de Informes Consultas Ad Hoc Herramientas EIS Herramientas de Data Mining Herramientas basadas en Web
On-Line Analytic Processing - (OLAP)
Perspectiva multidimensional de los datospueden ser vistos como cuadrculas de datos
Consulta interactiva de datosseguimiento de un flujo de informacin mediante mltiples pasos de drill-down
Los resultados son mostrados como tablas cruzadas, o tablas pivotantes Capacidades de modelizacin(incluyendo un motor de clculos)
Usado para anlisis de previsiones, tendencias y estadsticasFUENTE: Neil Raden, 1995
Caractersticas del Procesamiento OLAP
Acceden a volmenes de datos ENORMES Analizan las relaciones entre muchas dimensiones Involucran a datos agregados (ventas, presupuestos, beneficios, etc.) Comparan datos agregados a lo largo del tiempo Presentan los datos en diferentes jerarquas Realizan clculos complejos Pueden responder rpidamente a los usuarios
Motores Relacionales:
Almacenan los datos como lneas (registros) en tablas Todos siguen el mismo modelo relacional Se accede a ellos a travs de un lenguaje comn - SQL Tienen aproximadamente el mismo conjunto de funcionalidades
OLAP Relacional:
Permite el acercamiento mayor a las percepciones de los usuarios NO requiere la regeneracin de la base de datos si cambian las dimensiones No requiere ms trabajo de front-end Posiblemente requiere menos re-trabajo a lo largo del tiempo EST limitado por un conjunto de funciones disponibles Permite una granularidad ms flexible en los datos
OLAP Relacional (total):
Posee un potente generador SQL, capaz de crear consultas multi-pasada Puede crear rangos no triviales, comparaciones y clculos de porcentajes respecto al total Genera SQL optimizado, con extensiones Usa metadatos para modelos / consultas Est siendo promocionado por los fabricantes de BBDD
OLAP Multidimensional
Refleja los pensamientos de los usuarios sobre la actividad del negocio Hace referencia a cubos de datos Los cubos de ms de tres dimensiones se conocen como hipercubos El modelo de datos representado por el hipercubo es un modelo multidimensional Cualquier base de datos que pueda almacenar y representar ese modelo es una BD multidimensionalFUENTE: ONeil, 1997
Bases de Datos Multidimensionales: el HiperCuboTi m e
MS: Regin Territorio Vendedor Etc.
Product
Customer
OLAP Multidimensional
Normalmente almacena los datos como vectores internos Proporciona un gran rendimiento ante las consultasPorque los datos han sido preparados previamente dentro de la estructura A veces limitado a un nmero concreto de celdas del cubo
Dispone de libreras especiales de funciones Cambios en la estructura dimensional pueden requerir la regeneracin del cubo Requiere recursos que administren la generacin de las estructuras
. . . La Zona de Guerra
ROLAP
MOLAPPropietario (SQL) Vectores/Cubos Respuesta muy rpida Consultas predefinidas Funciones especiales Nuevos perfiles de desarrollo
SQL Estndar Tablas/Registros Respuesta ms lenta Consultas de SQL flexibles Funciones limitadas Uso de perfiles existentes
Argumentos de MOLAP contra ROLAP
Los gestores de bases de datos relacionales no gestionan las relaciones multidimensionales con eficiencia Inherentemente de dos dimensiones El SQL no es obvio para los usuarios finales Las uniones mltiples y el pobre rendimiento son un serio problema Las tablas denormalizadas absorben el rendimiento y los recursos
Argumentos de ROLAP contra MOLAP
Los cubos ofrecen niveles limitados de detalle No estn de acuerdo con el modelo dimensional Las MDDs no disponen de un un mtodo de acceso estndar (como SQL) No se pueden cambiar las dimensiones sin regenerar completamente el cubo El mbito de cada producto y su funcionalidad para el soporte a decisiones pueden variar ampliamente Cada herramienta es prcticamente de una categora diferente
Data Mining
Anlisis del WarehouseComienza con una hiptesis Busca aquellos datos que soportan esa hiptesis.
Muestra los clientes mayores que (asumimos que) compran los artculos ms caros
Data miningEl proceso crea la teora en base a la navegacin automtica por los datos
Quin compra realmente los artculos ms caros? Cules son sus nombres para el mercado indicado?FUENTE: Computerworld, March 29, 1999
Herramientas de Data Mining:
Requieren datos detallados histricos Requieren una calidad de datos muy alta Buscan patrones de comportamiento Necesitan una seleccin equilibrada de variables
Seleccin de Herramientas Finales:
Debera ocurrir MS TARDE en el proceso La CLAVE de la seleccin de la herramienta son los usuarios finales: es la nica parte que vern de todo el proyecto de DW Enfquese hacia los requerimientos que solucionan problemas tcnicos y de negocio importantes para diferenciarlas Involucre a los usuarios finales que usarn las herramientas Compruebe sus funciones, facilidad de uso, integracin, metadatos, cuota de mercado y estabilidadFUENTE: ONeil, 1997 (y others)
Mltiples Necesidades = Mltiples Herramientas
La realidad del data mart es que necesitar mltiples herramientas para dar soporte a los diferentes usuarios Use un nmero manejable de estas herramientas Estas herramientas deberan ser consideradas en los cambios de tecnologa y necesidades de usuarios
Sin Datos de Calidad todo lo que Tenemos son Opiniones