Balanceo e Integracion

download Balanceo e Integracion

of 106

Transcript of Balanceo e Integracion

Fundamentos DWH y Calidad de Datos

La solucin: los servicios de datosNecesidades empresariales Iniciativas de TI Proyectos de integracin de datosMejorar decisiones y cumplir con la normativa Modernizar el negocio y reducir los costos de TI Eliminacin de sistemas heredados Fusiones y adquisiciones Aumentar la rentabilidad del negocio Subcontratar funciones secundarias BPO SaaS

Inteligencia empresarial

Consolidacin de aplicaciones

Hubs de productos, proveedores y clientes

Almacenamiento de datos

Migracin de datos

Consolidacin de datos Servicios de datos

Gestin de datos maestros

Sincronizacin de datos

Servicios de datos

Plataforma de productos de Informatica Informatica PowerExchange Informatica Data Explorer Informatica Data Quality Informatica PowerCenter

Automatizacin de todo el ciclo de vida de la integracin de datosGarantizar la coherencia de los datos, realizar anlisis de impacto y supervisar constantemente la calidad de la informacinData Explorer Data Quality

Auditora, control y creacin de informes

AccesoA cualquier sistema, por lotes o en tiempo real

DeteccinBuscar y perfilar cualquier tipo de datos de cualquier fuente

Limpieza

IntegracinTransformar y conciliar datos de todo tipo

EntregaEntregar los datos adecuados en el momento y formato adecuados

Validar, corregir y estandarizar datos de todo tipo

PowerExchange

PowerCenter

Desarrollo y gestinDesarrollar y colaborar con un repositorio comn y metadatos compartidos

Fundamentos del DWH

Introduccin al DWH: Qu es? Arquitectura de un DWH Modelado de Datos y Metadatos Esquemas en Estrella Procesos y Estrategias de carga del DWH Herramientas de Integracin de Datos Herramientas de Reporting y Anlisis

Qu es un Data Warehouse?

Orientado a un TemaColeccin de informacin relacionada organizada alrededor de un tema central

IntegradoDatos de mltiples orgenes; consistencia de datos

Variable en el tiempoFotos en el tiempo Basado en fechas/periodos

No-voltilSlo lectura para usuarios finales

Menos frecuencia de cambios/actualizacionesUsado para el Soporte a Decisiones y Anlisis de Negocio

Orientado a TemaLos usuarios piensan en trminos de cosas y sus relaciones, no en trminos de procesos, funciones o aplicaciones.Proveedor Pedido Realiza Cliente

Proporciona Orden de Compra

Contiene Producto Inventario

Compuesta por

Recuperado desde

Integrado

ContieneConvenciones de Nombres Descripciones Atributos fsicos de los datos Valores de los datos

Consistentes

Admin. Marketing Datos

Operaciones

Ventas Cuentas

Variable en el tiempo Entorno

Operacional

Data WarehouseDatos en fotos Horizonte de 5 10 aos Refleja la perspectiva desde un momento en el tiempo

Datos con valores actuales Horizonte de 30 - 90 das Exactitud en los accesos

Id de cliente nombre direccin telfono ratio de crdito

Id de cliente fecha desde fecha hasta nombre direccin telfono ratio de crdito

No-Voltilinsercin cambio carga lectura

borrado Sistema OLTP(dinmico)

Sistema DSS(ms esttico)

Un Data Warehouse es ...

un modelo de datos de soporte a decisiones que representa la informacin que una compaa necesita para tomar BUENAS decisiones estratgicas. basado en la estructura de un sistema de gestin de base de datos relacional el cual puede ser usado para INTER-RELACIONAR los datos contenidos en l. con el propsito de proporcionar a los usuarios finales un acceso SENCILLO a la informacin.

un CONCEPTO, no una COSA

Para qu construir un Warehouse?

Para tener un mayor conocimiento del negocio Para tomar mejores decisiones y en un tiempo menor Para mejorar y ser ms efectivos Para no perder distancia con la competencia en definitiva $$$

Visin del UsuarioUsuarios FinalesPanel de ConsultaRepresentacin de Negocio

Base de Datos

Solucin integrada de: Consultas, informes y anlisis.Capa semntica que da una representacin de los datos desde el punto de vista de negocio.

Los usuarios utilizan trminos de negocio, no trminos informticos.

Arquitectura de un DWH

Nomenclatura

DWH: Data Warehouse DataMart OLTP: On-Line Transaction Processing OLAP: On-Line Analytic Processing ROLAP: Relational On-Line Analytic Processing MOLAP: Multidimensional On-Line Analytic Processing ODS: Object Data Store DSS: Decision Support System ETL: Extract, Transform and Load ETQL: Extract, Transform, Quality and Load EII: Enterprise Information Integration EAI: Enterprise Application Integration ERP: Enterprise Resource Planning

Directo de OLTP a OLAPLifeLife Information System Life OLAP

HealthHealth Information System Health Query

Auto Information System

AutoAuto Analysis

Directo de OLTP a OLAP

Es bueno, si los datos lo son. Horizonte de tiempo limitado Compite con OLTP por los recursos Uso frecuente para hojas de clculo No tiene metadatos (o slo implcitos) Principalmente, para jefes de departamentos, no se considera informacin para las masas No hay informacin cruzada entre los diferentes sistemas

Data Warehouse Virtual: Directo o Federado

LifeLife Information System

HealthHealth Information System

EII"Customer" OLAP

Auto Information System

Auto

Data Warehouse TotalLifeLife Information System

Extract: COBOL, SQL, Etc.Life OLAP MDD Tools

HealthHealth Information System

Extract: COBOL, SQL, Etc.

Enterprise Data WarehouseHealth R/OLAP Star Schema

Auto Information System

Auto

Extract: COBOL, SQL, Etc.

Auto SQL Query

Data Marts No EstructuradosLifeLife Information System

Extract: COBOL, SQL, Etc.

Life Data Mart

Life OLAP MDD Tools

HealthHealth Information System

Extract: COBOL, SQL, Etc.

Health Data Mart

Health R/OLAP Star Schema

Auto Information System

Auto

Extract: COBOL, SQL, Etc.

Auto Data Mart

Auto SQL Query

Data Marts EstructuradosLife OLTP EXTRACT SELECT TRANSFORM INTEGRATE LOAD Health OLTP Cleanse Data for: Names Formats Values Domains Metadata Life Data MartLife OLAP MDD Tools

Enterprise Data Warehouse "Customer"

Health Data Mart

Health R/OLAP Star Schema

Auto OLTP

Auto Data Mart

Auto SQL Query

OLAP (Online Analytic Processing)

Herramientas orientadas a consulta/anlisis Puede ser ROLAP o MOLAP 'Multi-dimensional', es decir, puede ser visualizada como cuadrculas' o 'cubos' Consulta interactiva de datos, siguiendo un hilo a travs de mltiples pasos -- 'drill-down' Visualizacin como tablas cruzadas, y tablas pivotantes Actualizacin de la base de datos Capacidad de modelizacin (motor de clculo) Pronsticos, tendencias y anlisis estadstico.

Ejemplo uso de una herramienta de consultaInformacin solicitada

Informacin disponible

Condiciones

El interfaz de usuario simple Trabaja contra representacin de negocio de los datos Todos los componentes en una pantalla

Integracin Datos no slo en entornos analticos Importancia de la Calidad

Los informes son la capa visible Herramientas de OLAP / Business Intelligence / Cuadro de Mando

Extraccin Limpieza de Datos

Servidores Red Bases de Datos

Transformacin Middleware Carga de Datos

Data Marts Estructurados: Visin Completa

Tcnicas de Modelizacin Estructural

En esta seccin veremos tcnicas que afectarn a diversos puntosConsideraciones de Tiempo Tcnicas de Optimizacin

Consideraciones de TiempoStaging Area ESTRUCTURAL Actualidad de Datos Agrupaciones basadas en tiempo Retencin de Histrico Data Warehouse Data Marts Relacional Dimensional

Todo el DW se ve afectado por cambios temporales porque por definicin es Tiempo-dependiente Preguntas importantes:Cuan actual deben ser los datos para satisfacer las necesidades de negocio? Cunta historia necesitamos en nuestro negocio? Qu niveles de agregacin son necesarios para qu ciclos de negocio?

Tiempo

Cul es el impacto del Tiempo en cada Almacn de Datos?

Tcnicas de Modelizacin Temporal

Unidades de tiempoCalendarios de negocio

TcnicasFoto (Snapshot) Trazado de Auditora

Metadatos temporalesFechas Efectivas de Inicio y Fin Fecha de cambio en Fuentes (evento) Fecha de cambio en Destinos (carga)

Foto (Snapshot)

Dos tcnicas diferentesMltiples Tablas Tabla nica

Uso de Fecha Efectiva Inicio en un ejemplo. Metadatos a nivel de registroFoto (SNAPSHOT) Nov 2001 CLIENTE Num Cliente Oct 2001 Nombre CLIENTE Apellido1 Num Apellido2 Cliente Nombre Gnero Apellido1 Fecha Carga Apellido2 Gnero Fecha Carga CLIENTE O bie n Num Cliente Fecha Efectiva Inicio Nombre Apellido1 Apellido2 Gnero Fecha Carga

Foto (Snapshot) Mltiple

Una tabla para cada perodo Se guardan TODOS los datos (cambien o no) Nombre de la tabla refleja el perodo Buen enfoque de (extraccin/carga/modelado) para Data Marts. Cada mes, en el ejemplo, representa los datos tal y como estaban Mal enfoque para Staging, ya que hay mucha replicacin de datosFoto (SNAPSHOT)Nov 2001 CLIENTE Num Cliente Nombre Oct 2001 CLIENTE Apellido1 Apellido2 Cliente Num Gnero Nombre Fecha Carga Apellido1 Apellido2 Gnero Fecha Carga

CLIENTE O bien Num Cliente Fecha Efectiva Inicio Nombre Apellido1 Apellido2 Gnero Fecha Carga

Foto (Snapshot) nica

Se guardan TODOS los datos (cambien o no) Buen enfoque para Data Marts y puede ser til en el Warehouse. Mal enfoque para Staging, ya que hay mucha replicacin de datos Time Stamps imprescindiblesFoto (SNAPSHOT) Nov 2001 CLIENTE Num Cliente Oct 2001 Nombre CLIENTE Apellido1 Num Apellido2 Cliente Nombre Gnero Apellido1 Fecha Carga Apellido2 Gnero Fecha Carga Fe cha Efe ctiva de Negocio CLIENTE Num Cliente Fe cha Efe ctiva Inicio Nombre Apellido1 Apellido2 Gnero Fecha Carga

O bien

Foto (Snapshot) nica

Fechas (Time Stamps) necesarias para identificar la validez de los datos:Fecha efectiva de Inicio Fecha efectiva de Fin (no est en el ejemplo) Fecha de CargaNum Cliente Fecha Efectiva Inicio 2304 31/10/2001 5590 31/10/2001 6720 31/10/2001 7841 31/10/2001 2304 30/11/2001 5590 30/11/2001 6720 30/11/2001 7841 30/11/2001 Vemos la duplicidad de los datos Nombre Juan Reyes Julia Astur Carlos Mrquez Luis Tesquilo Juan Reyes Julia Picado Carlos Mrquez Luis Tesquilo Gnero Hombre Mujer Hombre Hombre Mujer Hombre Fecha Carga 01/11/2001 01/11/2001 01/11/2001 01/11/2001 01/12/2001 01/12/2001 01/12/2001 01/12/2001

Trazado de AuditoraCLIENTE ID_cliente nombre apellido1 apellido2 gnero fecha_aniversario

Guarda los cambios de los datos de inters Informacin:Fecha del cambio Razn del cambio Cmo se ha detectado ...

AUDITORIA CLIENTE ID_cliente fecha_inicio_efectiva nombre apellido1 apellido2 gnero fecha_aniversario fecha_carga

Metadato a nivel registro

Slo se extraen/cargan valores modificados

Fecha de Negocio (no Metadato)

Trazado de AuditoraNum Cliente 2304 5590 6720 7841 5590 Fecha Efectiva Inicio 31/10/2001 31/10/2001 31/10/2001 31/10/2001 30/11/2001 Nombre Juan Reyes Julia Astur Carlos Mrquez Luis Tesquilo Julia Picado Gnero Hombre Mujer Hombre Fecha aniversario 01/01/1964 06/03/1948 19/09/1960 25/07/1952 06/03/1948 Fecha Carga 01/11/2001 01/11/2001 01/11/2001 01/11/2001 01/12/2001

Mujer

Slo cambios en la tabla Usado en Staging Area y Data Warehouse Posible en Data Marts, pero no es habitual ya que no es claro para un usuario final

Tcnicas de Optimizacin Estructural y FsicaStaging Area ESTRUCTURAL Actualidad de Datos Agrupaciones basadas en tiempo Retencin de Histrico Seguridad Distribucin Acceso Navegacin Herramientas Rendimiento Tamao Disponibilidad Recuperacin DBMS Cmo debe optimizarse cada almacn de datos en la Implementacin? Tiempo Data Data Marts Warehouse Relacional Dimensional

Implementacin

FSICO

Uso

Posicin

Tcnicas de Optimizacin

DerivacinData Warehouse y Data Marts Usos

PLIZA RESIDENCIAL num_pliza total_cobertura supl_terremotos supl_inundaciones supl_viento supl_robos supl_arte total_supleme ntos

Facilitar acceso Consistencia resultados

PLIZA

va Deri

cin

num_pliza cdigo_tipo_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio

una de

total_supleme ntos= supl_terremotos + supl_inundaciones + supl_viento + supl_robo + supl_arte

PLIZA_AUTOMOVIL

num_pliza total_colisin ...

Tcnicas de OptimizacinData WarehousePLIZA RESIDENCIAL num_pliza total_cobertura supl_terremotos supl_inundaciones supl_viento supl_robos supl_arte total_suplementos fecha_carga PLIZA

AgregacinNo cambio de granularidad Objetivo: Facilitar el acceso a los datos

num_pliza cdigo_tipo_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio fecha_carga

una de

PLIZA_AUTOMOVIL num_pliza total_colisin descuento_cliente indic_precio_especial fecha_carga

AGREGACIN

PLIZA RESIDENCIAL num_pliza cdigo_tipo_pliza fe cha_inicio_pliza fe cha_inicio_cobertura fe cha_fin_cobertura trminos cantidad_prima cantidad_servicio total_cobertura supl_terremotos supl_inundaciones supl_viento supl_robos supl_arte total_suplementos fecha_carga

AGREGACINPLIZA_AUTOMOVIL num_pliza total_colisin descuento_cliente indic_precio_especial cdigo_tipo_pliza fe cha_inicio_pliza fe cha_inicio_cobertura fe cha_fin_cobertura trminos cantidad_prima cantidad_servicio fecha_carga

Data Marts

Tcnicas de OptimizacinCLIENTE id_cliente fecha_alta_cliente fecha_baja_cliente nombre apellido1 apellido2 grupo_edad gnero estado_civil indic_cliente_perdido fecha_carga RESUMEN ANUAL CLIENTES id_cliente ao_resumen valor_inicio_ao valor_final_ao total_cuenta_inicio_ao total_cuenta_final_ao total_aos_como_cliente

SumarizacinHistrica Agrupada

AO num_ao

BASE CLIENTELA ANUAL id_zona id_producto cdigo_tipo num_ao cuenta_cliente

TRIMESTRE num_trimestre

BASE CLIENTELA id_zona id_producto cdigo_tipo num_me s cuenta_cliente

MES num_mes

Tcnicas de Optimizacin

Particionamiento HorizontalParticiones por filas Todos los campos repetidos en las nuevas tablas Uso

RESUMEN ANUAL CLIENTES id_cliente ao_resumen cdigo_re gin valor_inicio_ao valor_final_ao total_cuenta_inicio_ao total_cuenta_final_ao total_aos_como_cliente

Aislar datos sensibles Reduccin tamao tablas

RESUMEN ANUAL CLIENTES - SUR id_cliente ao_resumen valor_inicio_ao valor_final_ao total_cuenta_inicio_ao total_cuenta_final_ao total_aos_como_cliente

RESUMEN ANUAL CLIENTES - NORTE id_cliente ao_resumen valor_inicio_ao valor_final_ao total_cuenta_inicio_ao total_cuenta_final_ao total_aos_como_cliente

Tcnicas de Optimizacin

CLIENTE

Particionamiento VerticalDivisin por columnas Posibilidad de columnas redundantes Uso

id_cliente fecha_alta_cliente fecha_baja_cliente nombre apellido1 apellido2 grupo_edad gnero estado_civil indic_cliente_perdido num_cuenta_debito nombre_banco_debito num_autorizacin_dbito rango_crdito fecha_ultimo_check_credito fecha_carga Campos con Datos Sensible s

Campos con Datos no Sensible s

Seguridad Distribucin

CLIENTE id_cliente fecha_alta_cliente fecha_baja_cliente nombre apellido1 apellido2 grupo_edad gnero estado_civil indic_cliente_perdido fecha_carga

CLIENTE_SEGURO id_cliente fecha_alta_cliente fecha_baja_cliente nombre apellido1 apellido2 num_cuenta_debito nombre_banco_debito num_autorizacin_dbito rango_crdito fecha_ultimo_check_credito

Puede ser que tengamos Horizontal y Vertical a la vez

Tcnicas de OptimizacinPLIZA RESIDENCIAL num_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio total_cobertura supl_terremotos supl_viento supl_inundacin supl_pieles supl_arte supl_joyas supl_otros fecha_carga

Particionamiento por EstabilidadBasado en frecuencia de cambio Uso en Staging Area

Velocidad de carga Separar datos ms voltiles minimiza cambios

PLIZA RESIDENCIAL

Claves Primarias en ambas tablas

num_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio total_cobertura supl_terremotos supl_viento supl_inundacin fecha_carga

PLIZA RESIDENCIAL num_pliza fecha_inicio_pliza supl_pieles supl_arte supl_joyas supl_otros fecha_carga

Metadatos a Nivel Registro en ambas tablas

Tcnicas de OptimizacinFichero Master Ve ntas

Claves AlternativasCaso especial de derivacin Creada artificialmente para identificar entidades Habitualmente un entero Staging DW DM Hay que mantener un mapeo

Nmero_factura Nmero_clie nte ...

Identificador Factura Identificador Cliente

Fichero Master Marketing ID_campaa ID_clie nte ... PLIZAS ID_Pliza ID_Tomador ... Identificador Pliza Identificador Asegurado Identificador campaa Identificador Cliente

Generacin Claves Alternativas

MAPEO_ID_CLIENTE cdigo_sist_origen id_cliente_origen fecha_inicio fecha_fin num_id_cliente fecha_carga

CLIENTE num_id_cliente fecha_alta fecha_baja grupo_edad ... fecha_carga

Tcnicas de OptimizacinPLIZA_AUTOMOVIL

VEHCULO num_bastidor fecha_inicio_vehculo num_pliza marca modelo ... ind_ABS ind_airbag ind_ESP fecha_carga

Pre-Joins

num_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminostotal_colisin descuento_cliente indic_precio_especial cdigo_tipo_pliza ... fecha_carga

Caso especial de Agregacin Data Warehouse y Data Marts Existe redundancia de Informacin

PLIZA_Y_VEHCULO num_bastidor fecha_inicio_vehculo num_pliza fecha_inicio_cobe rtura fecha_fin_cobe rtura trminostotal_colisin descuento_cliente indic_precio_espe cial cdigo_tipo_pliza marca modelo ... ind_ABS ind_airbag ind_ESP fecha_carga

Incrementeo uso espacio

Acceso mucho ms rpido En el DW

Mantendremos tambin las tablas separadas para cuando no necesitemos la Join

Tcnicas de Optimizacin

Cadenas de DatosCaso especial de Agregacin Eficiente para Reporting NUNCA en operacionales o Staging, pero muy til en DW y DM

Tcnicas de Optimizacin

Balancear diferentes FactoresRendimiento Seguridad Distribucin

Recuperacin e rrores Tamao & Crecimie nto

Bases de Datos del Data Ware hose Estabilidad

Histrico Plataforma Acceso & Nave gacin

Fundamentos DWHEsquemas en Estrella

Puntos Fuertes de la Modelizacin Dimensional

Coincide con las percepciones de los usuarios Estructura predecible, estndar Facilita el desarrollo de consultas y anlisis Las herramientas OLAP pueden hacer suposiciones Cada dimensin es equivalente para todos los datos Puede ser modificada fcilmente Usa perspectivas de modelizacin comunes Simplifica la agregacin

Modelizacin Dimensional Regla de OroLos Esquemas en Estrella deberan ser utilizados para cualquier dato accedido directamente por los usuarios finales.

El Esquema en Estrella

Hechos Dimensiones De-normalizado (generalmente) Tiene caminos de unin bien diseados Paraleliza la visin de los datos por el usuario Son fcilmente modificables Simplifica la comprensin y navegacin por los metadatos Amplia la eleccin de herramientas de usuario final

Modelizacin Dimensional

Tablas de Hechos: contienen datos cuantitativos sobre el negocioLa clave primaria es una concatenacin de claves de dimensin, incluyendo el tiempo Cada elemento de la clave primaria compuesta es una clave de integridad referencial hacia una tabla de dimensin. Contienen menos atributos, pero muchos ms registros

Tablas de Dimensin: gestionan datos descriptivos que reflejan las diversas dimensiones del negocioContienen muchos atributos pero menos (pocos) registros La clave primaria ayuda a componer las claves primarias de las tablas de hechos

Esquema en Estrella (conceptual)

Diseo de una Tabla de Hechos

Elija el PROCESO del Data Mart

Comience el contenido del data mart a partir de datos de un solo origen

Defina la GRANULARIDAD de la tabla de hechos

Elija el nivel granular ms bajo posible Transacciones individuales o fotos

Elija las DIMENSIONES

Reflejan el contenido de la tabla de hechos y la granularidad

Elija los HECHOS

Los hechos individuales y el mbito de estos hechos deben ser especficos a la granularidad de la tabla de hechos

Identifique el Proceso Departamental

Cul es el proceso o funcin subyacente para el DM? Cul es el mbito aproximado del DM? Quin usar el DM? A qu preguntas les gustara a los usuarios que contestaran los datos del DM?

Determine los Hechos

Qu hechos estn disponibles?Cules son los datos cuantitativos fundamentales que hay por debajo? Los hechos ms tiles son los numricos y aditivos

Qu nivel de detalle (granularidad) necesita mantener?Sern datos atmicos (todo el detalle) o datos agregados (sumarizados)?

Si son agregados, cmo (usando qu algoritmo)? Para qu propsito de negocio?

Cul es la frecuencia de carga de datos requerida?

Cada transaccin? Cada hora? Da? Semana? Mes?

Tablas de Hechos Sin Hechos - EVENTOS

Eventos: Algo que ha ocurridoEjemplo: Asistencia de estudiantes a una clase, asientos de pasajeros de lnea area o habitaciones de hotel ocupadas

Enlace el evento a:Tiempo / estudiante / profesor / curso / facilidades

Tpico para crear un hecho vacoAsistencia = 1

La granularidad es el evento individual de asistencia a claseFUENTE: Kimball, 1998

Las Agregaciones Pueden:

Asegurar la consistencia entre data marts Ser hechas reutilizables para mantenerlas de manera centralizada Mejorar el rendimiento del usuario Reducir los recursos necesarios para preparar las consultas (CPU, disco, memoria) Ser utilizadas en base a:Frecuencia de acceso Efecto del nmero de registros

Determine las Dimensiones

Qu dimensiones pueden necesitar los usuarios?Cules son los conceptos fundamentales (entidades o temas) con los que los usuarios trabajarn?

Siempre existirn al menos dos dimensiones; quiz hasta una decena. El tiempo ser una dimensin prcticamente siempre Cul es el identificador (clave primaria) de cada una de las dimensiones?No_Cliente, ID_Cuenta, NoFactura

Los atributos de la dimensin se convierten en las cabeceras de los registros SQL

Para Cada Tabla de Dimensin

Establezca la clave primaria para cada registro dimensional Use la clave primaria como una parte de la clave compuesta de la tabla de hechos Identifique los atributos de inters para los usuariosQu atributos deben ser de-normalizados? Qu otros atributos podran tener valores significativos? Hay alguna oportunidad de incluir datos de fuera? Cules?

Aydese de los valores reales contenidos en los atributos

La Dimensin de Tiempo

Debe ser da a da durante 5-10 aos Separe los campos de semana, mes, da, ao, da de la semana, vacaciones, estaciones, etc. Trimestres naturales y fiscales Crela como una sola tabla en el DWH Cargue el contenido en los DM a medida que se necesiten

Establezca Relaciones

Dibuje la relacin visualmente Identifique la cardinalidad (1-N) Entre la tabla de hechos . . . y cada tabla de dimensin Una Imagen vale ms . . .

Mtodos para Identificar Dimensiones y Hechos

Informes de Concepto Reuniones y Entrevistas Requerimientos Especiales del Proyecto Documentos sobre mbito del Proyecto Peticiones de Informacin Cartas a los Reyes Magos Modelos y Bases de Datos Existentes Informes Actuales (y Deseados)

Ejemplo: Intereses de la Divisin Financiera

La divisin financiera ha preparado la siguiente lista de funcionalidades deseables en el data mart. Muchos de estos datos son informacin de cliente / demogrfica. Nos permitir evaluar el impacto de Costos en nuestros clientes, ubicacin y uso por nuestros clientes, Costos incurridos por ubicacin para servir a nuestros clientes y otros tipos de evaluaciones financieras relativas a Costos, uso, etc. Este tipo de informacin ser muy valiosa para dirigir los aspectos financieros y polticos de las planificaciones y soluciones futuras a los problemas actuales. Esta informacin nos permitir contestar mejor a las importantes preguntas que aparecern durante ese proceso.

Ejemplo: Frase de Ejemplo de Misin

Capture datos de nuestro sistema para realizar evaluaciones por zonas de nuestros clientes, intereses y beneficios y para asesorar el impacto de Costos sobre nuestra base de clientes.

Ejemplo: Preguntas a la Divisin Financiera1.

Datos demogrficos de nuestros clientes - el tipo de datos que aparece en un censo (tipo de vivienda, valor de la vivienda, ocupacin, sexo, educacin, ingresos, etc.) Puede ser usado para enviar mensajes oficiales, evaluacin de intereses de penalizacin, y mercado objetivo.

2. Clientes por clase de inters definicin por clientes residenciales, comerciales, industriales, gobierno y multifamiliares. 3. Beneficio demogrfico por cliente y consumo como valor de la vivienda, ingresos o educacin.

Ejemplo: Preguntas a la Divisin Financiera (2)4. Informacin sobre el servicio al cliente incluyendo beneficio por los diferentes tipos de intereses y cobros por zona geogrfica, beneficio y consumo. 5. Beneficio total por clase de cliente y categora de intereses a lo largo de los ltimos cinco aos. Qu clases de clientes dan ms beneficio? 6. Presupuesto del ao en curso por zona debe mostrar el presupuesto actual y en qu reas se han ido incurriendo esos Costos. 7. Valor de activos por zona un informe que muestre el valor depreciativo de los activos propios por zona.

Ejemplo: El Esquema Financiero en Estrella

Fundamentos DWHProcesos y Carga de Datos

Mapeo de Datos

Mapeo LGICO describe cmo ir desde donde se encuentra hasta donde quiere ir

Mapeo FSICO Indica las rutas, baches, desvos atajos de la carretera

TRANSPORTE Decida si est conduciendo un coche deportivo o un camin de recogida de chatarra

PLANIFICACIN Indica cundo saldr y cunto espera que le lleve llegar al destino

Soluciones de Extraccin, Transformacin y Carga de Datos (ETL)

Aproximacin de primera generacin (o crecimiento casero) Mapean origen a destino con capacidades variables de transformacin y limpieza Generan cdigo o directamente deben programarse Suelen controlar metadatos limitadosFUENTE: Doug Hackney, 1998

Plataformas de Integracin de Datos

Soluciones integradas Capacidad de implantacin a nivel corporativo Metadatos completos, abiertos y extensibles Abanico de transformaciones y reglas de negocio Anlisis, entrega y planificacin integradas Gestin Ad-hoc de agregaciones Monitorizacin y Auditora integradas Funciones avanzadas de Calidad de Datos Versionados, despliegues inteligentes

Proceso de Diseo1. CREACIN DE REPOSITORIO 4. CREACIN DE MAPPINGS

2. IMPORTACIN DE DEFICIONES DE ORGENES

Def Origen Mapeo Def Destino 3. CREACIN DE ESQUEMA DESTINO

Transformaciones Ms Comunes

Creacin de valores por defecto para los nulos Gestin de fechas Seleccin o filtrado de datos origen Unin de orgenes heterogneos (SAP+Ficheros+Tablas+) Normalizacin de los ficheros de datos Generacin de esquemas en estrella Creacin de estrategias de actualizacin Creacin y actualizacin de agregaciones Creacin de dimensiones slowly-changing

Algunas TransformacionesSeleccin de datos del Origen representa la consulta o primer filtrado/ordenacin de los datos origen Normalizacin convierte registros de orgenes relacionales o VSAM a registros normalizados (clusulas OCCURS, REDEFINES) Clculo de Expresiones/Nuevos Campos realiza clculos a nivel de campo Filtro funciona como un filtro condicional de los registros procesados Agregacin realiza clculos agregados (totales o incrementales) Rango limita los registros a los primeros o ltimos de un rango Estrategia de Actualizacin para marcar cada registro como insercin, actualizacin, borrado, o registro rechazado Lookup busca valores complementarios y los pasa a otros objetos Procedimientos Externos/Almacenados llama a programas desarrollados en otros lenguajes o en la base de datos Generador de Secuencia genera nuevos identificadores nicos

Trabajo con TransformacionesEjemplo: Estrategia de Actualizacin

ORIGEN

EXTRACCIN DEL ORIGEN

LOOKUP Busca Job_IDs en el destino T_JOBS

ESTRATEGIA DE ACTUALIZACIN Basado en la coincidencia de Job_IDs,

DESTINO

Diseo de Cargas

Ordene los datos por secuencias especficas de carga Fuerce a reglas limitadas de integridad de datos Busque la carga correcta de cada paso Construya estadsticas de carga y mensajes de error Cree el plan para cargas fallidas qu debe ocurrir Produzca la notificacin inmediata y automtica en caso de fallos (y/o xitos) en las cargasFUENTE: ONeil, 1997

Consejos sobre Planificacin de Cargas

Orden de carga cargue primero las tablasindependientes

Determine la ventana necesaria de carga use las Ejecute cargas en paralelo

horas de inicio y final para determinar el tiempo necesario para las cargasEjecucin concurrente Uso de threads, desarrollos multiproceso, paralelizacin de base de datos No sobrecargue los sistemas origen o destino

Carque en paralelo un mismo destinoDatos de sistemas independientes que van al mismo destino

Cargue mltiples destinos en paraleloDatos del mismo origen que vayan a diferentes destinos ahorre accesos de lectura

Plan de Carga de DestinosPrimero, tablas independientes Despus, tablas que no contienen claves forneas a otras tablas Por ltimo, las tablas que contienen claves forneas a otras tablas Tenga cuidado con transacciones de base de datos e intervalos de commit: los datos pueden estar cargados pero no validados

Planificacin de CargasTiming

PlanificacinPlanificacin propio de la herramienta Planificador genricoControl^M, Tareas Programadas de Windows

Ejecucin manual Ejecucin peridicacada n minutos/horas/das un mximo de veces/ para siempre

Ejecucin concretaEn un momento determinado Cada primer martes de mes a las 21:43

Scripts de carga (.bat, .sh, JCL)

Ejecucin basada en eventosDisponibilidad del fichero origen Slo si la carga anterior acab bien/mal

Monitorizacin de Cargas El mantenimiento de un data mart es una revisin constante de los procesos para optimizar valores de datos, pasos, tiempos, recursos utilizados, accesos a sistemas origen o destino debido a los constantes requerimientos nuevos de los usuarios finales y el crecimiento en funcionalidad y volumen de datos que eso conlleva

La Creacin de un Data Warehouse Sostenible y sus Data Marts Incrementales Requiere la Automatizacin de los Procesos de Carga

Fundamentos DWHHerramientas de Integracin de Datos

Integracin de Datos, ms all del BI

El ETL se ha quedado relegado a entornos analticos Aparecen necesidades de Integracin de datos para otro tipo de proyectosExternalizacin Migraciones Integracin de Aplicaciones, BBDD Sincronizacin etc

Un proceso simple?

ETL

Ensanchando el concepto de Integracin de Datos EIM, ContentManagement

Metadatos

Complex Data Exchange

Data Grid High Availability

Data Profiling

Data

Web Services (SOA)

Quality ETL Federation DWL

Real Time

Aplicaciones y Midleware(SAP, Siebel, TIBCO, Biztalk, )

EAI

BIChanged Data Capture Mainframe Auditing Scheduling Team Base Develop/(BO, SAS, Microstrategy, Hyperion, Cognos )

Bases de Datos(Oracle, Microsoft, IBM, )

Acceso Universal a los DatosEntrega de datos a Sistemas, Procesos y OrganizacionesSystemsIBM MQSeries TIBCO webMethods SAP NetWeaver XI SAP NetWeaver SAP IDOC SAP BCI SAP DMI SAP BW Oracle DB2 UDB DB2/400 SQL Server Sybase ADABAS Datacom DB2 IDMS IMS Web Services XML JMS ODBC Peoplesoft Oracle Apps Siebel SAS Informix Teradata ODBC Flat Files Web Logs VSAM C-ISAM Complex Files Tape Formats

XML, Messaging, and Web Services

Packaged Applications

Relational and Flat Files

Mainframe and Midrange

Flat Files, XLS, PPT Oracle SQL Server FTP Encrypted Stream Industry Formats XML, PDF, DOC,

Etc etc .

Informatica PowerCenterPuntos de inters como plataforma de integracin de datos (1/2) Permite integrar mltiples fuentes de datos heterogneas

Desarrollo de alta productividad

Herramientas de trabajo visuales. Interfaz grfico totalmente intuitivo Asistentes de transformacin NO hay generacin de cdigo Deteccin de errores (debugger integrado) Reutilizacin de componentes Anlisis de Impacto Anlisis del Linaje de datos Presentacin Web Metadatos y Autodocumentacin Metadatos extensibles Despliegues guiados. Rollback Versionado

Fcil de mantener: Metadatos corporativos

Informatica PowerCenterPuntos de inters como plataforma de integracin de datos (2/2)

Plataforma de Alto rendimientoGrid computing Alta Disponibilidad Tolerancia a fallos y recuperacin automtica Soporte a cargas BULK

Capacidades de Tiempo realConectores WebServices, ESB, EAI

Adaptabilidad y escalabilidad

Plataforma, recursos, volumen y usuarios

Capacidad de expandir las Transformaciones con mdulos externos (PL/Sql, C++, ) Autodocumentacin Planificador integrado

Informatica PowerCenterTrabajar como pienso Del papel TABLA REFERENCIA DESTINO

MAESTRO

DATAWAREHOUSE

DETALLE

UNION

TOTALES

SALIDA_XML

Informatica PowerCenter a la prctica

Informatica PowerCenter Metadata ReporterPresentacin web de los metadatos del repositorio

Fundamentos DWHHerramientas de Reporting y Anlisis

Tipos de Herramientas OLAPHerramientas de Consulta y Generacin de Informes Consultas Ad Hoc Herramientas EIS Herramientas de Data Mining Herramientas basadas en Web

On-Line Analytic Processing - (OLAP)

Perspectiva multidimensional de los datospueden ser vistos como cuadrculas de datos

Consulta interactiva de datosseguimiento de un flujo de informacin mediante mltiples pasos de drill-down

Los resultados son mostrados como tablas cruzadas, o tablas pivotantes Capacidades de modelizacin(incluyendo un motor de clculos)

Usado para anlisis de previsiones, tendencias y estadsticasFUENTE: Neil Raden, 1995

Caractersticas del Procesamiento OLAP

Acceden a volmenes de datos ENORMES Analizan las relaciones entre muchas dimensiones Involucran a datos agregados (ventas, presupuestos, beneficios, etc.) Comparan datos agregados a lo largo del tiempo Presentan los datos en diferentes jerarquas Realizan clculos complejos Pueden responder rpidamente a los usuarios

Motores Relacionales:

Almacenan los datos como lneas (registros) en tablas Todos siguen el mismo modelo relacional Se accede a ellos a travs de un lenguaje comn - SQL Tienen aproximadamente el mismo conjunto de funcionalidades

OLAP Relacional:

Permite el acercamiento mayor a las percepciones de los usuarios NO requiere la regeneracin de la base de datos si cambian las dimensiones No requiere ms trabajo de front-end Posiblemente requiere menos re-trabajo a lo largo del tiempo EST limitado por un conjunto de funciones disponibles Permite una granularidad ms flexible en los datos

OLAP Relacional (total):

Posee un potente generador SQL, capaz de crear consultas multi-pasada Puede crear rangos no triviales, comparaciones y clculos de porcentajes respecto al total Genera SQL optimizado, con extensiones Usa metadatos para modelos / consultas Est siendo promocionado por los fabricantes de BBDD

OLAP Multidimensional

Refleja los pensamientos de los usuarios sobre la actividad del negocio Hace referencia a cubos de datos Los cubos de ms de tres dimensiones se conocen como hipercubos El modelo de datos representado por el hipercubo es un modelo multidimensional Cualquier base de datos que pueda almacenar y representar ese modelo es una BD multidimensionalFUENTE: ONeil, 1997

Bases de Datos Multidimensionales: el HiperCuboTi m e

MS: Regin Territorio Vendedor Etc.

Product

Customer

OLAP Multidimensional

Normalmente almacena los datos como vectores internos Proporciona un gran rendimiento ante las consultasPorque los datos han sido preparados previamente dentro de la estructura A veces limitado a un nmero concreto de celdas del cubo

Dispone de libreras especiales de funciones Cambios en la estructura dimensional pueden requerir la regeneracin del cubo Requiere recursos que administren la generacin de las estructuras

. . . La Zona de Guerra

ROLAP

MOLAPPropietario (SQL) Vectores/Cubos Respuesta muy rpida Consultas predefinidas Funciones especiales Nuevos perfiles de desarrollo

SQL Estndar Tablas/Registros Respuesta ms lenta Consultas de SQL flexibles Funciones limitadas Uso de perfiles existentes

Argumentos de MOLAP contra ROLAP

Los gestores de bases de datos relacionales no gestionan las relaciones multidimensionales con eficiencia Inherentemente de dos dimensiones El SQL no es obvio para los usuarios finales Las uniones mltiples y el pobre rendimiento son un serio problema Las tablas denormalizadas absorben el rendimiento y los recursos

Argumentos de ROLAP contra MOLAP

Los cubos ofrecen niveles limitados de detalle No estn de acuerdo con el modelo dimensional Las MDDs no disponen de un un mtodo de acceso estndar (como SQL) No se pueden cambiar las dimensiones sin regenerar completamente el cubo El mbito de cada producto y su funcionalidad para el soporte a decisiones pueden variar ampliamente Cada herramienta es prcticamente de una categora diferente

Data Mining

Anlisis del WarehouseComienza con una hiptesis Busca aquellos datos que soportan esa hiptesis.

Muestra los clientes mayores que (asumimos que) compran los artculos ms caros

Data miningEl proceso crea la teora en base a la navegacin automtica por los datos

Quin compra realmente los artculos ms caros? Cules son sus nombres para el mercado indicado?FUENTE: Computerworld, March 29, 1999

Herramientas de Data Mining:

Requieren datos detallados histricos Requieren una calidad de datos muy alta Buscan patrones de comportamiento Necesitan una seleccin equilibrada de variables

Seleccin de Herramientas Finales:

Debera ocurrir MS TARDE en el proceso La CLAVE de la seleccin de la herramienta son los usuarios finales: es la nica parte que vern de todo el proyecto de DW Enfquese hacia los requerimientos que solucionan problemas tcnicos y de negocio importantes para diferenciarlas Involucre a los usuarios finales que usarn las herramientas Compruebe sus funciones, facilidad de uso, integracin, metadatos, cuota de mercado y estabilidadFUENTE: ONeil, 1997 (y others)

Mltiples Necesidades = Mltiples Herramientas

La realidad del data mart es que necesitar mltiples herramientas para dar soporte a los diferentes usuarios Use un nmero manejable de estas herramientas Estas herramientas deberan ser consideradas en los cambios de tecnologa y necesidades de usuarios

Sin Datos de Calidad todo lo que Tenemos son Opiniones