Introducción a DataWarehouse e Inteligencia de Negocios

45
DataWarehouse e Inteligencia de Negocios Introducción. Sebastián Rodríguez Robotham [email protected] www.EasyBI.cl 1

description

Introducción a los conceptos generales de DataWarehouse, Datamart e Inteligencia de Negocios.

Transcript of Introducción a DataWarehouse e Inteligencia de Negocios

Page 1: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 1

DataWarehouse e Inteligencia de Negocios

Introducción.

Sebastián Rodríguez [email protected]

Page 2: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 2

Conceptos Generales

Page 3: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 3

Conceptos GeneralesReferencia Bibliográfica

Ralph Kimball: The DataWarehouse ToolkitBill Inmon: Building the DataWarehouseSalvador Ramos: Microsoft Business Intelligence: Vea el cubo Medio LlenoSebastián Rodríguez R.: EIAD, Estrategia para la Implementación Inteligente de DWThomas Davenport: Analytics at work

Page 4: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 4

Conceptos Generales

Transacciones

Fundamentos.

Registrar y Controlar (OLTP)

VentasInventarios

ContabilidadRecursos Humanos

Etc-

Velocidad de TransacciónIntegridad de Información

Evitar Redundancias“3ª Forma Normal”

On-Line Transaction Processing

Analizar y Evaluar (OLAP)

Velocidad de ConsultasApoyo Toma de Decisiones

“Desnormalizado”

On-Line Analytical Processing

Page 5: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 5

Conceptos GeneralesDefinición DataWarehouse

Conjunto de herramientas y metodologías utilizadas para la administración de información con fines de análisis y gestión.

NO ES SOLO UNA TABLA DE HECHOS

NO ES SOLO UNA HERRAMIENTA

Page 6: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 6

Conceptos GeneralesDefinición DataWarehouse, objetivos

Automatizar los procesos de recopilación y generación de información usuarios utilizan la información, ya no la construyen.

Entregar autonomía a los usuarios

Normalizar el proceso de captura de información

Normalizar el proceso de entrega de información.

Fuente única de Información del Área / Empresa.

Información validada.

Page 7: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 7

Conceptos GeneralesModelo de Dato OLTP

Factura

Cliente

Det. Factura

Producto

Ciudad

Sexo

Est. Civil

Sucursal

Page 8: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 8

Conceptos GeneralesDefinición DataWarehouse e Inteligencia de Negocios.

Sistemas Origen OLAP

Reporting

ETL, ELT

Usuarios Avanzados

Minería de Datos

Page 9: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 9

Conceptos GeneralesDefinición DataWarehouse

DataWarehouse

Reporting

Page 10: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 10

Conceptos GeneralesCaracterísticas de un DataWarehouse

Orientado a Temas

Integrado

Histórico

Los datos son organizados por temas para facilitar el entendimiento a los usuarios.Todos los datos relativos a una misma “entidad” quedarán en una tabla.

Debido a que la información procede desde distintos sistemas, es tarea del DW integrar las diversas fuentes y normalizar los datos.

Los cambios en los datos relevantes deben quedar registrados, para luego poder consultarlos en diversos momentos en el tiempo

No Volátil Una vez introducida la información, debe quedar almacenada y disponible en formato solo lectura.

Page 11: Introducción a DataWarehouse e Inteligencia de Negocios

Conceptos GeneralesComponentes del Cubo

Tabla de Hechos

Tabla de Dimensiones

Almacena los indicadores del negocio (datos numéricos), tanto básicos como elementos calculados.

Almacena los datos descriptivos, por lo general son tablas con un porcentaje muy bajo de filas en relación a las tablas de Hechos, pero pueden contener muchas más columnas.

Una correcta y completa definición de campos en la tabla de dimensiones puede ayudar a realizar análisis robusto sobre los datos.

Page 12: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 12

Conceptos GeneralesTopología

Estrella

Copo de Nieve

Las dimensiones se relacionan directamente con la tabla de hechos.

Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información y/o cuando existe un proceso robusto de administración de Información (por ejemplo EIAD).

Las dimensiones se pueden relacionar con las tablas de hechos, o con otras dimensiones.

Esta estrategia es mejor para la administración directa en el modelo de DW.

Page 13: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 13

Conceptos GeneralesModelo de Datos OLAP – Copo de Nieve

Ventas

Cliente

Producto

Ciudad

Sexo

Est. Civil

Sucursal Tabla de Dimensiones

Tabla de Dimensiones

Tabla de Dimensiones

Tabla de Dimensiones

Tabla de Dimensiones

Tabla de Dimensiones

Tabla de Hechos

Page 14: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 14

Conceptos GeneralesModelo de Datos OLAP – Estrella

Ventas

Cliente, Ciudad, Sexo, Est. Civil

Producto

Sucursal

Tabla de Hechos

Tabla de Dimensiones

Tabla de Dimensiones

Tabla de Dimensiones

Page 15: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 15

Conceptos GeneralesTipos de Tablas de Hechos.

SnapShot

Incremental

Cada período se agrega un registro para la entidad, sin remplazar ni modificar la foto del período anterior. Ejemplo: Balances, Deudas en el sistema financiero.

Un registro por cada ocurrencia, pero la fila contiene múltiples fechas que indica el cambio de estados. A diferencia de los anteriores, en este tipo de estructuras se puede insertar y actualizar los registros. Ejemplo: WorkFlow, Juicios.

Transaccional Un registro por cada evento, que ocurre en una fecha determinada. Solo se pueden hacer inserciones.Ejemplo: Sistemas de Ventas.

Page 16: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 16

Conceptos GeneralesTipos de Dimensiones: Slow Changing Dimension

SCD N° 1

SCD N°2

SCD N° 3

Sobre escribir la información de la dimensión.No existe referencia histórica de los datos.

La clave de la dimensión es compuesta, registra, por cada cambio en la fila de la dimensión (o los campos que sean relevantes), un nuevo registro.

Agregar una columna adicional por cada columna cuyo valor queremos mantener en la historia.

Page 17: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 17

Conceptos GeneralesTipos de Dimensiones: Otros tipos de dimensiones

Dimensión Compuesta

Rol

Junta varias dimensiones en una sola, el objetivo principal es mejorar el rendimiento de la solución. Ejemplo: Tabla de clientes del modelo ejemplo.

Cuando hay mucha información repetida en una tabla de Hechos, es posible quitar esta información y “Factorizarla” en una tabla de dimensión. Esto minimiza el espacio utilizado por al tabla de Hechos y mejora el análisis sobre los datos.

Page 18: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 18

Conceptos GeneralesTipos de Dimensiones: Dimensión como Tabla de Hechos

Es posible encontrar tablas que cumplen la condición de ser Hechos en un modelo, y Dimensión en Otro.

Por ejemplo una tabla de hechos que agrupe información de ventas por clientes, puede ser una tabla de dimensiones en el modelo de ventas por Productos.

Estas son construcciones poco comunes, que surgen cuando el N° de iteraciones de revisión de los modelos de DW son mayores a 2.

Page 19: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 19

Conceptos GeneralesModelos de datos complejos: “Constelaciones”

Hechos 1

Dim 2

Dim 3

Dim 1

Hechos 2

Dim 5

Dim 4

Hechos 2

Dim 7

Dim 6

Page 20: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 20

Conceptos GeneralesEstrategias de Almacenamiento

MOLAP

ROLAP

HOLAP

Almacenamiento Multidimensional.Requiere alta utilización de disco.Optimizado para consultas rápidas.

Almacenamiento en Base Relacional.Alta escalabilidad.Rápida adaptabilidad a cambios en las definiciones

Mezcla de ambas estrategias.

Page 21: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 21

Conceptos GeneralesTecnología Disponible.

Bases de Datos Relacionales

Bases de Datos “Columnares”.

Permite la implementación de ROLAP, los proveedores de bases de datos están haciendo esfuerzos por mejorar esta tecnología para implementar proyectos de DW. (Ej. SQL Server 2008R2 incorpora optimización para consultas de tipo “Star Join”).

Diseñadas especialmente para implementar soluciones de tipo analíticas, a diferencia de la anterior, estas B.D. almacenan la información por Columnas y no por Filas, lo que otorga mayor velocidad de lectura y compresión de datos. (Ej. SyBase IQ).

Page 22: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 22

Conceptos GeneralesTecnología Disponible.

Bases de Datos Dimensionales.

Implementan la estrategia MOLAP y ROLAP, tienen la ventaja de precalcular las consultas que harán los usuarios, por lo cual los tiempos de respuesta serán muy bajos, sin embargo esto genera tiempos de preprocesamiento muy largos, lo que dificulta su utilización en ambientes muy dinámicos. Ej. SQL Server Analysis Services.

Bases de datos “NoSQL”

Todas las anteriores tienen la información estructurada. Estas bases de datos están diseñadas para buscar información sobre miles de millones de registros, ya sean fotos, textos, logs, etc. Los tiempos de respuesta son muy cortos para la gran cantidad de información que administra. Ejemplo: Hadoop (estrategia que utiliza Yahoo y Amazon para sus búsquedas).

Page 23: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 23

Conceptos GeneralesOptimización.

Índices

Compresión de Datos

Particionamiento

Administrar correctamente los índices puede mejorar el rendimiento en forma importante.Estadísticas de utilización entregada por herramientas puede ayudar a definir la estrategia de indexación.

La compresión de datos ayuda a mejorar el rendimiento de las consultas a la base, sin embargo los ETL pueden verse afectados.

Dividir tablas de hechos muy grandes ayuda a mejorar el rendimiento de acceso

Discos Optimizar los discos físicos, por ejemplo de Estado Sólido.

Page 24: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 24

Conceptos GeneralesOptimización.

Diseño Inicial

Surrogate Key

Un buen diseño desde el inicio del proyecto ayudará a disminuir las tareas de administración y corrección de datos.

Un buen diseño, según Kimball, debe tener entre 5 a 15 dimensiones.

Utilizar claves numéricas en todas las tablas mejora en forma importante el almacenamiento y rendimiento en búsquedas. En este sentido sustituir las claves provenientes de los sistemas origen proporciona mecanismos de independencia frente a cambios en dichos sistemas.

Page 25: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 25

Conceptos GeneralesDefinición Datamart

Datamart Es un almacén de datos con información referida a un área de estudio específica, algunas veces vinculada solamente a un área de la empresa.

Su estructura permite trabajar con millones de registros

En teoría, puede ser implementado en cualquier base de datos (incluso en Excel).

Page 26: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 26

Conceptos GeneralesEstrategias para la Implementación

Inmon

Kimball

Propone definir un Datawarehouse centralizado que considere el 100% de los requerimientos de la organización, para luego desarrollar Datamart departamentales que resuelvan las problemáticas locales de cada área.

Propone definir e implementar los datamart de cada área, para luego, a partir de estos datamarts, construir el Datawarehouse corporativo.

Page 27: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 27

Conceptos GeneralesTRIVIA: Mitos y Errores a Prevenir

Los Datawarehouse y/o Datamart solo pueden almacenar información agregada FALSO

Lo más importante es centrarse en la tecnología.FALSO, también en requerimientos del negocio.

Proyectos largos aseguran el éxito de la iniciativa.

FALSO, Proyectos interminables se diluyen.

La presentación de resultados es tan importante como el rendimiento.

VERDADERO

La tecnología y los requerimientos no cambian en el tiempo.

FALSO, hay que adaptar los datos a nuevos req.

Los usuarios deben adaptarse a las herramientas complejas

FALSO, no las usarán las personas no especialistas.

Page 28: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 28

Conceptos GeneralesModelos Complejos.

¿Cómo administrar múltiples cubos, con diferentes características y granularidad, que comparten algunas dimensiones?

Page 29: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 29

Business Intelligence

Page 30: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 30

Definiciones

Business Intelligence

Describe a la colección, preparación y distribución de datos para informes, control de gestión, análisis, supervisión y planificación del rendimiento

empresarial. Fuente: BI Survey.

Conjunto de estrategias y herramientas enfocadas a la administración y creación de conocimiento mediante el análisis de datos existentes en

una organización o empresa. Fuente: Wikipedia.

Page 31: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 31

Administración de Entornos Complejos

BICC

SSBI

Business Intelligence Competency Center

Self-Service Business Intelligence

Business Intelligence

Analytic at Work Metodología Thomas Davenport

Page 32: Introducción a DataWarehouse e Inteligencia de Negocios

BICC

Business Intelligence

Problema que Resuelve.

Existen múltiples iniciativas de BI en una organización sin conexión alguna, lo que en ocasiones genera muchos problemas de coordinación y de “versión única de la verdad”.

Características Es una solución permanente, conformada interna y formalmente en una organización, que desarrolla y promueve el uso efectivo de herramientas de inteligencia de negocios, las cuales permiten dar apoyo y despliegue a la estrategia organizacional.

Beneficios • Explota de mejor forma la inversión existente de BI• Coordina y consolida las diversas iniciativas de BI• Permite reaccionar rápidamente a cambios del negocio.• Reduce los riesgos en la implementación de nuevas

iniciativas BI• Apoya a los usuarios en el entendimiento completo del

negocio a través de diversos análisis.

Page 33: Introducción a DataWarehouse e Inteligencia de Negocios

BICC

Business Intelligence

Page 34: Introducción a DataWarehouse e Inteligencia de Negocios

BICC

Business Intelligence

Data Stewardship Administración de Metadata. Estándar, Calidad y Arquitectura de los datos

Support Resolver dudas y problemas de usuarios técnicos y de negocio.

BI Delivery Desarrolladores de interfaz de usuario, reporting, pruebas y mantención de lógica de negocio en las aplicaciones.

Data Acquisition Desarrolladores de integración y almacenamiento de datos, realizando pruebas y mantención.

Advanced Analytics Minería de Datos, modelos estadísticos, optimización, text mining y presupuestación.

Training Entrenamiento y capacitación para miembros de proyectos y usuarios de negocios.

Vendor Contracts management

Administrador de licencias de aplicaciones y actualizaciones.

Page 35: Introducción a DataWarehouse e Inteligencia de Negocios

BICC

Business Intelligence

Fuente: SAS, Capitalize on Competence, Implement a Business Intelligence Competency Center (BICC)

Page 36: Introducción a DataWarehouse e Inteligencia de Negocios

Self-Service BI

Self Services BI se define como las facilidades dentro de un ambiente BI que permite a usuarios ser más independiente y menos dependiente de un área de TI.

Problema: Tiempo de respuesta de áreas de TI son un cuello de botella impide el desarrollo de BI como hoy lo conocemos.

La solución:Generar un ambiente en el cual los analistas puedan crear y acceder a un conjunto de reportes, consultas y análisis por ellos mismos, con mínima intervención de TI

Fuente: Self Services Business Intelligence: Empowering Users to Generate Insights - TDWI

Business Intelligence

Page 37: Introducción a DataWarehouse e Inteligencia de Negocios

Self-Service BI

Estas facilidades deben estar enfocadas en cuatro objetivos

1. Fácil acceso a fuentes de datos para reportes y análisis.2. Herramientas de BI fáciles de usar y soporte mejorado para análisis de datos.3. Rápido de implementar.4. Datamart Fácil de administrar.

Fuente: Self Services Business Intelligence: Empowering Users to Generate Insights - TDWI

Business Intelligence

Page 38: Introducción a DataWarehouse e Inteligencia de Negocios

Self-Service BI

Business Intelligence

SSBI

Project Manager

Data Gobernance

Reporting

Analytic

Page 39: Introducción a DataWarehouse e Inteligencia de Negocios

Analytic at Works

Business Intelligence

Page 40: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 40

Otros Conceptos de

BI

Page 41: Introducción a DataWarehouse e Inteligencia de Negocios

Áreas de BI: Administración del Tiempo.

Business Intelligence

Urgencias: Se destina 20% del tiempo. Si no hay

urgencias se trabaja en los proyectos

Proyectos: 60% del tiempo será destinado a proyectos. Se considera para planificar y comprometer fechas de

entrega

Mejoras: 20% del tiempo final del día se dedica a

mejoras y proyectos propuestos por las áreas.

La prioridad sobre el tiempo la tienen las urgencias, luego los proyectos y finalmente las

mejoras y proyectos internos del área

Las urgencias son parte importante del trabajo diario

Page 42: Introducción a DataWarehouse e Inteligencia de Negocios

Business IntelligenceModelos de Comparación

Nivel 1• Múltiples Herramientas

de reportes y BI• Ambiente caótico• No hay alineación o

consistencia• No hay Organización

Nivel 2• Algunos equipos

trabajan juntos• Siguen varios grupos de

BI, pero comienzan a trabajar colaborativamente

Nivel 3• Estándares elegidos• IT y BI trabaja en

conjunto• Equipos de BI

constituidos• Se genera consistencia

en enfoques y procesos

Nivel 4• Conectando Estrategia y

Ejecución• Organización formal del

Área• IT, Finanzas y BI trabajar

en conjunto• Tecnología, personas y

estándar de procesos para BI y PM en marcha

BI Maturity levels (IBM)

Fuente: Business Intelligence Strategy, a Practical Guide for Achieving BI Excellence (IBM)

Page 43: Introducción a DataWarehouse e Inteligencia de Negocios

Business IntelligenceModelos de Comparación

The BI Competency Center – Organizing for Success

Fuente: Gartner Research

Comprensión del Negocio

Optimizar Relación con StakeHolders

Administrar, Mejorar el Negocio

Dar Sentido al NegocioEntender el

Negocio

Mejorar el Negocio

Cambiar el Negocio

Entender

Retener y Apalancar

Nuevas fuentes de Ingresos

Meta Objetivo

Alinear el Negocio

Eficiencia, consistencia, Rentabilidad

Page 44: Introducción a DataWarehouse e Inteligencia de Negocios

Business IntelligenceModelos de Comparación: SAS, Business Analytics for the CIO

Page 45: Introducción a DataWarehouse e Inteligencia de Negocios

www.EasyBI.cl 45

Conclusiones