Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos...

24
1 MODELADO DE DATOS DATA WAREHOUSE Ana María Bisbé York | [email protected] , Servicios Profesionales [email protected] | www.danysoft.com 18.04.2013 Temario Datawarehouse vs Transaccional Modelado dimensional de datos Hechos y Dimensiones Escenarios

Transcript of Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos...

Page 1: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

1

MODELADO DE DATOSDATA WAREHOUSEAna María Bisbé York | [email protected] , Servicios Profesionales [email protected] | www.danysoft.com 18.04.2013

Temario

Datawarehouse vs Transaccional

Modelado dimensional de datos– Hechos y Dimensionesy

Escenarios

Page 2: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

2

DISEÑO RELACIONAL VS DIMENSIONAL

Punto de partida proyectos Inteligencia de negocio

Diferentes contenedores de datos para obtener informaciónEsq ema relacional normali adoEsquema relacional normalizado

– Varios cientos o miles de tablas– Convenciones de nombres incorrectas o dudosas

Problemas en la calidad de datos– Problema de desconocimiento de reglas de negocio– Problemas de documentación

Al i d hi ó iAlmacenamiento de históricos

Page 3: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

3

Analizar contenedor de datos

Ventas por Internet – datos geográficos

– períodos de tiempo

Resultados análisis contenedor

Esquema relacional altamente normalizado– SQL Server

– 92 tablas

– Trabajo con esquemas

– Cada tabla, una entidad

– Integridad referencial

Page 4: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

4

Subconjunto de tablas a tratar ¿Datos Producto?

¿Datos Tiempo?

Características Modelo Dimensional

Orientado al tema, no a un informe IntegradoCodificado

– Atributo– Medida de atributo– Convención de nombres– Fuentes múltiples

De tiempo variable– Horizonte largo de tiempo vs operacionalesHorizonte largo de tiempo vs operacionales– Estructura clave con elemento tiempo

No volátil

Page 5: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

5

ObjetivosEncontrar las tablas y columnas adecuadas

– Reducir cantidad de tablas (join)

– Encontrar procesos de actualización e IR (triggers)• SQL Profiler• SQL Profiler

Diferenciar nombres de objetos para IT vs usuario final

– Autodocumentado

Obtener grandes cantidades de datos:limpios transformados con cierta latencia– limpios, transformados con cierta latencia

Planificar consultas que requieren diseño físico adecuado

Crear tabla de búsqueda de tiempos

Esquema Estrella

Simplificado, narrativo

Denormalizado

Única tabla de hechos (: M)( )

Dimensiones (1: )

Claves foráneas FK

Segmentación de datos

HechoHecho

El cliente A ha comprado el producto B

en la fecha C con cantidad D por un precio de E

Page 6: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

6

Esquema Copo de nieve

Esquema Híbrido

Page 7: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

7

Data Warehouse

Muchas estrellas = Modelo dimensional DW

Dimensiones compartidas

MODELADO DE DATOSDIMENSIONES, HECHOS

Page 8: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

8

Dimensiones

Tipos de columnas– Claves – keys – identificar entidades

– Nombres – nombrar “humanamente” entidades • SSAS ofrece traducciones

– Atributos: discretos o discretizados (10 valores o menos) – Edad

– Propiedades de miembro – etiquetas descriptivas -dirección

Dimensiones

Base del modelo

Columnas homogéneas, identificar miembros

Único estado activo en cada momentoÚnico estado activo en cada momento

Relaciones entre atributos con dependencias funcionales

Atributos sin hechos vs hechos sin atributos

Denormalización

P d d l di iPoder de las dimensiones– Etiquetas de filas y columnas

– Filtros

Page 9: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

9

Dimensión Tiempo

Tendencias y comparativas en períodos

Clave surrogada inteligente

Dimensiones lentamente cambiantes (SCD)

Tipo 1IdClienteSK

IdClienteBK

Nombre Distancia Género Propietario

1552 31421 Juan Pérez 6 km M No

Fecha IdClienteSK IdProductoSK

Cantidad Importe

07/01/2011 1552 95 1 1798.00

02/03/2011 1552 37 1 27.95

07/05/2012 1552 87 2 320.26

21/08/2012 1552 33 2 129.99

21/02/2013 1552 42 1 19.95

IdCli t S IdCli t B N b Di t i Gé P i t iIdClienteSK

IdClienteBK

Nombre Distancia Género Propietario

1552 31421 Juan Pérez 31 km M Yes

Page 10: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

10

Dimensiones lentamente cambiantes (SCD)

Tipo 2IdClienteSK

IdClienteBK

Nombre Distancia Género Propietario

1552 31421 Juan Pérez

6 km M NoPérez

IdClienteSK IdClienteBK Nombre Distancia Género Propietario FechaInicio FechaFin

1552 31421 Juan Pérez 6 km M No 07/01/2011 01/01/2013

2387 31421 Juan Pérez 31 km M Si 02/01/2013 31/12/9999

Fecha IdClienteSK IdProductoS Cantidad ImporteK

07/01/2011 1552 95 1 1798.00

02/03/2011 1552 37 1 27.95

07/05/2012 1552 87 2 320.26

21/08/2012 1552 33 2 129.99

21/02/2013 2387 42 1 19.95

Modelo Dimensional

Claves surrogadas– Protegen DW de cambios en el origen

– Permiten integrar datos de múltiples orígenes

– Permiten añadir filas a las dimensiones que no existen en el sistema origen.

– Permiten analizar los cambios de atributos en el tiempo (SCD)

– Claves eficientes que unen las BBDD relacionales y de SSASde SSAS

Page 11: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

11

Hechos

Tipos de columnas– Claves (FK) lado “Muchos”

– Medidas

– Linaje y auditoría

Identificar hechos– Columnas derivadas

– Ubicación de los hechos

– Cabecera vs detalle

– Asignación vs prorrateo

– Dimensiones degeneradas

Hechos

Sólo hechos– Aditivos, semiaditivos y no aditivos

No todos son hechos

Hechos derivados– Modelado dimensional del Datawarehouse

– Vista de origen de datos

– Modelado de cubo multidimensional (MDX)

– Herramienta cliente final

Granularidad

Muy eficientes, altamente normalizadas

sin redundancias

Page 12: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

12

MODELADO DE DATOSANALIZAR DATOS

Prospección y exploración de datos

Problemas en calidad de datos:– Campos sustituidos

– Campos sobrecargados

– Definición variable de los campos

– Entrada libre

Herramientas– Experto en los datos de origen

– Usuarios de negocio o usuarios poderosos

– Sistemas de informes existentes

Page 13: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

13

Incidencias comunes en datos

Tiempo invertido

Recursos adicionales

Pérdida de oportunidades

Impacto de datos sucios

Page 14: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

14

HerramientasMS SQL Server Management Studio (SSMS)MS Office Excel (2007 – 2010 – 2013)

– Filtros– Segmentadores– Minería de datosMinería de datos– MDM– PowerPivot– PowerView

BI SQL Server – SSIS, SSRS, SSAS OLAP - SSAS DM, MDS, DQS– Business Intelligence Development Studio (BIDS)– Data Tools

MS Sharepoint– Performance Point – PowerPivot, Power View

SSIS – Perfiles de datos

Page 15: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

15

MS Office Excel 2010SQL Server 2012 Master Data Services

Combinar datos, tratamiento de errores

Master Data Services

Page 16: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

16

SQL Server 2012 Data Quality ServicesInteractive Cleansing

Detección de anomalías –Códigos Postales después de transformación

Page 17: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

17

SQL Server 2012 DQS - Integración con SSIS

Sincronizar conjuntos de datos (SCD)

Page 18: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

18

Transformaciones de Flujo de datos

MODELADO DE DATOS

TRANSFORMAR Y CARGAR DATOSEscenario

Page 19: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

19

Ver Modelo transaccional Productos

Ver Modelo dimensional DW - Productos

Page 20: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

20

I.- Tablas normalizadasVista de Origen de datos - DSV

DSV de dimensión

I.- Tablas normalizadas

Relaciones de atributos

Jerarquías de usuarios y Relaciones de atributos

Page 21: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

21

II.- Tablas denormalizadascon dependencia funcional correcta

Optimizar ajustando las Relaciones de atributos

III.- Tablas denormalizadascon dependencia funcional incorrecta

Jerarquías de usuarios y Relaciones de atributos

Page 22: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

22

III.- Tablas denormalizadascon dependencia funcional incorrecta

Optimizar ajustando las Relaciones de atributos

Errores del motor de almacenamiento OLAP: Se ha encontrado una clave de atributo duplicada al procesar: Tabla: 'dbo_DimProduct', Columna: 'Color', Valor: 'Black'. El atributo es 'Color'.

III.- Tablas denormalizadascon dependencia funcional incorrecta

Solución.- Agregar otra columna para ColorTamaño

E l D t h– En el Datawarehouse

– En DSV

Page 23: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

23

Ventas por países por períodos de tiempo

Valor añadido Danysoft

• Te ofrecemos la gama más completa de utilidades de terceros que complementan VSTS

• Te asesoramos en la adquisición, renovación y consolidación de licencias software.

• Editamos libros especialmente creados por y paradesarrolladores.

Utilidades Licencias Software Libros

• Formación a medida para equipos de desarrollo

• Consultorías para la puesta en marcha de tecnologías

• Presentaciones técnicas para ayudar a la toma de decisiones

Formación Consultoría

decisiones

Presentaciones

Page 24: Datawarehouse vs Transaccional Modelado dimensional de datos · 3 Analizar contenedor de datos Ventas por Internet – datos geográficos – períodos de tiempo Resultados análisis

24

GraciasPara más información contacte con el 902 123146, o vía email con [email protected]

Ana María Bisbé York, Servicios [email protected] | www.danysoft.com