4.- OLAP.ppt

88
OLAP

Transcript of 4.- OLAP.ppt

Page 1: 4.- OLAP.ppt

OLAP

Page 2: 4.- OLAP.ppt

INTRODUCCIÓN

Los sistemas OLTP no sirven para proporcionar business intelligence por varios motivos: No están diseñados para calcular agregados. El cálculo de

estas medidas perjudica el rendimiento y la gestión de las tareas diarias. Además el tiempo de respuesta a una petición de este tipo es demasiado alto.

No permite el análisis histórico. No es una herramienta para el análisis de tendencias ni

permite extrapolaciones tipo data mining. Trabajar con OLTP requiere conocimientos técnicos: los

nombres de los campos y tablas son crípticos y las relaciones entre tablas (claves externas) son complejas.

Page 3: 4.- OLAP.ppt

Data Mart

Un data mart no se diseña igual que un sistema OLTP

Su propósito principal: optimizar la velocidad de acceso, por lo que no se crean según las normas de normalización.

Hay datos repetidos (desnormalizados) para conseguir velocidades de respuesta a las consultas más elevadas.

Sigue siendo una base de datos relacional, pero se construye para evitar combinaciones de registros al generar informes y análisis.

Page 4: 4.- OLAP.ppt

Data Mart

Las reglas de normalización se sustituyen por un método de diseño que gira alrededor de los “hechos”

Esquemas en estrella y en copo de nieve son la base del diseño de los data marts

Las cargas de datos pueden ser mensuales, semanales o diarias, dependiendo de los requisitos de BI que tenga la empresa, pero el data mart debe estar lo suficientemente actualizado como para permitir una toma de decisiones efectiva.

Las cargas de datos se deben hacer con una frecuencia tal que no suponga un estrés innecesario en el sistema OLTP

Page 5: 4.- OLAP.ppt

Data Mart

Los datos que se utilizan en un data mart pueden ser clasificados en cuatro categorías: Medidas Dimensiones Atributos Jerarquías

Medidas. Una medida es un número que expresa un aspecto del rendimiento de la empresa. Se utiliza para apoyar y evaluar la toma de decisiones. Se le puede llamar “hecho”. Las tablas que contienen las medidas se llaman tablas de hechos.

Page 6: 4.- OLAP.ppt

Data Mart

Dimensiones. Una dimensión es una clasificación utilizada para expandir una medida agregada y ver las partes que la constituyen.

Ejemplo: Medida agregada o resumida: total de ventas 435.786 €

Dimensión: tiempo en años; Miembros de la dimensión: 2004, 2005, 2006, 2007

Page 7: 4.- OLAP.ppt

Data Mart

La medida resumida se puede expandir Se pueden obtener hechos a diferentes

niveles de agregación Si se añade la dimensión producto, podría

visualizarse así:

Page 8: 4.- OLAP.ppt

Data Mart

Se puede seguir expandiendo la medida añadiendo más dimensiones como por ejemplo la región de las ventas o la edad del cliente.

Medidas con 3 dimensiones forman cubos, pero el nombre se extiende a cualquier número de dimensiones.

Page 9: 4.- OLAP.ppt

Data Mart

Atributos. Un atributo es información adicional que pertenece a un miembro de una dimensión pero que no es el identificador único o la descripción del miembro. Suele ser información que probablemente los usuarios quieran consultar como parte de su análisis. Se almacenan en columnas extra de las tablas de dimensiones.

Page 10: 4.- OLAP.ppt

Data Mart

Jerarquías. En muchos casos la dimensión forma parte de una estructura más amplia con varios niveles. Esta estructura se llama jerarquía. En el ejemplo, las dimensiones de año y región de ventas forman parte de su propia jerarquía. La dimensión Año contiene trimestres y los trimestres meses. La dimensión Región contiene provincias. Las jerarquías permiten al usuario navegar entre diferentes niveles de detalle dentro de las medidas del data mart. Un usuario puede ver las ventas de Pistachos en una determinada ciudad para el segundo trimestre de 2006.

Page 11: 4.- OLAP.ppt

Ejemplo

Venta

simporte

unidades

Alm

acén

Almacén

Ciudad

Región

Tipo

Pro

duct

o

Departamento

Nro_producto

Categoría

Marca

Tipo

Descripción

hecho

medidasdimensión

atributos

Tie

mpo

Día

Mes

Semana

AñoTrimestre

Dimensiones (puntos de vista) desde los que se puede analizar la actividad.

Actividad que es objeto de análisis con los indicadores que interesa analizar

Page 12: 4.- OLAP.ppt

Jerarquías del Ejemplo

departamento

almacén

ciudad región

tipo

día mes año

Producto

Almacén

Tiempo

nro. producto categoría

trimestre

semana

Page 13: 4.- OLAP.ppt

Data Mart

Las medidas, dimensiones, atributos y jerarquías se guardan en un data mart con una cierta estructura relacional. Existen dos estructuras ampliamente utilizadas que se dibujan como los diagramas mencionados antes: diagrama en estrella diagrama en copo de nieve.

Page 14: 4.- OLAP.ppt

Diagrama en Estrella

Este esquema utiliza dos tipos de tablas de datos: la tabla de hechos y la tabla de dimensiones.

El centro de la estrella lo forma la tabla de hechos (puede haber más de una). La tabla de hechos tiene una columna para la medida y una columna para cada dimensión que contenga una clave externa para el miembro de esta dimensión.

La clave primaria de esta tabla es una clave compuesta, se crea concatenando todos los campos con clave externa.

Las dimensiones se almacenan en tablas de dimensiones, con una columna para el identificador único del miembro de la dimensión y otra para describirlo.

PERSONAL

tiempo

equipo

Page 15: 4.- OLAP.ppt

Ejemplo: Esquema en

estrella con una tabla de hechos para ventas y cinco dimensiones: producto, año, región, edad, y campaña de marketing.

Page 16: 4.- OLAP.ppt

Diagrama de Copo de Nieve

Cada nivel en la jerarquía se almacena como una tabla dimensional diferente.

Como en el diagrama en estrella, las claves externas en la tabla de hechos en el centro del esquema apuntan al nivel más bajo de cada jerarquía.

Además, la tabla de hechos de este esquema contiene una sola fila para cada combinación única de los miembros a nivel más bajo de cada jerarquía.

Las medidas para niveles superiores se tienen que calcular como agregados.

El esquema en copo de nieve tiene todas las ventajas de un buen diseño relacional.

No tiene datos duplicados y, por lo tanto, su mantenimiento es menos costoso.

VENTAS

tiempo

producto

lugar

Page 17: 4.- OLAP.ppt

Diagrama de Copo de Nieve La desventaja de este diseño es que requiere combinaciones

de registros para las jerarquías altas de las tablas dimensionales.

En data marts grandes o que respondan a muchas consultas pueden haber problemas de rendimiento.

En ambos tipos de esquema se calculan agregados cuando el usuario lo pide, esto es, “on the fly”.

En un esquema con muchas dimensiones o con dimensiones con muchos miembros, esto puede llevar mucho tiempo.

El propósito principal de BI es que la velocidad de respuesta sea lo más alta posible para que la información esté dispuesta en el momento justo para aquellos que deban tomar las decisiones.

Page 18: 4.- OLAP.ppt

Diagrama de Copo de Nieve

Page 19: 4.- OLAP.ppt

Ejemplo 2 (ESTRELLA)

Page 20: 4.- OLAP.ppt

Ejemplo 2: Copo de nieve

Page 21: 4.- OLAP.ppt

Comparación básica

La ventaja del modelo copo de nieve es eliminar la redundancia de datos y por lo tanto ocupar menos espacio en disco.

En el modelo estrella las dimensiones no se normalizan. Con ello se logra minimizar el número de uniones y, por consiguiente, incrementar el rendimiento de las consultas (una tabla de hechos está relacionada con numerosas tablas de dimensiones)

Page 22: 4.- OLAP.ppt

Relación Data Mart - DW

¿Se puede recopilar toda la información necesaria en un único esquema estrella o copo de nieve?

NO : necesidad de varios esquemas.

Cada uno de estos esquemas se denomina datamart.

VENTAS

PERSONAL

PRODUCCIÓN

CAMPAÑA

tiempo

tiempo

tiempo

producto

producto

lugar

proyectoequipo

productoproveedor

lugar

lugar

tiempo

DW formado por 4

datamarts.

Page 23: 4.- OLAP.ppt

Data Mart

El almacén de datos puede estar formado por varios datamarts y, opcionalmente, por tablas adicionales.

Data mart

se definen para satisfacer las necesidades de un departamento o sección de la organización.

contiene menos información de detalle y más información agregada.

subconjunto de un almacén de datos, generalmente en forma de estrella o copo de nieve.

Page 24: 4.- OLAP.ppt

Sistemas OLAP

Con la información organizada en favor de la velocidad de acceso y de cálculo en el data mart, es necesario desarrollar una interfaz o un sistema que sea capaz de ofrecer la información resumida o agregada.

El sistema que en última instancia es capaz de realizar esto y de generar informes propios de BI es el OLAP.

Page 25: 4.- OLAP.ppt

Herramientas OLAP

Las herramientas de OLAP presentan al usuario una visión multidimensional de los datos (esquema multidimensional) para cada actividad que es objeto de análisis.

El usuario formula consultas a la herramienta OLAP seleccionando atributos de este esquema multidimensional sin conocer la estructura interna (esquema físico) del almacén de datos.

La herramienta OLAP genera la correspondiente consulta y la envía al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT).

Page 26: 4.- OLAP.ppt

Cubos OLAP

Como en el cálculo de un valor agregado intervienen varias dimensiones o jerarquías inferiores, lo habitual es que el sistema OLAP calcule y almacene algunos de estos valores (sino todos) gracias a procesos en segundo plano (background).

Así se consigue que los tiempos de cálculo no afecten a los usuarios. Los agregados se almacenan en una base de datos (relacional o multidimensional según la arquitectura empleada).

Page 27: 4.- OLAP.ppt

Herramientas OLAP

una consulta a un almacén de datos consiste generalmente en la obtención de medidas sobre los hechos parametrizadas

por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones

¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por trimestre y por categoría” ?.

Restricciones: productos del departamento Bebidas, ventas durante este año

medida hecho

Parámetros de la consulta: por categoría de producto y por trimestre

Page 28: 4.- OLAP.ppt

Herramientas OLAP

“2002”

“Bebidas”

Pro

duct

o

Tie

mpo

Alm

acén

Venta

s

importe

unidades

Departamento

Nro_producto

Categoría

Marca

TipoDía

Mes

Día de la semana

Almacén

Ciudad

Región

Tipo

Año

“Importe total de ventas en este año, del departamento

de “Bebidas”, por categoría y trimestre”

Trimestre

Page 29: 4.- OLAP.ppt

Herramientas OLAP

trimestretrimestre categoríacategoría importeimporte

INFORME

Page 30: 4.- OLAP.ppt

Herramientas OLAP

Presentación tabular (relacional) de los datos seleccionados

Categoría Trimestre Ventas

T4

T2

T3

T1

T3

2000000

3000000

1500000

2400000

8000000

T1 1000000

T4

T2 1000000

Refrescos

Refrescos

Refrescos

Refrescos

Zumos

Zumos

Zumos

Zumos

2000000

Se asumen dos categorías en el departamento de Bebidas: Refrescos y Zumos.

Page 31: 4.- OLAP.ppt

Herramientas OLAP

T4T3T2T1

Zumos

Refrescos

categoría

trimestre Presentación matricial (multidimensional) de los datos seleccionados

Los parámetros de la consulta (“por trimestre” y “por categoría”) determinan los criterios de agrupación de los datos seleccionados (ventas de productos del departamento Bebidas durante este año). La agrupación se realiza sobre dos dimensiones (Producto, Tiempo).

2000000 1000000 3000000 2000000

1000000 1500000 8000000 2400000

Page 32: 4.- OLAP.ppt

Herramientas OLAP

• Lo interesante no es poder realizar consultas que, en cierto modo, se pueden hacer con selecciones, proyecciones, concatenaciones y agrupamientos tradicionales.

• Lo realmente interesante de las herramientas OLAP son sus operadores de refinamiento o manipulación de consultas.

• DRILL

• ROLL

• SLICE & DICE

• PIVOT

Page 33: 4.- OLAP.ppt

Herramientas OLAP

El carácter agregado de las consultas en el Análisis de Datos, aconseja la definición de nuevos operadores que faciliten la agregación (consolidación) y la disgregación (división) de los datos:

agregación (roll): permite eliminar un criterio de agrupación en el análisis, agregando los grupos actuales.

disgregación (drill): permite introducir un nuevo criterio de agrupación en el análisis, disgregando los grupos actuales.

Page 34: 4.- OLAP.ppt

Herramientas OLAP

Si se desea introducir la dimensión Almacén en el análisis anterior e incluir un nuevo criterio de agrupación sobre la ciudad del almacén:

¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por trimestre, por categorías y por ciudad del almacén” ?.

Restricciones: productos del departamento Bebidas, ventas durante este año

Parámetros de la consulta: por categoría de producto, por trimestre y por ciudad del almacén.

Page 35: 4.- OLAP.ppt

Herramientas OLAP

“2002”

“Bebidas”

Pro

duct

o

Tie

mpo

Alm

acén

Venta

s

importe

unidades

Departamento

Nro_producto

Categoría

Marca

TipoDía

Mes

Día de la semana

Almacén

Ciudad

Región

Tipo

Año

“Importe total de ventas en este año, del departamento de “Bebidas”, por categoría,

trimestre y ciudad”

Trimestre

el usuario no necesita

diseñar este nuevo inform

e

Page 36: 4.- OLAP.ppt

Herramientas OLAP

trimestretrimestre categoríacategoría importeimporte

DRILL ACROSS

Almacén (Ciudad)

Informe mas detallado

¡ la operación de DRILL se realiza sobre el informe original !

Page 37: 4.- OLAP.ppt

Herramientas OLAP

Categoría Trimestre VentasCiudad

T2

T1

400000

T2 700000

Refrescos T1

Valencia

dri

ll-a

cro

ss

Categoría Trimestre Ventas

T4

T2

T3

T1

T3

2000000

3000000

1500000

2400000

8000000

T1 1000000

T4

T2 1000000

Refrescos

Refrescos

Refrescos

Refrescos

Zumos

Zumos

Zumos

Zumos

2000000

León

Refrescos

Refrescos

Refrescos

Valencia

León

1000000

1000000

* Se asumen dos ciudades: Valencia y León.

Cada grupo (categoría-trimestre) de la consulta original se disgrega en dos nuevos grupos (categoría-trimestre-ciudad) para las ciudades de León y Valencia.

Page 38: 4.- OLAP.ppt

Herramientas OLAP

T1 T2 T3 T4

Valencia

Zum

osR

e fr e

scos

León

1000000

300000

400000

500000

100000

200000

500000

2000000

Presentación matricial de los datos seleccionados.

Page 39: 4.- OLAP.ppt

Herramientas OLAP

Si se desea eliminar el criterio de agrupación sobre la dimensión Tiempo en la consulta original:

¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por categorías” ?

Page 40: 4.- OLAP.ppt

Herramientas OLAP

“2002”

“Bebidas”

Pro

duct

o

Tie

mpo

Alm

acén

Venta

s

importe

unidades

Departamento

Nro_producto

Categoría

Marca

TipoDía

Mes

Día de la semana

Almacén

Ciudad

Región

Tipo

Año

“Importe total de ventas en este año, del departamento

de “Bebidas”, por categorías”

Trimestre

el usuario no necesita

diseñar este nuevo inform

e

Page 41: 4.- OLAP.ppt

Herramientas OLAP

ROLL ACROSS

Tiempo (Trimestre)

Informe mas agregado

trimestretrimestre categoríacategoría importeimporte

¡ la operación de ROLL se realiza sobre el informe original !

Page 42: 4.- OLAP.ppt

Herramientas OLAP

Categoría Ventas

Refrescos 8000000

Zumos 12900000

roll-

acr

os

s

Categoría Trimestre Ventas

T4

T2

T3

T1

T3

2000000

3000000

1500000

2400000

8000000

T1 1000000

T4

T2 1000000

Refrescos

Refrescos

Refrescos

Refrescos

Zumos

Zumos

Zumos

Zumos

2000000

Page 43: 4.- OLAP.ppt

Herramientas OLAP

Las operaciones de agregación (ROLL) y disgregación (DRILL) se pueden hacer sobre:

atributos de una dimensión sobre los que se ha definido una jerarquía: DRILL-DOWN, ROLL-UP

departamento – categoría - producto (Producto)

año - trimestre – mes - día (Tiempo)

sobre dimensiones independientes: DRILL-ACROSS, ROLL-ACROSS

Producto – Almacén -Tiempo

Page 44: 4.- OLAP.ppt

Herramientas OLAP

trimestretrimestre categoríacategoría importeimporte

DRILL DOWN

Tiempo (mes)

¡ la operación de DRILL se realiza sobre el informe original !

“Importe

total d

e ventas e

n

este año, d

el departa

mento

de “Bebidas”,

por categoría

y

mes”

Page 45: 4.- OLAP.ppt

Herramientas OLAP

Categoría Trimestre VentasMes

T1

T1

500000

Refrescos T1

Enero

dri

ll-d

ow

n

Categoría Trimestre Ventas

T4

T2

T3

T1

T3

2000000

3000000

1500000

2400000

8000000

T1 1000000

T4

T2 1000000

Refrescos

Refrescos

Refrescos

Refrescos

Zumos

Zumos

Zumos

Zumos

2000000

Febrero

Refrescos

Refrescos Marzo

1000000

500000

Cada grupo (categoría-trimestre) de la consulta original se disgrega en dos nuevos grupos (categoría-trimestre-mes).

Page 46: 4.- OLAP.ppt

Ejemplo 2 - Drill

Page 47: 4.- OLAP.ppt

Herramientas OLAP

Otras operaciones de OLAP:

PIVOT: reorientación de las dimensiones en el informe.

SLICE & DICE: seleccionar y proyectar datos en el informe.

Page 48: 4.- OLAP.ppt

Herramientas OLAP

Ventas

ElectronicsToysClothingCosmetics

Q1

$5,2$1,9$2,3$1,1

ElectronicsToysClothingCosmetics

Q2

$8,9$0,75$4,6$1,5

Productos Store1 Store2

$5,6$1,4$2,6$1,1

$7,2$0,4$4,6$0,5

Ventas

ElectronicsToysClothingCosmetics

Stor

e 1 $5,2

$1,9$2,3$1,1

ElectronicsToysClothingCosmetics

Stor

e 2 $5,6

$1,4$2,6$1,1

Productos Q1 Q2

$8,9$0,75$4,6$1,5

$7,2$0,4$4,6$0,5

PIVOT

Page 49: 4.- OLAP.ppt

Herramientas OLAP

Ventas

ElectronicsToysClothingCosmetics

Q1

$5,2$1,9$2,3$1,1

ElectronicsToysClothingCosmetics

Q2

$8,9$0,75$4,6$1,5

Productos Store1 Store2

$5,6$1,4$2,6$1,1

$7,2$0,4$4,6$0,5

Ventas

ElectronicsToysQ

1 $5,2$1,9

Productos Store1

ElectronicsToysQ

2 $8,9$0,75

SLICE & DICE

Page 50: 4.- OLAP.ppt

Ejemplo 2 - Dice

Page 51: 4.- OLAP.ppt

Ejemplo 2 – DiceAgregando la dimensión Área al filtro, específicamente elÁrea Recepción

Page 52: 4.- OLAP.ppt

Herramientas OLAPLas herramientas de OLAP se caracterizan por:

ofrecer una visión multidimensional de los datos (matricial).

no imponer restricciones sobre el número de dimensiones.

permitir definir de forma flexible (sin limitaciones) sobre las dimensiones: restricciones, agregaciones y jerarquías entre ellas.

ofrecer operadores intuitivos de manipulación: drill-down, roll-up, slice-and-dice, pivot.

ser transparentes al tipo de tecnología que soporta el almacén de datos (ROLAP o MOLAP).

Page 53: 4.- OLAP.ppt

Recordemos Tipos de OLAP

Page 54: 4.- OLAP.ppt

Diseño de un Almacén de Datos OLAP

Diseño físico

Diseño lógico específico

Implementación

Diseño conceptual

Recogida y análisis derequisitos

Page 55: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Diseño físico

Diseño lógico

Implementación

Diseño conceptual

Recogida y análisis derequisitos Análisis

Discernimiento de las fuentes necesarias del sistema de información de la organización (OLTP) y externas

Requisitos de usuario (consultas de análisis necesarias, nivel de agregación, …)

p.ej. Entidad-Relación

Diseño Conceptual

Page 56: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Diseño físico

Diseño lógico

Implementación

Diseño conceptual

Recogida y análisis derequisitos Diseño

Lógico

Modelado multidimensional (MR)

Esquemas

Page 57: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Diseño físico

Diseño lógico

Implementación

Diseño conceptual

Recogida y análisis derequisitos

Definición del esquema ROLAP o MOLAP

Diseño Físico

Diseño del ETL

Page 58: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Diseño físico

Diseño lógico

Implementación

Diseño conceptual

Recogida y análisis derequisitos

Implementación

Carga del AD (ETL)

Preparación de las vistas de usuario

(herramienta OLAP)

Page 59: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Detallemos el Diseño Lógico...

La visión multidimensional seguida por las herramientas de explotación de

almacenes de datos (OLAP) ha inspirado los modelos y metodologías de diseño de este tipo de sistemas.

En la literatura se habla de “Bases de Datos Multidimensionales” y de “Diseño Multidimensional”

Diseño físico

Diseño lógico

Implementación

Diseño conceptual

Recogida y análisis derequisitos

Page 60: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Modelado multidimensional:

en un esquema multidimensional se representa una actividad que es objeto de análisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones).

la información relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho).

la información descriptiva de cada dimensión se representa por un conjunto de atributos (atributos de dimensión).

Page 61: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Pasos en el diseño del almacén de datos:

• Paso 1. Elegir un “proceso” de la organización para modelar.

• Paso 2. Decidir el gránulo (nivel de detalle) de representación del proceso.

• Paso 3. Identificar las dimensiones que caracterizan el proceso.

• Paso 4. Decidir la información a almacenar sobre el proceso.

Page 62: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Paso 1. Elegir un “proceso” de la organización para modelar.

Proceso: actividad de la organización soportada por un OLTP del cual se puede extraer información con el propósito de construir el almacén de datos.

Pedidos (de clientes)

Compras (a proveedores)

Facturación

Envíos

Ventas

Inventario

Page 63: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Ejemplo: Cadena de supermercados.

Cadena de supermercados con 300 almacenes en la que se expenden unos 30.000 productos distintos.

Actividad: Ventas.

La actividad a modelar son las ventas de productos en los almacenes de la cadena.

Page 64: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Paso 2. Decidir el gránulo (nivel de detalle) de representación.El gránulo define el nivel atómico de datos en el almacén de datos.El gránulo determina el significado de las tuplas de la tabla de hechos.El gránulo determina las dimensiones básicas del esquema

• transacción en el OLTP• información diaria• información semanal• información mensual. ....

Page 65: 4.- OLAP.ppt

Diseño de un Almacén de Datos

id_dim1

id_dim2

id_dim3

...

id_dim n

....

(hechos)

Dim3

Dim2

Dim1

tabla de hechos

tabla Dimensión 3

tabla Dimensión 1

tabla Dimensión 2 tabla

Dimensión nDimn

Page 66: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Ejemplo: Cadena de supermercados.

Gránulo: “se desea almacenar información sobre las ventas diarias de cada producto en cada almacén de la cadena”.

Gránulo:

define el significado de las tuplas de la tabla de hechos.

determina las dimensiones básicas del esquema.

producto

día

almacén

ventas

tiempo

almacén

producto

Page 67: 4.- OLAP.ppt

Diseño de un Almacén de Datos

• Gránulo inferior: no se almacena información a nivel de línea de ticket porque no se puede identificar siempre al cliente de la venta lo que permitiría hacer análisis del comportamiento (hábitos de compra) del cliente.

• Gránulo superior: no se almacena información a nivel semanal o mensual porque se perderían opciones de análisis interesantes: ventas en días previos a vacaciones, ventas en fin de semana, ventas en fin de mes, ....

En un almacén de datos se almacena información a un nivel de detalle (gránulo) fino no porque se vaya a

interrogar el almacén siempre a ese nivel sino porque ello permite clasificar y estudiar (analizar) la información desde muchos puntos de vista.

Page 68: 4.- OLAP.ppt

Diseño de un Almacén de Datos

producto

día

almacén

ventas

tiempo

almacén

producto

id_producto

id_fecha

id_almacén

.....

.....

......

tabla de hechos

la clave primaria* está formada por los identificadores de las dimensiones básicas.

datos (medidas) sobre las ventas diarias de un producto en un almacén.

* pueden existir excepciones a esta regla general

Page 69: 4.- OLAP.ppt

Diseño de un Almacén de DatosPaso 3. Identificar las dimensiones que caracterizan el proceso.

Dimensiones: dimensiones que caracterizan la actividad al nivel de detalle (gránulo) que se ha elegido. Ej:

Tiempo (dimensión temporal: ¿cuándo se produce la actividad?)

Producto (dimensión ¿cuál es el objeto de la actividad?)

Almacén (dimensión geográfica: ¿dónde se produce la actividad?)

Cliente (dimensión ¿quién es el destinatario de la actividad?)

De cada dimensión se debe decidir los atributos (propiedades) relevantes para el análisis de la actividad.

Entre los atributos de una dimensión existen jerarquías naturales que deben ser identificadas (día-mes-año)

Page 70: 4.- OLAP.ppt

Diseño de un Almacén de Datos

id_dim1

....

tabla Dimensión 1

(atri

buto

s)

Page 71: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Ejemplo: Cadena de supermercados.

definición de gránulo

dimensiones básicas

tiempo

producto

almacén

Nota: En las aplicaciones reales el número de dimensiones suele variar entre 3 y 15 dimensiones.

Page 72: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Dimensión Tiempo:

dimensión presente en todo AD porque el AD contiene información histórica sobre la organización.

aunque el lenguaje SQL ofrece funciones de tipo DATE, una dimensión Tiempo permite representar otros atributos temporales no calculables en SQL.

atributos frecuentes:

– nro. de día, nro. de semana, nro. de año: valores absolutos del calendario que permiten hacer ciertos cálculos aritméticos.

– día de la semana (lunes, martes, miércoles,...): permite hacer análisis sobre días de la semana concretos (ej. ventas en sábado, ventas en lunes,..).

Page 73: 4.- OLAP.ppt

Diseño de un Almacén de DatosDimensión Tiempo:

atributos frecuentes:

día del mes (1..31): permite hacer comparaciones sobre el mismo día en meses distintos (ventas el 1º de mes).

marca de fin de mes, marca de fin de semana : permite hacer comparaciones sobre el último día del mes o días de fin de semana en distintos meses.

trimestre del año (1..4): permite hacer análisis sobre un trimestre concreto en distintos años.

marca de día festivo: permite hacer análisis sobre los días previos y posteriores a un día festivo.

estación (primavera, verano..)

evento especial: permite marcar días de eventos especiales (final de campeonato de futbol, elecciones, paro estudiantil...)

jerarquía natural: día - mes - trimestre -año

Page 74: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Dimensión Producto:

la dimensión Producto se define a partir del archivo (tabla) maestro de productos del sistema OLTP.

las actualizaciones del archivo maestro de productos deben reflejarse en la dimensión Producto.

la dimensión Producto debe contener el mayor número posible de atributos descriptivos que permitan un análisis flexible. Un número frecuente es de 50 atributos.

atributos frecuentes: identificador (código estándar), descripción, tamaño del envase, marca, categoría, departamento, tipo de envase, producto dietético, peso, unidades por envase, fórmula, ...

Jerarquía natural: producto-categoría-departamento

Page 75: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Dimensión Almacén (store) :

la dimensión Almacén representa la información geográfica básica.

esta dimensión suele ser creada explícitamente recopilando información externa que sólo tiene sentido en el A.D y que no la tiene en un OLTP (número de habitantes de la ciudad del establecimiento, caracterización del tipo de población de la comuna, ...)

atributos frecuentes: identificador (código interno), nombre, dirección, región, ciudad, país, gerente, teléfono, fax, tipo de almacén, superficie, fecha de apertura, fecha de la última remodelación, superficie para congelados, superficie para productos frescos, datos de la población del distrito, zona de ventas, ...

Jerarquías naturales:

– establecimiento - ciudad - región - país (jerarquía geográfica)

– establecimiento - zona_ventas - región_ventas (jerarquía de ventas)

Page 76: 4.- OLAP.ppt

Diseño de un Almacén de Datos

id_establec

nro_establec

nombre

dirección

región

ciudad

país

tlfno

fax

superficie

tipo_almacén

...

Establecimiento

id_fecha

día

semana

mes

año

día_semana

día_mes

trimestre

festivo

....

Tiempo

id_producto

nro_producto

descripción

marca

subcategoría

categoría

departamento

peso

unidades_peso

tipo_envase

dietético

...

Producto

Page 77: 4.- OLAP.ppt

Diseño de un Almacén de Datos

id_fecha

id_producto

id_establec

...

...

...

Ventas

id_establec

nro_establec

nombre

dirección

región

ciudad

país

tlfno

fax

superficie

tipo_almacén

...

id_producto

nro_producto

descripción

marca

subcategoría

categoría

departamento

peso

unidades_peso

tipo_envase

dietético

...

Establecimiento

Producto

id_fecha

día

semana

mes

año

día_semana

día_mes

trimestre

festivo

....

Tiempo

Page 78: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Paso 4. Decidir la información a almacenar sobre el proceso.

Hechos: información (sobre la actividad) que se desea almacenar en cada tupla de la tabla de hechos y que será el objeto del análisis.

Precio

Unidades

Importe

....

Nota: algunos datos que en el OLTP coincidirían con valores de atributos de dimensiones, en el almacén de datos pueden representar hechos. (Ejemplo: el precio de venta de un producto).

Page 79: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Ejemplo: Cadena de supermercados.

Gránulo: “se desea almacenar información sobre las ventas diarias de cada producto en cada establecimiento de la cadena”.

– importe total de las ventas del producto en el día

– número total de unidades vendidas del producto en el día

– número total de clientes distintos que han comprado el producto en el día.

Page 80: 4.- OLAP.ppt

Diseño de un Almacén de Datos

id_fecha

id_producto

id_establec

importe

unidades

nro_clientes

Ventas

id_establec

nro_establec

nombre

dirección

región

ciudad

país

tlfno

fax

superficie

tipo_almacén

...

id_producto

nro_producto

descripción

marca

subcategoría

categoría

departamento

peso

unidades_peso

tipo_envase

dietético

...

Establecimiento

Producto

id_fecha

día

semana

mes

año

día_semana

día_mes

trimestre

festivo

....

Tiempo

Page 81: 4.- OLAP.ppt

Diseño de un Almacén de DatosOtras orientaciones de diseño:

uso de claves sin significado.

– en un almacén de datos debe evitarse el uso de las claves del sistema operacional.

– las claves de las dimensiones deben ser generadas artificialmente: claves de tipo entero (4 bytes) son suficiente para dimensiones de cualquier tamaño (232 valores distintos).

– la dimensión TIEMPO debe tener también una clave artificial.

Inconvenientes del uso de las claves del sistema operacional:

en el OLTP se puede decidir reutilizar valores de la clave no utilizados actualmente.

en el OLTP se puede decidir cambiar la codificación de las claves.

Page 82: 4.- OLAP.ppt

Diseño de un Almacén de Datos

Otras Orientaciones de diseño:

evitar normalizar.

Si se define una tabla de dimensión para cada dimensión identificada en el análisis, es frecuente que entre el conjunto de atributos de la tabla aparezcan dependencias funcionales que hacen que la tabla no esté en 3ª F.N.

Evitar normalizar:

el ahorro de espacio no es significativo

se multiplican los JOIN durante las consultas.

Page 83: 4.- OLAP.ppt

Diseño de un Almacén de Datos

En un almacén de Datos muchas consultas son restringidas y parametrizadas por criterios relativos a

periodos de tiempo (último mes, este año, ...).

Otras Orientaciones de diseño:

siempre introducir la dimensión Tiempo.

Page 84: 4.- OLAP.ppt

Diseño de un Almacén de DatosOtras orientaciones de diseño:

dimensiones “que cambian”.

Ejemplo: En un A.D existe la dimensión CLIENTE. En la tabla correspondiente un registro representa la información sobre el cliente “María García” cuyo estado civil cambia el 14-02-2012 de soltera a casada. El estado civil del

cliente es utilizado con frecuencia en el análisis de la información.

Se considera relevante el caso en que, en el mundo real, para un valor de una dimensión, cambia el valor de un atributo que es significativo para el análisis sin cambiar el valor de su clave.

Existen tres estrategias para el tratamiento de los cambios en las dimensiones:

Tipo 1: Realizar la modificación.

Tipo 2: Crear un nuevo registro.

Tipo 3: Crear un nuevo atributo.

Page 85: 4.- OLAP.ppt

Diseño de un Almacén de DatosOtras orientaciones de diseño:

definición de agregados.

En un almacén de datos es usual consultar información agregada

El almacenamiento de datos agregados por distintos criterios de agregación en la tabla de hechos mejora la eficiencia del AD.

Estrategias de almacenamiento de datos agregados:

Estrategia 1: definir nuevas tablas de hechos (resp. de dimensiones) para almacenar la información agregada .

Estrategia 2: insertar en la tabla de hechos (resp. dimensiones) tuplas que representan la información agregada (resp. niveles de agregación).

Page 86: 4.- OLAP.ppt

Desventajas de sistemas OLAP Requiere de conocimientos y experiencia elevados

para crear y gestionar las herramientas, y eso repercute en el costo.

La definición de medidas, dimensiones y jerarquías, la creación del cubo y de la herramienta OLAP requieren conocer profundamente los procesos y estructuras empresariales así como las técnicas de desarrollo para data mart y bases de datos.

En la mayoría de casos OLAP funciona a partir de un data mart con un esquema determinado, y los datos deben ser limpiados, transformados y extraídos de OLTP como tareas programadas.

Page 87: 4.- OLAP.ppt

Desventajas de sistemas OLAP Un cambio del sistema OLTP supone rediseñar el

proceso ETL. El proceso ETL no funciona continuamente, esto

añade latencia al sistema, en OLAP no tenemos los datos actualizados al segundo.

No es posible analizar escenarios hipotéticos, porque OLAP es solo de lectura.

Estas situaciones hipotéticas, aunque no puedan ser simuladas en OLAP, pueden ser estimadas a través de algoritmos de predicción, clasificación y agrupación. Estos algoritmos son los algoritmos de data miningdata mining.

Page 88: 4.- OLAP.ppt

Trabajo Evaluación 2

Implementar un modelo OLAP (Estrella) usando SQLServer, usando la metodología explicada Estacionamientos subterráneos Disquería IP Telecomunicaciones Call center Peaje

Generar informe Exponer