4.- OLAP.ppt
-
Upload
carolina-alvarado-roa -
Category
Documents
-
view
67 -
download
0
Transcript of 4.- OLAP.ppt
OLAP
INTRODUCCIÓN
Los sistemas OLTP no sirven para proporcionar business intelligence por varios motivos: No están diseñados para calcular agregados. El cálculo de
estas medidas perjudica el rendimiento y la gestión de las tareas diarias. Además el tiempo de respuesta a una petición de este tipo es demasiado alto.
No permite el análisis histórico. No es una herramienta para el análisis de tendencias ni
permite extrapolaciones tipo data mining. Trabajar con OLTP requiere conocimientos técnicos: los
nombres de los campos y tablas son crípticos y las relaciones entre tablas (claves externas) son complejas.
Data Mart
Un data mart no se diseña igual que un sistema OLTP
Su propósito principal: optimizar la velocidad de acceso, por lo que no se crean según las normas de normalización.
Hay datos repetidos (desnormalizados) para conseguir velocidades de respuesta a las consultas más elevadas.
Sigue siendo una base de datos relacional, pero se construye para evitar combinaciones de registros al generar informes y análisis.
Data Mart
Las reglas de normalización se sustituyen por un método de diseño que gira alrededor de los “hechos”
Esquemas en estrella y en copo de nieve son la base del diseño de los data marts
Las cargas de datos pueden ser mensuales, semanales o diarias, dependiendo de los requisitos de BI que tenga la empresa, pero el data mart debe estar lo suficientemente actualizado como para permitir una toma de decisiones efectiva.
Las cargas de datos se deben hacer con una frecuencia tal que no suponga un estrés innecesario en el sistema OLTP
Data Mart
Los datos que se utilizan en un data mart pueden ser clasificados en cuatro categorías: Medidas Dimensiones Atributos Jerarquías
Medidas. Una medida es un número que expresa un aspecto del rendimiento de la empresa. Se utiliza para apoyar y evaluar la toma de decisiones. Se le puede llamar “hecho”. Las tablas que contienen las medidas se llaman tablas de hechos.
Data Mart
Dimensiones. Una dimensión es una clasificación utilizada para expandir una medida agregada y ver las partes que la constituyen.
Ejemplo: Medida agregada o resumida: total de ventas 435.786 €
Dimensión: tiempo en años; Miembros de la dimensión: 2004, 2005, 2006, 2007
Data Mart
La medida resumida se puede expandir Se pueden obtener hechos a diferentes
niveles de agregación Si se añade la dimensión producto, podría
visualizarse así:
Data Mart
Se puede seguir expandiendo la medida añadiendo más dimensiones como por ejemplo la región de las ventas o la edad del cliente.
Medidas con 3 dimensiones forman cubos, pero el nombre se extiende a cualquier número de dimensiones.
Data Mart
Atributos. Un atributo es información adicional que pertenece a un miembro de una dimensión pero que no es el identificador único o la descripción del miembro. Suele ser información que probablemente los usuarios quieran consultar como parte de su análisis. Se almacenan en columnas extra de las tablas de dimensiones.
Data Mart
Jerarquías. En muchos casos la dimensión forma parte de una estructura más amplia con varios niveles. Esta estructura se llama jerarquía. En el ejemplo, las dimensiones de año y región de ventas forman parte de su propia jerarquía. La dimensión Año contiene trimestres y los trimestres meses. La dimensión Región contiene provincias. Las jerarquías permiten al usuario navegar entre diferentes niveles de detalle dentro de las medidas del data mart. Un usuario puede ver las ventas de Pistachos en una determinada ciudad para el segundo trimestre de 2006.
Ejemplo
Venta
simporte
unidades
Alm
acén
Almacén
Ciudad
Región
Tipo
Pro
duct
o
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
hecho
medidasdimensión
atributos
Tie
mpo
Día
Mes
Semana
AñoTrimestre
Dimensiones (puntos de vista) desde los que se puede analizar la actividad.
Actividad que es objeto de análisis con los indicadores que interesa analizar
Jerarquías del Ejemplo
departamento
almacén
ciudad región
tipo
día mes año
Producto
Almacén
Tiempo
nro. producto categoría
trimestre
semana
Data Mart
Las medidas, dimensiones, atributos y jerarquías se guardan en un data mart con una cierta estructura relacional. Existen dos estructuras ampliamente utilizadas que se dibujan como los diagramas mencionados antes: diagrama en estrella diagrama en copo de nieve.
Diagrama en Estrella
Este esquema utiliza dos tipos de tablas de datos: la tabla de hechos y la tabla de dimensiones.
El centro de la estrella lo forma la tabla de hechos (puede haber más de una). La tabla de hechos tiene una columna para la medida y una columna para cada dimensión que contenga una clave externa para el miembro de esta dimensión.
La clave primaria de esta tabla es una clave compuesta, se crea concatenando todos los campos con clave externa.
Las dimensiones se almacenan en tablas de dimensiones, con una columna para el identificador único del miembro de la dimensión y otra para describirlo.
PERSONAL
tiempo
equipo
Ejemplo: Esquema en
estrella con una tabla de hechos para ventas y cinco dimensiones: producto, año, región, edad, y campaña de marketing.
Diagrama de Copo de Nieve
Cada nivel en la jerarquía se almacena como una tabla dimensional diferente.
Como en el diagrama en estrella, las claves externas en la tabla de hechos en el centro del esquema apuntan al nivel más bajo de cada jerarquía.
Además, la tabla de hechos de este esquema contiene una sola fila para cada combinación única de los miembros a nivel más bajo de cada jerarquía.
Las medidas para niveles superiores se tienen que calcular como agregados.
El esquema en copo de nieve tiene todas las ventajas de un buen diseño relacional.
No tiene datos duplicados y, por lo tanto, su mantenimiento es menos costoso.
VENTAS
tiempo
producto
lugar
Diagrama de Copo de Nieve La desventaja de este diseño es que requiere combinaciones
de registros para las jerarquías altas de las tablas dimensionales.
En data marts grandes o que respondan a muchas consultas pueden haber problemas de rendimiento.
En ambos tipos de esquema se calculan agregados cuando el usuario lo pide, esto es, “on the fly”.
En un esquema con muchas dimensiones o con dimensiones con muchos miembros, esto puede llevar mucho tiempo.
El propósito principal de BI es que la velocidad de respuesta sea lo más alta posible para que la información esté dispuesta en el momento justo para aquellos que deban tomar las decisiones.
Diagrama de Copo de Nieve
Ejemplo 2 (ESTRELLA)
Ejemplo 2: Copo de nieve
Comparación básica
La ventaja del modelo copo de nieve es eliminar la redundancia de datos y por lo tanto ocupar menos espacio en disco.
En el modelo estrella las dimensiones no se normalizan. Con ello se logra minimizar el número de uniones y, por consiguiente, incrementar el rendimiento de las consultas (una tabla de hechos está relacionada con numerosas tablas de dimensiones)
Relación Data Mart - DW
¿Se puede recopilar toda la información necesaria en un único esquema estrella o copo de nieve?
NO : necesidad de varios esquemas.
Cada uno de estos esquemas se denomina datamart.
VENTAS
PERSONAL
PRODUCCIÓN
CAMPAÑA
tiempo
tiempo
tiempo
producto
producto
lugar
proyectoequipo
productoproveedor
lugar
lugar
tiempo
DW formado por 4
datamarts.
Data Mart
El almacén de datos puede estar formado por varios datamarts y, opcionalmente, por tablas adicionales.
Data mart
se definen para satisfacer las necesidades de un departamento o sección de la organización.
contiene menos información de detalle y más información agregada.
subconjunto de un almacén de datos, generalmente en forma de estrella o copo de nieve.
Sistemas OLAP
Con la información organizada en favor de la velocidad de acceso y de cálculo en el data mart, es necesario desarrollar una interfaz o un sistema que sea capaz de ofrecer la información resumida o agregada.
El sistema que en última instancia es capaz de realizar esto y de generar informes propios de BI es el OLAP.
Herramientas OLAP
Las herramientas de OLAP presentan al usuario una visión multidimensional de los datos (esquema multidimensional) para cada actividad que es objeto de análisis.
El usuario formula consultas a la herramienta OLAP seleccionando atributos de este esquema multidimensional sin conocer la estructura interna (esquema físico) del almacén de datos.
La herramienta OLAP genera la correspondiente consulta y la envía al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT).
Cubos OLAP
Como en el cálculo de un valor agregado intervienen varias dimensiones o jerarquías inferiores, lo habitual es que el sistema OLAP calcule y almacene algunos de estos valores (sino todos) gracias a procesos en segundo plano (background).
Así se consigue que los tiempos de cálculo no afecten a los usuarios. Los agregados se almacenan en una base de datos (relacional o multidimensional según la arquitectura empleada).
Herramientas OLAP
una consulta a un almacén de datos consiste generalmente en la obtención de medidas sobre los hechos parametrizadas
por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones
¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por trimestre y por categoría” ?.
Restricciones: productos del departamento Bebidas, ventas durante este año
medida hecho
Parámetros de la consulta: por categoría de producto y por trimestre
Herramientas OLAP
“2002”
“Bebidas”
Pro
duct
o
Tie
mpo
Alm
acén
Venta
s
importe
unidades
Departamento
Nro_producto
Categoría
Marca
TipoDía
Mes
Día de la semana
Almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en este año, del departamento
de “Bebidas”, por categoría y trimestre”
Trimestre
Herramientas OLAP
trimestretrimestre categoríacategoría importeimporte
INFORME
Herramientas OLAP
Presentación tabular (relacional) de los datos seleccionados
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Se asumen dos categorías en el departamento de Bebidas: Refrescos y Zumos.
Herramientas OLAP
T4T3T2T1
Zumos
Refrescos
categoría
trimestre Presentación matricial (multidimensional) de los datos seleccionados
Los parámetros de la consulta (“por trimestre” y “por categoría”) determinan los criterios de agrupación de los datos seleccionados (ventas de productos del departamento Bebidas durante este año). La agrupación se realiza sobre dos dimensiones (Producto, Tiempo).
2000000 1000000 3000000 2000000
1000000 1500000 8000000 2400000
Herramientas OLAP
• Lo interesante no es poder realizar consultas que, en cierto modo, se pueden hacer con selecciones, proyecciones, concatenaciones y agrupamientos tradicionales.
• Lo realmente interesante de las herramientas OLAP son sus operadores de refinamiento o manipulación de consultas.
• DRILL
• ROLL
• SLICE & DICE
• PIVOT
Herramientas OLAP
El carácter agregado de las consultas en el Análisis de Datos, aconseja la definición de nuevos operadores que faciliten la agregación (consolidación) y la disgregación (división) de los datos:
agregación (roll): permite eliminar un criterio de agrupación en el análisis, agregando los grupos actuales.
disgregación (drill): permite introducir un nuevo criterio de agrupación en el análisis, disgregando los grupos actuales.
Herramientas OLAP
Si se desea introducir la dimensión Almacén en el análisis anterior e incluir un nuevo criterio de agrupación sobre la ciudad del almacén:
¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por trimestre, por categorías y por ciudad del almacén” ?.
Restricciones: productos del departamento Bebidas, ventas durante este año
Parámetros de la consulta: por categoría de producto, por trimestre y por ciudad del almacén.
Herramientas OLAP
“2002”
“Bebidas”
Pro
duct
o
Tie
mpo
Alm
acén
Venta
s
importe
unidades
Departamento
Nro_producto
Categoría
Marca
TipoDía
Mes
Día de la semana
Almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en este año, del departamento de “Bebidas”, por categoría,
trimestre y ciudad”
Trimestre
el usuario no necesita
diseñar este nuevo inform
e
Herramientas OLAP
trimestretrimestre categoríacategoría importeimporte
DRILL ACROSS
Almacén (Ciudad)
Informe mas detallado
¡ la operación de DRILL se realiza sobre el informe original !
Herramientas OLAP
Categoría Trimestre VentasCiudad
T2
T1
400000
T2 700000
Refrescos T1
Valencia
dri
ll-a
cro
ss
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
León
Refrescos
Refrescos
Refrescos
Valencia
León
1000000
1000000
* Se asumen dos ciudades: Valencia y León.
Cada grupo (categoría-trimestre) de la consulta original se disgrega en dos nuevos grupos (categoría-trimestre-ciudad) para las ciudades de León y Valencia.
Herramientas OLAP
T1 T2 T3 T4
Valencia
Zum
osR
e fr e
scos
León
1000000
300000
400000
500000
100000
200000
500000
2000000
Presentación matricial de los datos seleccionados.
Herramientas OLAP
Si se desea eliminar el criterio de agrupación sobre la dimensión Tiempo en la consulta original:
¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por categorías” ?
Herramientas OLAP
“2002”
“Bebidas”
Pro
duct
o
Tie
mpo
Alm
acén
Venta
s
importe
unidades
Departamento
Nro_producto
Categoría
Marca
TipoDía
Mes
Día de la semana
Almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en este año, del departamento
de “Bebidas”, por categorías”
Trimestre
el usuario no necesita
diseñar este nuevo inform
e
Herramientas OLAP
ROLL ACROSS
Tiempo (Trimestre)
Informe mas agregado
trimestretrimestre categoríacategoría importeimporte
¡ la operación de ROLL se realiza sobre el informe original !
Herramientas OLAP
Categoría Ventas
Refrescos 8000000
Zumos 12900000
roll-
acr
os
s
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Herramientas OLAP
Las operaciones de agregación (ROLL) y disgregación (DRILL) se pueden hacer sobre:
atributos de una dimensión sobre los que se ha definido una jerarquía: DRILL-DOWN, ROLL-UP
departamento – categoría - producto (Producto)
año - trimestre – mes - día (Tiempo)
sobre dimensiones independientes: DRILL-ACROSS, ROLL-ACROSS
Producto – Almacén -Tiempo
Herramientas OLAP
trimestretrimestre categoríacategoría importeimporte
DRILL DOWN
Tiempo (mes)
¡ la operación de DRILL se realiza sobre el informe original !
“Importe
total d
e ventas e
n
este año, d
el departa
mento
de “Bebidas”,
por categoría
y
mes”
Herramientas OLAP
Categoría Trimestre VentasMes
T1
T1
500000
Refrescos T1
Enero
dri
ll-d
ow
n
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Febrero
Refrescos
Refrescos Marzo
1000000
500000
Cada grupo (categoría-trimestre) de la consulta original se disgrega en dos nuevos grupos (categoría-trimestre-mes).
Ejemplo 2 - Drill
Herramientas OLAP
Otras operaciones de OLAP:
PIVOT: reorientación de las dimensiones en el informe.
SLICE & DICE: seleccionar y proyectar datos en el informe.
Herramientas OLAP
Ventas
ElectronicsToysClothingCosmetics
Q1
$5,2$1,9$2,3$1,1
ElectronicsToysClothingCosmetics
Q2
$8,9$0,75$4,6$1,5
Productos Store1 Store2
$5,6$1,4$2,6$1,1
$7,2$0,4$4,6$0,5
Ventas
ElectronicsToysClothingCosmetics
Stor
e 1 $5,2
$1,9$2,3$1,1
ElectronicsToysClothingCosmetics
Stor
e 2 $5,6
$1,4$2,6$1,1
Productos Q1 Q2
$8,9$0,75$4,6$1,5
$7,2$0,4$4,6$0,5
PIVOT
Herramientas OLAP
Ventas
ElectronicsToysClothingCosmetics
Q1
$5,2$1,9$2,3$1,1
ElectronicsToysClothingCosmetics
Q2
$8,9$0,75$4,6$1,5
Productos Store1 Store2
$5,6$1,4$2,6$1,1
$7,2$0,4$4,6$0,5
Ventas
ElectronicsToysQ
1 $5,2$1,9
Productos Store1
ElectronicsToysQ
2 $8,9$0,75
SLICE & DICE
Ejemplo 2 - Dice
Ejemplo 2 – DiceAgregando la dimensión Área al filtro, específicamente elÁrea Recepción
Herramientas OLAPLas herramientas de OLAP se caracterizan por:
ofrecer una visión multidimensional de los datos (matricial).
no imponer restricciones sobre el número de dimensiones.
permitir definir de forma flexible (sin limitaciones) sobre las dimensiones: restricciones, agregaciones y jerarquías entre ellas.
ofrecer operadores intuitivos de manipulación: drill-down, roll-up, slice-and-dice, pivot.
ser transparentes al tipo de tecnología que soporta el almacén de datos (ROLAP o MOLAP).
Recordemos Tipos de OLAP
Diseño de un Almacén de Datos OLAP
Diseño físico
Diseño lógico específico
Implementación
Diseño conceptual
Recogida y análisis derequisitos
Diseño de un Almacén de Datos
Diseño físico
Diseño lógico
Implementación
Diseño conceptual
Recogida y análisis derequisitos Análisis
Discernimiento de las fuentes necesarias del sistema de información de la organización (OLTP) y externas
Requisitos de usuario (consultas de análisis necesarias, nivel de agregación, …)
p.ej. Entidad-Relación
Diseño Conceptual
Diseño de un Almacén de Datos
Diseño físico
Diseño lógico
Implementación
Diseño conceptual
Recogida y análisis derequisitos Diseño
Lógico
Modelado multidimensional (MR)
Esquemas
Diseño de un Almacén de Datos
Diseño físico
Diseño lógico
Implementación
Diseño conceptual
Recogida y análisis derequisitos
Definición del esquema ROLAP o MOLAP
Diseño Físico
Diseño del ETL
Diseño de un Almacén de Datos
Diseño físico
Diseño lógico
Implementación
Diseño conceptual
Recogida y análisis derequisitos
Implementación
Carga del AD (ETL)
Preparación de las vistas de usuario
(herramienta OLAP)
Diseño de un Almacén de Datos
Detallemos el Diseño Lógico...
La visión multidimensional seguida por las herramientas de explotación de
almacenes de datos (OLAP) ha inspirado los modelos y metodologías de diseño de este tipo de sistemas.
En la literatura se habla de “Bases de Datos Multidimensionales” y de “Diseño Multidimensional”
Diseño físico
Diseño lógico
Implementación
Diseño conceptual
Recogida y análisis derequisitos
Diseño de un Almacén de Datos
Modelado multidimensional:
en un esquema multidimensional se representa una actividad que es objeto de análisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones).
la información relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho).
la información descriptiva de cada dimensión se representa por un conjunto de atributos (atributos de dimensión).
Diseño de un Almacén de Datos
Pasos en el diseño del almacén de datos:
• Paso 1. Elegir un “proceso” de la organización para modelar.
• Paso 2. Decidir el gránulo (nivel de detalle) de representación del proceso.
• Paso 3. Identificar las dimensiones que caracterizan el proceso.
• Paso 4. Decidir la información a almacenar sobre el proceso.
Diseño de un Almacén de Datos
Paso 1. Elegir un “proceso” de la organización para modelar.
Proceso: actividad de la organización soportada por un OLTP del cual se puede extraer información con el propósito de construir el almacén de datos.
Pedidos (de clientes)
Compras (a proveedores)
Facturación
Envíos
Ventas
Inventario
…
Diseño de un Almacén de Datos
Ejemplo: Cadena de supermercados.
Cadena de supermercados con 300 almacenes en la que se expenden unos 30.000 productos distintos.
Actividad: Ventas.
La actividad a modelar son las ventas de productos en los almacenes de la cadena.
Diseño de un Almacén de Datos
Paso 2. Decidir el gránulo (nivel de detalle) de representación.El gránulo define el nivel atómico de datos en el almacén de datos.El gránulo determina el significado de las tuplas de la tabla de hechos.El gránulo determina las dimensiones básicas del esquema
• transacción en el OLTP• información diaria• información semanal• información mensual. ....
Diseño de un Almacén de Datos
id_dim1
id_dim2
id_dim3
...
id_dim n
....
(hechos)
Dim3
Dim2
Dim1
tabla de hechos
tabla Dimensión 3
tabla Dimensión 1
tabla Dimensión 2 tabla
Dimensión nDimn
Diseño de un Almacén de Datos
Ejemplo: Cadena de supermercados.
Gránulo: “se desea almacenar información sobre las ventas diarias de cada producto en cada almacén de la cadena”.
Gránulo:
define el significado de las tuplas de la tabla de hechos.
determina las dimensiones básicas del esquema.
producto
día
almacén
ventas
tiempo
almacén
producto
Diseño de un Almacén de Datos
• Gránulo inferior: no se almacena información a nivel de línea de ticket porque no se puede identificar siempre al cliente de la venta lo que permitiría hacer análisis del comportamiento (hábitos de compra) del cliente.
• Gránulo superior: no se almacena información a nivel semanal o mensual porque se perderían opciones de análisis interesantes: ventas en días previos a vacaciones, ventas en fin de semana, ventas en fin de mes, ....
En un almacén de datos se almacena información a un nivel de detalle (gránulo) fino no porque se vaya a
interrogar el almacén siempre a ese nivel sino porque ello permite clasificar y estudiar (analizar) la información desde muchos puntos de vista.
Diseño de un Almacén de Datos
producto
día
almacén
ventas
tiempo
almacén
producto
id_producto
id_fecha
id_almacén
.....
.....
......
tabla de hechos
la clave primaria* está formada por los identificadores de las dimensiones básicas.
datos (medidas) sobre las ventas diarias de un producto en un almacén.
* pueden existir excepciones a esta regla general
Diseño de un Almacén de DatosPaso 3. Identificar las dimensiones que caracterizan el proceso.
Dimensiones: dimensiones que caracterizan la actividad al nivel de detalle (gránulo) que se ha elegido. Ej:
Tiempo (dimensión temporal: ¿cuándo se produce la actividad?)
Producto (dimensión ¿cuál es el objeto de la actividad?)
Almacén (dimensión geográfica: ¿dónde se produce la actividad?)
Cliente (dimensión ¿quién es el destinatario de la actividad?)
De cada dimensión se debe decidir los atributos (propiedades) relevantes para el análisis de la actividad.
Entre los atributos de una dimensión existen jerarquías naturales que deben ser identificadas (día-mes-año)
Diseño de un Almacén de Datos
id_dim1
....
tabla Dimensión 1
(atri
buto
s)
Diseño de un Almacén de Datos
Ejemplo: Cadena de supermercados.
definición de gránulo
dimensiones básicas
tiempo
producto
almacén
Nota: En las aplicaciones reales el número de dimensiones suele variar entre 3 y 15 dimensiones.
Diseño de un Almacén de Datos
Dimensión Tiempo:
dimensión presente en todo AD porque el AD contiene información histórica sobre la organización.
aunque el lenguaje SQL ofrece funciones de tipo DATE, una dimensión Tiempo permite representar otros atributos temporales no calculables en SQL.
atributos frecuentes:
– nro. de día, nro. de semana, nro. de año: valores absolutos del calendario que permiten hacer ciertos cálculos aritméticos.
– día de la semana (lunes, martes, miércoles,...): permite hacer análisis sobre días de la semana concretos (ej. ventas en sábado, ventas en lunes,..).
Diseño de un Almacén de DatosDimensión Tiempo:
atributos frecuentes:
día del mes (1..31): permite hacer comparaciones sobre el mismo día en meses distintos (ventas el 1º de mes).
marca de fin de mes, marca de fin de semana : permite hacer comparaciones sobre el último día del mes o días de fin de semana en distintos meses.
trimestre del año (1..4): permite hacer análisis sobre un trimestre concreto en distintos años.
marca de día festivo: permite hacer análisis sobre los días previos y posteriores a un día festivo.
estación (primavera, verano..)
evento especial: permite marcar días de eventos especiales (final de campeonato de futbol, elecciones, paro estudiantil...)
jerarquía natural: día - mes - trimestre -año
Diseño de un Almacén de Datos
Dimensión Producto:
la dimensión Producto se define a partir del archivo (tabla) maestro de productos del sistema OLTP.
las actualizaciones del archivo maestro de productos deben reflejarse en la dimensión Producto.
la dimensión Producto debe contener el mayor número posible de atributos descriptivos que permitan un análisis flexible. Un número frecuente es de 50 atributos.
atributos frecuentes: identificador (código estándar), descripción, tamaño del envase, marca, categoría, departamento, tipo de envase, producto dietético, peso, unidades por envase, fórmula, ...
Jerarquía natural: producto-categoría-departamento
Diseño de un Almacén de Datos
Dimensión Almacén (store) :
la dimensión Almacén representa la información geográfica básica.
esta dimensión suele ser creada explícitamente recopilando información externa que sólo tiene sentido en el A.D y que no la tiene en un OLTP (número de habitantes de la ciudad del establecimiento, caracterización del tipo de población de la comuna, ...)
atributos frecuentes: identificador (código interno), nombre, dirección, región, ciudad, país, gerente, teléfono, fax, tipo de almacén, superficie, fecha de apertura, fecha de la última remodelación, superficie para congelados, superficie para productos frescos, datos de la población del distrito, zona de ventas, ...
Jerarquías naturales:
– establecimiento - ciudad - región - país (jerarquía geográfica)
– establecimiento - zona_ventas - región_ventas (jerarquía de ventas)
Diseño de un Almacén de Datos
id_establec
nro_establec
nombre
dirección
región
ciudad
país
tlfno
fax
superficie
tipo_almacén
...
Establecimiento
id_fecha
día
semana
mes
año
día_semana
día_mes
trimestre
festivo
....
Tiempo
id_producto
nro_producto
descripción
marca
subcategoría
categoría
departamento
peso
unidades_peso
tipo_envase
dietético
...
Producto
Diseño de un Almacén de Datos
id_fecha
id_producto
id_establec
...
...
...
Ventas
id_establec
nro_establec
nombre
dirección
región
ciudad
país
tlfno
fax
superficie
tipo_almacén
...
id_producto
nro_producto
descripción
marca
subcategoría
categoría
departamento
peso
unidades_peso
tipo_envase
dietético
...
Establecimiento
Producto
id_fecha
día
semana
mes
año
día_semana
día_mes
trimestre
festivo
....
Tiempo
Diseño de un Almacén de Datos
Paso 4. Decidir la información a almacenar sobre el proceso.
Hechos: información (sobre la actividad) que se desea almacenar en cada tupla de la tabla de hechos y que será el objeto del análisis.
Precio
Unidades
Importe
....
Nota: algunos datos que en el OLTP coincidirían con valores de atributos de dimensiones, en el almacén de datos pueden representar hechos. (Ejemplo: el precio de venta de un producto).
Diseño de un Almacén de Datos
Ejemplo: Cadena de supermercados.
Gránulo: “se desea almacenar información sobre las ventas diarias de cada producto en cada establecimiento de la cadena”.
– importe total de las ventas del producto en el día
– número total de unidades vendidas del producto en el día
– número total de clientes distintos que han comprado el producto en el día.
Diseño de un Almacén de Datos
id_fecha
id_producto
id_establec
importe
unidades
nro_clientes
Ventas
id_establec
nro_establec
nombre
dirección
región
ciudad
país
tlfno
fax
superficie
tipo_almacén
...
id_producto
nro_producto
descripción
marca
subcategoría
categoría
departamento
peso
unidades_peso
tipo_envase
dietético
...
Establecimiento
Producto
id_fecha
día
semana
mes
año
día_semana
día_mes
trimestre
festivo
....
Tiempo
Diseño de un Almacén de DatosOtras orientaciones de diseño:
uso de claves sin significado.
– en un almacén de datos debe evitarse el uso de las claves del sistema operacional.
– las claves de las dimensiones deben ser generadas artificialmente: claves de tipo entero (4 bytes) son suficiente para dimensiones de cualquier tamaño (232 valores distintos).
– la dimensión TIEMPO debe tener también una clave artificial.
Inconvenientes del uso de las claves del sistema operacional:
en el OLTP se puede decidir reutilizar valores de la clave no utilizados actualmente.
en el OLTP se puede decidir cambiar la codificación de las claves.
Diseño de un Almacén de Datos
Otras Orientaciones de diseño:
evitar normalizar.
Si se define una tabla de dimensión para cada dimensión identificada en el análisis, es frecuente que entre el conjunto de atributos de la tabla aparezcan dependencias funcionales que hacen que la tabla no esté en 3ª F.N.
Evitar normalizar:
el ahorro de espacio no es significativo
se multiplican los JOIN durante las consultas.
Diseño de un Almacén de Datos
En un almacén de Datos muchas consultas son restringidas y parametrizadas por criterios relativos a
periodos de tiempo (último mes, este año, ...).
Otras Orientaciones de diseño:
siempre introducir la dimensión Tiempo.
Diseño de un Almacén de DatosOtras orientaciones de diseño:
dimensiones “que cambian”.
Ejemplo: En un A.D existe la dimensión CLIENTE. En la tabla correspondiente un registro representa la información sobre el cliente “María García” cuyo estado civil cambia el 14-02-2012 de soltera a casada. El estado civil del
cliente es utilizado con frecuencia en el análisis de la información.
Se considera relevante el caso en que, en el mundo real, para un valor de una dimensión, cambia el valor de un atributo que es significativo para el análisis sin cambiar el valor de su clave.
Existen tres estrategias para el tratamiento de los cambios en las dimensiones:
Tipo 1: Realizar la modificación.
Tipo 2: Crear un nuevo registro.
Tipo 3: Crear un nuevo atributo.
Diseño de un Almacén de DatosOtras orientaciones de diseño:
definición de agregados.
En un almacén de datos es usual consultar información agregada
El almacenamiento de datos agregados por distintos criterios de agregación en la tabla de hechos mejora la eficiencia del AD.
Estrategias de almacenamiento de datos agregados:
Estrategia 1: definir nuevas tablas de hechos (resp. de dimensiones) para almacenar la información agregada .
Estrategia 2: insertar en la tabla de hechos (resp. dimensiones) tuplas que representan la información agregada (resp. niveles de agregación).
Desventajas de sistemas OLAP Requiere de conocimientos y experiencia elevados
para crear y gestionar las herramientas, y eso repercute en el costo.
La definición de medidas, dimensiones y jerarquías, la creación del cubo y de la herramienta OLAP requieren conocer profundamente los procesos y estructuras empresariales así como las técnicas de desarrollo para data mart y bases de datos.
En la mayoría de casos OLAP funciona a partir de un data mart con un esquema determinado, y los datos deben ser limpiados, transformados y extraídos de OLTP como tareas programadas.
Desventajas de sistemas OLAP Un cambio del sistema OLTP supone rediseñar el
proceso ETL. El proceso ETL no funciona continuamente, esto
añade latencia al sistema, en OLAP no tenemos los datos actualizados al segundo.
No es posible analizar escenarios hipotéticos, porque OLAP es solo de lectura.
Estas situaciones hipotéticas, aunque no puedan ser simuladas en OLAP, pueden ser estimadas a través de algoritmos de predicción, clasificación y agrupación. Estos algoritmos son los algoritmos de data miningdata mining.
Trabajo Evaluación 2
Implementar un modelo OLAP (Estrella) usando SQLServer, usando la metodología explicada Estacionamientos subterráneos Disquería IP Telecomunicaciones Call center Peaje
Generar informe Exponer