T5.02 Almacen Datos Sanchez Flores Rafael
-
Upload
rafael-alejandro-sanchez -
Category
Documents
-
view
217 -
download
3
description
Transcript of T5.02 Almacen Datos Sanchez Flores Rafael
1
7G1
SANCHEZ FLORES RAFAEL
BASE DE DATOS
2
Generalmente, la información que se quiere investigar sobre un cierto dominio de la organización se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas.
Muchas de estas fuentes son las que se utilizan para el trabajo diario (bases de datos operacionales).
OBJETIVO: Análisis de Datos para el Soporte en la Toma de Decisiones.
3
• Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento (visión tradicional).
• Uso de la base de datos transaccional para varios cometidos:
• Se mantiene el trabajo transaccional diario de los sistemas de información originales (conocido como OLTP, On-Line Transactional Processing).
• Se hace análisis de los datos en tiempo real sobre la misma base de datos (conocido como OLAP, On-Line Analytical Processing).
4
• Uso de la base de datos transaccional para varios cometidos:
• PROBLEMAS:
• perturba el trabajo transaccional diario de los sistemas de información originales (“killer queries”). Se debe hacer por la noche o en fines de semana.
• la base de datos está diseñada para el trabajo transaccional, no para el análisis de los datos. Generalmente no puede ser en tiempo real (era AP pero
no OLAP).
5
• Se desea operar eficientemente con esos datos...
• los costes de almacenamiento masivo y conectividad se han reducido drásticamente en los últimos años,
• parece razonable recoger los datos (información histórica) en un sistema separado y específico.
• Data warehouses (Almacenes o Bodegas de Datos)
NACE EL DATA-WAREHOUSING
6
Almacenes de Datos (AD) (data warehouse)
disponer de Sistemas de Información de apoyo a la
toma de decisiones*
disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organización
motivación
análisis de la organización
previsiones de evolución
diseño de estrategias
objetivos
* DSS: Decision Support Systems
7
Almacenes de datos
Base de Datos diseñada con un objetivo de explotación distinto que el de las bases de
datos de los sistemas operacionales.
Sistema Operacional
(OLTP)
Sistema de Almacén de Datos
(DW)
BD orientada al proceso
BD orientada al análisis
8
Almacenes de Datos
colección de datos diseñada para dar apoyo a los procesos
de toma de decisiones
orientada hacia la información* relevante de la organización
integrada variable en el tiempo
no volátil
características
* subject oriented, not process oriented
definición
9
AD: Orientado hacia la información relevante de la organización
se diseña para consultar eficientemente información relativa a las actividades (ventas, compras, producción, ...) básicas de la organización, no para soportar los procesos que se realizan en ella (gestión de pedidos, facturación, etc).
Información NecesariaPRODUCTO
...
GAMA...
VENTA...
PAÍS...
Base de Datos Transaccional
CURSO...
REUNION...
PROTOTIPO...
10
Base de Datos Transaccional 1
Fuente de Datos 1
Fuentes Externas
Fuentes Internas
Fuente de Datos 2
Fuente de Datos 3
HTML
Almacén de Datos
texto
Base de Datos Transaccional 2
AD: Integradointegra datos recogidos de diferentes sistemas operacionales de la organización (y/o fuentes externas).
11
Los datos son almacenados como fotos (snapshots) correspondientes a periodos de tiempo.
DatosTiempo
01/2003
02/2003
03/2003
Datos de Enero
Datos de Febrero
Datos de Marzo
AD: Variable en el tiempo
los datos son relativos a un periodo de tiempo y deben ser incrementados periódicamente.
12
READ
Carga
INSERT READ
UPDATE
DELETE
Bases de datos operacionales Almacén de Datos
AD: No volátillos datos almacenados no son actualizados, sólo son incrementados.
El periodo de tiempo cubierto por un AD varía entre 2 y 10 años.
13
Almacenes de Datosventajas para las organizaciones
rentabilidad de las inversiones
realizadas para su creación
aumento de la competitividad en el mercado
aumento de la productividad de los técnicos de
dirección
14
Almacenes de Datos
problemas
infravaloración de los recursos necesarios
para la captura, carga y almacenamiento de
los datos
incremento continuo de los requisitos de los
usuarios
privacidad de los datos
infravaloración del esfuerzo necesario para
su diseño y creación
15
Sistema Operacional (OLTP) Almacén de datos (DW)
- almacena datos actuales - almacena datos históricos
- almacena datos de detalle - almacena datos de detalle y datos agregados a distintos niveles
-bases de datos medianas - bases de datos grandes(100Mb-1Gb) (100Gb-1Tb)
- los datos son dinámicos (actualizables) - los datos son estáticos
- los procesos (transacciones) son repetitivos - los procesos no son previsibles
- el número de transacciones es elevado - el número de transacciones esbajo o medio
- tiempo de respuesta pequeño (segundos) - tiempo de respuesta variable (segundos-horas)
- dedicado al procesamiento de transacciones - dedicado al análisis de datos
- orientado a los procesos de la organización - orientado a la información relevante
- soporta decisiones diarias - soporta decisiones estratégicas
- sirve a muchos usuarios (administrativos) - sirve a técnicos de dirección
16
La Arquitectura de un AD viene determinada por su situación central como fuente de información para las herramientas de análisis.
Base de Datos Transaccional
Fuentes Internas
Fuentes Externas
Fuente de Datos
Fuente de Datos 3
HTML
Fuente de Datos 1
texto
Almacén de Datos
ETL Interfaz y Operadores
Herramientas de consultas e
informes
Herramientas EIS
Herramientas OLAP
Herramientas de Minería de
Datos
Copias de Seguridad
17
Componentes: Sistema ETL (Extraction, Transformation, Load): realiza las
funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, ...) y la carga del AD, realizando:
extracción de los datos. filtrado de los datos: limpieza, consolidación, etc. carga inicial del almacén: ordenación, agregaciones, etc. refresco del almacén: operación periódica que propaga los
cambios de las fuentes externas al almacén de datos
Repositorio Propio de Datos: información relevante, metadatos.
Interfaces y Gestores de Consulta: permiten acceder a los datos ys sobre ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos).
Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad, ...
18
Organización (Externa) de Los Datos…
Las herramientas de explotación de los almacenes de datos han adoptado un modelo multidimensional de datos.
Se ofrece al usuario una visión multidimensional de los datos que son objeto de análisis.
19
EJEMPLO
Organización: Cadena de supermercados.
Actividad objeto de análisis: ventas de productos.
Información registrada sobre una venta: “del producto “Tauritón 33cl” se han vendido en el almacén “Almacén nro.1” el día 17/7/2003, 5 unidades por un importe de 103,19 euros.”
Para hacer el análisis no interesa la venta individual (ticket) realizada a un cliente sino las ventas diarias de productos en los distintos almacenes de la cadena.
20
Venta
simporte
unidades
Alm
acén
Almacén
Ciudad
Región
Tipo
Pro
duct
o
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
Tie
mpo
Día
Mes
Semana
Año
Trimestre
21
Venta
simporte
unidades
Departamento
Nro_producto
Categoría
Marca
TipoDía
Mes
Semana
Almacén
Ciudad
Región
Tipo
Año
Descripción
Actividad que es objeto de análisis con los indicadores que interesa analizar
Dimensiones (puntos de vista) desde los que se puede analizar la actividad.
Pro
duct
o
Tie
mpo
Alm
acén
Trimestre
22
Modelo multidimensional: en un esquema multidimensional se representa una actividad que es objeto de análisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones).
la información relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho).
la información descriptiva de cada dimensión se representa por un conjunto de atributos (atributos de dimensión).
23
Venta
simporte
unidades
Alm
acén
Almacén
Ciudad
Región
Tipo
Pro
duct
o
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
hecho
medidasdimensión
atributos
Tie
mpo
Día
Mes
Semana
AñoTrimestre
24
Entre los atributos de una dimensión se definen jerarquías
departamento
almacén
ciudad región
tipo
día mes año
Producto
Almacén
Tiempo
nro. producto categoría
trimestre
semana
25
Este esquema multidimensional recibe varios nombres:
• estrella: si la jerarquía de dimensiones es lineal
• estrella jerárquica o copo de nieve: si la jerarquía no es lineal.
PERSONAL
VENTAS
tiempo
tiempo
producto
lugar
proyecto
equipo
26
Zumo Piña 1l.
Cola 33cl.
Leche Entera Cabra 1l
Tauritón 33cl
Cerveza Kiel 20 cl
Jabón Salitre
1 2 3 4 1 2
TIEMPO: trimestre
MadridBarcelona
Valencia
ZaragozaAlicante
Murcia
175793
512
Ventas en miles de
Euros
Jerarquía de dimensiones:
Categoría
Gama Prov.
\ /
Artículo
País
Ciudad
Supermercado
Año
/ \
Trimestre \
/ \
Mes Semana
\ /
Día
|
Hora
PRODUCTO:artículo
LUGAR:ciudad
PRODUCTO LUGAR TIEMPO
2004 2005
22
• Se pueden obtener hechos a diferentes niveles de agregación:
• obtención de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones
Un nivel de agregación para un conjunto de dimensiones se denomina cubo.
HECHO: “El primer trimestre de 2004 la empresa vendió en
Valencia por un importe de 22.000 euros del
producto tauritón 33 cl.”
27
¿Se puede recopilar toda la información necesaria en un único esquema estrella o copo de nieve?
NO : necesidad de varios esquemas.
Cada uno de estos esquemas se denomina datamart.
VENTAS
PERSONAL
PRODUCCIÓN
CAMPAÑA
tiempo
tiempo
tiempo
producto
producto
lugar
proyectoequipo
productoproveedor
lugar
lugar
tiempo
Almacén formado por 4 datamarts.
28
El almacén de datos puede estar formado por varios datamarts y, opcionalmente, por tablas adicionales.
Data mart
se definen para satisfacer las necesidades de un departamento o sección de la organización.
contiene menos información de detalle y más información agregada.
subconjunto de un almacén de datos, generalmente en forma de estrella o copo de nieve.