Bases de datos en paralelo

download Bases de datos en paralelo

of 16

description

como crear bases de datos paralelos en diseño de Arquitectura de sistemas

Transcript of Bases de datos en paralelo

BASES DE DATOS PARALELAS

BASES DE DATOS PARALELASCARLOS FELIPE FAJARDO PINEDAUn sistema de gestin de bases de datos, consiste en una coleccin de datos interrelacionados y un conjunto de programas que permiten a los usuarios acceder y modificar dichos datos. La coleccin de datos se denomina base de datos.La arquitectura de un sistema de base de datos est influenciada en gran medida por el sistema informtico subyacente en el que se ejecuta el sistema de base de datos. En la arquitectura de un sistema de base de datos se reflejan aspectos como la conexin en red:

Base de datos Distribuidas Base de datos Paralelas

SGBD paralelo: Un SGBD que se ejecuta sobre mltiples procesadores y discos que han sido diseados para ejecutar operaciones en paralelo, cuando sea posible, con el propsito de mejorar el rendimiento.

Los sistemas paralelos mejoran la velocidad de procesamiento y de E/S mediante la utilizacin de UCP y discos en paralelo .

Los sistemas paralelos de base de datos constan de varios procesadores y varios discos conectados a travs de una red de interconexin de alta velocidad. Para medir el rendimiento de los sistemas de base de datos existen 2 medidas principales:

1.La productividad que se entiende como el nmero de tareas que pueden completarse en un intervalo de tiempo determinado.

2.El tiempo de respuesta que es la cantidad de tiempo que necesita para completar una nica tarea a partir del momento en que se enve. Un sistema que procese un gran nmero de pequeas transacciones puede mejorar su productividad realizando muchas transacciones en paralelo. Un sistema que procese transacciones ms largas puede mejorar tanto su productividad como sus tiempos de respuesta realizando en paralelo cada una de las subtareas de cada transaccin.

El objetivo del paralelismo en los sistemas de bases de datos suele ser asegurar que la ejecucin del sistema continuar realizndose a una velocidad aceptable, incluso en el caso de que aumente el tamao de la base de datos o el nmero de transacciones (ampliabilidad).

Porque la necesidad de usar Bd Paralelas ??Actualmente los Sistemas Paralelos se estn comercializando con xito por prcticamente todos los fabricantes de BD. Tal cambio lo han impulsado las siguientes tendencias:Los requisitos transaccionales de las empresas han aumentado, con el uso creciente de las computadoras.El crecimiento de la WWW y los datos recogidos por los visitantes han producido BD extremadamente grandes en muchas empresas.Las empresas utilizan volmenes crecientes de datos para planificar sus actividades y sus tarifas.

Las consultas utilizadas para estos fines se denominan consultas de Ayuda a la Toma de Decisiones y las necesidades de datos para las mismas pueden llegar a los terabytes.Los sistemas con un nico procesador no son capaces de tratar volmenes de datos tan grandes a la velocidad necesaria.La naturaleza orientada a conjuntos de las consultas de BD se presta de manera natural a la paralelizacin.Varios sistemas comerciales y de investigacin han demostrado la potencia y dimensionalidad del procesamiento paralelo de consultas.Con el abaratamiento de los microprocesadores, las mquinas paralelas se han vuelto comunes y relativamente baratas.El paralelismo tambin se utiliza para proporcionar ampliabilidad, y las cargas de trabajo crecientes se tratan sin aumentar el tiempo de respuesta mediante un aumento en el grado de paralelismo.

Modelos de Arquitectura

Memoria compartida. Todos los procesadores comparten una memoria comn. Disco compartido. Todos los procesadores comparten un disco comn. Sin compartimiento. Los procesadores no comparten ni memoria ni disco.Jerrquico. Es un hbrido de las anteriores.

Modelos de Arquitectura

TCNICAS DE DIVISINSe presentan 3 estrategias bsicas para la divisin de datos.Se da por supuesto que hay n discos, D0, D1, , Dn-1, entre los cuales se van dividir los datos.

TCNICA 1.- TURNO ROTATORIOLa relacin se explora en cualquier orden y la i-sima tupla se enva al disco numerado D i mod n.

El esquema de turno rotatorio asegura una distribucin homognea de las tuplas entre los discos por ello, cada disco tiene aproximadamente el mismo nmero de tuplas que los dems.

ACCESOCon este esquema tanto las consultas concretas como las de rango son difciles de procesar, dado que se debe emplear en la bsqueda cada uno de los n discos.

TCNICA 2.- DIVISIN POR ASOCIACIN

En esta estrategia de divisin uno o ms atributos del esquema de la relacin se designan como atributos de la divisin.Se escoge una funcin de asociacin cuyo rango sea [0, 1, , n-1].Cada tupla de la relacin original se asocia en trminos de los atributos de la divisin.Si la funcin de asociacin devuelve i, la tupla se ubica en el disco Di.

ACCESO

Este esquema se adapta mejor a las consultas concretas basadas en el atributo de divisin.Dirigir la consulta a un solo disco ahorra el costo de iniciar una consulta en varios discos.Si la funcin de asociacin es una buena funcin aleatoria y los atributos de divisin forman una clave de la relacin, el nmero de tuplas en cada uno de los discos ser aproximadamente el mismo.El esquema, sin embargo, no se adapta bien a las bsquedas concretas en trminos de atributos que no sean de divisin.Por lo tanto, hace falta explorar todos los discos para responder a las consultas por rango.

TCNICA 3.- DIVISIN POR RANGOS

Factores negativos de Paralelismo

Estos pueden atenuar tanto la ganancia de velocidad como la ampliabilidad:Costes de inicio. El inicio de un nico proceso lleva asociado un coste de inicio. Interferencia. Como los procesos que se ejecutan en un sistema paralelo acceden confrecuencia a recursos compartidos, pueden sufrir un cierto retardo como consecuencia de la esta.

Sesgo. Al dividir cada tarea en un cierto nmero de pasos paralelos se reduce el tamao del paso medio. Normalmente es difcil dividir una tarea en partes exactamente iguales, entonces se dice que la forma de distribucin de los tamaos es sesgada.El sesgo se transforma en un problema creciente al aumentar el grado de paralelismo.

.._____!____.. GRACIAS !!