Generación futuros sistemas informáticos
-
Upload
microniks10 -
Category
Devices & Hardware
-
view
42 -
download
7
Transcript of Generación futuros sistemas informáticos
• Presentados Por: Juan Carlos Calderon Condori
• La replicación de datos es un método práctico y eficaz para lograr el
acceso de datos eficiente y tolerante a fallos en las redes.
Tradicionalmente, los sistemas de replicación de datos mantienen
toda una réplica en cada sitio donde un archivo es replicado,
proporcionando un modelo de sólo lectura. Estas soluciones
requieren enormes recursos de almacenamiento para almacenar la
totalidad conjunto de réplicas y no permiten la modificación de datos
eficiente para evitar el problema de la coherencia. En este trabajo
se propone un nuevo método de replicación, se llama el esquema
de replicación (BRS), que proporciona tres ventajas principales
sobre los enfoques tradicionales: optimizar el uso del
almacenamiento, mediante la creación de subreplicas; aumentar el
rendimiento de acceso a datos, mediante la aplicación de técnicas
de E / S en paralelo; y proporcionar la posibilidad de modificar las
réplicas, mediante el mantenimiento de la coherencia entre las
actualizaciones de una manera eficiente.
• Gestión de datos es un problema importante en entornos derejilla. La cuadrícula de datos se compone de cientos dedistribución geográfica computadoras y recursos dealmacenamiento generalmente ubicados bajo diferentesdominios administrativos. El objetivo de una cuadrícula dedatos es facilitar intercambio de datos y recursos. El tamañode los datos gestionados por redes de datos está creciendocontinuamente, y ya ha llegado Petabytes, como en elProyecto de almacén de datos Atlas.
• Hay dos servicios básicos de gestión de datos en unacuadrícula de datos:
• Servicios para la transferencia de datos, y servicios para lagestión de réplica. El servicio principal para la gestión de losdatos es el protocolo GridFTP, una extensión de FTP queproporciona una transferencia de datos eficiente y seguro y elacceso a archivos de gran tamaño en entornos grid
El movimiento de datos en las redes está básicamente hechaposible mediante el uso de dos mecanismos: GridFTP y RFT.GridFTP es una implementación del protocolo FTP para redes, yes ampliamente utilizado para la segura mover grandescantidades de datos entre redes. Tiene varias ventajas: altorendimiento paralelo aplicación corrientes; la transferencia dedatos coordinada por el uso de múltiples nodos de computaciónen el origen y destino; apoya diversas opciones de seguridad,incluyendo Infraestructura Red de Seguridad (IGS); descargasparciales de una archivo de gran tamaño; y el reinicioautomático de las transferencias fallidas. El confiableTransferencia de archivos (RFT) El servicio es un servicio webque proporciona interfaces para controlar y supervisar lastransferencias de archivos de terceros utilizando ServidoresGridFTP. RFT puede detectar una variedad de fallas y reiniciarlal transferencia de archivos desde el punto de falla.
En esta sección un nuevo esquema de replicación llamado
BRANCH. Una réplica R (ver Fig. 1) se define como un
conjunto de subreplicas disjuntos, Ri (fragmentos de
archivos) que, en conjunto, contienen todos los datos
almacenados en los archivos raíz o archivo original (RR).
Formalmente, podemos definir una réplica como de la
siguiente manera:
Fig. 1. Diferencias entre la replicación jerárquica (arriba) y la replicación rama
Branch (parte inferior).
En la Fig. 2, se muestra un árbol con tres niveles de replicación. El archivo original
(raíz) se encuentra en la WEB 1. El segundo nivel de replicación está formado por
SITIO 2 y SITIO 3: la articulación de sus datos es toda una réplica, y su intersección
es el conjunto vacío. En el
Asimismo, la subreplica en SITIO 2 es la rama branch-replicado en SITIO 4 SITIO
5. Siguiendo este esquema, un árbol de replicación de datos, donde estamos puede
ver que cada nivel es toda una réplica, se crea. Por otra parte, una toda réplica se
puede conseguir uniendo diferentes combinaciones de réplicas sub, de modo que
una réplica puede estar compuesta de réplicas con sub diferentes profundidades en
el árbol de la replicación. Por ejemplo, podemos obtener una réplica de unirse a los
sitios 2, 6, y 7, o unirse a los sitios 3, 4, y 5. De esta manera, utilizando BRS Evita
perder demasiado espacio replicar todo el archivo, pero un nivel de alta tolerancia a
fallos todavía está asegurada. La réplica definido por las hojas de los árboles se
llama réplica de terminal. Las principales características de BRS son los siguientes:
• Réplica de raíz. En este algoritmo, un nodo de almacenamiento solo soporta el
archivo original, llamado réplica de raíz. Esta réplica es siempre completa y
almacena el archivo original. Inicialmente, se elige la réplica de raíz cuando se
crea el archivo.
• Replicación paralelo. Para crear una nueva réplica, n apuntar nodos han de ser
seleccionado para almacenar la subreplicas. La unión de todos la subreplicas
será la réplica original. BRS divide lógicamente la réplica original en trozos y crea
las subreplicas por copiar los trozos en paralelo a los nodos de destino utilizando
GridFTP.
De esta manera, podemos reducir el tiempo de replicación
en comparación
Con el fin de proporcionar un método estándar para la ubicaciónréplica utilizamos el modelo de recursos de espacio de nombresde servicios (RNS). RNS es una especificación del archivo decuadrícula Grupo de Trabajo del Sistema (GFS-WG) de GlobalGrid Forum que permite la construcción de un uniforme, global,espacio de nombres jerárquico usando un servicio web. Defineun threetier nombrando la arquitectura consiste en nombres deinterfaz humana (hin), nombres lógicos (LN), y las referencias depunto final (ER), donde el punto final de referencias son URL,nombres de archivo, los metadatos, u otros objetos. Ya está dosniveles de indirección: nombres de interfaz humanos a lógicanombres y nombres lógicos hasta el punto final referencias. Estesegundo nivel de dirección tiene la ventaja de utilizar un nombrelógico para representar una referencia lógica, y por lo tanto, losnombres lógicos puede ser referenciado y resueltos de formaindependiente del espacio de nombres jerárquico
• Se modelado un prototipo de este servicio que incluye el archivo
metadatos con la información descrita anteriormente necesitaba
ayuda BRS. Dado un nombre de interfaz humana, podemos obtener
a través de la lista de RNS nombres de lógicas correspondientes
con todas las réplicas del archivo. Esta lista se pasa a un Servicio de
Optimización de la reproducción (ROS) para obtener la mejor réplica
para el cliente.
• Cuatro métricas se utilizan en ROS para elegir una réplica:
En esta sección se muestra el modelo analítico utilizado para evaluar
la el acceso, creación y actualización de una réplica en BRS. Fig. 4
muestra la modelo básico para el acceso de datos: un cliente debe
cruzar dos LAN y una WAN para acceder a los datos. La Tabla 1
muestra las definiciones y notaciones utilizadas por el modelo. Se han
obtenido los parámetros de disco desde un disco comercial
Variable Descripción Valor
S Tamaño del archivo 1GB
𝐿𝐿𝐴𝑁 red de área local de latencia 0.5 ms
𝐿𝑊𝐴𝑁 Red de área amplia latencia variable
𝐵𝐿𝐴𝑁 Ancho de banda de red de área local 1 GB/s
𝐵𝑊𝐴𝑁 Ancho de banda de red de área amplia 2 GB/s
𝐵𝑑 Velocidad de transferencia de disco 40 MB/s
𝑡𝑠𝑒𝑒𝑘 Promedio de disco tiempo de búsqueda 8.5 ms
𝑡𝑙𝑎𝑡 El tiempo medio de latencia de disco 4.16 ms
Definiciones y notaciones para el modelo de acceso a datos.