Generación futuros sistemas informáticos

• Presentados Por: Juan Carlos Calderon Condori

• La replicación de datos es un método práctico y eficaz para lograr el

acceso de datos eficiente y tolerante a fallos en las redes.

Tradicionalmente, los sistemas de replicación de datos mantienen

toda una réplica en cada sitio donde un archivo es replicado,

proporcionando un modelo de sólo lectura. Estas soluciones

requieren enormes recursos de almacenamiento para almacenar la

totalidad conjunto de réplicas y no permiten la modificación de datos

eficiente para evitar el problema de la coherencia. En este trabajo

se propone un nuevo método de replicación, se llama el esquema

de replicación (BRS), que proporciona tres ventajas principales

sobre los enfoques tradicionales: optimizar el uso del

almacenamiento, mediante la creación de subreplicas; aumentar el

rendimiento de acceso a datos, mediante la aplicación de técnicas

de E / S en paralelo; y proporcionar la posibilidad de modificar las

réplicas, mediante el mantenimiento de la coherencia entre las

actualizaciones de una manera eficiente.

• Gestión de datos es un problema importante en entornos derejilla. La cuadrícula de datos se compone de cientos dedistribución geográfica computadoras y recursos dealmacenamiento generalmente ubicados bajo diferentesdominios administrativos. El objetivo de una cuadrícula dedatos es facilitar intercambio de datos y recursos. El tamañode los datos gestionados por redes de datos está creciendocontinuamente, y ya ha llegado Petabytes, como en elProyecto de almacén de datos Atlas.

• Hay dos servicios básicos de gestión de datos en unacuadrícula de datos:

• Servicios para la transferencia de datos, y servicios para lagestión de réplica. El servicio principal para la gestión de losdatos es el protocolo GridFTP, una extensión de FTP queproporciona una transferencia de datos eficiente y seguro y elacceso a archivos de gran tamaño en entornos grid

El movimiento de datos en las redes está básicamente hechaposible mediante el uso de dos mecanismos: GridFTP y RFT.GridFTP es una implementación del protocolo FTP para redes, yes ampliamente utilizado para la segura mover grandescantidades de datos entre redes. Tiene varias ventajas: altorendimiento paralelo aplicación corrientes; la transferencia dedatos coordinada por el uso de múltiples nodos de computaciónen el origen y destino; apoya diversas opciones de seguridad,incluyendo Infraestructura Red de Seguridad (IGS); descargasparciales de una archivo de gran tamaño; y el reinicioautomático de las transferencias fallidas. El confiableTransferencia de archivos (RFT) El servicio es un servicio webque proporciona interfaces para controlar y supervisar lastransferencias de archivos de terceros utilizando ServidoresGridFTP. RFT puede detectar una variedad de fallas y reiniciarlal transferencia de archivos desde el punto de falla.

En esta sección un nuevo esquema de replicación llamado

BRANCH. Una réplica R (ver Fig. 1) se define como un

conjunto de subreplicas disjuntos, Ri (fragmentos de

archivos) que, en conjunto, contienen todos los datos

almacenados en los archivos raíz o archivo original (RR).

Formalmente, podemos definir una réplica como de la

siguiente manera:

Fig. 1. Diferencias entre la replicación jerárquica (arriba) y la replicación rama

Branch (parte inferior).

En la Fig. 2, se muestra un árbol con tres niveles de replicación. El archivo original

(raíz) se encuentra en la WEB 1. El segundo nivel de replicación está formado por

SITIO 2 y SITIO 3: la articulación de sus datos es toda una réplica, y su intersección

es el conjunto vacío. En el

Asimismo, la subreplica en SITIO 2 es la rama branch-replicado en SITIO 4 SITIO

5. Siguiendo este esquema, un árbol de replicación de datos, donde estamos puede

ver que cada nivel es toda una réplica, se crea. Por otra parte, una toda réplica se

puede conseguir uniendo diferentes combinaciones de réplicas sub, de modo que

una réplica puede estar compuesta de réplicas con sub diferentes profundidades en

el árbol de la replicación. Por ejemplo, podemos obtener una réplica de unirse a los

sitios 2, 6, y 7, o unirse a los sitios 3, 4, y 5. De esta manera, utilizando BRS Evita

perder demasiado espacio replicar todo el archivo, pero un nivel de alta tolerancia a

fallos todavía está asegurada. La réplica definido por las hojas de los árboles se

llama réplica de terminal. Las principales características de BRS son los siguientes:

• Réplica de raíz. En este algoritmo, un nodo de almacenamiento solo soporta el

archivo original, llamado réplica de raíz. Esta réplica es siempre completa y

almacena el archivo original. Inicialmente, se elige la réplica de raíz cuando se

crea el archivo.

• Replicación paralelo. Para crear una nueva réplica, n apuntar nodos han de ser

seleccionado para almacenar la subreplicas. La unión de todos la subreplicas

será la réplica original. BRS divide lógicamente la réplica original en trozos y crea

las subreplicas por copiar los trozos en paralelo a los nodos de destino utilizando

GridFTP.

De esta manera, podemos reducir el tiempo de replicación

en comparación

Con el fin de proporcionar un método estándar para la ubicaciónréplica utilizamos el modelo de recursos de espacio de nombresde servicios (RNS). RNS es una especificación del archivo decuadrícula Grupo de Trabajo del Sistema (GFS-WG) de GlobalGrid Forum que permite la construcción de un uniforme, global,espacio de nombres jerárquico usando un servicio web. Defineun threetier nombrando la arquitectura consiste en nombres deinterfaz humana (hin), nombres lógicos (LN), y las referencias depunto final (ER), donde el punto final de referencias son URL,nombres de archivo, los metadatos, u otros objetos. Ya está dosniveles de indirección: nombres de interfaz humanos a lógicanombres y nombres lógicos hasta el punto final referencias. Estesegundo nivel de dirección tiene la ventaja de utilizar un nombrelógico para representar una referencia lógica, y por lo tanto, losnombres lógicos puede ser referenciado y resueltos de formaindependiente del espacio de nombres jerárquico

• Se modelado un prototipo de este servicio que incluye el archivo

metadatos con la información descrita anteriormente necesitaba

ayuda BRS. Dado un nombre de interfaz humana, podemos obtener

a través de la lista de RNS nombres de lógicas correspondientes

con todas las réplicas del archivo. Esta lista se pasa a un Servicio de

Optimización de la reproducción (ROS) para obtener la mejor réplica

para el cliente.

• Cuatro métricas se utilizan en ROS para elegir una réplica:

En esta sección se muestra el modelo analítico utilizado para evaluar

la el acceso, creación y actualización de una réplica en BRS. Fig. 4

muestra la modelo básico para el acceso de datos: un cliente debe

cruzar dos LAN y una WAN para acceder a los datos. La Tabla 1

muestra las definiciones y notaciones utilizadas por el modelo. Se han

obtenido los parámetros de disco desde un disco comercial

Variable Descripción Valor

S Tamaño del archivo 1GB

𝐿𝐿𝐴𝑁 red de área local de latencia 0.5 ms

𝐿𝑊𝐴𝑁 Red de área amplia latencia variable

𝐵𝐿𝐴𝑁 Ancho de banda de red de área local 1 GB/s

𝐵𝑊𝐴𝑁 Ancho de banda de red de área amplia 2 GB/s

𝐵𝑑 Velocidad de transferencia de disco 40 MB/s

𝑡𝑠𝑒𝑒𝑘 Promedio de disco tiempo de búsqueda 8.5 ms

𝑡𝑙𝑎𝑡 El tiempo medio de latencia de disco 4.16 ms

Definiciones y notaciones para el modelo de acceso a datos.

Generación futuros sistemas informáticos

Devices & Hardware

Transcript of Generación futuros sistemas informáticos