Transferencias masivas de datos científicos de la colaboración CMS a través del

23
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 1 Transferencias masivas de Transferencias masivas de datos científicos de la datos científicos de la olaboración CMS a través del olaboración CMS a través del t d’Informació Científica (P t d’Informació Científica (P Josep Flix (*) , Gonzalo Merino, Gerard Bernabeu, Diego Dávila Jornadas Técnicas RedIRIS ‘07 Oviedo – 19-23 Noviembre 2007 (*) CMS Tier-1 contact at PIC [CIEMAT]([email protected])

description

Transferencias masivas de datos científicos de la colaboración CMS a través del Port d’Informació Científica (PIC). Josep Flix (*) , Gonzalo Merino, Gerard Bernabeu, Diego Dávila. (*) CMS Tier-1 contact at PIC [CIEMAT]([email protected]). Jornadas Técnicas RedIRIS ‘07 - PowerPoint PPT Presentation

Transcript of Transferencias masivas de datos científicos de la colaboración CMS a través del

Page 1: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 1

Transferencias masivas de Transferencias masivas de datos científicos de la datos científicos de la

colaboración CMS a través del colaboración CMS a través del Port d’Informació Científica (PIC)Port d’Informació Científica (PIC)

Josep Flix(*), Gonzalo Merino, Gerard Bernabeu, Diego Dávila

Jornadas Técnicas RedIRIS ‘07Oviedo – 19-23 Noviembre 2007

(*) CMS Tier-1 contact at PIC [CIEMAT]([email protected])

Page 2: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 2

Large Hadron Collider: Flujo de datos IColisiones protón-protón a 14 TeV cada

25 nsDatos (lectura) por colisión a alto rate

Filtrado de datos (~300 MB/s/colisión) RAW

Datos RAW se envian al Tier-0 (10 Gbps-CERN)

Datos RAW se procesan en el Tier-0 (CERN)

LHC: Inicio de operaciones en 2008

Page 3: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 3

Large Hadron Collider: Flujo de datos IIDatos RAW se graban en cinta en Tier-0

(CERN)Primer procesado de datos en Tier-0

(CERN)Datos RAW + procesado centros Tier-

1

11 centros Tier-1 para los 4 detectores del LHC

Tier-1: datos RAW cinta (copia custodial)

WLGC basado en estructura Tiers (0-1-2)

Page 4: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 4

Large Hadron Collider: Flujo de datos IIITier-1: ESD a disco + distribución a

Tier-2sReprocesados de datos en Tier-1s (2-

3/año)Re-distribución de datos re-procesados a

Tier-2s

~150 centros Tier-2s distribuidos world-wide

Tier-2s producen simulaciones Tier-1s Tier-2s = Universidades, físicos Analistas

Page 5: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 5

Worldwide LHC Computing Grid [WLCG]

• Large Hadron Collider (LHC) Gran instalación científica Decenas PBs de datos/año.

• Miles de científicos en todo el mundo accederán a los datos para analizarlos.

• Objetivo WLCG:

• Estructura ‘Tiered’ con > 100 centros de computación en > 20 países:

• WLCG depende de otros grandes proyectos de despliegue y operación de infraestructuras grid (EGEE en Europa, OSG en USA, NorduGrid en los países nórdicos...).

“Desplegar y mantener una infraestructura robusta de computación distribuida para el almacenamiento y el análisis de los datos obtenidos por los 4 detectores del LHC por la comunidad

de físicos de Altas Energías.”

1 Tier-0 (CERN) y 11 centros Tier-152 federaciones de centros Tier-2

Requisitos de los 4 experimentos LHC sobre los centros Tier-1. Presentados a la C-RRB de Octubre 2007

Detectores: ATLAS, CMS, LHCb, ALICE

Page 6: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 6

Región SWE: PIC(Tier-1)&Tier-2s asociados

PIC [Barcelona]

SWE region: Tier-2s asociados al Tier-1 PIC

UB [Barcelona]

IFCA [Santander]

USC [Santiago]

IFIC [Valéncia]

UAM [Madrid]

CIEMAT [Madrid]LIP [Coimbra]

LIP [Lisboa]

CMS: CIEMAT&IFCA – LIP_Lisbon&LIP_Coimbra

ATLAS: IFAE&IFIC&UAM – LIP_Lisbon&LIP_Coimbra

LHCb: UB&USC

• Tier-1 para ATLAS, CMS y LHCb. Ofrece servicios para otras disciplinas: Astrofísica, imagen médica, etc…

• Centro de soporte a la investigación científica en entornos colaborativos con gran cantidad de datos.

• Almacenamiento, gestión y proceso de datos (TB-PB).

• Servicios Grid colaboraciones inter-institucionales, trans-nacionales y multi-disciplinares.

Port d’Informació Científica* [PIC]

Convenio Generalitat, CIEMAT, UAB, IFAE

(*) Sala de máquinas de 150 m2 - UPS de 200 KVA - Generador diesel de 500 KVA - 1000 “u” de racks - 300 KW de aire acondicionado - Librerías automatizadas de cintas STK-5500+IBM-3584

IFAE [Barcelona]

CERN

Page 7: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 7

PIC Tier-1: Recursos experimentos LHC

Almacenamiento permanente de gran cantidad de

datos

… Custodia de segunda copia de datos RAW (LHC).

… Datos re-procesados en el PIC.

… Datos reducidos producidos en el PIC (y en otros centros).

… Datos simulados desde los centros Tier-2 asociados.

Capacidad de computación para

re-procesado/análisis

… Acesso a gran cantidad de datos de una forma

ordenada

Responsabilidades del PIC [Tier-1]Responsabilidades del PIC [Tier-1]

El modelo de computación CMS ( recursos/centro) es un modelo vivo, en cte. discusión factores x2,x3…

* PIC: ~130 MB/sPIC *: ~50 MB/s

Modelo Computación CMS (2008)

Contribución del PIC a LHC: ~5% del total Tier-1sContribución del PIC a LHC: ~5% del total Tier-1s

Page 8: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 8

PIC Tier-1: LHC-OPN [red] I

• LHC-OPN (Optical Private Network): Arquitectura de red de 10 Gbps para el LHC.

- Garantiza calidad/estabilidad para el tráfico Tier-0 Tier-1.- Destinada también a llevar tráfico Tier-1 ↔ Tier-1.- No soporte a transferencias Tier-1 Tier-2 (redes nacionales).

Page 9: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 9

PIC Tier-1: LHC-OPN [red] II

Despliegue de la LHC-OPN @ PIC (2006-2007)• Octubre 2006: 10 Gbps lambda hasta el POP de RedIRIS en Barcelona (CESCA).

• Mayo 2007: Llegada de la conexión al PIC.

• Junio 2007: Certificación de la línea. Tests de carga máxima.

Vista CERN

• Septiembre 2007: puesta en producción para datos LHC.

Vista PIC

Entrada al PIC: 10Gbps

(medidos tráficos superiores a 2Gbps)

Salida del PIC: 1Gbps (limitación temporal que desaparecerá al finalizar la migración a las nuevas IPs)

Config @ PIC2 VLANs sobre 10 Gbps

2 Gbps (Best Effort)

Tráfico PIC↔Tier-2

810 Gbps LHC-OPN

Tráfico Tier-0 PIC

Tráfico PIC↔Tier-1

Page 10: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 10

CMS: Transferencias de Datos (PhEDEX) I

Actualmente la distribución network PhEDEX comprende el centro Tier-0 (CERN) y 8 centros Tier-1 regionales, que a su vez sirven a ~40 centros Tier-2 locales y ~10 centros pequeños (“Tier-3s”).

Necesidades de CMS (Transferencias de datos)

Alta disponibilidad del servicio.Transferencias sostenidas (sin interrupciones).

Tasa de transferencias alta.Sistema fácilmente escalable.

Acceso fácil de los datos por los físicos de la colaboración.

PhEDEX (CMS Data Transfer System)WEBSITE http://cmsdoc.cern.ch/cms/aprom/phedex

Throughput crítico CERN Tier-1Transferencias entre Tier-1s y Tier-2s.

Disponibilidad 24/7 entre centros Tier de CMS.

• Interface web: visualización, monitor, checks consistencia…

• Interacciona con sistemas de storage local: dif. tecnologías.

• Basado sobre grid middleware: File Transfer Service (FTS).

• Uso de BBDD privada (TMDB): catálogo+localización ficheros.

• TMDB gestiona status de transferencias ‘ongoing’.

• TMDB centralizada @ CERN (DBI Oracle interface).

• …

Page 11: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 11

CMS: Transferencias de Datos (PhEDEX) II

• PhEDEX: Core consta de agentes escritos en perl-object-oriented.

• Cada Tier ejecuta agentes que se encargan de interaccionar con el storage local CMS VOBOX / centro.

• Los agentes se comunican via TMBD ~ “CMS blackboard” = mapas datasets-replicas, localizaciones,

subscripciones datasets, replica metadata (size, checksums,...), estados de transferencia, etc…

• Agentes / centro = 1 agente exportación + varios agentes de importación (download).

• Cada agente de download está conectado a una instancia de Phedex (Development,Debug,Production).

• PhEDEX está totalmente acoplado al midleware

grid,

como FTS (File Transfer service, EGEE glite middleware).

• Parámetros relevantes de configuración:

- Servidor FTS donde “glite-transfer-submit” jobs.

- Número de jobs “sumitidos” por tiempo.

- Número de ficheros por job.

- Timeout asociado a cada transferencia/job.

- Aceptar/ignorar algunos centros por agente.

Page 12: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 12

Actividades pre-LHC CMS: LT07 + DDT

• Probando el sistema con “Retos” (como demostraciones de éxito):

- Mediante retos de servicio generales WLCG (“Services Challenges”).- Específicos del experimento: Software, Computación/Análisis (CSA), Tests de carga, etc…

• Reto CMS:Reto CMS: Probar modelo de computación + enlaces entre Tiers + Sistemas almacenamiento.

Objetivo: Estresar el sistema hasta los niveles requeridos por LHC, o superior…

• Infraestructura de generación de carga contínua 24/7 de tráfico CMS entre Tiers. [LT07][LT07]

- Fuente: ~1 TB/Tier - ficheros ‘fake’ de 2.6 GBs.- Inyección centralizada de datos en PhEDEX TMDB (simple).- Centros de destino subscriben a esas muestras recepción.- Disponibilidad infinita (LFNs apuntan al mismo fichero físico).

Tier-0→Tier-1 Tier-1↔Tier1 (trans-

oceánico) Tier-1↔Tier-2 ‘regionales’

Tier-1↔Tier-2 ‘no regionales’

Actividades de LoadTest 2007 [FebSept.2007]Certificación enlaces Tiers [ Julio 2007]

• Programa para depurar/certificar enlaces entre Tiers. [DDT][DDT]

- Enlace = ruta unidireccional entre 2 centros.- Instancia de PhEDEX de Debug + estructura LT07.- Los enlaces están sujetos a diferentes métricas: tasa de transferencia/volumen (300 GBs/dia).- Sólo los enlaces certificados se activan en la instancia Production en PhEDEX.- Enlaces certificados pueden de-certificarse si no mantienen las métricas.

Page 13: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 13

LT07 + DDT: resultados globales I

CSA06

LoadTest07LoadTest07~2 PBs/mes!

Tier-1s: ~25 PBs [15-Nov-2007]

Tier-1s (2007)~28 PBs

Volumen transferencias LT07+DDT [Production+Debug instance]

Tasa de Transferencia LT07 [Production instance]

TB

/sem

ana

1-Ene-2007 15-Nov-2007

Page 14: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 14

LT07 + DDT: resultados globales II

DDT

~2.5 PBs/mes!

273 enlaces certificados

Tier-1 matriz certificación

Tier-2 stats

Enlace certificado.

Enlace de-certificado

Transferencias en progreso (<métrica)

15-Nov-2007 15-Nov-2007 15-Nov-2007

15-Nov-2007Tasa de Transferencia DDT [Debug instance]

Enlaces Certificados

TB

/sem

ana

Page 15: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 15

LT07 + DDT: resultados PIC Tier-11-Ene-2007 15-Nov-2007

PIC estimado 2007

import+export

~2 PBs~150

TBs/mes(contribución 6.5%

CMS)

Tier-1 Calidad export

PIC: Volumen transferencias LT07+DDT [Production+Debug instance]

Tier-1 Calidad import

Page 16: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 16

LT07 + DDT: resultados SWE region

~15%Enlaces

certificadospor CMS

1-Ene-2007 15-Nov-2007 15-Nov-2007

Page 17: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 17

Uso eficiente del servicio FTS con PhEDEX I• Transferencias CMS desde un punto de vista Tier-1:

- Tier-0 Tier-1 (crítico).- Tier-1↔ Tier-1 (thoughput importante en CMS).- Tier-1↔ Tier-2 regionales.- Tier-1↔ Tier-2 no regionales.

Algunos enlaces pueden tener más tráfico que otros,en función del Tier-1.

• PIC (p.e.):- PIC ~5% del total: Importa más datos reducidos de Tier-1s.

- SWE Tier-2s deben tener más prioridad/flujo ↔ que otros Tier-2s.

- …

La interacción PhEDEX con FTS debe reflejar estas necesidades.

El conjunto de agentes debe de coincidir en lo máximo posible con la configuración del FTS

a usar.

S o l u c I ó n a d o p t a d aUso de un conjunto de agentes PhEDEX que refleje el modelo de

computación de CMS.

PhEDEX @ PIC1 agente Tier-0→PIC.

7 agentes, uno por cada centro Tier-1->PIC. 2 agentes para los Tier-2 españoles (IFCA,CIEMAT).

2 agentes para los Tier-2 portugueses (LISBON,COIMBRA).

1 agente para Tier-2 no-regionales.

Cada Tier-2 regional corre un agente download PIC único.

Configuración canales FTS @ PIC

Canales independientes T1s→PIC.Para cada Tier-2 regional: PIC→T2reg, T2reg→PIC,

*→T2reg.1 canal *→PIC.1 canal PIC→*.

Page 18: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 18

Uso eficiente del servicio FTS con PhEDEX II

• Esta configuración FTS/PhEDEx permite obtener mayor ocupación de los canales FTS y una mayor tasa de transferencia.• Modelo aceptado como configuración PhEDEX standard por todos los Tiers de CMS.• En CMS estamos desarrollando una nueva interfaz FTS/PhEDEX para optimizar aún más la interacción entre ambos sistemas.• Varias reuniones con los desarrolladores FTS. Nuevas funcionalidades en el FTS requeridas.

Transferencias PIC [Debug instance]

Page 19: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 19

Medidas KB/s/Stream por Centro I

• La configuración del FTS fija modo (urlcopy/srmcp), número de ficheros en paralelo y Streams por fichero, por canal.• Si queremos mantener una tasa de transferencia constante en un canal, el throughput por Stream debería ser constante…

• En general esto no sucede: observamos variaciones significativas temporales en algunos

centros. Una posible explicación puede estar en la limitación a 1 Gbps de salida del PIC

+ saturación de salida la red: si otra VO no transfiere activamente throughput ≠ cte…

• En general fijar N ficheros en paralelo + Streams en el FTS no garantiza thr. máximos ctes.

• Monitorizar los valores de throughput cambiar dinámicamente los parámetros FTS por

canal que garantizen throughputs de acuerdo con el modelo de computación de CMS.

Throughput por Stream en las transferencias CMS PICTier-2s regionales entre 16-OCt y 15-Nov

Page 20: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 20

Medidas KB/s/Stream por Centro II

RAL,FNALPIC INP3

• FTS no puede garantizar throughputs similares

para diferentes centros comprendidos en canales

tipo STAR-TIER o TIER-STAR.

• La monitorización no ayuda, ya que los cambios

Nfiles/Nstreams afectan de forma global al

canal STAR-TIER o TIER-STAR (y no a los centros

involucrados).

• Caso concreto: transferencias T1s->IFCA, donde

la mayoría de transferencias son gestionadas

por el canal STAR-IFCA (excepto PIC, PIC-IFCA).

• NOTA: El centro con throughput más bajo acaba bloqueando el canal STAR,

no gestiona otros canales necesidad de ‘share’ por centros.

• Nuevo código de interacción PhEDEX/FTS

ajustará estas diferencias (de forma dinámica),

en lo posible...

Page 21: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 21

Medidas KB/s/Stream por Centro III

(Asimetría en throughput)

Transferencias * PIC: 10

Gbps.

Transferencias PIC *:1

Gbps.

- Tasas transferenciasGRIDFTP > GSIFTP

FTS introduce tiempos muertos:

- Pre/Post transferencia~20-40”

Tiempo muerto total:>50% en algunos enlaces>50% en algunos enlaces

(CIEMATPIC,LISBONPIC, etc…)A entender…

Stats. entre 16-Oct/15-Nov

Page 22: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 22

Cuellos de Botella [red]

• El modelo de computación de CMS todavía no establece unos requisitos claros sobre el ancho de banda en las transferencias Tier-1 Tier-2s.

• Transferencias Tier-1 Tier-2s a ráfagas, (quizás) ~1Gbps simultáneas hacia varios Tier-2s.

• Es importante entender los enlaces entre el PIC y los centros Tier-2s conectados a RedIRIS, y minimizar los cuellos de botella Tests iperf en marcha con los centros Tier-2 regionales.

• Por ejemplo: para la conexión PIC↔IFCA parecen existir dos posibles rutas. Observamos que las transferencias están tomando el camino de menos rendimiento (622Mbps, por Aragón).

• Asimetría 10Gbps (entrada al PIC) - 1Gbps (salida del PIC) eliminada el 19-Nov al migrar los servidores de disco al nuevo rango de IPs.

Transferencias PIC * [Debug instance]

Page 23: Transferencias masivas de  datos científicos de la  colaboración CMS a través del

Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 23

Outlook + Conclusiones

• Mostrado el contexto de transferencias de datos del CERN al resto de Tiers.

• En particular cual es el contexto en CMS y el PIC como Tier-1 de la región SWE.

• Implantación de la LHC-OPN de 10 Gbps en el PIC: finalizada esta semana.

Futura optimización a nivel de storage va a incrementar el flujo in/out.

• PhEDEX es una herramienta que ha permitido a CMS mover datos a tasas más altas

que las demandados por LHC. (Objetivo Stress Test cumplido!)

• Programa CMS de certificación de enlaces DDT entre Tiers es positivo para

mantener los centros activos en todo momento (+admins).

• De estos tests de Stress se deducen optimizaciones tanto a nivel de PhEDEX como

del servicio grid middleware FTS. Ambas en desarrollo.

• El papel del PIC como Tier-1 CMS ha sido muy relevante en los tests:

Demostrado capacidad de mantener >5% de tasa de transferencias (x5 2008!).

En gran parte gracias a la buena ocupación de los canales FTS + monitorización.

Colaboración PIC/CERN: implementación de la nueva interfaz FTS/PhEDEX.

• Tests iperf con centros Tier-2 de la región SWE + Tier-1s planeados:

Primera incidéncia: Enlace PIC ↔ IFCA es de 622 Mbps Re-route a 2.5 Gbps?