Post on 07-Jan-2016
description
Análisis Distribuido: IFIC ATLAS Tier-2
Farida Fassi
Secunda reunión de ATLAS Tier-2 Español
5-6 de Octubre, 2006; UAM Madrid
Contenido
Modelo de Análisis Distribuido de ATLAS (ADA) Estrategia de ATLAS para ADA
Subsistemas de ADA en un Grid heterogenia Aspectos comunes de ADA: DDM/DQ2
Feedback breve sobre Ganga ADA en el ejercicio SC4: contribución del IFIC
Modelo de Análisis Distribuido de ATLAS
El objetivo fundamental de ADA es permitir a los usuarios de ATLAS realizar el análisis distribuido de datos según el modelo de computación de ATLAS: Datos para el análisis estarán disponibles y distribuidos en todos los
centros Tiers1 y Tiers2 (ROD, ESD, AOD y TAG)
Tiers2 son facilidades para recibir los trabajos de análisis Los usuarios envían los trabajos a los datos y extraen los relevantes
datos (Ntuple, AAN, etc)
El modelo prevé que 50% de los recursos Grid de ATLAS estarán
destinados al análisis
Estrategia de ATLAS para ADA (1)
La infraestructura Grid de ATLAS se basa sobre tres sabores Grid
La estrategia de ATLAS consiste en tener un sistema de ADA robusto y flexible, que hace uso de todos los recursos de ATLAS
Sumisión directa a la Grid
LCG/EGEE LCG RB, gLite WMS y CondorG
OSG PANDA
Nordugrid ARC Middleware
Sumisión indirecta a la Grid ProdSys acceso fluido a todos los recursos Grid de ATLAS
Estrategia de ATLAS para ADA (2)
LCG
LCG RB
Nordugrid
OSG
CondorG gLite RB Panda ARC
ProdSys
Front-end client
Back-end submission
ATLAS GRID resources
Aspectos comunes de ADA: DDM/DQ2
El sistema de gestion de datos distribuidos (DDM) es un aspecto
central para el Análisis Distribuido
El objetivo de DDM es proporcional a los usuarios de ATLAS
un acceso uniforme a datos en todos los sabores Grid En LCG, LFC representa Local Replica Catalog FTS se usa para transferir datos/datasets entere los sitios
Para poder llevar a cabo el análisis en los Tiers2, se requiere que los input datasets estén disponibles allí
ADA esta promoviendo la distribución de datos entre los Tiers1 y Tiers2 completar la “collection” de datos con el fin de lograr una distribución igualada entere los sitios condición necesaria para poder programar ADA dentro el ejercicio SC4
Feedback sobre Ganga: introducción
AtlasPROD
DIAL
DIRAC
LCG2
gLite
localhost
LSF
submit, kill
get outputupdate status
store & retrieve job definition
prepare,configure
Ganga4
JobJobJob
Job
scripts
Gaudi
Athena
AtlasPROD
DIAL
DIRAC
LCG2
gLite
localhost
LSF
Ganga: “user interface” para la definición y la gestion de trabajos permite fácilmente intercambiar entre los múltiples “back-ends” tiene tres formas de interaccionar con el “user”: CLI, GUI, Script fácil de instalar y configurar
Feedback sobre Ganga (1) Progreso significante en la actual versión de Ganga (4.2.0-beta10)
Integración total con DDM/DQ2
Posibilidad de configurar los trabajos, especificando tanto el tipo del
Input como del Output vía “inputdata” y “outputdata” “plugins”
Posibilidad de escoger el CE de colas cortas/Job Priority
Colas cortas: CERN, LYON, NIKHEF, FZK, RAL y IFIC
Job Priorities: NIKHEF, CERN, IFIC (PPS)
Posibilidad de combinar entre la ubicación del datasets y el CEs durante
la sumisión del trabajo mediante la opción “inputdata.match_ce=True”
Feedback sobre Ganga (2)
Experiencia
Varios trabajos de análisis han sido envidos al CERN y al Lyon
Mayor colección de AODs en LCG
CE de colas cortas dedicada a los jobs de análisis
La duración del proceso de la ejecución/procesamiento de datos
era del orden de algunos minutos, dependiendo tanto del tipo
de análisis como del tamaño del “datasets” Algunos trabajos enviado al IFIC tardaron mas tiempo
Input datasets no estaba disponible
ADA en el ejercicio SC4: contribución del IFIC
Disk Area Disk-only area de capacidad de 4 TB está disponible en el
Tier-2 del IFIC, junto con los dedicados storage endpoints
Job Priorities IFIC esta contribuyendo in la implementación del
“Job priorities” y “short queues”: Short queue/CE para “jobs” de análisis VOMS attribute para separar la produccion
de análisis (PPS) (Javier)