Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del...

20
t Estrategia de mantenimiento preventivo para centros de datos Informe interno N° 124 Thierry Bayle

Transcript of Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del...

Page 1: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

t

Estrategia de mantenimiento preventivo para centros de datos

Informe interno N° 124

Thierry Bayle

Page 2: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

2

Resumen ejecutivo En el debate cada vez más generalizado sobre el ahorro de costos y eficiencia energética

de los centros de datos, a veces no se contempla el mantenimiento preventivo (MP) de la

infraestructura física como una herramienta importante para controlar el costo total de

propiedad y el tiempo de inactividad. Este tipo de mantenimiento se realiza específicamente

para evitar fallas. Los gerentes de sistemas e infraestructura pueden mejorar el tiempo

productivo de los sistemas mediante una mejor comprensión de las mejores prácticas de

MP. En este informe interno se describen los tipos de servicios de MP que pueden ayudar a

proteger el tiempo productivo de los centros de datos y las salas de equipos informáticos,

se exponen diversas metodologías y enfoques de MP y, por último, se sugieren prácticas

recomendadas.

Page 3: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

3

Introducción En este informe, se destacan las mejores prácticas de mantenimiento preventivo (MP) de los sistemas de

alimentación y enfriamiento de los centros de datos: se estudian los métodos prácticos (es decir, el

reemplazo de componentes y la recalibración) y las técnicas no invasivas de MP (es decir, las lecturas

térmicas y el monitoreo de software). Asimismo, también se analiza la tendencia de la industria hacia un

mantenimiento preventivo más holístico y menos basado en los componentes por separado.

El término mantenimiento preventivo se refiere a la inspección y detección sistemáticas de fallas

potenciales antes de que se produzcan. Es un término amplio que abarca diversos enfoques para evitar y

prevenir problemas, dependiendo de la criticidad del centro de datos. Por ejemplo, el mantenimiento basado en las condiciones es un tipo de MP que calcula y proyecta las condiciones de los equipos en el

transcurso del tiempo con fórmulas de probabilidad para evaluar los riesgos de tiempos de inactividad.

El MP no debe confundirse con el mantenimiento no planificado, que se realiza ante una emergencia o

un problema imprevisto. En la mayoría de los casos, el MP incluye el reemplazo de componentes, la lectura

térmica de los paneles de distribución, ajustes de los componentes o del sistema, la limpieza de filtros de

aire o agua, la lubricación o la actualización del firmware de la infraestructura física.

En su nivel más básico, el MP puede implementarse como estrategia para mejorar el rendimiento en

términos de disponibilidad de un componente particular del centro de datos. En un nivel más avanzado,

puede aprovecharse como una estrategia principal para asegurar la disponibilidad de todo el centro de

potencia (generadores, interruptores de transferencia, transformadores, disyuntores e interruptores,

unidades PDU y UPS) y de todo el centro de enfriamiento (unidades CRAC y CRAH, humidificadores,

condensadores, plantas de agua helada).

Page 4: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

4

MMantenimientoantenimiento

PPreventivoreventivode de centroscentros de de datosdatos

Prácticas No invasivas

Programado Basado en las condiciones del sistema

Figura 1 – Panorama actual en términos de mantenimiento preventivo

Contar con una estrategia de mantenimiento preventivo de los sistemas de alimentación y enfriamiento del

centro de datos asegura que se establezcan procedimientos para inspecciones programadas de

mantenimiento en función del calendario y que se consideren, según corresponda, distintas prácticas de

mantenimiento basadas en las condiciones del sistema. La estrategia de MP debe brindar protección contra

los riesgos de tiempos de inactividad y evitar los problemas por posponer u omitir inspecciones y

mantenimiento. El plan de mantenimiento también debe garantizar que expertos en mantenimiento muy

bien calificados y capacitados controlen los equipos de la infraestructura física (es decir, detecten cambios

en el aspecto físico, funcionamiento y sonidos de los equipos) y realicen las tareas necesarias.

Resultados del mantenimiento preventivo El mantenimiento preventivo puede dar como resultado una de estas cuatro situaciones:

• Se identifica un problema potencial y se toman medidas inmediatas para evitar fallas futuras. Éste

es el resultado más frecuente de las tareas de MP.

• Se identifica un problema nuevo y se programan las tareas de reparación adecuadas. Estos

resultados del MP deben documentarse con precisión para que tanto el proveedor del servicio

como el propietario del centro de datos puedan comparar el incidente más reciente con las

instancias anteriores de MP y así realizar un análisis de tendencias.

Page 5: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

5

• No se identifica ningún problema durante el mantenimiento ni se producen tiempos de inactividad

hasta la siguiente instancia de MP. Los equipos están aprobados y certificados por el fabricante

para funcionar correctamente dentro de las pautas de operación.

• Se identifica un defecto, y al intentar repararlo, se produce un período de inactividad imprevisto

durante la “ventana” del MP (intervalo de realización de tareas de mantenimiento) o poco después

(es decir, se presenta un nuevo problema).

El riesgo de un resultado negativo aumenta drásticamente cuando el mantenimiento lo realiza una persona

que no está debidamente calificada. Más adelante, se analizarán los métodos para reducir el riesgo de

tiempos de inactividad causados por las tareas de MP.

Evolución del mantenimiento preventivo Primeras prácticas de mantenimiento en la industria En los centros de datos de la década de los sesenta, se concebía a los componentes de los equipos del

centro de datos como sistemas comunes de soporte del edificio, y se les brindaba mantenimiento como

tales. En esa época, el centro de datos era una herramienta auxiliar a los negocios principales, y las tareas

de procesamiento de los negocios más importantes se realizaban manualmente. El propietario del centro de

datos no consideraba necesario gastar dinero en mantenimiento. Por otra parte, los fabricantes estaban

interesados en la instalación de los equipos, pero el negocio de las reparaciones no era algo que les

importara.

Con el tiempo, las computadoras comenzaron a realizar muchas tareas importantes de negocios. A medida

que cada vez más activos de datos corporativos empezaban a migrar a los centros de datos, las roturas de

los equipos y los consecuentes períodos de inactividad se convirtieron en una seria amenaza para el

crecimiento y la rentabilidad de los negocios. Los fabricantes de equipos informáticos para centros de datos

comenzaron a reconocer que un programa activo de mantenimiento conservaría la calidad operativa de sus

productos.

Así surgieron contratos anuales de mantenimiento, y muchos propietarios de centros de datos

comprendieron los beneficios de un mayor nivel de servicio. A medida que los datos corporativos

evolucionaban y se convertían en activos fundamentales para la mayoría de las empresas, el

mantenimiento adecuado de los equipos informáticos se convirtió en una necesidad para sustentar la

disponibilidad de las aplicaciones de negocios clave. Hoy en día, el concepto de mantenimiento preventivo

representa una evolución desde la mentalidad orientada al mantenimiento reactivo (“arréglelo, está roto”) a

un enfoque proactivo (“controle, detecte señales de alarma y arréglelo antes de que se rompa”) para así

lograr una disponibilidad las 24 horas del día, los 365 días del año.

Page 6: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

6

Impacto de los cambios en la arquitectura de la infraestructura física Así como ocurrió con el mantenimiento de las computadoras, el mantenimiento de los equipos de la

infraestructura física (es decir, la alimentación y el enfriamiento) del centro de datos también evolucionó con

el tiempo. En la década de los ochenta, la arquitectura interna de las unidades UPS, por ejemplo, consistía

en componentes completamente separados que, desde el punto de vista de la reparación por

mantenimiento, no estaban integrados físicamente con ningún otro componente clave dentro del dispositivo.

Estas unidades UPS precisaban un mantenimiento de rutina que incluía ajustes, torque y limpieza para

proporcionar la disponibilidad deseada. Entonces un encargado de mantenimiento tardaba unas 6 a 8 horas

por cada unidad UPS en cada mantenimiento inspeccionando y ajustando cada componente interno en

particular.

En la década de los noventa, la arquitectura de la unidad UPS evolucionó (véase la Figura 2). Los equipos

de la infraestructura física comenzaron a tener tanto componentes que recibían mantenimiento individual

como componentes integrados computarizados (digitales). En ese momento, sólo el 50% de las piezas de

una unidad UPS típica recibían mantenimiento manual, mientras que el resto de las piezas eran

componentes computarizados que no precisaban mantenimiento permanente.

Figura 2 – Evolución del diseño de la unidad UPS y su mantenimiento preventivo

A mediados de la década de los noventa, los componentes computarizados dentro de la unidad UPS

comenzaron a informar a los operadores sobre su estado de integridad interna mediante distintos mensajes.

Aunque todavía se precisaba mantenimiento preventivo cada tres meses, el encargado de las reparaciones

tardaba un promedio de 5 horas por unidad UPS en cada mantenimiento. En la actualidad, se redujo aún

más la proporción de piezas que requieren mantenimiento con respecto a las partes computarizadas: 25%

25%de

componentesindividuales

10%de componentes

individuales

100%de

componentesindividuales

50%de

componentesindividuales

Años 80 Años 90 Presente(2007)

A partirde 2010

Mantenimientomensual

Mantenimientotrimestral

Mantenimientoanual

Redundancia interna

Transición al PM de todo el centro de

potencia y enfriamiento

50%de componentes

integrados/computarizados 90%

de componentesintegrados/

computarizados

75%de componentes

integrados/computarizados

UPS tradicional UPS computarizada

Page 7: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

7

de las piezas requieren mantenimiento manual y 75% de los componentes ya son computarizados (véase la

Figura 2).

Hoy la mayoría de los centros de datos necesitan uno o dos mantenimientos preventivos al año. Sin

embargo, podrían necesitarse más instancias de MP si la infraestructura física se encuentra en un entorno

hostil (por ejemplo, a altas temperaturas, con polvo, contaminantes o vibración). La frecuencia del

mantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos.

El diseño de sistema de los componentes también puede modificar la frecuencia de instancias de MP. De

hecho, a menudo la cantidad de instancias está basada en las recomendaciones del fabricante.

Pruebas de progreso en materia del mantenimiento preventivo La infraestructura física de hoy es mucho más confiable y más fácil de mantener que en el pasado. Los

fabricantes compiten para diseñar componentes que tengan la menor cantidad de errores posible. Algunos

ejemplos de mejoras en el diseño de hardware son:

• Unidades de aire acondicionado de salas de cómputo (CRAC) con acceso lateral y frontal a los

componentes internos (además del acceso trasero tradicional)

• Controles de velocidad de frecuencia variable (VFD) en dispositivos de enfriamiento para controlar

la velocidad de los ventiladores internos de enfriamiento. Los VFD eliminan la necesidad de

realizar el mantenimiento de las correas móviles (piezas que tradicionalmente requieren un alto

nivel de mantenimiento)

• Función de bypass de mantenimiento externo de la unidad UPS que puede eliminar el tiempo de

inactividad de los dispositivos informáticos durante las tareas de MP.

Además de las mejoras en el hardware, la arquitectura y el diseño de la infraestructura también

evolucionaron de tal modo de sustentar los objetivos del mantenimiento preventivo: lograr una planificación

más sencilla, con la menor cantidad de instancias de mantenimiento y mayor seguridad. Por ejemplo:

• Los diseños de alimentación o enfriamiento redundantes permiten realizar el mantenimiento

simultáneamente; la carga informática crítica está protegida incluso cuando se realizan tareas de

mantenimiento

• El diseño adecuado de conexiones con mordazas (que brindan una conexión eléctrica y mecánica)

puede reducir o eliminar la necesidad de reajustar el torque, lo cual si se realiza en exceso, puede

aumentar la exposición a potenciales explosiones causadas por arcos eléctricos

• Últimamente la preocupación por los peligros de estas explosiones está influyendo en el diseño del

sistema, a fin de proteger al personal de MP contra los riesgos de lesiones por causas eléctricas

durante el mantenimiento

Page 8: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

8

Diseño de software como factor fundamental para el éxito El diseño del hardware de la infraestructura física permite reducir el costo y la complejidad del

mantenimiento preventivo. El diseño de software eficiente para la administración de la

infraestructura física esta comenzando a considerarse el factor más importante para el éxito a la hora

de mantener alta disponibilidad. Los centros de datos de primer nivel aprovechan el software de

administración de la infraestructura física.

Mediante el autodiagnóstico, los componentes de la infraestructura pueden informar las horas de uso, emitir

advertencias cuando la temperatura de un componente en particular no está dentro de las temperaturas

normales de funcionamiento, e indicar cuando los sensores detectan lecturas anormales. Si bien el personal

de mantenimiento preventivo aún debe procesar el resultado de las comunicaciones del sistema de gestión

de mantenimiento, hay una nueva tendencia que propone evolucionar hacia sistemas de infraestructura

física capaces de recuperar su integridad por sí solos.

Figura 3 – Enfoque tradicional: gestión de mantenimiento preventivo componente

por componente

Los propietarios de centros de datos que tienen visión de futuro contemplan una estrategia holística de

mantenimiento preventivo para todo el centro de potencia del centro de datos. Si bien el soporte tradicional

de MP para los equipos existentes sigue desempeñando un papel importante, la estrategia de

mantenimiento de los equipos que se agreguen en el futuro debe adoptar un enfoque de MP que contemple

el centro de datos como un todo integrado en lugar de verlo como un conjunto de componentes individuales

(véanse la Figura 3 y la Figura 4).

Un análisis más exhaustivo ayuda a clarificar la evolución del mantenimiento preventivo basado en los

componentes hacia el MP de todo el centro de potencia o de todo el ciclo de enfriamiento. Tomemos como

Varios sistemas de gestión, cada uno para su tipo de componentes propioPoca o ninguna comunicación entre los sistemas de gestión

PDUInterruptores

UPSHumidificador

CRAC

Sistemas de gestión de PM

Gestión de PM "débilmente acoplado"

Page 9: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

9

ejemplo un componente de la infraestructura física, la unidad UPS (sistema de energía ininterrumpible).

Cuando surge un problema de alimentación, no siempre se relaciona con la unidad UPS. El problema, en

cambio, puede estar relacionado con un disyuntor, un interruptor o un circuito defectuoso. Es importante

contar con un sistema de monitoreo que vincule todos estos componentes críticos y comunique los datos

recabados a una persona que comprenda el centro integrado de alimentación y que sepa interpretar

correctamente los mensajes del sistema.

Organización para un mantenimiento preventivo “holístico” Para optimizar la eficiencia del MP, la estructura organizacional interna del centro de datos también debe

estar alineada de modo de sustentar la implementación sólida de prácticas holísticas e integradas de MP.

Tradicionalmente, los equipos de sistemas e infraestructura no estaban integrados para funcionar en

estrecha conjunción. El departamento de sistemas quedaba relegado a dar soporte a los sistemas

informáticos del centro de datos, mientras que el de infraestructura se encargaba de supervisar la

instalación y el mantenimiento de los componentes de la infraestructura física. Ya que ahora estos sistemas

están sumamente ligados en el centro de datos, se necesita considerar la posibilidad de adoptar un enfoque

organizacional alternativo que integre estrechamente los elementos clave de ambos equipos.

Figura 4 – Enfoque estratégico: gestión de mantenimiento preventivo integrado y holístico

InterruptoresUPS

Humidificador

CRACPDU

Gestión de PM "estrechamente

acoplado"

Sistema de gestión que trata todos los componentes como un único sistema

Page 10: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

10

Por qué fallan los componentes de la infraestructura física Las unidades UPS antiguas (las instaladas durantes los años ochenta y noventa) deben ajustarse

regularmente de forma manual para evitar que se produzcan desviaciones de tensión y condiciones fuera

de los niveles de tolerancia. Por ejemplo, los tableros de control de las unidades UPS requerían que la

calibración de los potenciómetros la ajustara un técnico manualmente cada tres meses con un osciloscopio.

En la actualidad, esta misma función la cumple un microprocesador incorporado. La recalibración periódica

ayuda a minimizar la posibilidad de falla de la unidad UPS.

Las unidades UPS más modernas se supervisan con controladores de procesamiento digital de señales.

Gracias a estos dispositivos, no se producen desviaciones ni se precisan recalibraciones salvo que se

reemplacen componentes importantes. Además de las condiciones fuera de los niveles de tolerancia, las

armónicas y las sobretensiones también tienen un efecto negativo sobre los componentes de alimentación

de la infraestructura física.

Las fluctuaciones de temperatura son otra causa común de falla en los componentes electrónicos. Los

productos electrónicos están diseñados para tolerar rangos de temperatura específicos. Si las temperaturas

permanecen dentro del rango de diseño de los equipos, rara vez se producen fallas. Sin embargo, si las

temperaturas están fuera del rango admitido, la tasa de fallas aumenta significativamente. En efecto, de

acuerdo con estudios realizados por investigadores en cómputos de alto rendimiento en el Laboratorio

Nacional de Los Álamos de los Estados Unidos (Los Alamos National Laboratory), la tasa de fallas se

duplica con cada incremento de 10° C (18° F) 1 (véase la Figura 5).

De acuerdo con el Comité Técnico 9.9 de la Asociación de Ingenieros en Calefacción, Enfriamiento y Aire

Acondicionado de los Estados Unidos (American Society of Heating, Refrigeration, and Air Conditioning

Engineers, ASHRAE), el rango de temperatura operativa recomendado para equipos informáticos es de 20º

C a 25° C (68º F a 77° F). La circulación de aire adecuada puede ayudar a mantener una temperatura

segura y constante y a mantener condiciones ambientales que redunden en una mayor vida útil del

componente y un mayor intervalo entre fallas. La corriente excesiva es otra causa de daño a componentes

internos. Los sistemas mecánicos también necesitan una inspección para detectar el desgaste normal o

anormal de rodamientos, así como el recambio periódico de aceites y lubricantes.

1 Laboratorio Nacional de Los Álamos: “The Importance of Being Low Power in High Performance Computing” (La importancia de un bajo consumo de energía en los cómputos de alto rendimiento), Feng, W., agosto de 2005

Page 11: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

11

20 ºC68 ºF

30 ºC86 ºF

Tasa normal de fallas

2 veces la tasa normal

de fallas

4 veces la tasa normal

de fallas

40 ºC104 ºF

La tasa de fallas se duplica porcada incremento de temperatura

de 10° C

Figura 5 – Estudio sobre proporción de fallas con respecto al calor del Laboratorio

Nacional de Los Álamos

Prácticas recomendadas El mantenimiento realizado por personal calificado permite confirmar que los equipos de la infraestructura

física estén funcionando correctamente para cumplir con los objetivos de productividad del sistema

planteados por el propietario del centro de datos. Los profesionales especialistas en infraestructura física

con experiencia en centros de datos pueden identificar el desgaste de diversos componentes internos y en

qué medida un componente en particular afecta la confiabilidad general del sistema.

El profesional de MP debe observar el entorno del centro de datos (disyuntores, prácticas de instalación,

técnicas de cableado, conexiones mecánicas, tipos de carga) y alertar al propietario sobre el posible

desgaste prematuro de componentes y sobre factores que puedan tener un impacto negativo en la

disponibilidad del sistema (es decir, equipos en los que puedan producirse errores humanos durante su

manejo, temperaturas más altas de lo normal, niveles altos de acidez, corrosión y fluctuaciones en el

suministro de energía de los servidores).

Page 12: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

12

Las tareas de MP también deben incluir una evaluación de los factores ambientales externos que puedan

afectar el rendimiento (véase la Tabla 1). La profundidad y el alcance de las tareas de MP dependerán del

nivel de criticidad del centro de datos (véase el Informe interno N° 122 de APC, “Pautas para la

especificación de la criticidad del centro de datos - Niveles” y deben generar como resultado la formulación

de un plan de acción.

Tabla 1 – Lista de muestra de condiciones ambientales para mantenimiento preventivo

Condiciones internas Condiciones externas

Práctico __ Aspecto de las tarjetas de circuitos __ Aspecto de los submontajes __ Aspecto de los cables preformados __ Conectores __ Filtros __ Bobinas __ Baterías __ Capacitores __ Aislamiento __ Ventilación No invasivo __ Aspecto general __ Lecturas térmicas __ Informes predictivos de fallas __ Lecturas de temperaturas internas

__ Condiciones de limpieza general __ Niveles de temperatura __ Niveles de acidez __ Presencia de corrosión __ Frecuencia de inconvenientes __ Presencia de goteras __ Cantidad de polvo en el área __ Concentraciones de calor __ Obstrucción de la ventilación __ Accesos obstruidos __ Puertas y ventanas abiertas __ Construcciones en las cercanías __ Uso de radios __ Perforaciones en los techos __ Calidad del ruido de los equipos __ Conexión de los equipos a cables a tierra

Lecturas térmicas y detección predictiva de fallas Se recomienda tomar lecturas térmicas en racks y paneles de disyuntores durante las tareas de

mantenimiento preventivo. Si se detectan temperaturas anormales, se pueden tomar las medidas

necesarias. Las lecturas infrarrojas pueden compararse a lo largo del tiempo para identificar tendencias y

problemas potenciales. De esta manera, por ejemplo, es posible reajustar conexiones eléctricas a partir de

datos científicos en lugar de hacerlo a partir de especulaciones.

El enfoque de lecturas térmicas también puede aplicarse a tableros de transferencia, transformadores,

interruptores, unidades UPS, tableros de paneles de distribución, unidades de distribución de energía e

interruptores para desconexión de unidades de aire acondicionado.

La Dinámica de Fluidos Computacional (CFD) también puede utilizarse para analizar los patrones de

circulación de aire y temperatura dentro del centro de datos y determinar el efecto de las fallas en los

equipos de enfriamiento.

Page 13: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

13

Al utilizar un enfoque de detección predictiva de fallas, los capacitores, por ejemplo, se reemplazan sólo

cuando se recomienda según un diagnóstico incorporado continuo. Esta estrategia contrasta claramente

con el enfoque tradicional según el cual se reemplazaban componentes una vez transcurrido un lapso

específico de tiempo. La implementación de prácticas de detección predictiva de fallas evita la ejecución

innecesaria de procedimientos invasivos que conllevan el riesgo inherente de errores humanos que pueden

causar tiempos de inactividad.

La Tabla 2 presenta una lista de muestra de dispositivos de la infraestructura física que requieren MP.

Estos sistemas interactúan entre sí, y su mantenimiento debe realizarse en forma conjunta.

Tabla 2 – Dispositivos que requieren un mantenimiento preventivo en el centro de datos (lista parcial)

Dispositivo

Elementos internos que necesitan MP

Nivel de mantenimiento

general requerido

Transformador Ajuste, torque de conexiones bajo

Unidades de distribución de energía (PDU)

Ajuste, torque de conexiones bajo

Sistemas de distribución de agua y aire del centro de datos

Densidad interna de tuberías, válvulas, asientos y sellados

bajo

Unidad CRAC por hilera Filtros, serpentines, firmware, conexiones de tuberías, motores de ventiladores

medio

Unidad UPS de última generación

Ventiladores, capacitores, baterías medio

Piso elevado Losas físicas, posición de losas, extracción de filamentos de zinc

alto

Unidad UPS tradicional Ventiladores, capacitores, tableros electrónicos, baterías

alto

Unidad CRAC tradicional Correas, filtros de aire, conexiones de tuberías, compresores, motores de ventiladores, bombas, serpentines

alto

Humidificador Drenajes, filtros, enchufes, procesadores de agua

alto

Interruptor de transferencia Componentes del interruptor, firmware, torque

alto

Baterías externas (de celdas húmedas y VRLA)

Torque, conexiones, niveles de electrolitos / ácido, niveles de temperatura

alto

Sistema de alarma contra incendio

Válvulas, interruptores para control de flujo

alto

Page 14: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

14

Planta de agua helada (chiller)

Niveles de presión de aceite, niveles de gases, parámetros de temperatura

alto

Generador Filtros de combustible, filtros de aceite, mangueras, correas, refrigerantes, tubos de respiración del cárter, bujes de ventiladores, bombas de agua, torque de conexiones, rodamientos del alternador, disyuntor principal

alto

Prácticas de programación Las prácticas de programación del mantenimiento tradicional se establecieron antes de que la disponibilidad

del sistema se convirtiera en una preocupación significativa para los propietarios de centros de datos. La

noche, los fines de semana y los feriados se consideraban, y aún se consideran, períodos habituales para

la programación del mantenimiento. Sin embargo, el surgimiento de la economía global y el requisito de

tener disponibilidad las 24 horas del día, los 365 días del año cambiaron el paradigma de la programación

del mantenimiento.

En muchos casos, ya no existe justificación para programar el mantenimiento preventivo sólo a la noche o

durante los fines de semana. En efecto, un enfoque tradicional de programación puede agregar costos

significativos y riesgos adicionales al proceso del MP. Si se consideran las tarifas por hora, el

mantenimiento fuera del horario laboral normal es más costoso. Y lo que es más importante, es más

probable que el personal de mantenimiento y soporte esté más cansado físicamente y menos alerta cuando

trabaja horas extra o cuando realiza su trabajo en horarios poco frecuentes. Esto aumenta la probabilidad

de error o incluso puede aumentar el riesgo de lesiones personales.

Un proveedor o socio de MP puede agregar valor ayudando al propietario del centro de datos a planificar

adecuadamente las ventanas de MP. Cuando se están construyendo nuevos centros de datos, este

proveedor o socio puede asesorar al propietario sobre cómo organizar la planta del centro de datos de

modo de facilitar el MP y que sea menos invasivo. Además, la información reunida por los organismos

gubernamentales como la Administración Nacional Oceánica y Atmosférica de los Estados Unidos (National

Oceanic and Atmospheric Administration, NOAA) brinda datos sobre tendencias climáticas que pueden

orientar a los propietarios de centros de datos y así establecer las ventanas óptimas para dar

mantenimiento (véase la Figura 6).

Page 15: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

15

Figura 6 – Datos de investigación (grados-día para calefacción y enfriamiento) como pauta para

programar las tareas de MP

Nota: Un grado-día compara la temperatura exterior con una temperatura de referencia de 18,3° C (65° F);

cuanto más extrema la temperatura, mayor el valor de grados-día. Los días calurosos se miden en

grados-día para enfriamiento (CDD). En un día con una temperatura media de 80° F, por ejemplo, se

registrarían 15 grados-día para enfriamiento (80º – 65º de referencia = 15º CDD). Los días fríos se miden

en grados-día para calefacción (HDD). En un día con una temperatura media de 40° F, se registrarían 25

grados-día de calefacción (65º de referencia – 40º = 25 HDD). Si se estudian los patrones de grados-día de

una zona en cuestión, es posible evaluar aumentos o disminuciones de las temperaturas exteriores de un

año a otro y elaborar tendencias.

Coordinación del mantenimiento preventivo Las temperaturas exteriores extremadamente altas o extremadamente bajas y temporadas de tormenta

pueden suponer riesgos significativos. Si los datos climáticos indican que abril y septiembre son los meses

óptimos para realizar tareas de MP, deben considerarse las ventajas y desventajas. Por ejemplo, ¿hay

planificado algún proyecto de construcción en las cercanías durante alguna de las "ventanas" propuestas

para efectuar el MP? Si es así, puede ser importante considerar la mayor probabilidad de registrar cortes en

el suministro debido a accidentes causados por la construcción (por ejemplo, si algún equipo de la

construcción corta accidentalmente conductos de energía y agua). Si se produjera un tiempo de inactividad

del sistema de enfriamiento del centro de datos, ¿temperaturas más bajas ayudarían a proporcionar un

enfriamiento natural para el centro de datos? Si según los datos climáticos septiembre es un mes óptimo

para realizar el MP, ¿es conveniente programarlo para el final del trimestre, cuando los sistemas financieros

están funcionando a plena capacidad?

0

30

20

10

Oct Nov Dec Jan Feb Mar Apr May Jun Jul Aug SepGrados-día paraCALEFACCIÓN

Grados-día paraENFRIAMIENTO

Fuente: Administración Nacional Oceánica y Atmosférica, Servicio Meteorológico Nacional de los Estados Unidoshttp:/ /www.cpc.ncep.noaa.gov/products/anal ysis_minitoring/cdus /degree_days/

Panorama de energía a corto plazo, junio de 2007

Gra

dos-

día

2002-032003-042004-052005-062006-07Normales

Oct Nov Dic Ene Feb Mar Abr May Jun Jul Ago Sep

Page 16: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

16

Un enfoque posible es programar las tareas de MP en diferentes momentos. Movilizar a todos los miembros

clave del personal simultáneamente podría presentar un peligro ya que comprometería la cobertura y el

soporte que esperan tanto los usuarios como los clientes. Si la falta de recursos humanos es un problema,

la programación de tareas de MP en distintas fases distribuirá las responsabilidades del mantenimiento en

forma más pareja y permitirá que el centro de datos mantenga sus niveles de servicio deseados.

Si, en cambio, el acceso a los recursos humanos no es un problema, otro enfoque posible sería realizar

todo el mantenimiento preventivo de una sola vez el mismo día o los mismos días y no en diferentes

etapas. En vez de programar varias instancias con distintas organizaciones, se le pide a un mismo socio

que proporcione el mantenimiento preventivo de la infraestructura clave, lo programe y lo realice. Este “MP

orientado a las soluciones” (a diferencia del tradicional orientado a los componentes) realizado por un socio

calificado puede ahorrar tiempo y dinero y mejora el rendimiento general del centro de datos. La prioridad

esencial es programar el MP con un proveedor de servicios calificado cuando las perturbaciones en el

centro de datos son mínimas y cuando se maximizan las opciones de recuperación.

Exposición del alcance del trabajo del mantenimiento preventivo El proceso de MP debe estar bien definido tanto para el proveedor del mantenimiento como para el

propietario del centro de datos. El proveedor del MP debe enviarle al propietario una exposición detallada y

clara del alcance del trabajo del MP. A continuación se enumeran algunos de los elementos que deben

incluirse en la exposición del alcance de trabajo:

• Disposiciones para el envío de personal: la mayoría de los fabricantes recomiendan realizar

un mantenimiento preventivo al año de la instalación y puesta en marcha de los equipos,

aunque ciertos componentes de mucho uso (como los humidificadores) pueden necesitar un

análisis antes y un monitoreo constante. Deben seguirse protocolos adecuados a fin de

asegurar un acceso sencillo a los equipos en el establecimiento del centro de datos. También

deben tenerse en cuenta las restricciones operativas del propietario. Debe formularse un plan

para que los equipos puedan ajustarse de modo de proporcionar un rendimiento óptimo.

• Disposiciones para el reemplazo de repuestos: la exposición del alcance del trabajo debe

incluir recomendaciones respecto de qué partes necesitan reemplazarse o actualizarse en

forma preventiva. La exposición del alcance del trabajo debe contemplar problemas como la

disponibilidad de repuestos en existencias, el suministro de repuestos probados y certificados,

planes de contingencia en caso de detectar partes defectuosas y la extracción y el desecho de

partes desgastadas.

• Documentación: la exposición del alcance del trabajo debe incluir un informe de resultados del

MP que documente las medidas tomadas durante el mantenimiento. El informe de resultados

también debe ser revisado inmediatamente por el proveedor para realizar un seguimiento

técnico.

Page 17: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

17

Opciones de mantenimiento preventivo Los servicios de MP pueden contratarse directamente con el fabricante o con otros proveedores de

mantenimiento. Seleccionar una organización proveedora de servicios de mantenimiento que sea capaz de

aplicar el concepto de MP para el centro de datos es una decisión importante. Tales organizaciones pueden

tener un alcance global o pueden ofrecer soporte a nivel regional o local. En la Tabla 3 se comparan las

dos categorías principales de proveedores de MP.

Tabla 3 – Cómo cumplir con los desafíos del mantenimiento: Fabricante vs. terceros no

autorizados

Fabricante / Terceros autorizados

Terceros no autorizados

Repuestos Repuestos en existencias, disponibles para el propietario del centro a nivel local Repuestos fabricados y probados en una fábrica certificada con ISO Los repuestos más recientes o compatibles con el producto en mantenimiento Piezas originales de fábrica utilizadas como repuestos

Los repuestos pueden provenir del mercado de piezas de segunda mano o de un proveedor de equipos usados Los repuestos pueden estar reparados a nivel local por técnicos no calificados Los repuestos pueden haberse comprado al fabricante con terceros como intermediarios, lo que aumenta las demoras

Conocimiento sobre productos

Servicio especializado en productos específicos Experiencia por la cantidad de instalaciones ya realizadas

El personal de mantenimiento tiene un conocimiento más general, y se espera que den mantenimiento para una gran variedad de productos de diversos fabricantes Puede no tener acceso a actualizaciones clave o no poseer conocimiento sobre ellas

Soporte local Puede ofrecer respuesta en un período estándar de 4 horas

Las empresas locales pueden llegar a brindar respuesta en 2 horas Pueden abarcar localidades a las que el fabricante no llega

Conocimiento sobre el entorno del centro de datos

Además de conocer los componentes particulares, a menudo el fabricante tiene conocimientos sobre problemas de alimentación y enfriamiento que afectan el funcionamiento general del centro de datos

Los conocimientos sobre centros de datos, más allá de la reparación de componentes específicos, pueden ser limitados

Capacitación El personal esta capacitado en fábrica para prestar mantenimiento y certificado según normas nacionales de seguridad El personal recibe evaluaciones regulares y capacitación actualizada

El personal puede no haber sido capacitado en fábrica

Aun si hubiera sido capacitado en fabrica, podría no recibir capacitación actualizada

Costo Por lo general es más costoso pero necesita menos tiempo para hacer un diagnóstico y resolver un problema

Por lo general es menos costoso

Page 18: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

18

Actualizaciones de productos

El servicio tiene acceso a todas las versiones de hardware y firmware del producto

El acceso a las actualizaciones de productos y versiones de firmware puede ser limitado

Documentación Últimas versiones de la documentación para el mantenimiento, que incluye información actualizada sobre tareas de mantenimiento realizadas Informes técnicos y documentación para el propietario del centro de datos una vez finalizado el MP

El personal de mantenimiento puede no tener acceso a documentación actualizada sobre las tareas de mantenimiento realizadas

Herramientas Cuenta con todas las herramientas, equipos de evaluación y software necesarios y cumple con las normas de calibración ISO

Puede no tener un acceso tan rápido a las últimas herramientas

Mantenimiento preventivo prestado por el fabricante Los fabricantes proporcionan contratos de mantenimiento que ofrecen líneas directas, soporte y tiempos de

respuesta garantizados. Los fabricantes también dan mantenimiento a miles de equipos en muchísimos

países y aprovechan cientos de miles de horas de capacitación de campo para mejorar aún más las

prácticas de mantenimiento y aumentar la especialización del personal. Los datos recabados por el

personal de campo capacitado en fábrica se envían a las organizaciones de investigación y desarrollo para

que éstas puedan analizar la raíz de las fallas.

Los equipos de investigación y desarrollo del fabricante analizan los datos e incorporan las mejoras

necesarias de hardware y software en las actualizaciones de productos que luego forman las bases para el

siguiente mantenimiento preventivo. Esta exposición global también permite que el personal de

mantenimiento del fabricante tenga una comprensión más profunda sobre los inconvenientes de los

componentes integrados de alimentación y enfriamiento, conocimiento que pueden aplicar a la resolución

de problemas y al análisis predictivo.

Mantenimiento preventivo prestado por terceros no autorizados La mayoría de las empresas que prestan mantenimiento tienen alcance local o regional y tienden a trabajar

con una menor cantidad de instalaciones de equipos. Por ende, su curva de aprendizaje puede ser más

larga en lo que a cambios en tecnología se refiere. Dado que tienen menos vínculos directos con el

fabricante y los establecimientos fabricantes, la mayoría de los proveedores de servicios de mantenimiento

no autorizados no pueden brindar un nivel de soporte óptimo. Muchos de los problemas que encuentran les

resultan “nuevos” porque no tienen acceso a las continuas mejoras globales que brindan los datos sobre

mantenimiento preventivo recabados durante las instalaciones realizadas por el fabricante en todo el

mundo.

Mantenimiento prestado por el usuario mismo Que los propietarios de un centro de datos decidan o no prestar mantenimiento a sus propios equipos de la

infraestructura física depende de diversos factores:

Page 19: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

19

• Arquitectura / complejidad de los equipos

• Nivel de criticidad de las aplicaciones correspondientes

• Modelo de negocios del propietario del centro de datos

Algunos fabricantes facilitan este enfoque de mantenimiento prestado por el usuario mismo, diseñando

componentes de infraestructura física que requieren un nivel de mantenimiento mucho más bajo (por

ejemplo, unidades UPS con cartuchos de baterías modulares reemplazables por el usuario). Entre los

factores a favor del mantenimiento prestado por el usuario mismo, se cuentan: la posibilidad de pagar el

servicio de mantenimiento con el presupuesto interno, en lugar de hacerlo con un presupuesto externo, y la

posibilidad de que el personal del centro de datos, siempre que tenga la capacitación adecuada, pueda

diagnosticar rápidamente errores potenciales.

Algunos de los factores que desalientan el mantenimiento realizado por el usuario son: la experiencia

limitada del personal interno (no es una competencia de negocios clave para el propietario del centro de

datos) y, con el transcurso del tiempo, la disminución de la base de conocimientos del personal como

resultado de la rotación de empleados. Además, si no se cuenta con un contrato de mantenimiento, puede

haber demoras para obtener los repuestos de una fuente externa y puede ser difícil resolver problemas

rápidamente. Si el usuario mismo no tiene la estructura adecuada para organizar la prestación del

mantenimiento, es probable que no se pueda concretar el mayor nivel esperado de eficiencia ni ganancias.

Mantenimiento basado en las condiciones del sistema Calcular y proyectar las condiciones de los equipos en el transcurso del tiempo ayuda a identificar qué

unidades en particular tienen la mayor probabilidad de presentar defectos que requieran reparaciones. Tal

ejercicio también identifica aquellas unidades que, por las exigencias particulares a las que son sometidas

(por ejemplo, las unidades UPS que suelen pasar a alimentación por baterías debido a la deficiente calidad

de la alimentación de red), tienen una mayor probabilidad de falla en el futuro. Este método de

mantenimiento basado en las condiciones del sistema también identifica, mediante estadísticas y datos,

cuáles son los componentes de equipos con la mayor probabilidad de conservar condiciones aceptables sin

necesidad de mantenimiento. De este modo, el mantenimiento puede dirigirse hacia donde produzca los

mayores beneficios y cause el menor daño.

A continuación se presentan datos relativos al mantenimiento basado en las condiciones del sistema que

pueden resultar útiles y ayudan a calcular las condiciones de los equipos:

• Antigüedad

• Historial de experiencia operativa

• Historial ambiental (temperatura, tensión, tiempo de autonomía, eventos anormales)

• Características operativas (vibración, ruido, temperatura)

Page 20: Estrategia de mantenimiento preventivo para centros de · PDF filemantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos. El diseño

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com WP124-0

20

Conclusión El mantenimiento preventivo es una ayuda clave para los centros de datos completamente operativos. Los

contratos de mantenimiento deben incluir una cláusula de cobertura de MP para que el propietario del

centro de datos no tenga que preocuparse y cuente con un soporte integral disponible cuando sea

necesario. El proceso actual de MP debe crecer y abarcar un enfoque “holístico”. El valor agregado que

brindan los servicios de MP a los componentes habituales de hoy en día (como las unidades UPS) debe

expandirse y beneficiar a todo el centro de potencia (generadores, interruptores de transferencia,

transformadores, disyuntores y switches, unidades PDU y UPS) y a todo el centro de enfriamiento

(unidades CRAC y CRAH, humidificadores, condensadores, plantas de agua helada).

En la actualidad, el proveedor de MP que mejor puede brindar ese nivel de soporte es el fabricante global

de los dispositivos de infraestructura física del centro de datos. Contar con un enfoque integrado de

mantenimiento preventivo permite al propietario del centro de datos responsabilizar a un único socio de la

programación, ejecución, documentación, gestión de riesgos y seguimiento del mantenimiento. Esto

simplifica el proceso, recorta costos y mejora los niveles generales de disponibilidad de los sistemas.

Acerca del autor Thierry Bayle es Vicepresidente de Operaciones de Mantenimiento en la línea de negocios Servicios y

Proyectos de APC-MGE. Tiene un título de posgrado en Electrónica y Automatización de la Universidad

Paul Sabatier, de Toulouse, Francia, y cuenta con 7 años de experiencia trabajando en entornos de

distribución de energía y servicios en Schneider Electric.