Post on 01-Oct-2018
El DCIM es una herramienta muy potente para diseñar el “What If” en caso de caída de energía de un
elemento, pérdida de algún servicio, o alguna incidencia de riesgo en el Data Center, lo que permite
minimizar los tiempos de actuación.
PLANES DE CONTINGENCIA
“No lleves nunca a cuestas
más de un tipo de
problemas a la vez. Hay
quienes cargan con tres:
los que tuvieron, los que
ahora tienen y los que
esperan tener. ”
Edward Everett Hale
Planes de Contingencia
Detección puntos vulnerables
Simulación caídas de servicios/equipos
Disaster Recovery
Los edificios que alojan grandes Data Center, suelen tener un alto grado
de robustez en todos los sentidos, sin embargo, como cualquier empresa
debe disponer de un plan de emergencias de cómo actuar ante un riesgo
potencial.
El Data Center actual tiene una criticidad que sugiere el diseño de un
plan de actuación “planificado” que se debe activar ante causas que
pueden afectar a su operación.
Durante la operación de un Data Center, lo normal es utilizar como base
la fase de diseño donde se decide cómo debe quedar la infraestructura
del mismo.
Sin embargo, nos estamos refiriendo a la parte física, cosa que
normalmente no es el núcleo del Data Center, sino los servicios y los
datos son la parte realmente importante.
Por tal motivo, Bjumper ofrece el diseño de un plan de contingencia global que permita prever y controlar los posibles problemas que se puedan dar en la parte más crítica del Data Center, las aplicaciones o servicios que gestionan la información, aunando la información de la parte física y de aplicación.
www.bjumper.com
MARCO TULIO CICERÓN
“Cualquiera puede cometer un error; pero sólo los insensatos se aferran a él. Los segundos pensamientos son los mejores, como dice el proverbio”.
Prever los problemas puede ahorrar dinero
Un plan de contingencia requiere de un análisis minucioso de las partes
vulnerables y del posible impacto de los defectos o fallos contra los que se
quiere proteger el Data Center.
Es posible que de un plan de contingencia, se puedan extraer conclusiones
que permitan mejoras que pueden ser necesarias en la infraestructura o en
la forma de trabajar.
El nivel de definición de un plan de contingencia debe ser tal, que cualquier
persona relacionada con el Data Center tenga la capacidad de leer,
interpretar y acometer las acciones necesarias para poder restablecer el
servicio en caso de caída de servicio por problema grave.
La elaboración consiste en:
Estudio de puntos vulnerables
Análisis de los riesgos
Planificación y estrategia
Pruebas de evaluación
www.bjumper.com
La incertidumbre tiene un coste
Estudio de puntos vulnerables
El “lev motiv” de un Data Center no es otra cosa que garantizar la disponibilidad de la interacción
entre el cliente interno o externo de una compañía y esta, en forma de servicios y datos
gestionados por las aplicaciones que están alojadas.
Por lo tanto, la prioridad es conocer todos los servicios y la criticidad de cada uno, ya que de este
modo podremos plantear cómo asegurar en la medida de lo posible la continuidad de servicio,
evidentemente dando prioridad a los más importantes.
Se deberían geolocalizar o mapear los servicios más importantes en sus correspondientes
servidores y racks, estén o no virtualizados, para diseñar un plan que garantice el servicio
eléctrico de la red convencional, grupo electrógeno o por cualquier otro método.
El siguiente factor crítico es el complejo ecosistema relacionado con la infraestructura del Data
Center. Es por ello, que se debe realizar un estudio de la redundancia de alimentación de los
equipos en función de su grado de criticidad, garantizando que el diseño en proyecto cumple con
las expectativas o por el contrario existe alguna posible mejora del mismo.
El siguiente factor, tiene que ver con el Equipo Humano y con los procesos y procedimientos de
trabajo. En ocasiones puede trabajar bajo algún método no del todo correcto o no evolucionado,
en otras desempeña la actividad bajo síntomas de alguna enfermedad o condicionantes de
motivación personales, o bien el exceso de rotación de personal puede tener como
consecuencia que se produzcan desajustes dentro del Data Center.
Por lo tanto es posible detectar algún punto de mejora relacionado con el trabajo del equipo
humano, que merece la pena contemplar en el plan de contingencia.
Por último, existen otras causas de riesgo respecto a la Seguridad y otros tipos de fenomenología
en el Data Center, como entrada de intrusos que comprometen la seguridad de las salas
técnicas, incendios, temperatura extrema por avería de la refrigeración, incluso otros fenómenos
menos habituales como terremotos, fenómenos que por su importancia deben ser analizados
también.
www.bjumper.com
Análisis de los riesgos
Los problemas que pueden aparecer en un Data Center se han resumido en el punto anterior, sin
embargo cualquier fallo tiene distintas implicaciones en cada empresa, y por tanto el riesgo debe ser
analizado en cada plan de contingencia, de modo que la planificación cubra los puntos más relevantes
o que más riesgo percibe cada compañía. Definición de la Matriz de Riesgos.
Planificación y estrategia
Una vez encontrados los posibles puntos de fallo y sus consecuencias para cada empresa, se define el
plan de contingencia que permita prever estas situaciones, corrigiendo los resultados que previamente
se han podido analizar con profundidad e incluso simular el resultado apoyados en el DCIM.
Todo esto lo que permite es diseñar de una forma ordenada los pasos a dar ante un problema o avería
grave, apoyándonos en la función de disaster recovery, y reducir al mínimo el impacto de cualquier
problema.
Pruebas de evaluación
Cualquier plan de emergencias o contingencia debe ser evaluado cada cierto tiempo, realizando
simulacros de avería, siguiendo el plan preestablecido, y observando el resultado de cómo se ha
desarrollado el plan.
Esta información nos permite evaluar si el plan de contingencia se realiza de forma correcta y el
resultado es satisfactorio o de lo contrario, debe ser actualizado o adaptado.
El plan de contingencia se basa en el nivel de certificación y por tanto de requerimientos necesarios:
Fuente: Uptime Institute
www.bjumper.com