Pruebas de recuperación ante desastres bien hechas: una guía para confirmar que su plan de recuperación ante desastres está listo para funcionar

19 jul 2021
 

No se puede exagerar la importancia de las pruebas de recuperación ante desastres.

Una cosa es tener un plan de recuperación ante desastres, es un juego completamente diferente ejecutar ese plan sin problemas porque muchas cosas pueden salir mal en el ojo de la tormenta.

Es posible que encuentre un problema y no tenga idea de a quién llamar. Es posible que tenga un nombre y un número, pero luego se da cuenta, en medio de la crisis, que la persona ya no trabaja para la empresa. Estos son solo algunos de los problemas que podrían surgir en un desastre. Si le falta incluso una sola pieza de información clave, es posible que no pueda mostrar sus cargas de trabajo de producción en su entorno de recuperación.

Si no ha probado su plan, no sabrá si encontrará este tipo de problemas en una situación de desastre real. Con pruebas exhaustivas, puede descubrir estos problemas y realizar modificaciones con anticipación para, con suerte, evitar descarrilar su recuperación.

Pero las pruebas por sí solas no son suficientes. Deben hacerse de la manera correcta para que sean eficaces. Muchas empresas realizan pruebas con frecuencia, pero sus pruebas son incompletas, carecen de rigor o simplifican los escenarios. Este tipo de prueba es casi tan ineficaz como no realizar ninguna prueba.

Ya sea que nunca haya probado su plan, sus pruebas de DR deben volver a encarrilarse o simplemente desea confirmar que sus pruebas están a la altura. Aquí encontrará todo lo que necesita saber sobre las pruebas de recuperación ante desastres.

 

Lo que las empresas entienden mal con las pruebas de DR

¿Cuánta confianza tiene en sus planes y capacidades de recuperación ante desastres? Si realiza pruebas con regularidad, es probable que haya adquirido competencia, lo que genera confianza. Sin embargo, esa confianza no garantiza que el plan funcione en el momento de un desastre.

Lo que importa, y lo que determinará el éxito de su recuperación, es qué tan cerca están sus pruebas de un desastre real. Muchas empresas no se desafían a sí mismas en todos los elementos programáticos que garantizan un esfuerzo de recuperación exitoso y oportuno a partir del momento de la declaración.

Existe una brecha entre cómo se diseñan y realizan las pruebas y las condiciones reales que enfrentará su equipo durante una crisis. Las pruebas son mucho más controladas y predecibles. Dependiendo de cómo esté realizando las pruebas, puede haber muchas diferencias entre una prueba y una recuperación real.

Por lo general, las pruebas se preparan previamente y se programan para un momento que sea conveniente para los miembros del equipo. En realidad, los desastres son impredecibles y casi siempre inconvenientes. Las pruebas también pueden realizarse en entornos aislados o involucrar solo a miembros seleccionados del equipo.

Cuanto más difieran sus pruebas de las condiciones reales de un desastre, menos preparado estará para un evento de DR real.

 

Preguntas clave para probar la eficacia de su plan de recuperación ante desastres

Existe la posibilidad de que sus pruebas de DR no sean tan efectivas como cree. Hágase las siguientes preguntas:

  • ¿Ha identificado los desafíos únicos asociados con un evento de DR real frente a los asociados con las pruebas de DR?

Por ejemplo, si su prueba ha estado en los libros durante meses y su organización se ha estado preparando para ella, no sería sorprendente que todo funcionara sin problemas. Sin embargo, los eventos reales nunca siguen un horario; requieren que los empleados dejen lo que están haciendo, recuerden lo que les han enseñado y usen su memoria muscular para responder en tiempo real en cualquier momento.

  • ¿Están sus pruebas de DR diseñadas para simular y prepararlo para esos desafíos únicos? ¿Está entrenando como si fuera algo auténtico o simplemente como una práctica de carrera?

Si solo está probando su plan de recuperación ante desastres porque eso es «lo que se supone que debe hacer», entonces no está haciendo nada más que marcar una casilla. Si solo está probando algunos de sus equipos en lugar de toda la organización o realizando una prueba aislada en lugar de un esfuerzo de alcance completo, entonces está tratando esto como una práctica en lugar de un campeonato real. Esto no ayuda a nadie.

  • ¿Están aumentando sus pruebas de DR en alcance y valor con el tiempo?

Si es como la mayoría de las organizaciones, continuamente agrega nuevas aplicaciones, elimina redundancias y migra cargas de trabajo hacia y desde la nube, todo lo cual requiere que reevalúe y actualice su plan de recuperación ante desastres. También debe considerar las interdependencias. Cada aplicación que agrega o resta influye en otras aplicaciones. Si no ha actualizado su plan de recuperación ante desastres cada vez que realiza cambios en su entorno, no importará la frecuencia con la que lo pruebe.

  • ¿Su programa de recuperación ante desastres será eficaz para recuperar datos después de un ciberataque que cifra o destruye datos?

La recuperación de datos es un caso de recuperación completamente diferente al que tienen en cuenta la mayoría de los planes de recuperación ante desastres y requiere un enfoque diferente. A continuación, se muestran cuatro diferencias entre la recuperación de datos y la recuperación ante desastres:

– El evento desencadenante: los planes de recuperación ante desastres se centran en recuperar la infraestructura, las aplicaciones y los servicios de red. Todos estos son problemas que surgen de problemas con su centro de datos físico. Sin embargo, la recuperación de datos se deriva de un ciberataque a menudo con diferentes impactos.

– Dónde se recupera: con la recuperación ante desastres, conmuta a un entorno de recuperación. Con la recuperación de datos, puede recuperar datos en cualquier ubicación, incluido el entorno de producción original, un sitio de recuperación ante desastres aislado o ambos.

– Qué datos recupera: los planes de recuperación ante desastres generalmente se basan en la copia de datos más reciente. Con la recuperación de datos, debe buscar los datos «limpios» disponibles para el proceso de recuperación, ya que los más recientes pueden verse comprometidos.

– RTO / RPO: en DR, las pruebas periódicas deberían permitirle cumplir sus objetivos de tiempo de recuperación (RTO) y los objetivos de punto de recuperación (RPO). En la recuperación de datos, deberá cuantificar sus posibles RTO y RPO en función de su situación.

  • ¿Cómo está midiendo el éxito de su prueba de DR?

Ejecutar una prueba de DR no es suficiente. Debe tener un método eficaz para distinguir el éxito del fracaso y medir el progreso. Por ejemplo, ¿tiene un informe de tendencias que describa la mejora en los RTO y RPO? Si no dispone de un medio eficaz para analizar los resultados de una prueba, se perderá constantemente una pieza clave del rompecabezas.

Si no puede responder a estas preguntas, o si su respuesta a alguna de ellas es negativa, es posible que le falten elementos cruciales de un esfuerzo de prueba de DR eficaz.

 

Directrices para una prueba de recuperación ante desastres exitosa

Entonces, ¿cómo puede asegurarse de que sus pruebas de DR no solo sean consistentes, sino también efectivas? Hay algunos principios para tener en cuenta que le ayudarán a tener más éxito.

  1. No permita que los lapsos en las pruebas se vuelvan permanentes. Las fallas en las pruebas ocurren por muchas razones. Es posible que esté trabajando en otros cambios o desafíos de TI cuando llegue el momento de realizar las pruebas y, en esas situaciones, puede tener sentido aplazar una prueba durante uno o dos meses. Eso está bien, siempre y cuando vuelva a agendar su programa de pruebas. La consistencia en el tiempo es lo que cuenta. Si ha realizado pruebas de forma eficaz y no ha realizado cambios importantes en la producción, retrasar una prueba no hará ni arruinará su esfuerzo.
  2. Asegúrese de que su centro de recuperación tenga en cuenta sus condiciones laborales posteriores a la pandemia. Dado que muchas empresas permiten que los empleados continúen con un horario de trabajo híbrido o completamente remoto después del final de la pandemia, es posible que deba ajustar su centro de recuperación si aún no lo ha hecho. Las organizaciones han podido ejecutar planes de recuperación ante desastres de forma remota desde hace un tiempo, pero asegúrese de que su equipo tenga acceso viable al centro de recuperación si las situaciones de trabajo han cambiado. Si aún no ha estructurado la configuración desde casa, realice ese ajuste ahora.
  3. Las excepciones documentadas están bien, pero todos los demás problemas equivalen a fallas. Es justo establecer ciertas excepciones documentadas a su plan completo de recuperación ante desastres que no tienen sentido como parte de una prueba. Por ejemplo, establecer un enlace a su cuenta bancaria en su sistema de recuperación para procesar la nómina podría ser parte de su plan de recuperación ante desastres. Pero durante una prueba, en realidad no desea que el banco envíe un cheque de pago adicional a los empleados. Documente esa excepción y haga la prueba lo más lejos que pueda. Cree ese archivo y analice si coincidiera con lo que enviaría al banco. Por otro lado, si está en medio de una prueba y se da cuenta de que le falta un archivo esencial, no puede volver a la producción, obtener el archivo y continuar la prueba. Dado que no podría hacer eso en un desastre real, sacar algo de la producción debería ser un error automático.
  4. No olvide practicar la recuperación de datos. Al igual que con la recuperación ante desastres, necesita un equipo que se ejecute en varios escenarios en los que sus datos se vean comprometidos. Del mismo modo que clasifica las aplicaciones para la recuperación ante desastres, necesita conocer sus activos de datos vitales, tener una arquitectura y procedimientos de recuperación implementados para protegerlos y realizar pruebas con frecuencia para poder actuar rápidamente después de un ciberataque para evaluar la situación y evitar pérdida de datos.

¿Con qué frecuencia debe probar su plan de recuperación ante desastres?

La respuesta honesta es que depende. Hay dos factores importantes a considerar al determinar la mejor cadencia de prueba para su organización: cuánto tiempo de inactividad puede permitirse su empresa y si ha realizado cambios importantes en su entorno recientemente.

Sus requisitos de recuperación a menudo influirán en la cadencia de sus pruebas. Cuanto más corto sea su RTO, más frecuentes deberían ser sus pruebas. Por ejemplo:

  • Recuperación de una semana = una prueba por año
  • Recuperación de 48 horas = dos pruebas por año
  • Recuperación de 24 horas = una prueba por trimestre

Además de su programa de pruebas habitual, también debe realizar pruebas adicionales después de realizar cambios importantes en su entorno o en los requisitos de recuperación internos o externos. Por ejemplo, si normalmente realiza pruebas en marzo y septiembre, pero realiza un cambio en sus capacidades de procesamiento a finales de junio, debería considerar agregar una prueba antes de septiembre para asegurarse de que esos cambios se reflejen en su plan de recuperación ante desastres. De esa manera, si experimenta una interrupción entre junio y septiembre, estará seguro de que los cambios que realizó no descarrilarán su recuperación.

Muchas organizaciones ofrecen soluciones de pruebas automatizadas que pueden ayudar a satisfacer estas necesidades.

 

Cómo probar su plan de recuperación ante desastres

No importa cuántas veces pruebe su plan de recuperación ante desastres, no estará preparado para un desastre real si está tomando atajos.

Sus planes de recuperación ante desastres deben tener en cuenta los cambios en su entorno de producción, flujos de trabajo, interdependencias de aplicaciones y más. También debe prepararse para escenarios no planificados, como la falta de disponibilidad de parte de su fuerza laboral o problemas con sus socios externos (por ejemplo, no puede conseguir un equipo crítico).

Resulta que la práctica por sí sola no hace la perfección.

La práctica solo funciona si estás practicando de la manera correcta. Al incorporar estos elementos, hacer las preguntas correctas y tratar sus pruebas de DR como si fueran un evento real, estará más preparado para responder cuando ocurra un desastre.

Girish Dadge

Girish Dadge tiene más de 15 años de experiencia en la resolución de desafíos de respaldo, restauración y recuperación de datos, así como en la arquitectura e implementación de infraestructura de TI y soluciones de recuperación avanzadas en varias industrias. Actualmente se desempeña como director senior de gestión de productos en Sungard Availability Services (Sungard AS).

Comentarios

Deja un comentario

COMPARTIR

Share on facebook
Share on twitter
Share on linkedin

ÚLTIMOS ARTÍCULOS

Vaishali Jain

Planificación de un ejercicio de escritorio eficaz

Este artículo es para aquellos que prefieren volver a ese Uber y continuar la fascinante conversación sobre el clima o sentarse a escuchar las repeticiones del tío David de los últimos hechos que escuchó en su medio de noticias por cable favorito, que realizar un BIA.

Leer Más >>
Matthew ZISKA

Identificación y gestión de riesgos

Este artículo es para aquellos que prefieren volver a ese Uber y continuar la fascinante conversación sobre el clima o sentarse a escuchar las repeticiones del tío David de los últimos hechos que escuchó en su medio de noticias por cable favorito, que realizar un BIA.

Leer Más >>