DELE A SU RTO UN TUNE-UP CON ESTAS CUATRO PREGUNTAS

Inicio » Artículos » DELE A SU RTO UN TUNE-UP CON ESTAS CUATRO PREGUNTAS

DELE A SU RTO UN TUNE-UP CON ESTAS CUATRO PREGUNTAS

04 Ene 2018

Usted está experimentando una interrupción. Los servidores han colapsado y sus aplicaciones no están disponibles. Ha evaluado que no será fácil hacer que sus sistemas de producción vuelvan a funcionar. Tampoco puede solucionar rápidamente el problema de producción que ocasiona el corte y necesita ponerse en acción con su plan de recuperación ante desastres.

Ha determinado cuánto tiempo estará fuera de operaciones estableciendo su tiempo objetivo de recuperación (RTO). Este es una medición de qué tan rápido puede recuperarse o poner sus aplicaciones en línea luego de una declaración de desastre. En función de la cantidad de tiempo de inactividad que puede permitirse para una aplicación, digamos que su RTO es de dos horas.

Pero ¿qué sucede si le toma a su equipo media hora para encontrar, desempolvar y revisar el plan de recuperación que no ha probado ni revisado en años, y luego se entera que su infraestructura no puede soportar su plan? La recuperación de esa interrupción irá más allá de la marca de dos horas. Y si la interrupción es causada por un desastre natural que destruyó sus instalaciones de producción, ese Plan de Recuperación ante Desastres es su única esperanza de sobrevivir como negocio. ¿Qué pasa entonces?

RTO es un elemento esencial de su plan de recuperación antes desastres, pero ¿es solo una ilusión, o puede cumplir su objetivo de inactividad empresarial aceptable cuando ocurra un desastre? Su RTO puede parecer un objetivo arbitrario si no ha diseñado y puesto en marcha un plan para lograrlo, que es el caso de muchas organizaciones que asumen que nunca experimentarán una interrupción significativa.

El RTO requiere un balance de prioridades. Inclinar la balanza a tratar todas sus aplicaciones como una misión crítica minimizaría el impacto a clientes en el evento de un desastre, pero podría ser prohibidamente costoso. De otro lado, a menos que tenga planes para las aplicaciones orientadas al cliente, misión y negocios críticos, una interrupción prolongada podría causar la perdida de algunos de esos clientes para siempre.

Vale la pena dar un paso atrás para ver su RTO, especialmente a medida que los requisitos entorno a los RTOs más rápidos se vuelven más agresivos. Podría descubrir problemas con su plan de recuperación que tal vez no haya considerado, en función de cómo haya clasificado el impacto comercial para sus aplicaciones.

Determinar una RTO apropiado para las aplicaciones de su negocio es un escenario de “Ricitos de Oro”, tiene que alcanzar el balance correcto entre el tiempo de inactividad que puede manejar y el costo de la solución para alcanzar ese objetivo.

Hágase estas cuatro preguntas para ver cómo se mide su RTO:

¿Cuánto tiempo de inactividad puede permitirse su reputación?

Su capacidad para minimizar el tiempo de inactividad comienza con el RTO que necesita alcanzar para la aplicación de su negocio.

Necesitará hacer un análisis de impacto del negocio (BIA) para determinar qué datos y aplicaciones son de misión crítica. Si los sistemas transaccionales del negocio disminuyen, cada minuto que no están disponibles significa una pérdida de ganancia directa. Algunas funciones no esenciales de Recursos Humanos; sin embargo, podría tener un mayor retraso en la restauración. En la mayoría de casos, un retraso sería un inconveniente y dificultaría la productividad, pero impactaría menos en los ingresos en el largo plazo.

Como parte del BIA, tendrá que considerar qué tantos datos puede permitirse perder en caso de una recuperación. Éste es el Punto Objetivo de Recuperación (RPO) para una aplicación, y determina el punto de restauración de sus datos y la antigüedad de los datos cuando se recuperen.

Cuando se trata de pérdida de datos, diferentes industrias obviamente tienen diferentes requerimientos. Una cervecería, por ejemplo, podría ser capaz de sortear las interrupciones del sistema informático mejor que un desastre que impacte su inventario, camiones u otros elementos de la cadena de abastecimiento y distribución.

Considere el impacto a largo plazo del tiempo de inactividad también. ¿Podrá la reputación de su marca tener éxito si su sitio web está inactivo durante unas horas? Si es una compañía de tecnología, una aerolínea o un minorista importante, sus clientes pueden ser menos indulgentes con las inconveniencias. Y si una interrupción deja espacio para que los clientes prueben a un competidor, puede perderlos para siempre. Interrupciones prolongadas o repetitivas pueden estigmatizar a la empresa en la mente del público, y la sensación de falta de fiabilidad puede quedarse con una marca por años.

En una falla catastrófica del sistema, su recuperación debería ser un escenario de triaje (priorización). ¿Qué exactamente es lo que necesita para reanudar las operaciones normales y minimizar sus pérdidas de ingresos? Los sistemas de misión crítica deberían ser diseñados con arquitecturas redundantes de alta disponibilidad para conmutación por error casi instantánea. Recuperación basada en la nube podría ser adecuada para aplicaciones y datos que pueden recuperarse en una o dos horas. Y para los datos guardados en archivos que no necesitaría por días o semanas, la restauración de las copias de seguridad tradicionales en un centro de datos geográficamente remoto podría ser lo que necesite.

¿Cuánto tiempo de inactividad puede permitirse su presupuesto?

Una vez que sepa lo que necesita, tenga en cuenta qué soluciones puede implementar. Las necesidades de cada organización son únicas, pero aquí hay algunas pautas generales.

Si puede perder las transacciones de ventas y los ingresos, las soluciones de alta disponibilidad minimizarán las costosas interrupciones. Si bien esto mantendrá sus aplicaciones y datos más importantes disponibles, tiene un precio. Es la opción más rápida pero más cara para la disponibilidad de las aplicaciones. Aún con una recuperación basada en la nube, el costo puede determinar el tipo de solución. Puede escoger entre costo más alto y siempre activo para una recuperación más rápida en comparación con el modo de espera. O puede escoger el cálculo según demanda, que cuesta menos, pero lleva más tiempo en caso de una recuperación.

Considere las interrupciones en aerolíneas de alto perfil que hemos visto en los últimos años. Las principales aerolíneas parecen estar operando con infraestructura desfasada o inadecuada, causando retrasos catastróficos y aterrizaje de vuelos, sin mencionar la indignación entre sus clientes. Para esas aplicaciones de misión crítica que impactan en el check-in de los pasajeros, el despacho de vuelos y las operaciones, una recuperación más rápida podría valer la pena para evitar el costo de los vales de compensación y clientes insatisfechos.

Recuerde también que las prioridades y los requerimientos comerciales cambian. Si evaluó por última vez su riesgo y recuperación hace tres o cinco años, eso no es suficiente. Dependiendo del ritmo de cambio de su organización (algunas plataformas en la nube liberan cientos de actualizaciones y nuevas características cada año), asegúrese de volver a evaluar el impacto en el negocio de su aplicación y de repetir esta evaluación al menos anualmente.

¿Cuál es la probabilidad de tiempo de inactividad?

Tradicionalmente, la recuperación del desastre se ha enfocado en eventos como huracanes, tormentas de nieve y otros desastres naturales que podemos ver venir. Pero hoy, las interrupciones son provocadas por causas más diversas e impredecibles. Ataques cibernéticos, incluyendo ataques de malware y ransomware, así como incidentes de seguridad derivados de amenazas internas, han creado una nueva marca de desastres del siglo 21.

Reevalúe su estrategia de recuperación y solución y tome en cuenta estos tipos de desastres. Los métodos ya conocidos pueden no ser suficientes. Por ejemplo, separación geográfica de sus servidores como una medida precavida en caso de un evento climático paralizante no detendrá a los hackers, entonces necesitará una separación lógica de sus datos también. Estos nuevos tipos de riesgos plantean nuevas amenazas en cualquier momento, en lugar de una vez al año, o solo durante la temporada de huracanes.

¿Cuál es la probabilidad de tiempo de inactividad?

Si usted ha configurado su RTO basado en la necesidad, presupuesto y riesgo, en teoría, debería ser alcanzable. Pero ¿qué sucede cuando la teoría se encuentra con la práctica? ¿Puede ejecutar el plan en un desastre? Su tiempo de recuperación alcanzable (RTA), la medición de exactamente cuánto tiempo lleva ejecutar su plan, es la verificación real de su plan de recuperación de desastres. Al medir su RTA, sus necesidades y expectativas pueden no estar alineadas si no ha actualizado o probado su plan de recuperación de desastres por un tiempo.

Una prueba rigurosa y regular de su plan de recuperación de desastres, al menos 1 o 2 veces al año, si no es trimestral, puede identificar las desconexiones relentizando su proceso de recuperación. ¿Está su personal adecuadamente capacitado para ejecutar el plan? ¿El plan toma en consideración cualquier implementación reciente que haya hecho en nuevas tecnologías o sistemas?

Muy a menudo, las pruebas no son lo suficientemente desafiantes. Puede hacer algunos ajustes o notificar a los trabajadores de la prueba con antelación para asegurar que estén listos. Claro, eso garantiza la marca de los checks de la lista de pruebas, pero en un desastre real, no tendrá tiempo de preparar o alertar a su personal.

También evite la tentación de elegir un subconjunto fácil de su entorno para probar. Incluya todo el sistema en sus pruebas, ya que eso es lo que está en juego durante una falla en el mundo real. No solo haga un simulacro para ver si su sistema pasará su prueba; pruebe para ver cómo le irá en un desastre real.

Una visión realista

Su plan de recuperación de desastres funciona como un sistema de controles y equilibrios. Un RTO realista depende de lo que defina como datos de misión crítica y qué velocidad de recuperación puede permitirse. Si su tiempo de recuperación alcanzable dista mucho de sus expectativas, no solo es frustrante, sino que puede ser perjudicial para su negocio.

Y si se encierra en su plan o no comprende su riesgo, también pone en peligro la reputación de su marca. En Black Friday y Cyber Monday los minoristas saben que se espera un aumento en el tráfico, y cada año, al menos algunas tiendas experimentan una interrupción importante. Para los grandes almacenes que ya experimentan dificultades, un accidente cerca de las fiestas puede enviar compradores a otros sitios en un instante y quizás les cueste a los clientes para siempre.

Al final, la única forma de prepararse para una interrupción y limitar el daño a su línea de fondo y reputación es tomar decisiones difíciles sobre qué aplicaciones y datos son más importantes y qué puede esperar. Al asignar su presupuesto por nivel, y continuamente reevaluar y probar su plan de desastre, puede lograr los RTO de su aplicación y mantener contentos a su negocio y a sus clientes.

Joseph George

Vicepresidente en Sungard AS

Joseph George es un líder en gestión de productos de alta tecnología con una gran experiencia y un fuerte conocimiento de tecnología, amplia experiencia en gestión de negocios y habilidades analíticas comprobadas. Se desempeña como vicepresidente de servicios de recuperación global en Sungard AS.

ÚLTIMOS ARTÍCULOS

Fomentar la resiliencia organizacional: equilibrar la innovación con la estabilidad

02/04/2024

Durante el punto álgido de la pandemia, la mayoría de las organizaciones dejaron de realizar viajes de negocios por completo. Otros elevaron la autorización para viajes relacionados con negocios a los niveles más altos de C-Suite, asegurando una visión de arriba hacia abajo de los costos y las posibles ramificaciones reputacionales de viajar cuando otros no lo hacían.