Declarar o no un «desastre»: ¿Una cuestión de complejidad, confianza o control?
Las empresas de todas las industrias y nichos tienen una dependencia cada vez mayor de la tecnología. El acceso seguro y el rendimiento robusto minuto a minuto de TI, más que una expectativa, es una necesidad competitiva. El tiempo de inactividad no es una opción. Las cada vez mayores interrupciones del servicio están provocando una disrupción significativa en el mercado económico y competitivo, lo que empaña la reputación de la marca de manera significativa.
No todos los eventos se crean por igual. Los incidentes no son eventos. Entonces, cuando ocurre un evento crítico o una interrupción del servicio, ¿qué tan preparado y seguro está para decidir invocar o declarar en el momento del evento? ¿Se ha tenido en cuenta el tiempo para evaluar el tipo de evento, sus criterios de decisión y las implicaciones y resultados de la invocación? ¿Impactos en su punto de recuperación establecido y objetivos de tiempo? ¿Están todas las partes interesadas clave conscientes y alineadas con respecto a las decisiones de ir o no ir? ¿Se han realizado pruebas basadas en escenarios para explorar las implicaciones conocidas? Profundicemos un poco en esto.
Estar mal preparado, lento o reaccionar mal ante fallas, problemas de rendimiento y / o interrupciones impacta innecesariamente la confianza del cliente, los ingresos y la competitividad del mercado.
Las interrupciones comunes del servicio ocurren en varias categorías:
- Error humano
- Gestión de versiones / parcheo
- Eventos cibernéticos
- Energía / Servicios Públicos
- Rendimiento del software / hardware que controla el entorno de TI
- Degradación / interrupciones del proveedor de servicios
Problemas como el cumplimiento normativo, las pandemias, los fenómenos meteorológicos y las interrupciones de la cadena de suministro generalmente se incluyen en un marco de riesgo más amplio de gestión de la continuidad del negocio (BCM). Independientemente, es fundamental que los involucrados conozcan todas las categorías de riesgo y aseguren una estrategia de resiliencia organizacional financiada que planifique de manera proactiva la ejecución demostrable y oportuna de un marco de respuesta de resiliencia integral.
Durante décadas, las organizaciones reguladas se han guiado por el cumplimiento en lo que respecta a la resiliencia tecnológica. Este enfoque refleja la tecnología, las herramientas y los métodos previamente disponibles, y era la práctica adecuada para la época.
Los indicadores preferidos para medir la resiliencia de las aplicaciones han sido normalmente el punto objetivo de recuperación (RPO) y el tiempo objetivo de recuperación (RTO). Sin embargo, estas medidas basadas en aplicaciones a menudo tienen poca relación con lo que le importa al cliente final, que es la disponibilidad del servicio, la entrega de experiencias de cliente excepcionales e ininterrumpidas.
Incluso en eventos catastróficos, muchas organizaciones optan por no invocar o realizar una conmutación por error, sabiendo por una multitud de razones (capacidad no probada, entornos dinámicos, configuraciones desalineadas) que hacerlo exacerbaría la situación y pondría en peligro o prolongaría el evento.
Un desafío relacionado y material es que, para entornos heterogéneos, complejos o heredados, las pruebas “tal como se recuperarían” son significativamente más complejas que la mayoría de los eventos disruptivos reales, por lo que muchas de las organizaciones se adhieren a las pruebas elementales estructuradas, como es el caso de las instituciones financieras impulsadas por los reguladores. Como siempre, existen desafíos significativos y en evolución que continúan agregando complejidad a su preparación y confianza para tomar una determinación de invocación.
Los reguladores están presionando mucho por el cumplimiento
Los reguladores están presionando para que las organizaciones adopten un enfoque más proactivo para la resiliencia operativa. Tanto en los EE. UU. como en el Reino Unido, documentos recientes, como el documento de debate de la FCA sobre resiliencia operativa, se han centrado en la necesidad de una verdadera resiliencia operativa. Por ejemplo, el documento de la FCA insta a las empresas a centrarse en cómo su respuesta a las interrupciones impacta al usuario final y apunta hacia una mayor responsabilidad para los tomadores de decisiones.
El mundo de las TICs está evolucionando
La tecnológica está cambiando rápidamente. En la era de la nube, y todo lo que la acompaña, el futuro será fundamentalmente diferente. El crecimiento exponencial de datos y análisis con IoT y lugares SMART presenta nuevos riesgos y complejidades. Sin embargo, los riesgos conllevan nuevas oportunidades para tomar decisiones basadas en datos y combinar nuevas tecnologías con orquestación humana.
Tus eco-socios importan
La gama de proveedores de servicios sigue creciendo, tanto en las opciones disponibles como en su capacidad y deseo de proporcionar productos y servicios «de misión crítica». La arquitectura que define la forma en que los clientes consumen sus productos y servicios que generan ingresos debe tener capacidad de recuperación incorporada para mantener una diferenciación competitiva que proteja su marca.
Más cambios significa más riesgo
El ritmo del cambio impulsado por la carrera hacia la transformación digital está generando más riesgo. La mayoría de las interrupciones tienen su causa fundamental en el cambio. Cuanto más cambio debe hacer una organización para mantenerse al día, más complejidad enfrenta, lo que resulta en impactos económicos y operativos significativos cuando ocurre una interrupción. Solo mire la falla de 2018 TSB Bank como un ejemplo de esto. Durante un intento de mudarse a un nuevo sistema de TI, los sistemas informáticos del banco fallaron, lo que provocó que casi 1,9 millones de clientes quedaran bloqueados en sus cuentas durante semanas. La debacle le costó a la compañía £366 millones, de los cuales £130 millones se destinaron a la compensación del cliente y £25 millones se pagaron por un informe de incidente ordenado por la Autoridad de Conducta Financiera (FCA) y la Autoridad de Regulación Prudencial que encontró que la empresa matriz española de TSB, Sabadell, había “recortado” pruebas críticas de TI. Además, el incidente provocó que la empresa perdiera unos 80.000 clientes.
Evolucionando hacia una cultura de resiliencia
Pasar de una postura impulsada por el cumplimiento de las capacidades de resiliencia que se pueden ejercer, medir y validar a una verdadera postura de ejecución de resiliencia operativa es un desafío formidable. Los criterios clave de éxito incluirán el patrocinio ejecutivo y la gobernanza, un marco operativo revisado y un compromiso enfocado de recursos, la automatización y la integración de servicios y herramientas, para proporcionar visibilidad a través de servicios, infraestructura y soluciones alojadas.
Consideraciones de invocación
Entonces, cuando ocurre un evento significativo, ¿cuándo aprietas el gatillo? Aumentar sus niveles de confianza lo suficiente como para invocar o declarar seguirá siendo un desafío. Algunos de los factores decisivos clave son los siguientes, desde las pruebas efectivas hasta lograr un cumplimiento demostrable, tener confianza en su postura de resiliencia operativa y, finalmente, determinar si debe invocar en función del evento y la preparación de su análisis preventivo.
Mi experiencia en torno a este elemento crítico de la evolución de la resiliencia continúa enfocándose en cargas de trabajo o entornos activos aislados, listas de verificación de «criterios de decisión» de escenarios predefinidos y predecibles, y pruebas de estrés exhaustivas de interdependencias para identificar brechas o exposiciones. Analizar eventos de prueba anteriores y hacer las revisiones necesarias para planificar y procesar es una necesidad absoluta. La implementación de la capacidad de identificar y marcar cambios materiales en el entorno de producción que deben resultar inmediatamente en actualizaciones de los libros de ejecución (runbook) / plan / proceso dará como resultado una mayor confianza en la ejecución. No hay forma de evitarlo, estar preparado es importante.
Conclusión
Estos desafíos son el impulso para que todos trabajemos en colaboración para desarrollar estrategias de resiliencia ejecutables casi en tiempo real, aprovechando runbooks y planes dinámicos, fácilmente personalizables y listos para usar basados en la plataforma innovadora y las capacidades de herramientas disponibles en la actualidad.
Es fácil sentirse abrumado por las consideraciones, pero es crucial que vea su avance hacia una mejor resiliencia operativa como un viaje, no como un destino. Abordar una consideración a la vez, mejorar la preparación y la práctica, y aprovechar las nuevas herramientas disponibles para brindar automatización, control y visibilidad avanzada son tres pasos que puede tomar y que lo encaminan hacia una resiliencia efectiva en la que puede confiar plenamente.
Steve Piggott es el director de resiliencia organizacional – cuentas globales de Cutover. Trabaja en todas las facetas de Cutover para impulsar la conciencia del mercado, el crecimiento de los ingresos y para alinearse con los requisitos y expectativas de nuestros clientes para recibir resultados de resistencia organizacional excepcionales. Piggott aporta una gran experiencia en la obtención de resultados exitosos para los clientes en la Transformación Empresarial, la Resiliencia Organizacional, la Recuperación ante Desastres y el desarrollo de programas de Continuidad del Negocio.