¿Tu plataforma de juego en línea está preparada para los «Monos del Caos»?

Content Team hace 3 años
¿Tu plataforma de juego en línea está preparada para los «Monos del Caos»?

Chaos Monkey está listo para llevar tu plataforma de juegos en línea al límite. La pregunta es: «¿Podrás aguantar tanto caos?»

Palabras de David Sach, director ejecutivo de Tomobox y experto en inteligencia artificial, aplicaciones de juego responsable y en la lucha contra el blanqueo de capital en iGaming. Ha trabajado con los principales operadores, propietarios de plataformas y reguladores para implementar sistemas que protegen a los jugadores y promueven las apuestas seguras

Chaos monkey1Intenta imaginarte un montón de monos corriendo alrededor de tu centro de datos, tirando de los cables, destrozando los rúteres y sembrando el caos en todas las  aplicaciones e infraestructura. Hoy en día, con la competencia que existe entre los operadores en línea, cada vez es más importante la experiencia del jugador. La continuidad de las operaciones es «Uber-Alles» y evitar el abandono, debido a la interrupción del servicio, es el mantra de la organización.

Eso es exactamente lo que el equipo de ingenieros de Netflix elaboró cuando pensaron en la resistencia de la infraestructura informática tanto de hardware, como de software. Chaos Monkey es una herramienta inventada en 2011 por Netflix para probar la resistencia de su infraestructura informática. Funciona desactivando intencionalmente los ordenadores y los servicios de la red de producción para ver cómo responden los sistemas restantes al apagón. Chaos Monkey ahora forma parte de un conjunto más amplio de herramientas llamado Simian Army, diseñado para simular y probar las respuestas a varios fallos del sistema y casos límite. También es parte de un nuevo régimen de ingeniería llamado SRE – Ingeniería de confianza en las páginas.

Un Ingeniero de fiabilidad en las páginas (SRE) se pasa la mitad del tiempo haciendo trabajos relacionados con «opschaosmonkey» como resolución de incidentes, en guardia, e intervención manual. Dado que se espera que el sistema de software que supervisa un SRE esté muy automatizado y se regenere a sí mismo, el SRE debería dedicarle el otro 50% del tiempo a tareas de desarrollo como nuevas características, escalado o automatización, asegurándose de que el «mono del caos» esté controlado.

¿Por qué es fundamental para la experiencia del jugador?

La continuidad del servicio en la era de la nube es obligatoria y difícil de lograr. Hay un número infinitesimal de situaciones que pueden salir mal y saldrán mal. Muchos proveedores dan servicio a la plataforma de juegos de cualquier operador en línea, desde CRM, hasta juegos móviles y servidores de pago entre otros. Cualquier interrupción del servicio afecta a miles de jugadores que pueden perder prácticamente «dejando dinero en la mesa» para que el operador lo pierda.

WernerVogelsLa SRE y la gestión de incidentes están de moda hoy en día. Como el CTO de Amazon, Werner Vogels, describe claramente un típico evento importante que causa una interrupción: «Usted ve los síntomas, pero no necesariamente ve la causa de fondo de la misma… Inmediatamente despide a un equipo cuya tarea es comunicarse realmente con los clientes, asegurándose de que todo el mundo es consciente de qué sucede exactamente.»

Mientras tanto, continúa, «los equipos internos, por supuesto, inmediatamente comienzan a ir y tratar de encontrar cuál es la causa raíz del problema, si podemos repararlo o restaurarlo o qué otra cosa podemos hacer». Solucionar este tipo de situaciones depende de los administradores de incidentes y de los ERS cuando se produce una interrupción.

El futuro de la orquestación de incidentes

Controlar cualquier incidente importante se ha convertido de un arte oscuro a una ciencia finita. Gestionar un incidente también consiste en informar a los clientes, como los afiliados o socios durante todo el evento. En el día de la satisfacción inmediata, los clientes no buscan que les digas: «espera, espera», ellos exigen estar al corriente. Mientras tanto, los gestores de incidentes se esfuerzan por resolver los problemas y asegurarse de que gobierne la transparencia y que todos los interesados estén informados. A veces eso significa cientos de personas por incidente.

Vogels lo dice muy claramente: «Creo que podemos culparnos a nosotros mismos, en términos de no haber convertido esto en una especie de procedimiento o algo automatizado, donde podríamos haber tenido un total buen control sobre lo que el número podría ser».

Este es un punto clave para Vogels: A medida que creces y te desarrollas, introducir demasiados puntos que requieren la intervención humana puede resultar en un posible fracaso. Si es posible, automatiza.

La automatización de los procedimientos de escala, que se activan cuando ocurren los incidentes, te ayudan a dominar el problema y reducir el tiempo de resolución. Hay varios proveedores que están agregando esta capacidad a sus infraestructuras de control. Flujos de trabajo operativos heredados como ServiceNow y empresas de monitorización de infraestructuras como PagerDuty añaden capas adicionales de gestión de incidentes a su paquete de servicios, a través de software de terceros. Esto todavía deja al ingeniero de SRE en su lucha para lidiar con múltiples plataformas de tickets y mensajería a lo largo del incidente.

Los líderes como Exigence están escribiendo el libro de nuevo y rediseñando la automatización de la aproximación al incidente alrededor de un solo panel de vidrio. El futuro de la gestión de incidentes está en un único punto focal, que permita a los equipos de SRE centrarse de forma eficiente en la resolución y la notificación post-mortem en lugar de gastar esfuerzos interminables en el autodesarrollo y las integraciones.

Ya ha salido el 5º volumen de Block: 

Block es una publicación bianual que trata las últimas noticias del sector de la IA, blockchain, criptomonedas y tecnología emergente y cuenta con 5000 impresiones que se envían a las marcas líderes en todo el sector. Échale un vistazo a la última edición de Block aquí.

Share it :

Recommended for you
Lea Hogg
hace 20 horas
Jenny Ortiz
hace 21 horas
Lea Hogg
hace 1 día
Lea Hogg
hace 1 día