A sua plataforma de jogos online está pronta para o ‘Chaos Monkey’?

Content Team há 3 anos
A sua plataforma de jogos online está pronta para o ‘Chaos Monkey’?

Chaos Monkey está pronto para testar sua plataforma de jogos online até o limite. A questão é “Você consegue lidar com o caos?

Palavras de David Sachs, CEO da Tomobox  e especialista em inteligência artificial e aplicações em jogos responsáveis e AML em iGaming. Ele trabalhou com os principais operadores, proprietários de plataformas e reguladores para implementar salvaguardas que protegem os jogadores e promovem apostas seguras

Chaos monkey1Tente imaginar um bando de macacos correndo pelo seu data center, puxando cabos, destruindo roteadores e causando estragos em seus aplicativos e infraestrutura. Cada vez mais crucial nestes dias de competição acirrada entre operadores de jogos online, é a experiência do jogador. A continuidade das operações é “Uber-Alles” e evitar o agito, devido à interrupção do serviço, é o mantra organizacional.

chaosmonkeyIsso é exatamente o que a equipe de engenharia da Netflix criou, quando pensaram na resiliência da infraestrutura de TI tanto de hardware quanto de software. Chaos Monkey é uma ferramenta inventada em 2011 pela Netflix para testar a resiliência de sua infraestrutura de TI. Funciona desativando intencionalmente computadores e serviços em sua rede de produção para testar como os sistemas restantes respondem à interrupção. O Chaos Monkey agora faz parte de um conjunto maior de ferramentas chamado Simian Army, projetado para simular e testar respostas a várias falhas de sistema e casos extremos. Também faz parte de um novo regime de engenharia denominado SRE – Site Reliability Engineering.

Um Site Reliability Engineer (SRE) gastará até 50% de seu tempo fazendo trabalhos relacionados a “operações”, como resolução de incidentes, plantão e intervenção manual. Uma vez que se espera que o sistema de software supervisionado por um SRE seja altamente automático e autocorretivo, o SRE deve gastar os outros 50% de seu tempo em tarefas de desenvolvimento, como novos recursos, dimensionamento ou automação, garantindo que o “macaco do caos” esteja sob ao controle.

Por que é fundamental para a experiência do jogador?

A continuidade do serviço na era da nuvem é obrigatória e difícil de alcançar. Existe um número infinito de eventos que podem dar errado. Vários fornecedores atendem a plataforma de jogos de qualquer operadora online, de CRM a jogos móveis e servidores de pagamento, para citar apenas alguns. Qualquer interrupção do serviço afeta milhares de jogadores que podem sair praticamente “deixando dinheiro na mesa” para a operadora perder.

WernerVogelsO SRE e o gerenciamento de incidentes estão na moda hoje. Como o CTO da Amazon, Werner Vogels, descreve claramente um evento principal típico que causa interrupção: “Você vê os sintomas, mas não necessariamente vê a causa raiz deles … imediatamente despede uma equipe cuja tarefa é realmente se comunicar com os clientes … certificando-se de que todos estão cientes exatamente do que está acontecendo. “

Enquanto isso, ele continua, “as equipes internas, é claro, imediatamente começam a sair e tentar descobrir qual é a causa raiz disso, e se podemos consertá-la ou restaurá-la, ou que outros tipos de ações podemos começar a tomar”. A orquestração de um evento está no centro dos gerentes de incidentes e SREs quando ocorre uma interrupção.

O futuro da orquestração de incidentes

Gerenciar um grande incidente transformou-se de uma arte obscura em uma ciência mensurável. Gerenciar um incidente também é informar os clientes, como afiliados ou parceiros, durante o evento. No dia da satisfação imediata, os clientes não estão procurando você para lhes dizer: “espere, espere”, eles exigem estar por dentro de tudo. Enquanto isso, os gerentes de incidentes estão lutando para resolver os problemas e garantir que a transparência governe suas ações e que todas as partes interessadas sejam informadas. Às vezes, isso significa centenas de pessoas por incidente.

Vogels afirma isso muito claramente: “Acho que podemos culpar a nós mesmos, em termos de não ter transformado isso em uma espécie de procedimento ou algo que fosse automatizado, onde poderíamos ter um controle total bom sobre qual poderia ser o número.”

Este é um ponto-chave para a Vogels: conforme você cresce e se desenvolve, a introdução de muitos pontos que requerem intervenção humana resulta em pontos de possível falha. Sempre que possível, automatize.

A automação dos procedimentos de escalonamento que são acionados conforme ocorrem os incidentes, ajudam você a dominar o evento e reduzir o tempo de resolução. Vários fornecedores estão adicionando esses recursos à sua infraestrutura de monitoramento. Fluxos de trabalho operacionais legados como ServiceNow e empresas de monitoramento de infraestrutura como PagerDuty estão adicionando camadas  de gerenciamento de incidentes ao seu pacote de serviços, por meio de várias integrações com software de terceiros. Isso ainda deixa o engenheiro do SRE lutando para lidar com várias plataformas de emissão de bilhetes e mensagens durante o incidente.

Líderes iniciantes como a Exigence estão escrevendo o livro novamente e redesenhando a automação da abordagem de incidentes em torno de um único painel de vidro. Um único ponto focal, para capacitar as equipes de SRE a se concentrar de forma eficiente na resolução e relatórios post-mortem, em vez de gastar esforços intermináveis em autodesenvolvimento e integrações, é o futuro do gerenciamento de incidentes.

O futuro do gerenciamento de pontos de falha de software e hardware sem fim é baseado na integração proativa da confiabilidade do site entre o NOC e a engenharia. Também requer um alto nível de automação de eventos e preparação para o aumento de incidentes.

A Edição 5 da Revista Block foi publicada:

Block é uma publicação semestral que ilumina os setores de IA, blockchain, criptografia e tecnologia emergente, com 5000 cópias entregues a marcas líderes em toda a indústria global. Veja a edição mais recente da Block abaixo.

 

Share it :

Recommended for you
Lea Hogg
há 21 horas
Jenny Ortiz
há 1 dia
Jenny Ortiz
há 1 dia
Lea Hogg
há 1 dia