你的在线游戏平台准备好Chaos Monkey了吗?

Content Team 3年前
你的在线游戏平台准备好Chaos Monkey了吗?

Chaos Monkey(混沌猴子)已经准备好测试你的在线游戏平台的极限。问题是 “你能处理好混沌吗?”

实施保护玩家和促进安全博弈的保障措施由Tomobox的首席执行官David Sachs撰文,他也是人工智能及其在责任博弈和反洗钱方面的应用专家。他曾与领先的运营商、平台所有者和监管机构合作,实施保护玩家和促进安全投注的保障措施。

Chaos monkey1试着想象一下,一群猴子在您的数据中心里跑来跑去,拉扯电缆,破坏路由器,对您的应用程序和基础设施造成破坏。在在线游戏运营商之间激烈竞争的这些日子里,玩家体验越来越重要。运营的连续性是 “居于首位”,而避免因服务中断而造成的流失,是组织的格言。

这正是网飞工程团队精心设计的,他们在考虑IT基础设施的硬件和软件弹性时,就考虑到了这一点。Chaos Monkey是网飞在2011年发明的一个工具,用于测试其IT基础设施的顺应力。 它的工作原理是故意禁用生产网络中的计算机和服务,以测试剩余系统如何应对中断。Chaos chaosmonkeyMonkey现在是一个更大的工具套件的一部分,称为Simian Army,旨在模拟和测试对各种系统故障和边缘情况的反应。它也是被称为SRE(现场可靠性工程)的新工程体系的一部分。

现场可靠性工程师(SRE)将花费多达50%的时间从事与 “操作 “相关的工作,如事故解决、on-call和人工干预。由于SRE负责的软件系统应该是高度自动化和自我修复的,所以SRE应该把另外50%的时间花在开发任务上,比如新功能、扩展或自动化,以确保 “chaos monkey“受到控制。

为什么说它是玩家体验的根本?

云时代的服务连续性是必须的,也是难以实现的。有无限多的事件可能出错,而且会出错。多个供应商为任何在线运营商的游戏平台提供服务,从CRM,到移动游戏和支付服务器等等。任何服务的中断都会影响到成千上万的玩家,这些玩家可能会流失,实际上是错失良机,让运营商蒙受损失。

如今,SRE和事件管理风靡一时。正如亚马逊首席技术官Werner Vogels清晰地描述了一个典型的重大事件导致的中断:”你看到了症状,但你WernerVogels不一定能看到它的根本原因……你立即解雇了一个团队,他们的任务是与客户实际沟通……确保每个人都知道到底发生了什么。”

同时,他继续说道:”内部团队当然会立即开始行动,试图找到这一切的根本原因是什么,以及我们是否可以修复或恢复它,或者我们可以开始采取什么样的其他行动。”当中断发生时,事件的协调是事件经理和SRE的核心。

事件协调的未来

管理重大事件已经从一门晦涩的艺术变成了一门可衡量的科学。管理一个事件也是要在整个事件中通知客户,如代理商或合作伙伴。在即时满足的今天,客户并不是要你告诉他们:”等一等”,他们需要了解情况。与此同时,事件经理们正在努力解决这些问题,并确保透明度掌管他们的行动,每个利益相关者都被告知。有时,这意味着每个事件要有数百人参与。

Vogels说得很清楚:”我认为我们可以责怪自己,当我们没有把这变成一种程序或是自动化,我们早可以对数字会如何呈现有良好的掌控。”

这是Vogels的一个关键点:随着你的成长和发展,引入太多需要人工干预点,导致可能的失败。在可能的情况下应当实现自动化。

自动化的升级程序,在事件发生时启动,帮助你掌握事件,降低解决时间。各种供应商正在将这些功能添加到他们的监控基础设施中。像ServiceNow这样的传统操作工作流程和PagerDuty这样的基础设施监控公司正在通过与第三方软件的各种集成,在其服务套件中添加额外的事件管理层。而这仍然让SRE工程师在整个事件中争先恐后地处理多个票务和消息平台 。

Exigence这样的领先后起之秀正在重新改写历史,并围绕一个单一资源监控与管理重新设计自动化的事件方法。一个单一的焦点,使SRE团队能够有效地专注于解决和事后报告,而不是花费无尽的精力在自我开发和集成上,这是事件管理的未来。

要管理无穷无尽的软硬件故障点,未来是立基于NOC和工程之间主动的现场可靠性集成。面对不断上升的事件,也需要高度的事件自动化和准备。

《Block》杂志第五期出刊了

The Block是一本双年刊,它照亮了人工智能、区块链、加密货币与新兴科技的前沿领域,印刷量为5000份,寄送给全球业内的领先品牌。在这里浏览我们最新一期的《Block》。

 

Share it :

Recommended for you
News Team
14小時前
Lea Hogg
14小時前
News Team
15小時前
Lea Hogg
15小時前