Chaos Monkey готова испытать вашу игровую онлайн-платформу на пределе возможностей. Вопрос в том, “Сможете ли вы справиться с хаосом?”
Информация от Дэвида Сачса, Генерального директора Tomobox и эксперта по искусственному интеллекту и его приложениям в ответственных играх и AML в iGaming. Он работал с ведущими операторами, владельцами платформ и регулирующими органами над внедрением мер безопасности, которые защищают игроков и продвигают безопасные ставки.
Попытайтесь представить себе стаю обезьян, бегающих по вашему центру обработки данных, тянущих за кабели, ломающих маршрутизаторы и сеющих хаос в ваших приложениях и инфраструктуре. В наши дни ожесточенной конкуренции между операторами онлайн-игр еще более важным является опыт игроков. Непрерывность операций – это «Uber-Alles», а недопущение оттока клиентов из-за перебоев в обслуживании – это мантра организации.
Это именно то, что разработала команда инженеров Netflix, когда они продумали отказоустойчивость IT-инфраструктуры как аппаратного, так и программного обеспечения. Chaos Monkey – это инструмент, изобретенный Netflix в 2011 году для проверки устойчивости своей IT-инфраструктуры. Он работает путем намеренного отключения компьютеров и служб в вашей производственной сети, чтобы проверить, как оставшиеся системы реагируют на сбой. Chaos Monkey теперь является частью более крупного набора инструментов под названием Simian Army, предназначенного для моделирования и тестирования реакции на различные системные сбои и крайние случаи. Это также часть нового инженерного режима, получившего название SRE – Site Reliability Engineering.
Site Reliability Engineer (SRE) будет тратить до 50% своего времени на выполнение «операций», таких как разрешение инцидентов, вызов по по требованию и ручное вмешательство. Поскольку ожидается, что программная система, которую курирует SRE, будет в высокой степени автоматической и самовосстанавливающейся, SRE должны тратить оставшиеся 50% своего времени на задачи разработки, такие как новые функции, масштабирование или автоматизация, чтобы убедиться, что «Chaos Monkey» находится под контролем.
Почему это важно для игрового опыта?
Непрерывность обслуживания в эпоху облака является обязательной и труднодостижимой. Существует бесконечно малое количество событий, которые могут пойти не так. И они ошибаются. Множество поставщиков обслуживают игровую платформу любого онлайн-оператора, от CRM до мобильных игр и платежных серверов, и это лишь некоторые из них. Любой сбой в обслуживании затрагивает тысячи игроков, которые могут потерять практически «деньги за столом».
SRE и управление инцидентами сегодня в моде. Технический директор Amazon Вернер Фогельс четко описывает типичное крупное событие, вызывающее отключение: «Вы видите симптомы, но не обязательно видите их первопричину … вы немедленно увольняете команду, задача которой – фактически общаться с клиенты … чтобы все были в курсе того, что происходит “.
Между тем, продолжает он, «внутренние группы, конечно, немедленно начинают действовать и пытаться выяснить, в чем заключается основная причина этого, и можем ли мы исправить или восстановить это, или какие другие действия мы можем начать предпринимать». Когда происходит сбой, в основе диспетчеров инцидентов и SRE лежит оркестровка события.
Будущее оркестровки инцидентов
Управление серьезным инцидентом превратилось из малоизвестного искусства в измеримую науку. Управление инцидентом также связано с информированием клиентов, таких как аффилиаты или партнеры, на протяжении всего мероприятия. В день немедленного удовлетворения клиенты не ждут, что вы скажете им: «Подождите, держитесь», они требуют быть в курсе. Тем временем менеджеры по инцидентам изо всех сил пытаются решить проблемы и убедиться, что их действия регулируются прозрачностью, а все заинтересованные стороны проинформированы. Иногда это означает, что на один инцидент приходится сотни человек.
Фогельс заявляет об этом очень четко: «Я думаю, мы можем винить себя в том, что не превратили это в своего рода процедуру или что-то автоматизированное, где мы могли бы полностью контролировать то, какое число могло быть».
Это ключевой момент для Фогельса: по мере вашего роста и развития введение слишком большого количества моментов, требующих вмешательства человека, приводит к возможным ошибкам. По возможности автоматизируйте.
Автоматизация процедур эскалации, которые срабатывают по мере возникновения инцидентов, поможет вам справиться с событием и сократить время до разрешения. Различные поставщики добавляют эти возможности в свою инфраструктуру мониторинга. Унаследованные рабочие процессы, такие как ServiceNow, и компании, занимающиеся мониторингом инфраструктуры, такие как PagerDuty, добавляют дополнительные уровни управления инцидентами в свой пакет услуг посредством различных интеграций со сторонним программным обеспечением. Это по-прежнему заставляет инженера SRE бороться с множеством платформ для продажи билетов и обмена сообщениями на протяжении всего инцидента.
Ведущие выскочки, такие как Exigence пишут книгу заново и переделывают автоматизацию подхода к инцидентам, используя единую стеклянную панель. Единый координационный центр, позволяющий командам SRE эффективно сосредоточиться на разрешении и патологоанатомическом исследовании, вместо того, чтобы тратить бесконечные усилия на саморазвитие и интеграцию, – это будущее управления инцидентами.
Будущее управления бесконечными точками отказа программного и аппаратного обеспечения основано на упреждающей интеграции надежности сайта между NOC и проектированием. Это также требует высокого уровня автоматизации событий и готовности к возникновению инцидентов.
5й выпуск журнала Block:
The Block – это издание, выходящее два раза в год, освещающее передовые секторы ИИ, блокчейна, криптографии и новейших технологий, тираж которого составляет 5000 экземпляров, разосланных ведущим брендам по всей мировой индустрии. Ознакомьтесь с нашим последним выпуском the Block ниже.