Это вызов, который Harness ставит перед собой с помощью новой службы реагирования на инциденты.
Реагирование на инциденты, процесс реагирования на сбои и замедления работы системы, является критически важным аспектом ИТ-операций. Это также деятельность, которая традиционно включает в себя множество ручных, трудоемких процессов.
Это задача, на которую Harness нацеливается с помощью новой службы реагирования на инциденты. Технология выходит в ранний доступ сегодня в качестве модуля на одноименной платформе компании. Harness начала свою деятельность в 2017 году с первоначального акцента на автоматизации непрерывной интеграции/непрерывной доставки (CI/CD) для DevOps. С тех пор компания расширилась до платформы доставки программного обеспечения с несколькими модулями. Осенью 2024 года Harness вошла в агентский ИИ, изначально для поддержки разработки программного обеспечения.
Теперь компания расширяет ту же самую основную основу агентского ИИ для реагирования на инциденты. Новое решение также использует лицензированные возможности, изначально разработанные поставщиком рабочих процессов разработки Transposit. Тина Хуан, соучредитель Transposit, вместе со многими членами ее команды присоединилась к Harness в сентябре 2024 года.
Цель Harness Incident Response — ускорить среднее время разрешения (MTTR) инцидента.
«Когда вы думаете о том, чем были платформы DevOps до сих пор, вы в основном пытаетесь структурировать эти развертывания», — сказала Хуан VentureBeat. «Я думаю, что самое естественное, куда следует обратиться, это «Как мне контролировать развертывания после того, как они попадут в производство?»»
Как Harness обеспечивает автономное реагирование на инциденты с помощью агентского ИИ
В основе модуля реагирования на инциденты Harness лежит архитектура агентов ИИ компании, впервые представленная в сентябре 2024 года.
Джоти Бансал, генеральный директор и соучредитель Harness, объяснила VentureBeat, что ее агенты ИИ предназначены для предоставления автономной помощи, выходящей за рамки простого оповещения инженеров об инцидентах. Традиционная технология реагирования на инциденты использует подход, известный как руководство по действиям. ИТ-отделы, часто работающие с инженерами по надежности сайта (SRE), определяют сценарии, которые пошагово излагают процессы восстановления после различных типов сбоев в работе служб.
Вместо того, чтобы полагаться исключительно на предопределенные сценарии, агенты ИИ-агентов могут предлагать действия, определять потенциальные первопричины и даже создавать новые сценарии на лету.
«Рабочий процесс агентов предполагает действия, которые следует предпринять», — сказал Бансал.
Хуан объяснил, что агенты ИИ выполняют несколько шагов, которые имеют решающее значение для того, чтобы помочь организациям быстрее реагировать на инциденты. Бансал объяснил, что еще до запуска сценария необходимо выполнить определенную сортировку. Например, общая сортировка может определить, какие службы затронуты, или определить как восходящие, так и нисходящие зависимости, на которые также повлияет инцидент.
Система Harness имеет агентов, которые знают и подключены к нескольким системам, и которые могут автоматически собирать информацию, включая информацию и обсуждения из каналов Slack. Затем эта информация может помочь другим агентам оповещать людей и предоставлять автономную помощь.
Хотя система имеет высокую степень автоматизации, Хуан подчеркнул, что люди все еще в курсе событий. Но вместо того, чтобы оповещать человека о проблеме и затем выяснять, есть ли план действий — и если да, то как его запустить, — система рекомендует исправление, и человеку нужно только одобрить его.
Для реагирования на инциденты требуется больше, чем просто технология
Модуль реагирования на инциденты Harness может работать сам по себе, то есть организациям не нужно запускать какие-либо другие модули Harness.
Однако Бансал ожидает, что объединенное предложение, которое может обеспечить интеграцию с несколькими другими рабочими процессами, включая DevOps или хаос-инжиниринг, может быть полезным. Хаос-инжиниринг — это процесс внедрения неожиданных переменных и событий в приложение, чтобы увидеть, как оно отреагирует. Модуль хаос-инжиниринга является частью платформы Harness с 2022 года.
Хуан объяснил, что в рамках платформы реагирования на инциденты организация может проводить «пожарные учения» вместе с модулем хаос-инжиниринга для тестирования различных сценариев.
«Инциденты случаются нечасто, и часто они являются неудачным результатом чего-то, что вы не заметили ранее», — сказал Хуан. «Мы хотим обеспечить очень проактивный подход к реагированию на инциденты».
Как предприятия выиграют от реагирования на инциденты на основе агентского ИИ
Одним из клиентов Harness, использующим модуль реагирования на инциденты, является Tyler Technologies, которая разрабатывает программное обеспечение для государственного сектора.
Компания использует платформу Harness для непрерывного развертывания, управления затратами в облаке и разработки флагов функций. Добавление реагирования на инциденты может помочь решить ключевую проблему, с которой сталкивается компания, объяснил Джефф Грин, технический директор Tyler Technologies.
0 комментариев