Обеспечение непрерывности бизнес-процессов и управление кризисными ситуациями
Информационные технологии стали неотъемлемой частью бизнеса XXI века. Они являются мощным двигателем экономики, однако источником рисков. Без бесперебойной работы ИТ-сервисов прерываются бизнес-процессы, что может привести к финансовым потерям и катастрофическим последствиям. Как обеспечить информационную безопасность и непрерывность бизнеса? Об этом мы подробно расскажем в этой статье.
Современный бизнес, основанный на использовании информационных технологий, нуждается в надежной системе кризис-менеджмента, которая бы обеспечивала бесперебойность процессов. Это становится особенно актуально для кредитно-финансовых, телекоммуникационных и высокотехнологичных компаний, а также предприятий непрерывного производственного цикла, включая атомные электростанции. Однако, готовность к возможным кризисным ситуациям не менее важна и для ритейл-сетей, электронной коммерции и государственных учреждений.
В некоторых отраслях существуют специальные регуляторные акты, которые имеют отношение к обеспечению непрерывности бизнеса и должны соблюдаться для получения соответствующей лицензии. Высокая степень риска, связанная с сбоем в работе ИТ-сервисов, может привести к большим материальным потерям для банков, которые не могут позволить себе непродолжительный перерыв в работе. Авария на предприятии ТЭК или авиакомпании может повлечь за собой не только финансовые потери, но и потерю человеческих жизней.
Причины возникновения бизнес-рисков могут быть различными, например, природные бедствия, аварии в энергосистемах или киберпреступления. В связи с этим, важность обеспечения информационной безопасности общеизвестна.
Компания DEAC провела опрос в 2019 году, который продемонстрировал, что наиболее восприимчивыми к рискам непрерывности бизнеса являются финансовая и информационная сферы. Значительная часть опрошенных не может продолжать работу более одного часа в случае недоступности ИТ-систем, что подчеркивает важность обеспечения непрерывности бизнес-процессов.
Существуют инструменты кризис-менеджмента, которые обеспечивают безопасность бизнеса в целом. Это BCM (Business Continuity Management), BCP (Business Continuity Planning) и DRP (Disaster Recovery Planning). Они наследуют методологию ИБ и имеют основные принципы: анализ рисков, контроль и управление инцидентами, стратегическое и тактическое планирование непрерывности информационно-коммуникационных технологий.
BCM (BCP & DRP) являются неотъемлемой частью системы ИБ и обеспечивают не только непрерывность бизнеса, но и безопасность в целом. Управление ИБ является основой BCM, и их требования учитываются при выборе дата-центра для хранения информации, а также при внедрении стандартов, включая ISO/IEC 27001 и ISO 22301:2012.
Важно отметить, что BCM постепенно охватила практически все аспекты деловой активности и превратилась в целостную структуру взглядов на методы обеспечения непрерывности бизнеса. Она стала устойчивостью организации к всевозможным сбоям, разрушениям и потерям, в первую очередь финансовым.
Управление непрерывностью бизнеса (BCM) является важным аспектом для любой организации. Приоритетные цели и задачи BCM зависят от масштаба и сферы деятельности, и во главу угла ставится управление определенным типом или классом взаимосвязанных инцидентов.
Один из основных комплексов происшествий, рассмотриваемых в рамках BCM, это управление инцидентами или Incident management (IM). Данный уровень охватывает целый комплекс происшествий высокой и средней вероятности возникновения. Задачи и цели IM — обеспечить сохранность, доступность и целостность информации, а также отказоустойчивость оборудования.
Другим важным комплексом в рамках BCM является управление непрерывностью бизнеса и аварийным восстановлением, или Business continuity & disaster recovery management. Он направлен на предотвращение инцидентов, которые могут привести к приостановке работы всей организации или ее важнейших бизнес-процессов. По исследованию, проведенному компанией Veeam Software в 2019 году, ежегодные мировые потери от простоев приложений превышают 20 млн долларов, а по России эта цифра немного ниже — 19,8 млн долларов.
Еще одним комплексом BCM является управление чрезвычайными (кризисными) ситуациями, или Crisis & emergency management. Он ставит своей задачей предупреждение крайне редких, но катастрофических по последствиям инцидентов, таких как экологические и гуманитарные катаклизмы или инфраструктурные разрушения в границах целого региона. В подобных случаях, высокий уровень обеспечения непрерывности деятельности предприятий необходим.
Ключевым понятием в управлении непрерывностью бизнеса (BCM) выступает «инцидент», под которым понимается любое незапланированное, внезапное происшествие, событие, ведущее к остановке ключевых и критичных процессов и функций, полной потере контроля над оборудованием. Недооценка влияния инцидентов на непрерывность бизнеса может привести к драматическим последствиям.
Примером тому служит компьютерная атака на мировом уровне, случившаяся 12 мая 2017 года, когда компьютеры по всему миру были атакованы вирусом-вымогателем WannaCry. Он шифровал файлы на устройствах, а для восстановления доступа к ним требовал выкуп. Параллельно с тем, WannaCry атаковал более 200 стран, сильнее всего пострадали Россия, Украина, Индия и Тайвань, и привел к остановке работы больниц, аэропортов, заводов и банков. Экономические потери, нанесенные данной кибератакой, составили около 4 млрд долларов.
Полтора месяца спустя, инцидент повторился, но уже с другой вредоносной программой – вирусом Petya. Российские и украинские компании понесли самые масштабные потери от него, исходя из данных исследований. Внедрение и применение программ BCM позволило бы значительно сократить размеры потерь, а возможно, и вовсе избежать катастрофических происшествий.
The Impact of Catastrophes on Shareholder Value (Rory J. Knight и Deborah J. Pretty) показывает, что кумулятивный доход сверх нормы компаний, успешно восстановивших деятельность после крупномасштабной аварии, через год составляет в среднем 10%. Корпорации, не внедрившие BCM, получают те же 10% и даже 15%, но уже со знаком минус. Управление непрерывностью бизнеса является залогом сохранности вложенных владельцами и акционерами средств, а также возможности и продолжительности работы предприятия.
Внедрение BCM: какие этапы необходимо пройти
Планирование и стратегия - так начинается управление непрерывностью бизнеса (BCM). В этом процессе часто используются инструменты риск-менеджмента (RM). Чтобы реализовать BCM в организации, необходимо пройти целый ряд этапов. Они включают в себя овладение техническими и программными средствами, регламентацию действий, распределение ответственности и обучение персонала. Взять на себя эти задачи компании может быть проблематично. В таком случае стоит обратиться за помощью к ИТ-экспертам. Они не только разработают план мероприятий и найдут наилучшие решения для компании, но и помогут перевести проект в реальность.
Анализ бизнес-процессов (Business Environment Analysis, BEA) позволяет определить риски, которые могут возникнуть в зависимости от характера деятельности компании. Например, отказ в работе системы учета пациентов медицинского учреждения является менее критичным по сравнению со сбоем в работе высокотехнологичного реанимационного оборудования. При этом в телекоммуникационной компании отказ приложения для автоматизации совместной деятельности рабочих групп вероятно не остановит бизнес-процессы, однако сбой в системе биллинга приведет к затратам на финансовые потери. Таким образом, точки критичности могут быть различны для каждого типа бизнеса, и анализ бизнес-процессов позволяет выявить эти точки и определить степень их влияния на деловую активность компании.
Анализ рисков (Risk Analysis, RA) позволяет выделить зависимые и независимые от информационных технологий (ИТ) риски. После выделения и градации бизнес-процессов по важности для компании следует определить группу ИТ-зависимых бизнес-процессов. Затем необходимо проверить технические и организационные механизмы по предотвращению перебоев в работе бизнес-процессов, выделить уязвимые точки и оценить угрозы. В результате можно выделить группы рисков, которые влияют на ИТ, и классифицировать их по мере важности.
Оценка влияния на бизнес (Business Impact Analysis, BIA) основана на карте ключевых бизнес-процессов с указанием нарушений, которые могут привести к убыткам. После этого строится модель, отображающая связь между нарушениями и категориями возможных потерь, которые могут быть оценены как количественно, так и качественно. К группам потерь могут относиться: деловая репутация, рыночная стоимость, уровень операционных издержек, возврат на инвестиции, штрафные санкции из-за нарушения контрактных обязательств и др. Такой подход позволяет провести детальную оценку влияния на бизнес и определить возможные потери.
Важной задачей аналитиков является получение достоверной информации о бизнесе организации, особенно в финансовой сфере, чтобы определить текущее состояние ИТ-комплекса и его планы на будущее.
Анализ информационных сервисов, связанных с бизнес-процессами и информационными потоками, также немаловажен. Оценка допотопного риска поможет составить полную картину бизнеса, показывая уровень критичности всех бизнес-процессов в целом, а также выявляя нарушения их функционирования и соотношение величины потерь.
Для решения всех описанных задач производится аудит, который проводятся аналитиками перед началом сотрудничества. В процессе такой всесторонней оценки выявляются слабые места в системе информационной безопасности клиента, а также становятся понятны способы укрепления уязвимых точек.
Расчет экономического эффекта, то есть стоимости простоя бизнес-процессов, предполагает наличие справедливых допущений о вероятности наступления различных инцидентов в рассматриваемый период. Это позволяет выбрать наиболее приемлемую стратегию для организации.
Совладельцы компании и ее руководство, совместно с аналитиками, должны определить установку так называемых тайм-аутов и производительной мощности для отдельных бизнес-процессов на случай чрезвычайных ситуаций. Эти тайм-ауты включают в себя:
- Допустимое время восстановления (Recovery Time Objective, RTO) - время простоя, которое технически может быть сведен к секундам, но из-за дороговизны не всегда оправдан экономически.
- Целевая точка восстановления (Recovery Point Objective, RPO) - это временной диапазон перед наступлением чрезвычайной ситуации, за который все данные могут быть утрачены. Сегодня он может быть сведен к нулю, так как все зависит от частоты и технологии резервного копирования информации.
- Уровень непрерывности бизнеса (Level of Business Continuity, LBC) - это допустимый уровень производительности в чрезвычайных ситуациях в процентах от режима штатной работы.
Планирование непрерывности бизнеса является процессом, который предусматривает тщательное определение стратегии для обеспечения безопасности сотрудников, доступности критически важной информации, свободного общения с партнерами, клиентами, поставщиками и подрядчиками. Для каждого направления в рамках стратегии вырабатывается подстратегия, которая должна указать на путь к быстрому восстановлению бизнес-процессов в соответствии с предварительно определенными параметрами рисков.
Этот процесс включает следующие стадии: реагирование на событие, продолжение выполнения критичных для бизнеса процессов в условиях ЧС и восстановление штатной работы. В каждом из направлений стратегии BCM определяются организационные и технические решения: разрабатываются политики для поддержания непрерывности бизнеса, формализуются приоритетные цели и задачи, процедуры реагирования и области распространения системы BCM, определяются кадровые потребности и степень вовлеченности персонала в реализацию программы внедрения (проекта) BCM.
Для создания технической и организационной систем BCM все чаще используются облачные услуги. Одно из решений, называемое DRaaS (Disaster-Recovery-as-a-Service), предоставляет возможность аварийного восстановления данных в облачных средах корпоративного уровня, благодаря чему удается снизить расходы на обеспечение безопасности и поддерживать ее на уровне принятых в индустрии стандартов.
Существует несколько вариантов резервного копирования ИТ-инфраструктуры или ее элементов. Например, в малом бизнесе, где непрерывность не критична, могут использоваться резервные копии, создаваемые по расписанию. Однако такая схема не обеспечивает комплексной защиты.
В более крупных организациях используются более серьезные технологии. Например, можно полностью скопировать инфраструктуру в облако с последующим переносом изменений в непрерывном режиме. Информация извлекается и восстанавливается за несколько минут. Для крупных финансовых и ИТ-компаний, госсектора и любых других организаций, где каждая минута простоя критична, предусмотрено запуск резервной облачной инфраструктуры, полностью идентичной основной. Обновления в них происходят одновременно, и восстановление возможно за несколько секунд.
Строительство отказоустойчивых ЦОДов является неотъемлемой частью многих бизнес-процессов. Компании могут постоянно работать над оптимизацией и энергоэффективностью своих ЦОДов, а также создавать мобильные ЦОДы. Однако, стоит заметить, что проще всего доверить эту работу надежному провайдеру.
Кроме того, компании должны разрабатывать планы восстановления после инцидентов и планы обеспечения непрерывности бизнеса. При наращивании вычислительных мощностей и усложнения ИТ-систем компании сталкиваются с риском нарушения непрерывности работоспособности ИТ-систем. План восстановления после инцидента (DRP) и план обеспечения непрерывности бизнеса (BCP) помогут решить эту проблему. DRP позволит быстро восстановить работоспособность ИТ-систем, а BCP — восстановить бизнес-процессы в целом.
Кроме того, необходимо определить меры по обеспечению нормального функционирования системы и периодичность ее проверки. Процессы должны быть встроены в корпоративную культуру компании. Необходимо разработать меры и обучить персонал действовать в случае возникновения угроз и последствий внештатной ситуации. Кадры играют ключевую роль в успехе всех процессов.
Как известно, внедрение системы ВСМ на предприятии может значительно повлиять на его дальнейшую работу. Однако, какие именно параметры могут свидетельствовать об эффективности такого внедрения?
В первую очередь, важно отметить готовность организации к дальнейшей работе в случае возникновения аварий в ИТ-системах. Если в систему была внедрена ВСМ, это достаточно показательный момент, ведь организация приняла меры для сохранения своих данных и возможности продолжения работы в случае сбоев.
Кроме того, стоит оценить вероятность простоя (недоступности) информационных систем в случае возникновения внештатной ситуации и потенциальные убытки, которые могут быть связаны с такой ситуацией.
Также важным показателем является соответствие требованиям регулирующих органов и прохождение аудита.
Однако, само по себе создание и внедрение системы ВСМ может стать непростой задачей для предприятия, требующей значительных финансовых, кадровых и временных ресурсов. Не каждая компания готова на это пойти и поэтому речь идет об эффективности внедрения системы с учетом возможностей организации.
Фото: freepik.com