АДВЕРСАРИАЛЬНЫЕ АТАКИ НА СИСТЕМЫ ОБНАРУЖЕНИЯ ВТОРЖЕНИЙ НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ.

#education #networksec

Я.А. Кульматов, Я.С. Жолобенко, М.Е. Кожаров*
*Кафедра информационной безопасности, Алматинский университет энергетики и связи имени Даукеева.
Аннотация. Интеграция моделей глубокого обучения (ГЛ) в системы обнаружения вторжений (Intrusion Detection Systems, IDS) позволила достичь высокой точности в выявлении сложных и ранее неизвестных аномалий сетевого трафика. Однако данные модели демонстрируют принципиальную уязвимость к адверсариальным атакам — целенаправленно сконструированным возмущениям входных данных, приводящим к ошибочным предсказаниям. В данной работе представлен комплексный анализ угроз адверсариального машинного обучения для IDS, основанных на классификации сетевых потоков. Мы формализуем модель угроз, включающую сценарии атаки «белого», «серого» и «чёрного ящика», и реализуем атаки на основе методов быстрого градиентного знака (FGSM) и проектируемого градиентного спуска (PGD) против двух типов моделей: одномерной свёрточной нейронной сети (1D-CNN) и ансамбля Gradient Boosting (CatBoost). В качестве основной научной задачи ставится разработка эффективного метода защиты, сочетающего преимущества нескольких подходов. Предложен гибридный метод робастификации, интегрирующий (1) модуль предобработки с контролируемым зашумлением и сжатием признаков, (2) технику Jacobian Feature-based Regularization (JFR) в функцию потерь и (3) циклическое адверсариальное дообучение на синтезированных примерах. Эксперименты проведены на современных датасетах CIC-IDS-2017 и ToN_IoT, включающих широкий спектр атак (DDoS, Botnet, SQL-инъекции). Результаты показывают, что целевые атаки PGD в сценарии «серого ящика» снижают метрику F1-score базовой модели CNN с 0.989 до 0.614. Применение классического адверсариального обучения (Adversarial Training) позволяет восстановить значение до 0.912, в то время как предложенный гибридный метод демонстрирует superior результат в 0.947, сохраняя при этом высокую производительность на чистых данных (F1-score=0.981). Проведённый анализ вклада каждого компонента гибридного метода подтверждает синергетический эффект. Результаты работы имеют практическую значимость для разработчиков безопасных и устойчивых систем интеллектуального анализа угроз и задают вектор для создания стандартов MLSecOps (Machine Learning Security Operations) в области кибербезопасности.
Ключевые слова: информационная безопасность, обнаружение вторжений, глубокое обучение, адверсариальные атаки, робастность машинного обучения, adversarial training, Jacobian regularization, гибридная защита, IDS, CIC-IDS-2017.

Введение Революция в области глубокого обучения (ГЛ) кардинально изменила ландшафт технологий информационной безопасности. Системы обнаружения вторжений (IDS), основанные на моделях ГЛ, таких как свёрточные (CNN) и рекуррентные (RNN, LSTM) нейронные сети, показывают превосходную эффективность в обнаружении сложных, полиморфных и целенаправленных атак (APT) за счёт способности выявлять нелинейные паттерны в многомерных данных сетевого трафика и журналов событий [1]. Однако парадигма статистического обучения, лежащая в основе этих моделей, делает их уязвимыми к эксплуатации враждебным субъектом (adversary). Адверсариальные атаки представляют собой методику целенаправленной модификации входных данных (сетевого пакета, последовательности системных вызовов) минимальными возмущениями, незаметными для традиционных средств валидации, но приводящими к кардинально неправильной классификации моделью ГЛ [2]. В контексте IDS это означает возможность для злоумышленника замаскировать вредоносный трафик под легитимный, обойдя тем самым защитный периметр. Данная уязвимость носит фундаментальный характер и ставит под сомнение надёжность автономных систем киберзащиты нового поколения. Актуальность исследования определяется растущим числом публикаций, демонстрирующих успешные атаки на коммерческие и исследовательские системы ИБ [3], при этом вопросы комплексной защиты остаются слабо изученными. Существующие методы (адверсариальное обучение, сжатие, детекция) часто рассматриваются изолированно и не адаптированы к специфике сетевых данных, где признаки имеют смешанный тип (числовые, категориальные) и подчинены определённым семантическим ограничениям. Цель работы — разработать и экспериментально валидировать гибридный метод повышения робастности (устойчивости) моделей ГЛ, используемых в IDS, к адверсариальным атакам различного уровня сложности, обеспечивающий баланс между защищённостью и производительностью. Задачи исследования: Систематизировать угрозы Adversarial ML для IDS и формализовать модель угроз. Реализовать и оценить эффективность атак FGSM и PGD в сценариях «белого» и «серого ящика» против современных моделей-детекторов (1D-CNN, CatBoost). Предложить архитектуру гибридного метода защиты, сочетающего предобработку входных данных, модификацию функции потерь и динамическое дообучение. Провести сравнительный анализ эффективности базовых и защищённых моделей на актуальных датасетах, оценив метрики точности, полноты и устойчивости. Научная новизна заключается в следующем: Адаптация атак PGD и оборонительной техники Jacobian Regularization к задаче классификации сетевых потоков с учётом их структурных особенностей. Разработка синергетического гибридного метода, в котором компоненты предобработки и регуляризации совместно снижают чувствительность модели к малым возмущениям, а циклическое дообучение адаптирует её к эволюционирующим угрозам. Экспериментальное доказательство того, что комбинированный подход превосходит классические методы защиты по совокупному критерию «робастность-производительность».
Модель угроз и методы адверсариальных атак для IDS 2.1. Формальная модель угроз Рассматривается система обнаружения вторжений (IDS), реализующая классификатор f_θ:X→Y, где: X⊂R^n — пространство признаков сетевого потока (временные характеристики, размеры пакетов, флаги протоколов и т.д.), Y={0,1} — метка класса (0 — нормальный трафик, 1 — атака). Параметры θ модели получены в результате обучения на датасете D_"train" . Цель противника (Adversary): найти такое возмущение δ∈R^n для вредоносного образца x_"mal" ∈X (с истинной меткой y=1), чтобы: f_θ (x_"mal" +δ)=0 (целевая атака, приводящая к ложноотрицательному результату). ∥δ∥p≤ϵ, где ϵ — малая константа, ограничивающая мощность возмущения, а p — норма (обычно L∞ или L_2), обеспечивающая незаметность изменений. x_"mal" +δ остаётся функциональным сетевым пакетом или потоком (требование семантической сохранности). Уровни знаний противника (Attack Surface): Белый ящик (White-box): Полный доступ к архитектуре f_θ, весам θ, функции потерь L и алгоритму обучения. Наиболее мощный сценарий для атакующего. Серый ящик (Gray-box): Знание типа модели (например, CNN), набора признаков X и возможность отправлять запросы к системе для получения предсказаний f_θ (x). Наиболее реалистичный и распространённый сценарий. Чёрный ящик (Black-box): Доступ только к конечному выходу классификатора (метка класса или оценка вероятности). Атаки строятся путём создания суррогатной модели на основе наблюдаемых входов-выходов целевой системы. 2.2. Методы генерации адверсариальных примеров. В работе реализованы две атаки градиентного типа: Fast Gradient Sign Method (FGSM) [2]: Быстрая однократная атака: δ=ϵ⋅"sign"(∇x L(fθ (x),y_true)) где ∇x L — градиент функции потерь модели по входным данным. Этот метод эффективен для быстрого создания адверсариальных примеров, но он не оптимизирует величину возмущения для достижения максимального эффекта при минимальных изменениях. Projected Gradient Descent (PGD) [4]: Итеративная и наиболее мощная атака в рамках заданной L∞-нормы возмущения. x^((t+1))=〖"Proj" 〗(x+S) (x^((t))+α⋅"sign"(∇_x L(fθ (x^((t))),y_true))) где S={δ:∥δ∥_∞≤ϵ} — допустимая область возмущений, α — размер шага градиентного спуска, "Proj" — оператор проекции, обеспечивающий, чтобы точка x^((t+1)) оставалась внутри заданной ϵ-окрестности исходного примера. Таким образом, метод PGD осуществляет итеративный поиск в пределах ограниченной области S, находя локальный максимум функции потерь в окрестности исходной точки. 2.3. Специфика применения к сетевым данным. Ключевая задача — обеспечение семантической сохранности (Semantic Consistency) возмущённого примера. Для категориальных признаков (например, флаги TCP) применяется проекция на допустимое множество значений (one-hot вектор). Для числовых признаков (длительность потока, количество пакетов) вводятся минимальные и максимальные пороги, определённые на тренировочном множестве.
Предлагаемый гибридный метод защиты (Hybrid Robustification Method, HRM) Метод HRM состоит из трёх взаимодополняющих компонентов, интегрированных в жизненный цикл модели (Рис. 1). 3.1. Модуль контролируемой предобработки входных данных (Controlled Input Sanitization). Цель — «сгладить» потенциальные адверсариальные возмущения до их поступления в модель. Зашумление по Гауссу: x^'=x+N(0,σ^2 I), где N — нормальное (Гауссово) распределение, I — единичная матрица, а параметр σ (среднеквадратичное отклонение) подбирается экспериментальным путём. Критерием подбора является условие, чтобы добавление шума не ухудшало точность (accuracy) модели на чистом, неатакованном тестовом наборе данных более чем на 0.5%. Вносимый шум нарушает слабые статистические зависимости и корреляции между признаками, на которые может опираться алгоритм генерации адверсариального примера, тем самым затрудняя его построение. Адаптивное сжатие признаков (Feature Squeezing): Для непрерывных признаков применяется бинаризация с адаптивным порогом (на основе квантилей обучающей выборки). Это уменьшает пространство поиска для атакующего. 3.2. Регуляризация на основе Якобиана признаков (Jacobian Feature-based Regularization, JFR). В функцию потерь модели добавляется штрафное слагаемое, минимизирующее чувствительность выхода модели к малым изменениям на входе [5]. Модифицированная функция потерь: L_total=L_CE (f_θ (x),y)+λ⋅∥J_f (x)∥F^2 где L_CE — функция потерь на основе кросс-энтропии (cross-entropy), J_f (x) — матрица Якоби, содержащая частные производные выхода модели по всем входным признакам, ∥⋅∥_F — норма Фробениуса, используемая для оценки величины матрицы Якоби, λ — коэффициент (гиперпараметр), определяющий силу влияния штрафного слагаемого. Данная регуляризация заставляет модель формировать более плавные и устойчивые к малым возмущениям решения в окрестностях точек обучающей выборки. 3.3. Циклическое адверсариальное дообучение (Cyclic Adversarial Fine-Tuning). В отличие от классического Adversarial Training, которое происходит разово на этапе тренировки, предлагается динамический процесс: После начального обучения модели fθ на чистом датасете D_"clean" развёртывается модуль-генератор адверсариальных примеров (на основе PGD в режиме «серого ящика»). Периодически (например, раз в 24 часа) генератор создаёт пакет новых адверсариальных примеров D_"adv" ^"(new)" для текущей f_θ. Модель дообучается на микшированной выборке D_"mix" =D_"clean" ∪D_"adv" ^"(new)" в течение нескольких эпох. Процесс повторяется, обеспечивая постоянную адаптацию к новым методам обхода. Архитектурная интеграция: Все три компонента работают конвейерно. Рабочий режим (инференс): Входной сетевой поток, представленный вектором признаков x, последовательно проходит через модуль контролируемой предобработки (Sanitization Module). Полученный на его выходе сглаженный вектор x_s поступает на вход основной классифицирующей модели f_θ, обученной с применением Jacobian Feature-based Regularization (JFR). Модель f_θ возвращает итоговое предсказание о классе трафика. Режим адаптации (обучение): Модуль циклического дообучения (Fine-Tuning Module) работает асинхронно в фоновом режиме. С заданной периодичностью он инициирует процесс генерации новых адверсариальных примеров на основе актуальных параметров модели f_θ, формирует обновлённый тренировочный набор и выполняет цикл дообучения, корректируя веса θ. Это обеспечивает непрерывную адаптацию системы к меняющимся угрозам без нарушения её операционной деятельности.
Экспериментальная оценка 4.1. Настройка эксперимента. Датасеты: CIC-IDS-2017 (5 дней сетевого трафика, 14 типов атак) и ToN_IoT (трафик IoT-устройств под атакой). После предобработки и балансировки: ~2.5M записей, 80 признаков. Базовые модели: 1D-CNN: 3 свёрточных слоя (64, 128, 256 фильтров), 2 полносвязных слоя (128, 64 нейрона), Dropout=0.5. CatBoost: Ансамбль градиентного бустинга, 500 деревьев, глубина=8. Метрики: Accuracy, Precision, Recall, F1-Score (основная), Robust Accuracy (точность на атакованных данных). Сценарии атаки: FGSM и PGD с $\epsilon = 0.05, 0.1$ (нормировано), сценарий «серого ящика» (атакующий знает тип модели и признаки). Сравниваемые методы защиты: Базовая модель (BM). Adversarial Training (AT): Однократное обучение на смеси 50% чистых и 50% PGD-примеров. Feature Squeezing (FS): Только модуль предобработки. Предлагаемый HRM. Анализ результатов: Эффективность атак: PGD-атака значительно мощнее FGSM, что согласуется с теорией. Чувствительность CNN к адверсариальным возмущениям выше, чем у CatBoost, что объясняется большей нелинейностью и числом параметров. Эффективность защиты: Классический AT демонстрирует хороший прирост робастности, но ценой потери 1-1.5% точности на чистых данных (over-regularization). Feature Squeezing в одиночку недостаточен против сильных итеративных атак. Преимущество HRM: Предложенный метод показывает лучший баланс. На чистом трафике его точность почти не уступает базовой модели (падение 0.8% для CNN, 0.3% для CatBoost). При этом под мощной PGD-атакой он сохраняет F1-Score на уровне 0.920-0.947, что на 6.5-9% абсолютно лучше AT. Это подтверждает синергию компонентов: предобработка ослабляет атаку, JFR стабилизирует градиенты, а циклическое дообучение адаптирует модель. Ablation study доказывает, что каждый компонент вносит существенный вклад, а их совместное использование даёт максимальный эффект. 4.3. Вычислительная эффективность. Накладные расходы HRM на инференс составляют ~15% из-за модуля предобработки, что приемлемо для большинства сетевых IDS. Циклическое дообучение выполняется в фоновом режиме и не влияет на рабочую модель.
Заключение и дальнейшие исследования В работе проведён комплексный анализ уязвимости систем обнаружения вторшений на основе глубокого обучения к адверсариальным атакам. Показано, что даже в реалистичном сценарии «серого ящика» современные модели-детекторы могут быть дезориентированы с падением эффективности до 40% (F1-score с 0.989 до 0.614). В качестве решения предложен гибридный метод робастификации (HRM), объединяющий контролируемую предобработку входных данных, Jacobian Feature-based Regularization и циклическое адверсариальное дообучение. Эксперименты на актуальных датасетах CIC-IDS-2017 и ToN_IoT подтвердили его эффективность: метод не только восстанавливает устойчивость модели к мощным итеративным атакам (PGD), но и сохраняет высокую точность классификации на легитимном трафике, превосходя классическое адверсариальное обучение. Анализ вклада компонентов (ablation study) выявил их синергетическое взаимодействие. Практическая значимость: Результаты работы могут быть использованы разработчиками коммерческих и open-source IDS (например, в экосистемах Suricata, Zeek с ML-плагинами) для повышения безопасности встроенных интеллектуальных модулей. Предложенный подход соответствует принципам MLSecOps, предполагающим сквозную интеграцию безопасности в жизненный цикл ML-моделей. Направления будущих исследований: Атаки в условиях чёрного ящика: Исследование эффективности HRM против query-based атак и атак с использованием суррогатных моделей. Конфиденциальное обучение: Интеграция методов Federated Learning для совместного адверсариального дообучения моделей нескольких организаций без обмена сырыми данными. Применение к последовательностям: Адаптация метода для защиты IDS, анализирующих временные ряды и графы поведения (например, на базе LSTM или GNN). Аппаратная реализация: Разработка энергоэффективных алгоритмов предобработки и инференса для развёртывания защищённых IDS на граничных устройствах (edge computing). Библиографический список Vinayakumar R., et al. (2019). Deep Learning Approach for Intelligent Intrusion Detection System. IEEE Access, 7, 41525-41550. Apruzzese G., et al. (2022). The Role of Machine Learning in Cybersecurity: A Systematic Review. ACM Computing Surveys, 55(1), 1-36. Корченко А.Г., Мазурков М.И. (2021). Современные методы машинного обучения в задачах кибербезопасности. – М.: Радио и связь.

Security Forem

АДВЕРСАРИАЛЬНЫЕ АТАКИ НА СИСТЕМЫ ОБНАРУЖЕНИЯ ВТОРЖЕНИЙ НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ.

Top comments (0)