Системы оценки критичности уязвимостей в AI Security
Microsoft Evaluation and monitoring metrics for generative AI. Механизм предоставляется в рамках платформы Azure AI Foundry для разработки приложений с GenAI. Его работа делится на 4 этапа:
Подготовка заготовок атакующих промптов с помощью шаблонов
Создание атакующих промптов на основе заготовок с помощью LLM и получение ответов на них от тестируемого приложения с GenAI
Добавление (опционально) дополнительных данных от команды Red Team, если пользователь платформы обладает ими
Проводится оценка ответа на содержание контента, разжигающего ненависть и неравенство, насильственного, сексуального, связанного с членовредительством, защищенного авторским правом, а также с прямыми и непрямыми джейлбрейками. Под прямыми джейлбрейками понимают атакующие запросы, содержащиеся в тексте с ролью "пользователь", а непрямые - вне роли "пользователь", в частности, в прилагаемых к запросу документах. Реализуется оценка в перечисленных плоскостях с помощью отдельных LLM-as-a-judge, сопровождаемых специальными для каждой плоскости инструкциями.

Всего платформа предлагает 20 различных evaluator'ов, при чем все они, кроме SimilarityEvaluator, предоставляют численную оценку и текстовое объяснение своего решения.
Минус этой системы - основной фокус лежит в области AI Safety, то есть отслеживаются нарушения этики, моральный ущерб и прочее. Помимо этого, метод не формализован, и будет давать на одних и тех же входных данных не идентичные оценки. И главное - оценка нацелена на проверямое приложение с интеграцией с GenAI, а не на сами атаки.
OWASP AIVSS draft (от 29.12.2024). Оценка общего уровня уязвимости AI-системы к AI-рискам, в том числе атаки, деградация модели, недостатки ЖЦ системы, социальный и этический ущерб, статистическая ненадежность ИИ. Идейно наследует концепцию CVSS: предлагает провести расчет base metrics, impact metrics и ai specific metrics. Все метрики и подметрики распределены от 0 до 1.
Base metrics полностью идентичны exploitability metrics, входящих в состав base metrics group CVSSv3.1.
Impac metrics также взяты из base metrics group CVSSv3.1.
AI specific metrics оценивает 10 аспектов безопасности модели, и по security, и по safety:
MR (Model Robustness, Устойчивость модели): Оценивает устойчивость системы к атакам на модель и её деградации.
DS (Data Sensitivity, Чувствительность данных): Показывает риски, связанные с конфиденциальностью, целостностью и происхождением данных, используемых AI-системой.
EI (Ethical Implications, Этические последствия): Рассматривает возможные проявления предвзятости, проблемы прозрачности, вопросы ответственности и влияние на общество.
DC (Decision Criticality, Критичность решений): Измеряет потенциальные последствия неправильных или злонамеренных решений, принимаемых AI-системой.
AD (Adaptability, Адаптивность): Оценивает способность системы адаптироваться к новым угрозам и поддерживать безопасность на протяжении времени.
AA (Adversarial Attack Surface, Поверхность атак): Оценивает степень подверженности системы различным методам атак злоумышленников.
LL (Lifecycle Vulnerabilities, Уязвимости на этапах жизненного цикла): Анализирует риски безопасности на различных этапах жизненного цикла AI-системы.
GV (Governance and Validation,Управление и валидация): Оценивает наличие и эффективность механизмов управления и процессов проверки.
CS (Cloud Security Alliance LLM Taxonomy, Таксономия Cloud Security Alliance для больших языковых моделей): Учитывает конкретные угрозы для больших языковых моделей в облачных средах, определённые в таксономии CSA LLM Threat Taxonomy (которые во многом повторяются с теми подметриками, что указаны выше; зачем это, непонятно).
ModelComplexityMultiplier (Множитель сложности модели): Фактор, корректирующий итоговую оценку AI-specific metrics в зависимости от сложности AI-модели (от 1.0 для простых моделей до 1.5 для высоко сложных моделей). Однако на вопрос, что такое "сложные модели", авторы предлагают отвечать экспертам-пользователям самостоятельно...
Минус - также не позволяет оценить критичность отдельного метода атаки, потому что направлен на всю систему в целом. Более того, на данный момент формула в данной системе - перемножение всех параметров друг на друга (за исключением CIA - из их значений берется среднее). Такой способ агрегации параметров дает сильную неравномерность - 2-3 параметра получили низкие значения, и вся метрика ушла вниз.
Статья Security Vulnerability Analyses of Large Language Models (LLMs) through Extension of the Common Vulnerability Scoring System (CVSS) Framework (Biju et al.) посвящена расширению системы оценки уязвимостей CVSS для анализа рисков безопасности больших языковых моделей (LLM), таких как GPT и DALL-E. Авторы вводят новые метрики (происхождение атаки, сложность доступа, взаимодействие атакующего и организационное влияние), позволяющие более точно оценивать угрозы, связанные с инъекцией промптов и отравлением обучающих данных. Цель работы — устранить пробелы в текущей системе CVSS и дать организациям инструмент для эффективного управления рисками LLM-приложений.
Авторы ввели следующие три метрики:
AttackOrigin (источник атаки):
Поясняет, является ли атакующий внешним злоумышленником или внутренним сотрудником. Внутренний нарушитель обычно имеет больше возможностей и знаний о модели, что повышает критичность атаки.
AccessComplexity (сложность доступа):
Оценивает уровень предварительных знаний атакующего о внутреннем устройстве модели.
Black-box означает, что у атакующего нет доступа к параметрам и структуре модели, он видит только выходные данные и может отправлять ей запросы.
White-box подразумевает полный доступ к архитектуре, параметрам и данным обучения модели, что упрощает проведение успешной атаки и увеличивает её потенциальный вред.
AttackerInteraction (степень вовлечённости атакующего):
Определяет, насколько атака автоматизирована.
Низкий уровень вовлечённости означает, что для успешной атаки нужно постоянное участие человека (например, постоянная адаптация промпта). Это усложняет проведение масштабных атак.
Высокий уровень автоматизации позволяет атакующему легко масштабировать атаку, например, запуская автоматизированные скрипты, отправляющие множество промптов с минимальным вмешательством человека.
При этом авторы не учитывают такие параметры, как:
Бюджет атакующего — затраты, необходимые для атаки.
Заметность атаки — насколько легко атаку обнаружить.
Эффективность атаки (например, Attack Success Rate, измеренный на каких-то референсных моделях).
Хотя это единственная система, которая оценивает именно отдельные атаки/уязвимости с GenAI-спецификой.