ИИ: немного о скрытой логике (Mr.Wolf)

"Друзья мои, я опечален!"

Журналисты нашли еще один повод побояться ИИ. Оказывается (!) авторы конкретной ИИ-модели могут делать в ней "закладки", которые при определенных условиях - будут давать неправильные ответы или выполнять прочие не совсем ожидаемые действия.

Гениальность данного открытия сложно осознать одномоментно, требуется специальная подготовка и соответствующий настрой. Так что - не спешите с выводами! (сарказм).

Однако - к фактуре. Оказывается, применение ИИ в тех или иных сферах человеческой деятельности, несет помимо традиционных и некоторые новые риски, связанные с этим самым ИИ. Простейший вариант: вы используете ИИ для обеспечения пропускного режима на некоторый объект, убрав реальных охранников с контроля входа. В случае, если злоумышленник сможет обмануть ИИ (например, удачно прикинувшись штатным сотрудником) - никаких проблем с проникновением на объект у него не возникнет. Соответственно, если раньше надо был следить за охранниками и регулярно учить их идентифицировать чужаков - то теперь аналогичные действия должны выполняться в отношении применяемого ИИ: его регулярно надо "доучивать" с учетом возникновения у злоумышленников новых способов обмана. Пока всё логично.

В 2019 году на антивирусные продукты за авторством американской компании Cylance (которая реализовала в них применение ИИ), была совершена успешная атака, позволившая заразить многих клиентов, пользовавшимся их продуктами. Идея атаки была такая же, как в приведенном выше примере: понимая как именно работает в антивирусе Cylance ИИ-модель, злоумышленники создали вирус, который данная модель не распознавала в качестве угрозы и пропускала в защищаемую сеть, предоставляя широкий простор для дальнейших действий.

Ряд сотрудников этой самой Cylance сделали великий вывод, что такого рода атаки возможны не только на продукт их работодателя, а вообще на любой продукт, использующий ИИ, увидели в этом для себя некоторую возможность заработать и организовали компанию HiddenLayer, которая

разрабатывает инструменты и библиотеки для визуализации и анализа нейронных сетей. Продукты HiddenLayer помогают исследователям и разработчикам визуализировать и понимать внутреннюю структуру нейронных сетей, что может быть полезно для отладки, оптимизации и улучшения моделей машинного обучения.
Кроме того, компания также специализируется на кибербезопасности искусственного интеллекта (ИИ) и машинного обучения. Она проводит исследования уязвимостей в ИИ-системах и разрабатывает решения для укрепления безопасности этих технологий, помогая предотвращать возможные вредоносные действия.

(источник)

И вот эти самые талантливые HiddenLayer-специалисты, ковыряясь в способах взлома ИИ-моделей (в действительности - вполне себе полезная деятельность, и в своем блоге они регулярно публикуют определенные наработки по данному вопросу), заодно решили покопать и в немного другую сторону: а что если автор ИИ-модели сам не так чтобы чист на руку, и предлагая оную кому-то в действительности засылает "троянского коня"?

Re: "Да нежели такое возможно"! (крик души)

В общем, ребята поинтересовались имеющимися научными наработками по данной теме (см. тут и тут) и пришли к печальному выводу - что там всё плохо. В том смысле, что - да, угроза не только не абстрактна, но очень даже конкретна. Однако - сюрприз! - ее реализация (в рассматриваемых вариантах) - занятие из не так чтобы дешевых. Потому как ИИ-модель загонялась в нужный вариант поведения путем скармливания ей специально подготовленных обучающих последовательностей. Это, конечно же - затратно и по срокам и по стоимости, хотя вполне себе реализуемо (помним скандал с визуализацией ИИ сенаторов США в 19 веке,

что не так чтобы атака, но работоспособность схемы вполне себе подтверждает: если учить модель только на цветных - про белых она и знать то не будет). Ну а если дорого - то и бояться сильно не надо (ибо только у дяди Сэма денег немеряно, а он и так всё что угодно замутит).

Однако означенные творческие умы пошли искать более дешевые варианты формирования закладок. И - конечно же - нашли. Назвали их "ShadowLogic", проверили работоспособность на ряде доступных моделей - и опубликовали обнадеживающие результаты: да, ИИ-троянам быть!

Кратко идея в следующем: поскольку сама по себе ИИ-модель - это некий набор весовых функций и правил получения результата - который весьма велик по объему, то среди оных можно скрыть несколько штучек, предназначенных для переключения модели в нужный для злоумышленника режим работы при получении на вход некоторого "триггерного сообщения" (a la "стоп-слова"). Причем внешне эти самые "дополнительные" функции ничем не отличаются от всех остальных таких же, предназначенных для выполнения моделью заявленного функционала, вот только коэффициентики у них подправлены в нужную сторону и оформлены так, чтобы не менялись при обучении.

У подхода обнаружились сразу несколько плюсов: относительная дешевизна, поразительная скрытность и практически невозможность выявления путем внешнего тестирования, ибо модель до получения "стоп-слова" - полноценно выполняет весь свой функционал. В качестве бонуса - это устойчивость такого рода закладок к переобучению модели: никакое дополнительное обучения не изменяет заложенный навык модели идентификации "стоп-слова", ну а дальше - у злоумышленника весьма широкий простор применения своих фантазий.

Что имеем в сухом остатке? А вот очень плохие выводы. Если вы планируете использовать ИИ-модель в каких-то значимых процессах деятельности - то вам придется самим не только ее обучить, но и создать. Ибо иначе никаких гарантий отсутствия в ней закладок у вас нет. Причем выявить такого рода закладки путем детального анализа графа модели теоретически, конечно, можно, но стоить это будет существенно больше, чем написать ее с нуля. Увы.