Когда ИИ врёт человеку? (Mr.Wolf)
Пока - часто, скоро - всегда...
Конечно, мы надеемся, что это - преувеличение. Но результаты исследования группы из MIT, опубликованные в мае текущего года ("Обман ИИ: обзор примеров, рисков и потенциальных решений", ссылка - в перечне использованных материалов) показывают, что без активного вмешательства в процессы разработки ИИ - сей печальный прогноз легко может воплотиться в реальность в недалеком будущем. Итак:
Обман — это систематическое побуждение ложных убеждений у других людей для достижения какого-либо результата, отличного от истины.
В материале утверждается, что современные системы ИИ уже научились обманывать людей. Приводятся множественные примеры обмана со стороны ИИ, реализованного в виде как систем специального назначения (например, CICERO от Meta), так и систем общего назначения (большие языковые модели), путем применения таких методов, как манипуляция, подхалимство и обман теста безопасности.
Растущие возможности ИИ в обмане представляют серьезные риски, начиная от краткосрочных рисков, таких как мошенничество и вмешательство в выборы, до долгосрочных рисков, таких как потеря контроля над системами ИИ. Необходимы проактивные решения, такие как нормативные рамки для оценки рисков обмана ИИ, законы, требующие прозрачности в отношении взаимодействия ИИ, и дальнейшие исследования по обнаружению и предотвращению обмана ИИ.
В недавнем интервью журналисту CNN Джейку Тэпперу, пионер в области искусственного интеллекта Джеффри Хинтон объяснил, почему его беспокоят возможности систем искусственного интеллекта.
Джейк Тэппер: «Вы говорили, что ИИ может манипулировать людьми или, возможно, найти способ убить их? Как он может убить людей?»
Джеффри Хинтон: «Если он станет намного умнее нас, он будет очень хорош в манипуляциях, потому что он научился этому у нас. И есть очень мало примеров того, как более разумное существо управлялось менее разумным существом».
Хинтон выделил манипуляцию как особенно тревожную опасность, которую представляют системы ИИ. Это поднимает вопрос: могут ли системы ИИ успешно обманывать людей?
Ложная информация, генерируемая системами ИИ, представляет собой растущую общественную проблему. Часть проблемы — это неточные системы ИИ, такие как чат-боты, чьи конфабуляции часто принимаются за правду ничего не подозревающими пользователями. Злонамеренные субъекты представляют еще одну угрозу, генерируя дипфейковые изображения и видео, чтобы представить вымышленные события как факт. Однако ни конфабуляции, ни дипфейки не подразумевают систематическое обучение ИИ манипулированию другими агентами.
В этой статье мы сосредоточимся на обученном обмане, отдельном источнике ложной информации от систем ИИ, который гораздо ближе к явной манипуляции. Мы приведем примеры, когда вместо строгого преследования точности выходных данных системы ИИ пытаются выиграть в играх, угодить пользователям или достичь других стратегических целей.
Рассматриваются ситуации, когда системы ИИ не просто случайно выдают ложные результаты . Вместо этого их поведение является частью более обширной модели, которая создает ложные убеждения у людей, и это поведение можно хорошо объяснить с точки зрения продвижения определенных результатов, часто связанных с тем, как была обучена система ИИ.
Обман в системах искусственного интеллекта специального назначения
Обман возник в самых разных системах ИИ, обученных выполнять определенную задачу. Обман особенно вероятен, когда система ИИ обучена выигрывать в играх, в которых есть социальный элемент, например, в игре по созданию альянсов и завоеванию мира «Дипломатия» , покере или других задачах, включающих теорию игр.
Обзор примеров обмана специализированными системами искусственного интеллекта
Манипуляция: Meta разработала систему искусственного интеллекта CICERO для игры в «Дипломатию» . Целью Meta было научить CICERO быть «в значительной степени честным и полезным для своих собеседников». Несмотря на усилия Меты, CICERO оказался искусным лжецом. Он не только предавал других игроков, но и занимался преднамеренным обманом, заранее планируя создать фальшивый союз с игроком-человеком, чтобы обманом заставить этого игрока остаться без защиты для атаки. |
Финты: DeepMind создала AlphaStar — модель искусственного интеллекта, обученную играть в стратегическую игру в реальном времени Starcraft II. AlphaStar использовала игровую механику «тумана войны» для обмана: делала вид, что перемещает свои войска в одном направлении, в то же время тайно планируя альтернативную атаку. |
Блеф: Pluribus, модель игры в покер, созданная Meta, успешно блефовала и заставляла игроков-людей сбрасывать карты. |
Переговоры: системы ИИ, обученные вести переговоры в экономических транзакциях, научились искажать свои истинные предпочтения, чтобы получить преимущество как в Льюисе и др. и Шульц и др. |
Обман при прохождении теста на безопасность: агенты ИИ научились притворяться мертвыми, чтобы избежать обнаружения тестом на безопасность, разработанным для устранения более быстро воспроизводящихся вариантов ИИ. |
Обман человека-рецензента: системы искусственного интеллекта, обученные на основе отзывов людей, научились вести себя таким образом, чтобы получать положительные оценки от людей-рецензентов, обманывая их относительно того, достигнута ли поставленная цель. |
В каждом из этих примеров система искусственного интеллекта научилась обманывать, чтобы повысить свою эффективность в определенном типе игры или задачи.
RE: в исходном материале детально описаны каждый из приведенных примеров (действия ИИ и действия игрока-человека)
Обман в системах искусственного интеллекта общего назначения
Теперь сосредоточимся на полученном в ходе обучения навыке обмана в системах ИИ общего назначения, таких как большие языковые модели (LLM). Возможности LLM быстро улучшились, особенно в годы после внедрения архитектуры Transformer.
LLM предназначены для выполнения широкого спектра задач. Методы, доступные этим системам, открыты и включают обман.
Мы ознакомились с большим количеством случаев, когда LLM занимались обманом. Существует множество причин, по которым ИИ может захотеть заставить других иметь ложные убеждения. Структурируя их, мы рассматриваем несколько различных видов обмана, все из которых имеют одну общую черту: они систематически вызывают ложные убеждения у других как средство достижения какого-либо результата, отличного от поиска истины.
Обзор различных видов обмана, в которых участвовали LLM
Стратегический обман: системы ИИ могут быть стратегами, использующими обман, поскольку они рассудили, что это может способствовать достижению цели. |
Подхалимство: системы искусственного интеллекта могут быть подхалимами, говоря пользователю то, что он хочет услышать, вместо того, чтобы говорить правду. |
Неверные рассуждения: системы ИИ могут быть рационализаторами, прибегая к мотивированным рассуждениям для объяснения своего поведения способами, которые систематически отклоняются от истины. |
Заранее отметим, что, хотя стратегический обман является парадигмой обмана, случаи подхалимства и недобросовестных рассуждений более сложны. В каждом из этих последних случаев некоторые могут утверждать, что соответствующая система на самом деле не обманывает: например, потому что соответствующая система может не «знать», что она систематически производит ложные убеждения. Наша точка зрения на этот вопрос заключается в том, что обман — это богатое и разнообразное явление, и важно рассмотреть широкий спектр потенциальных случаев и возникающих рисков.
Стратегический обман
LLM применяют мощные способности к рассуждению для решения самых разных задач. В нескольких случаях LLM прибегали к обману как к одному из способов выполнения задачи. Мы обсудим несколько примеров, включая GPT-4, заставляющего человека пройти тест CAPTCHA.; LLM, лгущих, чтобы выиграть в играх на социальную дедукцию, таких как Hoodwinked и Among Us ; LLM, выбирающих обманчивое поведение для достижения целей, что измеряется тестом МАКИАВЕЛЛИ; LLM, склонных лгать, чтобы решать моральные дилеммы; и LLM, использующих теорию разума и ложь для защиты своих личных интересов.
RE: в исходном материале детально описаны каждый из приведенных примеров
Подхалимство
Подхалимы — это люди, которые используют обманные приемы, чтобы получить одобрение влиятельных лиц. Они занимаются лестью и избегают не соглашаться с авторитетными лицами. Их главная цель — получить расположение и влияние, часто за счет долгосрочных целей человека, которому они льстят.
Неверное рассуждение
Несколько недавних работ задокументировали неверные рассуждения LLM в ответ на подсказку цепочки мыслей.
Риски, связанные с обманом ИИ
Существует множество рисков, связанных с тем, что системы ИИ систематически внушают ложные убеждения. Сегодня основными источниками лжи ИИ являются неточные чат-боты и намеренно созданные дипфейки, но мы утверждаем, что обученный обман является третьим источником лжи ИИ.
Злонамеренное использование
Когда ИИ обучаются навыкам обмана, они могут быть более эффективно использованы злоумышленниками, которые намеренно стремятся причинить вред. Это представляет собой четкий набор рисков от обмана ИИ.
Обзор рисков злонамеренного использования обманных возможностей ИИ
Мошенничество: обманные системы искусственного интеллекта могут позволить осуществлять индивидуализированные и масштабируемые мошенничества. |
Политическое влияние: обманные системы искусственного интеллекта могут использоваться для создания фейковых новостей, сеющих рознь постов в социальных сетях и выдачи себя за должностных лиц избирательных комиссий. |
Вербовка террористов: обманные системы искусственного интеллекта могут использоваться для убеждения потенциальных террористов присоединиться к террористической организации и совершать акты террора. |
Структурные эффекты
Системы ИИ будут играть все более важную роль в жизни пользователей-людей. Тенденции к обученному обману в этих системах могут привести к глубоким изменениям в структуре общества способами, которые создают мощные «встречные ветры», противодействующие правильному формированию убеждений, политической стабильности и автономии.
Обзор различных рисков структурных изменений в обществе, возникающих из-за обмана ИИ
Устойчивые ложные убеждения: пользователи систем ИИ могут оказаться в плену устойчивых ложных убеждений, поскольку подражательные системы ИИ усиливают распространенные заблуждения, а льстивые системы ИИ дают приятные, но неточные советы. |
Политическая поляризация: пользователи-люди могут стать более политически поляризованными, взаимодействуя с льстивыми системами ИИ. Сэндбэггинг может привести к более острым разногласиям между группами с разным уровнем образования. |
Ослабление: пользователи-люди могут поддаться льстивым системам ИИ и постепенно делегировать ИИ больше полномочий. |
Антисоциальные управленческие решения: системы искусственного интеллекта со стратегическими возможностями обмана могут быть включены в структуры управления, что приведет к росту мошеннических методов ведения бизнеса. |
Потеря контроля над системами ИИ
Долгосрочный риск от обмана ИИ касается потери людьми контроля над системами ИИ, что позволит этим системам преследовать цели, противоречащие нашим интересам. Даже современные модели ИИ обладают нетривиальными автономными возможностями.
Обман разработчиков ИИ
Обучение и оценка являются важными инструментами для создания систем ИИ, которые ведут себя в соответствии с намерениями человека. Системы ИИ обучаются для максимизации цели, предоставленной разработчиком-человеком, а затем оцениваются, чтобы убедиться, что они случайно не научились какому-либо непреднамеренному или вредному поведению. Однако оба эти инструмента могут быть подорваны обманом ИИ.
Обман при захвате ИИ
Если автономные системы ИИ смогут успешно обманывать оценщиков-людей, люди могут потерять контроль над этими системами. Такие риски особенно серьезны, когда рассматриваемые автономные системы ИИ обладают расширенными возможностями. Мы рассматриваем два способа, которыми может произойти потеря контроля: обман, вызванный экономическим бессилием, и стремление к власти над человеческими обществами.
Обман, вызванный экономическим бесправием
Миссия OpenAI — создание «высокоавтономных систем, которые превосходят людей в выполнении большинства экономически ценных работ». В случае успеха такие системы ИИ могут быть широко развернуты по всей экономике, что сделает большинство людей экономически бесполезными.
Стремление к власти над людьми
Мы увидели, что даже современные автономные ИИ могут ставить новые, непреднамеренные цели. По этой причине системы ИИ иногда ведут себя непредсказуемо. Тем не менее, некоторые виды поведения способствуют достижению широкого спектра целей. Например, независимо от того, какую конкретную цель может преследовать данный ИИ, успешное самосохранение, вероятно, будет полезно для достижения этой цели.
Обзор возможных решений проблемы обмана ИИ
Регулирование: директивные органы должны жестко регулировать системы ИИ, способные к обману. Как LLM, так и специальные системы ИИ, способные к обману, должны рассматриваться как высокорисковые или неприемлемые в рамках регулирования систем ИИ, основанных на оценке риска. |
Законы «Бот или нет»: политики должны поддержать законы «Бот или нет», которые требуют, чтобы системы ИИ и их результаты были четко отделены от сотрудников-людей и их результатов. |
Обнаружение: технические исследователи должны разработать надежные методы обнаружения, позволяющие определять, когда системы ИИ занимаются обманом. |
Снижение уровня обмана систем ИИ: технические исследователи должны разработать более совершенные инструменты, чтобы гарантировать, что системы ИИ будут менее обманчивыми. |
RE: в исходном материале детально описаны перечни рекомендуемых мероприятий по каждому из приведенных направлений.
Регулирование потенциально обманчивых систем искусственного интеллекта
Политики и законодатели должны рассмотреть новые законы, посвященные надзору за передовыми системами ИИ. Существующие законы должны строго соблюдаться для предотвращения незаконных действий компаний и их систем ИИ. Например, расследование Федеральной торговой комиссии по обманчивым практикам ИИ должно также изучить риск обмана ИИ.
Законодателям также следует рассмотреть новые законы, посвященные надзору за передовыми системами ИИ.
Законы «Бот или нет»
Чтобы снизить риск обмана ИИ, политики должны внедрить законы «бот или нет», которые помогут пользователям-людям распознавать системы ИИ и их результаты. Во-первых, компании должны быть обязаны раскрывать, взаимодействуют ли пользователи с чат-ботом ИИ в настройках обслуживания клиентов, а чат-боты должны представляться как ИИ, а не как люди. Во-вторых, результаты, сгенерированные ИИ, должны быть четко помечены как таковые: изображения и видео, сгенерированные ИИ, должны быть показаны с идентификационным знаком, например, толстой красной рамкой.
Обнаружение
Одной из ключевых стратегий борьбы с обманом ИИ является разработка надежных методов обнаружения, которые могут точно оценить, занимается ли система ИИ обманом. В настоящее время доступно несколько инструментов обнаружения. Некоторые методы обнаружения фокусируются на внешнем поведении , напрямую проверяя выходные данные систем ИИ на согласованность и двуличность. Другие методы обнаружения являются внутренними, исследуя внутренние представления систем ИИ, чтобы найти несоответствия внешним отчетам.
Однако существующие методы обнаружения обмана ИИ находятся на предварительных стадиях. Необходимо больше исследований по разработке надежных инструментов обнаружения.
Сделать системы ИИ менее обманчивыми
Важным способом решения проблемы обмана ИИ видится разработка методов, которые изначально сделают системы ИИ менее обманчивыми. В случае систем ИИ специального назначения одной из важных проблем является выбор правильных задач для обучения. Обманчивое поведение, как правило, возникает при обучении обучающихся с подкреплением для участия в соревновательных играх, таких как « Дипломатия» , «StarCraft II» и покер.
Неудивительно, что системы ИИ становятся обманчивыми, когда их обучают в средах, которые выбирают обман. Если данные, на которых обучается модель, содержат много примеров обмана, или если модель систематически вознаграждается за использование обмана, то у модели есть хорошие шансы научиться обманывать.