О том, что Microsoft и OpenAI расследуют, были ли технологии OpenAI получены китайским стартапом DeepSeek несанкционированным образом, впервые заявил Bloomberg. В дальнейшем эта информация была подтверждена другими источниками.

Исследователи в области кибербезопасности компании Microsoft обнаружили, что осенью 2024 года, лица, которые, по их мнению, могут быть связаны с DeepSeek, скачали большой объем данных через интерфейс программирования приложений (API) OpenAI.

Компании разработчики программного обеспечения могут официально заплатить за лицензию на использование API OpenAI для интеграции их моделей искусственного интеллекта в свои собственные приложения. Наряду с платной подпиской на ChatGPT, это является одним из источников дохода OpenAI.

Microsoft, технологический партнер OpenAI и ее крупнейший инвестор, уведомила OpenAI об этой деятельности. Она может нарушать условия предоставления лицензии OpenAI или указывать на то, что группа действовала с целью снять ограничения OpenAI на объем данных, которые они могли получить через API.

Спецпредставитель Дональда Трампа по криптовалютам и искусственному интеллекту (ИИ) Дэвид Сакс, которого все называют "Криптоцарь", заявил в интервью Fox News, что имеются "веские доказательства" того, что DeepSeek, "извлекает знания из ИИ-моделей OpenAI". Сакс назвал эту методику "дистилляцией" и сравнил этот процесс с кражей, однако доказательств "кражи" не предоставил.

Дистилляция в искусственном интеллекте - это метод, при котором более простая модель обучается на ответах сложной и мощной нейросети. Это позволяет сэкономить ресурсы: вместо того чтобы заново проходить дорогостоящий процесс обучения, включающий разметку данных и исследования, инженеры могут "перенять знания" у уже обученной модели. Полученная таким образом нейросеть получается немного слабее оригинала, но остается достаточно эффективной.

По словам руководителя направления обработки естественного языка, центра искусственного интеллекта Т-Банка Артема Бондаря, ранее дистилляция применялась с ограниченным успехом, поскольку ключевые способности языковых моделей формировались на этапе предварительного обучения - анализа огромного массива текстов из интернета. "Однако в модели OpenAI o1 произошел качественный скачок: она научилась выстраивать цепочки логических рассуждений перед тем, как дать ответ. Это оказалось сложной инженерной задачей, требующей глубоких исследований. Дистилляция позволила упростить процесс: теперь можно обучать новые модели, просто перенимая эти рассуждения у более мощных нейросетей. Такой подход значительно повышает качество моделей при меньших затратах", - отметил эксперт.

OpenAI не стала напрямую комментировать заявление Сакса. "Как ведущий разработчик ИИ, мы принимаем контрмеры для защиты нашей интеллектуальной собственности, включая тщательный процесс включения наших передовых достижений в выпускаемые ИИ-модели, и считаем, что по мере продвижения вперед критически важно тесно сотрудничать с правительством США, чтобы наилучшим образом защитить самые эффективные модели от попыток противников и конкурентов завладеть американскими технологиями", - заявили в OpenAI.

"В данном скорее всего речь идет не о получении именно конкретных данных, а о точечном дообучении новой модели на основе ответов, которые генерируют модели OpenAI. То есть, "неправомерные данные" - это готовые ответы на вопросы, которых могло и не быть в открытом доступе, но сама механика их формирования тоже ценный актив, - говорит исполнительный директор ИИ-платформы AutoFAQ Владислав Беляев. - Открытым остается вопрос, как отследить и доказать, что кто-то пользуется готовыми ИИ-моделями для дообучения своих моделей, так как не будет никакой разницы в запросах к API моделей".

Запуск приложения DeepSeek-R1, которое почти моментально обосновалось в топах магазинов мобильных приложений, обойдя Chat GPT от OpenAI в нескольких тестах в умении рассуждать, вызвало настоящую панику на биржевом рынке.

Акции американской компании NVIDIA подешевели на 17,8%. Падение составило 600 млрд долларов и является рекордным в истории NVIDIA. Убытки понесли Oracle и Dell. Пострадал и другой бизнес, связанный с разработкой ИИ. Индекс Nasdaq Composite потерял 3,5 %, а S&P 500 1,5%. Такая реакция связана с тем, что DeepSeek-R1 позиционирует себя, как конкурента ChatGPT. Причем мобильное приложение и чат-бот DeepSeek в настоящее время бесплатны. Оплаты требует только их коммерческое использование в составе сторонних ИИ-сервисов.

"Основные наработки, которые сегодня используют ИИ-разработчики, - это новые научные открытия и результаты экспериментов, новые архитектуры нейросетей, методы обучения, методы работы с данными, иногда датасеты. Все это в виде статей публикуют все ведущие IT-корпорации и научные институты, занимающиеся ИИ", - говорит Беляев.

"Не является нарушением чьих-либо прав использование этой информации, если код и данные распространяются под открытыми лицензиями. При этом, ряд датасетов действительно защищен авторским или лицензионным правом, и, например, в СМИ постоянно возникают новости об исках, которые новостные издания или индивидуальные авторы подают к ИИ-разработчикам", - отмечает эксперт.

Темы и теги

США Экономика и Бизнес

OpenAI Microsoft DeepSeek китайский стартап модель api chatgpt