GPT-4o: больше мощи, но меньше цены. Почему так и что на самом деле умеет модель?

Вчера в 20:00 по московскому времени OpenAI в прямом эфире показали свою революционную модель GPT-4o. Общаться с ней можно голосом и даже по видео, при этом вообще без задержек. А еще GPT-4o понимает интонации, может шутить, отвечать с (почти) человеческой интонацией, переводить в режиме реального времени и даже петь.

При всем этом модель дешевле, чем ее предшественница, GPT-4 Turbo, во всем уступающая GPT-4o. Как такое может быть, что прямо сейчас умеет модель и почему GPT-4o на самом деле первая настоящая мультимодальная разработка OpenAI? Со всем этим разберемся в статье, а еще расскажем про все-все самые интересные пасхалки Альтмана...

Кстати, мы всегда следим за новостями и публикуем их в своем Телеграм-канале. А еще мы делаем мемы, обзоры свежих статей и обсуждаем в чате ML-карьеру и искусственный интеллект. Подпишитесь, чтобы ничего не пропустить: t.me/data_secrets.

Что умеет GPT-4o?

Перед презентацией CEO OpenAI Сэм Альтман и некоторые из его инженеров активно разжигали интерес аудитории и оставляли в соц.сетях пасхалки на предстоящий релиз. В основном это были всяческие намеки на фильм "Она", в котором главный герой влюблен в ИИ-систему. И действительно, GPT-4o очень похожа на ту самую Саманту из фильма, которая умела разговаривать с "живыми" интонациями, имела чувство юмора и отвечала со скоростью человека. С GPT-4o действительно можно поверить, что разговариваешь с живым собеседником.

Жутковато? Да, немного.

При этом GPT-4o может выступать не только собеседником, но и переводчиком. Разработчики значительно улучшили способности модели в диалогах на отличных от английского языках, теперь она поддерживает более 50 языков. К тому же, была улучшена память модели: теперь она будет запоминать все беседы с пользователем и знать о вас больше. Опять жутко, да?

Что касается английского языка и кода, в релизном блог-посте написано, что GPT-4o соответствует производительности GPT-4 Turbo. Но тут они определенно поскромничали. То, что модель будет зверем в программировании, было ясно еще неделю назад. Но не будем забегать вперед. Для начала небольшая историческая справка.

В течение нескольких предыдущих недель на главном LLM-лидерборде LMSYS одна за одной появлялись загадочные модели "gpt2", "im-a-good-gpt2-chatbot" и "im-also-a-good-gpt2-chatbot". Компания-производитель не была указана, но по отсылкам в Твиттере Сэма Альтмана все было ясно.

Пользователи были шокированы качеством ответов таинственных моделей. Последняя могла без проблем создать полноценную игру: у юзеров получилось за считанные минуты создать полный клон Flappy Birds, 3D-шутер и аркаду.

Конечно, теперь мы понимаем, что все это была замаскированная GPT-4o. Сейчас на Chatbot Arena по сравнению с конкурентами она показывает отрыв в 57 ELO на общих языковых задачах и в 100 ELO на коде. Это поразительный результат. Кроме этого, модель использует для ответов не только свои знания, но и информацию из Интернета.

И, кстати, теперь еще у модели еще будет режим стриминга для MacOS. Подключаете приложение, выделяете прямо на экране код, модель его обрабатывает на месте.

Но и это еще не все! С картинками и видео модель теперь тоже работает намного лучше:

Синтез объектов в 3D
Продвинутый анализ графиков, диаграмм, таблиц и рукописного текста.
Умеет не просто генерировать картинки, а запоминать внешность персонажей. За счет этого можно сгенерировать полноценный комикс!

Получается, у нас в руках новая супер-мощная GPT-4o, умеющая работать с текстом, голосом, картинками и видео. Но ведь это не первая мультимодальная модель компании? GPT-4 Turbo тоже умел анализировать и генерировать картинки и слушать голос. И все-таки оказывается, что это совсем "разные" мультимодальности. Давайте разберемся.

Почему GPT-4o - первая настоящая мультимодальная модель?

Буква 'o' в названии GPT-4o означает "omni", то есть "универсальная". До ее появления тоже можно было отсылать боту картинки и использовать голосовой режим. Однако задержка ответа была в районе 3 секунд. Теперь модель отвечает со скоростью человека.

Дело в том, что до этого "мультимодальность" находилась не внутри одной модели, а была рассеяна на три отдельных:

Speech-to-Text модель переводила аудио в текст;
Затем GPT-3.5 или GPT-4 обрабатывала уже транскрибированный текст, как если бы вы его напечатали, и генерировала ответ;
Последняя модель переводила текст обратно в аудио.

Таким образом, модель не умела понимать настроение и тон людей, не могла имитировать интонации или другие звуки.

Теперь все изменилось. GPT-4o обучена сразу на трех модальностях одновременно - текст, аудио, изображения. Теперь они все "живут" и работают вместе. Поэтому GPT-4o можно называть первой настоящей мультимодальной моделью компании.

Если она так хороша, почему она такая дешевая?

Для бесплатных юзеров бота модель будет не просто дешевой, а бесплатной. По API обработка токена станет в 2 раза дешевле, чем в GPT-4 Turbo. Получается, новая модель и умнее, и быстрее, и дешевле. Разве так бывает?

Да, бывает. Вообще-то цена и раньше снижалась, это можно увидеть на графике:

В этот раз косты удалось снизить в основном за счет нового мультиязычного токенизатора, который лучше "сжимает" вход. Для некоторых языков теперь требуется в 3-4 раза меньше токенов, соответственно и стоит обработка промпта теперь меньше. Например, для русского языка она будет обходится в среднем в 3.5 раза дешевле.

И все это уже можно попробовать?

Ну, не совсем. OpenAI, как всегда, выкатывают анонсированные обновления постепенно. Модель уже доступна разработчикам по API, доступы для генерации текста с GPT-4o для обычных пользователей тоже начали понемногу выдавать.

В остальном, в боте пока сохраняется подход с тремя разными моделями. Показанный на презентации голосовой режим из фильма "Her" пока не включили. Он будет доступен для подписчиков Plus и раскатится в ближайшие недели. Видео-возможности пока что вообще дают только ограниченным группам пользователей.

Также OpenAI пообещала выпустить приложение для ПК.

Больше новостей, мемов и пасхалок из мира ML в нашем тг-канале. Подпишитесь, чтобы ничего не пропустить: t.me/data_secrets.

Темы и теги

США Наука и Технологии

gpt-4 OpenAI Сэм Альтман мультимодальный модель Телеграм-канал Саманта Твиттер Интернет