Владимир Бебех: «Технологичная погоня»
На прошлой неделе вслед за Apple еще два американских ИТ-гиганта представили свои новейшие разработки в области искусственного интеллекта (ИИ).
Становятся привычными уже ежемесячные, а где-то еженедельные обновления технологий, связанных с робототехникой и большими языковыми моделями (LLM).
13 мая 2024 года OpenAI анонсировала GPT-4o — свою флагманскую модель ИИ, которая может анализировать звук, изображение и текст в режиме реального времени.
Нейросеть пришла на смену «бестселлеру» компании GPT-4, в отличие от которой GPT-4o лучше воспринимает изображение и звук, а также быстрее реагирует на аудиовход (232 миллисекунды), то есть поддерживает разговор почти как настоящий человек, скорость реакции которого обычно укладывается в 250* миллисекунд.
Любопытно, что средняя задержка у GPT-3.5 составляла 280 миллисекунд, а у GPT-4 — 540 миллисекунд. Это потому, что предыдущие модели состояли из трех отдельных: сначала одна транскрибировала звук в текст, вторая анализировала его, а третья затем переводила текст снова в аудио.
Новая нейросеть — это три в одном: у нее «сквозное» восприятие текста, изображения и звука, а это означает, что все входные и выходные данные обрабатываются одной и той же моделью.
То, что GPT-4o может идентифицировать тон, воспринимать нескольких говорящих или фоновые шумы, а также воспроизводить смех, пение или выражать эмоции, делает новую модель приятным собеседником. И это уже не фильмы-антиутопии — будущее здесь!
Меня, в частности, поразила возможность нейросети быстро менять тональность дискурса, реагируя на запрос специалиста-собеседника сделать его более драматичным, — программа выполнила это впечатляюще!
14 мая текущего года в рамках события I/O 2024 уже Google презентовала новую модель искусственного интеллекта Gemini 1.5 Pro. Компания планирует интегрировать ее практически во все свои продукты.
Нейросеть способна общаться на 35 языках, в том числе на русском. Новый бот Gemini 1.5 Pro получил контекстное окно в два миллиона токенов, что делает его мощнее вышеуказанного конкурента GPT-4o от OpenAI.
Неудивительно, что вся конференция Google была посвящена технологиям искусственного интеллекта. Очевидно, что крупные мировые ИТ-компании ревностно следят за успехами друг друга.
Генеральный директор Google Сундар Пичаи отметил в своем выступлении, что слово Al (ИИ. — Ред.) звучит в его презентации 121 раз.
Малейшее промедление в наукоемкой отрасли развития ИИ может стоить ИТ-гигантам потери рынка. Это тот самый случай, когда The Winner Takes it All**.
* Данные Международного института компьютерных наук (ICSI), Беркли, США.
** The Winner Takes it All (с англ. — «Победитель получает все») — одноименная песня шведской группы ABBA.