Google представила возможность ИИ распознавать изображения

Google интегрировала в режим ИИ мощные мультимодальные функции, основанные на технологии Lens и пользовательской версии Gemini. Теперь пользователи могут загружать изображения, задавать вопросы о них и получать развернутые ответы с ссылками для дальнейшего изучения.

Как это работает. Режим ИИ анализирует всю сцену на изображении, учитывая контекст взаимодействия объектов, их материалы, цвета, формы и расположение. Используя методику разветвленных запросов, система выполняет несколько поисковых операций, предоставляя детализированные и контекстуально релевантные ответы.

Пример использования. Например, режим ИИ может распознать книги на полке, предложить рекомендации с высоким рейтингом и предоставить ссылки для покупки. Пользователи также могут задавать дополнительные вопросы для уточнения поиска.

Мнение пользователей. Google продолжает тестировать и улучшать режим ИИ, учитывая отзывы пользователей в рамках программы Labs. В компании заявили, что разработка получила положительные отзывы за лаконичный дизайн, быстрый отклик и способность обрабатывать сложные и неоднозначные запросы.

В марте лаборатория Google DeepMind разработала две ИИ-модели на базе архитектуры Gemini 2.0 для применения в сфере робототехники. В пресс-службе заявили, что новые модели должны помочь роботам выполнять более широкий спектр задач.

Фото на обложке: Arkan Perdana / Unsplash

Темы и теги

США Наука и Технологии

Google изображение gemini пользователь режим ия lens мультимодальный контекстуальный