Первую мультимодальную ИИ-модель OmniFusion 1.1. в России выложили в открытый доступ. Статья про архитектуру нейросети уже на первом месте в разделе Daily trending papers на HuggingFace.

Модель работает с картинками. Она умеет объяснять, что изображено на фото, может рассказать рецепт блюда по снимку ингридиентов и проанализировать карту помещения. А еще — решить логическую задачу или написанный от руки пример. Обучением нейросети занимаются ученые из Sber AI и SberDevices.

Проект опубликован на GitHub и Technical Report на arXiv.