Google представляет MedGemma — набор моделей ИИ с открытым исходным кодом для медицинских приложений

Google Research и DeepMind выпустили MedGemma — коллекцию моделей искусственного интеллекта с открытым исходным кодом, созданных специально для использования в медицине.

Семейство MedGemma включает в себя модель 4B, которая может работать с текстом, изображениями или с тем и другим одновременно, а также более крупную версию 27B, которая работает только с текстом и поддерживает мультимодальные форматы. Компания Google представила эту коллекцию на конференции I/O в этом году.

MedGemma предназначена для использования в различных областях медицины, включая радиологию, дерматологию, гистопатологию и офтальмологию. По словам представителей Google, эти модели могут служить основой для новых инструментов искусственного интеллекта в здравоохранении и работать как самостоятельно, так и в составе систем на основе агентов.

MedGemma анализирует рентгеновские снимки и фотографии кожи, чтобы предложить варианты диагностики в различных областях медицины
MedGemma анализирует рентгеновские снимки и фотографии кожи, чтобы предложить варианты диагностики в различных областях медицины

MedGemma превосходит стандартные модели

В техническом отчёте указано, что MedGemma обеспечивает значительные улучшения по сравнению с базовыми моделями аналогичного размера. При решении специализированных медицинских задач модели обеспечивают на 10% более высокую точность в мультимодальных вопросах и ответах, на 15,5–18,1% более высокие результаты при классификации рентгеновских снимков и на 10,8% более высокую точность при сложных оценках на основе агентов.

Об этом свидетельствуют результаты тестов. На платформе MedQA, где проверяются вопросы для медицинских экзаменов, модель 4B достигает точности в 64,4% по сравнению с 50,7% у базовой модели. Версия 27B набирает 87,7% по сравнению с 74,9%.

MedGemma стабильно превосходит базовую модель по результатам медицинских тестов
MedGemma стабильно превосходит базовую модель по результатам медицинских тестов

MedGemma также превосходит базовую модель по результатам медицинских тестов. При тестировании на наборе данных MIMIC-CXR, содержащем рентгеновские снимки и отчёты, версия 4B показала макропоказатель F1 88,9 по сравнению с 81,2 у оригинальной модели Gemma 3 4B. Показатель F1 отражает точность при различных заболеваниях.

MedSigLIP: специализированный кодировщик изображений

Для обработки изображений Google представляет MedSigLIP — кодировщик медицинских изображений с 400 миллионами параметров. MedSigLIP основан на SigLIP («Sigmoid Loss for Language Image Pre-training») — системе, предназначенной для связывания изображений с текстом. Медицинская версия расширяет эти возможности, позволяя MedGemma более эффективно интерпретировать медицинские изображения.

MedSigLIP кодирует данные медицинских изображений, а MedGemma 27B обрабатывает клинический текст, создавая мультимодальную систему искусственного интеллекта для здравоохранения 
MedSigLIP кодирует данные медицинских изображений, а MedGemma 27B обрабатывает клинический текст, создавая мультимодальную систему искусственного интеллекта для здравоохранения 

MedSigLIP обрабатывает медицинские изображения, а MedGemma 27B интерпретирует клинический текст, что делает их мощной мультимодальной системой для здравоохранения. Кодер работает с разрешением 448 x 448 пикселей, что более эффективно, чем вариант с более высоким разрешением 896 x 896, используемый в MedGemma.

Модель была обучена на более чем 33 миллионах пар «изображение — текст», включая 635 000 примеров из различных областей медицины и 32,6 миллиона фрагментов гистопатологических исследований. Чтобы сохранить способность SigLIP к распознаванию изображений в целом, мы сохранили исходный набор данных, а медицинские данные составили 2% от общего объёма, что позволило кодировщику обрабатывать как общий, так и медицинский контент.

Тонкая настройка для решения реальных медицинских задач

Исследователи показали, как можно настроить MedGemma для решения конкретных медицинских задач. При автоматической генерации рентгеновских снимков показатель RadGraph F1 улучшился с 29,5 до 30,3, что свидетельствует о более точном отображении важной клинической информации. При выявлении пневмоторакса (спадения лёгкого) точность подскочила с 59,7 до 71,5. При гистопатологическом исследовании взвешенный показатель F1 для классификации тканей вырос с 32,8 до 94,5.

В области анализа электронных медицинских карт произошёл значительный прорыв: благодаря обучению с подкреплением количество ошибок при извлечении данных сократилось вдвое, что обещает повышение эффективности работы с данными пациентов.

MedGemma доступна на Hugging Face. Лицензия позволяет проводить исследования, разработки и использовать ИИ в общих целях, но не для прямой медицинской диагностики или лечения без одобрения регулирующих органов. Коммерческое использование разрешено при условии соблюдения ограничений.

Эталонные показатели отличаются от реальных

В прошлом году компания Google запустила медицинскую модель искусственного интеллекта, созданную на закрытой платформе Gemini. Открытый исходный код MedGemma и возможность настройки могут способствовать более широкому внедрению.

Тем не менее высокие результаты тестирования не всегда применимы в клинической практике. Одно исследование показало, что реальная эффективность может снижаться из-за недопонимания или неправильного взаимодействия с пользователем, что подчёркивает разрыв между результатами тестирования и практическими результатами.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Перевод, источник новости здесь.