Google представила SensorLM — семейство моделей машинного обучения для анализа показаний фитнес-трекеров

Исследователи Google представили SensorLM — семейство базовых моделей машинного обучения для анализа данных фитнес-трекеров. Модели обрабатывают данные и интерпретируют их на естественном языке.

Исследователи отмечают, что фитнес-трекеры стали неотъемлемой частью жизни многих людей. Они помогают следить за активностью, пульсом, сном, физической формой и другими показателями. При этом данные не всегда понятны пользователю. Например, если пользователь видит, что его пульс поднялся до 150 ударов в минуту, то он не всегда может правильно понять, почему это происходит.

Одна из главных проблем в том, что у разработчиков нет достаточного количества показаний фитнес-трекеров с описаниями на естественном языке, что обучить модель. Ручное описание миллионов часов данных стоит очень дорого и занимает много времени. Решением проблемы стало исследование, которое легло в основу SensorLM.

Команда Google собрала почти 2,5 млн человеко-дней данных от 103 тыс. человек из 127 стран. Их собрали с пользователей умных часов Fitbit и Pixel Watch, которые дали согласие на это. Для создания описаний к данным исследователи разработали автоматизированные конвейер. В результате этого команда Google получила самый большой на сегодняшний день датасет, состоящий из показаний датчиков фитнес-трекеров и описаний к ним.

После этого исследователи обучили модель, которая может сопоставлять сегменты данных датчиков с текстовым описанием из набора вариантов. Благодаря этому нейросеть научилась отличать лёгкий заплыв от изнурительной силовой тренировки. На втором этапе модель дообучили генерировать интерпретации показаний фитнес-трекеров.

В результате получилась модель, которая понимает, что именно делает человек. Например, после тренировки она может рассказать, каким именно видом спорта занимался пользователь, рассчитать средний пульс, скорость, расстояние и другие параметры. Также модель может отвечать на вопросы пользователь. Например, если спросить её, какой пиковый показатель пульса во время вечерних пробежек за последний месяц, то нейросеть найдёт нужные данные и сгенерирует краткую сводку.

В будущем исследователи планируют расширить датасет. Например, в нём должны появиться данные метаболического здоровья и сна. В перспективе должна получиться модель, которая анализирует данные фитнес-трекеров, точно описывает их, предлагает индивидуальные планы тренировок и следит за тем, как меняются показатели.