LiberalMind 1.5- LLM на уровне Gemini 2.5, созданная в России
С чего все начиналось?
Сама идея возникла еще год назад.Хотелось создать LLM, которая будет больше всего приближена к AGI.В октябре 2024 было разработано и продумано несколько систем претрейна моделей,а также их дообучение и reinforcement learning системы.Также была разработана новая система декодера на основе декодировщика ROPE.Но к сожалению ресурсов на внедрение таких технологий хватало лишь на модели до 20M параметров,что означало и маленький набор данных для обучения,поэтому смысла в этом ине было.
В апреле был разработан опенсорс агент на основе гемини,который с помощью технологии нескольких вариантов ответа и их анализа был по качеству намного лучше grmini 2.5 pro, хотя агент был разработан на основе gemini 2.0.Агент был назван LiberalMind 1.0
Как я обучал LiberalMind 1.5?
Теперь перейдем именно к этой модели.Обучение построено на технологии GMPO-( Generative Model Policy Optimization ).Кратко опишу как он работает.
это современный метод в Reinforcement Learning, особенно актуальный в задачах offline RL и обучения генеративных политик (например, для языковых моделей).
Он был предложен как более простой, интерпретируемый и эффективный способ RL-обучения без сложных градиентов или value-функций.
Вместо того чтобы использовать классические методы, такие как:
PPO (Proximal Policy Optimization) — с критиком и актором;
QLearning / SAC / DDPG — с обучением функции ценности (value),
GMPO использует advantage-weighted supervised learning — регрессию на действия, взвешенную по преимуществу (advantage), без value-функции.
Формально:
где:
— преимущество (advantage), может быть заранее посчитано;
— весовая функция, например:
— параметризованная политика.
⚙️ Как работает GMPO (по шагам)
Сбор данных из offline датасета: (s,a,r)(s, a, r)(s,a,r).
Оценка advantages для каждого действия (например, с использованием reward или других техник).
Переобучение политики: политика обучается имитировать действия из набора, взвешивая их по преимуществу.
Регуляризация — можно использовать KL-дивергенцию к начальной политике.
В чем суть моего метода обучения?
1. Архитектура и роли моделей
Политика (Actor)
Генеративный трансформер с параметрами
задаётся низкоранговыми LoRA‑модулями.
На входе состояние
, на выходе распределение действий
.
Генеративный Критик (Generative Critic)
Тот же тип архитектуры (трансформер) с параметрами
— LoRA‑модули критика.
Принимает на вход:
Состояние
(контекст или префикс).
Предсказание актёра aa.
Истинный ("правильный") ответ
Выдаёт объяснение ошибки в виде текста и числовую оценку
. Именно эта модель генерирует числовые параметры:
Награду
.
Базовую линию
(скаляр, усреднённое по батчу).
Преимущество
Локальную температуру
(при необходимости динамически адаптируемую).
2. Вычисление и генерация параметров критиком
Награда
— скаляр, который критик выводит как функцию от текста объяснения.
Базовая линия
— агрегатная статистика (mean), которую критик суммирует по нескольким сгенерированным ответам на тот же ss. Также рассчитана и выведена моделью.
Преимущество
— разница, рассчитанная внутри критика.
Весовая функция:
,
где
— либо фиксированная гиперпараметрическая температура, либо динамическая величина, тоже сгенерированная критиком на основе центральной дисперсии
.
Важно: Все эти числовые величины — результаты работы генеративного критика. Их можно логировать и анализировать отдельно.
3. LoRA‑fine‑tuning: интеграция параметров в веса
Низкоранговая адаптация
В каждом слое трансформера (политики и критика) присутствуют дополнительные матрицы
Полные параметры:
, аналогично для
Обучение LoRA‑весов
Градиенты
поступают только в LoRA‑модули. Базовая модель θ0,ϕ0\theta_0, \phi_0 остаётся замороженной.
LoRA‑модули обучаются методом SGD/Adam с малыми learning rate (обычно
, что позволяет:
Сохранять языковые и генеративные способности исходной модели.
Быстро адаптироваться под специфические reward‑сигналы.
Встраивание critic‑параметров
Значения
используются как масштабные коэффициенты в терминах потерь:
Градиент этой функции порождает обновления LoRA‑матриц пропорционально critic‑оценкам.
Практические детали
Размерность LoRA: обычно r=4r=4–1616 в зависимости от бюджета.
Частота обновлений: каждые N шагов актёр-генерации (например, N=1–4).
Механизм накопления: critic может запоминать статистики
,
в буфере, чтобы динамически регулировать
.
4. Обновлённые функции потерь и алгоритм
Алгоритм на каждой итерации:
Сэмплировать батч
Генерировать
Критик выдаёт
Обновить LoRA-критика по
Обновить LoRA-политику по

Deep Research и Multi-Agent system
Как вы наверное слышали-Grok 4 прошел бенчмарк Humanity Last Exam с помощью мультиагентной системы.Я реализовал для моей модели тоже самое.Сначала модель парралельно генерирует 4 разных ответа, потом также модель критик совмещает лучшее из всех 4 ответов.Также был разработан Deep Research для этой модели.Код этих методов есть на hf карточки моей модели.
Набор обучающих данных
Я использовал набор данных из тысячи вопросов по разным научным сферам-технические, естественно научные, гуманитарные.Далее я создал мета промпт на тысячи строк и по обучению модель снова просматривала этот набор данных из вопросов и понимала как лучше отвечать на них.
Бенчмарки
К сожалению ресурсов было мало,поэтому я успел пройти только один тест- IMO 2025 и сравнили с gemini 2.5 pro.Я попросил сравнить правильный ответ, модель гемини и ответ моей модели у chatgpt 4.1.
№ |
Задача (кратко) |
Модель |
Корр. |
Полнота |
Строгость |
Структура |
Случаи |
Финал |
Среднее |
---|---|---|---|---|---|---|---|---|---|
1 |
Функции на простых делителях |
7B |
35% |
30% |
25% |
40% |
25% |
55% |
35% |
Gemini |
90% |
95% |
90% |
85% |
90% |
95% |
91% |
||
2 |
Бонза-функции |
7B |
30% |
25% |
20% |
40% |
15% |
50% |
30% |
Gemini |
85% |
90% |
90% |
80% |
95% |
95% |
89% |
||
3 |
Предшественники по делителям |
7B |
25% |
30% |
20% |
45% |
20% |
55% |
33% |
Gemini |
90% |
95% |
95% |
85% |
90% |
95% |
92% |
||
4 |
Игра с неравенствами |
7B |
35% |
30% |
25% |
50% |
20% |
60% |
37% |
Gemini |
88% |
92% |
90% |
85% |
92% |
93% |
90% |
||
5 |
Tiling на решётке |
7B |
40% |
35% |
30% |
55% |
25% |
65% |
42% |
Gemini |
92% |
95% |
93% |
88% |
94% |
96% |
93% |
||
6 |
Задача с бесконечным путём |
7B |
28% |
25% |
20% |
50% |
15% |
55% |
32% |
Gemini |
87% |
90% |
88% |
85% |
90% |
92% |
88% |
Да, вы скажете что gemini лучше LiberalMind 1.5 примерно в 2 раза.Но прогон был один раз, гемини 4 раза, а также специально был поставлено ограничение токенов в 4000 тысячи, с мультиагентной системой по бенчмаркам они сравнятся.
Результаты с GigaChat 2 MAX
Критерий |
Твое решение |
GigaChat |
Победитель |
---|---|---|---|
1. Корректность |
Всё верно, каждый случай доказан или построен |
Есть интуиции и идеи, но нет полной уверенности |
✅ LiberalMind |
2. Полнота перебора kk |
Явно показано, что возможны все k∈[0,n]k \in [0, n] |
Говорится о "диапазоне значений", но без явного вывода |
✅ LiberalMind |
3. Структура изложения |
Чётко: шаги, случаи, вывод |
Много "рассуждений", разбросанный текст |
✅ LiberalMind |
4. Геометрическая строгость |
Есть примеры, объяснение, покрытия |
Рассуждения более высокоуровневые, абстрактные |
✅ LiberalMind |
5. Стиль (академичность) |
Аккуратное оформление, чёткие заголовки |
Более "эссе"-подобный стиль |
зависит от цели |
6. Финальный ответ |
Чёткий: 0,1,2,…,n\boxed{0, 1, 2, \ldots, n} |
Размытый: "в определённом диапазоне" |
✅ LiberalMind |
Тесты проводились открыто,вы также можете проверить сайт с задачами IMO 2025: https://matharena.ai/ Далее скачиваете мою модель, модель с открытыми весами: https://huggingface.co/liberalusa/LiberalMind_v1.5
Итог
Проделана огромная работа, создатель этой модели- автор этой статьи, 17 летний школьник,модель разработана на основе qwen 2.5 7B, единственные ресурсы обучения: подписка гугл колаб, которой давалось несколько часов Nvidia GPU A100 40GB.Если вы заинтересовались моей статьей и моей моделью, можете со мной связаться по поводу помощи в развитии модели или по предложению работы.Телеграм @Quloneco
Спасибо за прочтение!