LiberalMind 1.5- LLM на уровне Gemini 2.5, созданная в России

С чего все начиналось?

Сама идея возникла еще год назад.Хотелось создать LLM, которая будет больше всего приближена к AGI.В октябре 2024 было разработано и продумано несколько систем претрейна моделей,а также их дообучение и reinforcement learning системы.Также была разработана новая система декодера на основе декодировщика ROPE.Но к сожалению ресурсов на внедрение таких технологий хватало лишь на модели до 20M параметров,что означало и маленький набор данных для обучения,поэтому смысла в этом ине было.

В апреле был разработан опенсорс агент на основе гемини,который с помощью технологии нескольких вариантов ответа и их анализа был по качеству намного лучше grmini 2.5 pro, хотя агент был разработан на основе gemini 2.0.Агент был назван LiberalMind 1.0

Как я обучал LiberalMind 1.5?

Теперь перейдем именно к этой модели.Обучение построено на технологии GMPO-( Generative Model Policy Optimization ).Кратко опишу как он работает.

это современный метод в Reinforcement Learning, особенно актуальный в задачах offline RL и обучения генеративных политик (например, для языковых моделей).

Он был предложен как более простой, интерпретируемый и эффективный способ RL-обучения без сложных градиентов или value-функций.

Вместо того чтобы использовать классические методы, такие как:

PPO (Proximal Policy Optimization) — с критиком и актором;
QLearning / SAC / DDPG — с обучением функции ценности (value),

GMPO использует advantage-weighted supervised learning — регрессию на действия, взвешенную по преимуществу (advantage), без value-функции.

Формально:

где:

— преимущество (advantage), может быть заранее посчитано;
— весовая функция, например: $softmax(A/β)\text{softmax}(A / \beta)softmax(A/β);$
$πθ\pi_\thetaπθ$ — параметризованная политика.

⚙️ Как работает GMPO (по шагам)

Сбор данных из offline датасета: (s,a,r)(s, a, r)(s,a,r).
Оценка advantages для каждого действия (например, с использованием reward или других техник).
Переобучение политики: политика обучается имитировать действия из набора, взвешивая их по преимуществу.
Регуляризация — можно использовать KL-дивергенцию к начальной политике.

В чем суть моего метода обучения?

1. Архитектура и роли моделей

Политика (Actor)
- Генеративный трансформер с параметрами $θ=θ0+Δθ\theta = \theta_0 + \Delta\theta, где Δθ\Delta\theta$ задаётся низкоранговыми LoRA‑модулями.
- На входе состояние , на выходе распределение действий $πθ(a∣s)\pi_\theta(a\mid s)$ .
Генеративный Критик (Generative Critic)
- Тот же тип архитектуры (трансформер) с параметрами $ϕ=ϕ0+Δϕ\phi = \phi_0 + \Delta\phi, где Δϕ\Delta\phi$ — LoRA‑модули критика.
- Принимает на вход:
  1. Состояние (контекст или префикс).
  2. Предсказание актёра aa.
  3. Истинный ("правильный") ответ
- Выдаёт объяснение ошибки в виде текста и числовую оценку $Cϕ(s,a,a∗)C_\phi(s,a,a^*)$ . Именно эта модель генерирует числовые параметры:
  - Награду $r=−Cϕ(s,a,a∗)r=-C_\phi(s,a,a^*)$ .
  - Базовую линию (скаляр, усреднённое по батчу).
  - Преимущество Локальную температуру $β\beta$ (при необходимости динамически адаптируемую).

2. Вычисление и генерация параметров критиком

Награда $r(s,a,a∗)=−Cϕ(s,a,a∗)r(s,a,a^*)=-C_\phi(s,a,a^*)$ — скаляр, который критик выводит как функцию от текста объяснения.
Базовая линия — агрегатная статистика (mean), которую критик суммирует по нескольким сгенерированным ответам на тот же ss. Также рассчитана и выведена моделью.
Преимущество — разница, рассчитанная внутри критика.
Весовая функция:
$w(A)=exp⁡(A/β)∑iexp⁡(Ai/β), w(A)=\frac{\exp(A/\beta)}{\sum_{i}\exp(A_i/\beta)}$ ,
где $β\beta$ — либо фиксированная гиперпараметрическая температура, либо динамическая величина, тоже сгенерированная критиком на основе центральной дисперсии ${Ai}\{A_i\}$ .

Важно: Все эти числовые величины — результаты работы генеративного критика. Их можно логировать и анализировать отдельно.

3. LoRA‑fine‑tuning: интеграция параметров в веса

Низкоранговая адаптация
- В каждом слое трансформера (политики и критика) присутствуют дополнительные матрицы $WU(l)∈Rd×rW_U^{(l)}\in\mathbb{R}^{d\times r} и WV(l)∈Rr×dW_V^{(l)}\in\mathbb{R}^{r\times d} (ранг r≪dr\ll d).$
- Полные параметры: $θ=θ0+∑lWU(l)WV(l)\theta=\theta_0 + \sum_l W_U^{(l)} W_V^{(l)}$ , аналогично для $ϕ\phi.$
Обучение LoRA‑весов
- Градиенты $∇θL(θ)\nabla_\theta \mathcal{L}(\theta) и ∇ϕL(ϕ)\nabla_\phi \mathcal{L}(\phi)$ поступают только в LoRA‑модули. Базовая модель θ0,ϕ0\theta_0, \phi_0 остаётся замороженной.
- LoRA‑модули обучаются методом SGD/Adam с малыми learning rate (обычно $10−510^{-5}–10−410^{-4})$ , что позволяет:
  - Сохранять языковые и генеративные способности исходной модели.
  - Быстро адаптироваться под специфические reward‑сигналы.
Встраивание critic‑параметров
- Значения $w(A),λKL,βw(A), \lambda_{\text{KL}}, \beta$ используются как масштабные коэффициенты в терминах потерь:
- Градиент этой функции порождает обновления LoRA‑матриц пропорционально critic‑оценкам.
Практические детали
- Размерность LoRA: обычно r=4r=4–1616 в зависимости от бюджета.
- Частота обновлений: каждые N шагов актёр-генерации (например, N=1–4).
- Механизм накопления: critic может запоминать статистики , $\mathrm{Var}(A)$ в буфере, чтобы динамически регулировать $β\beta$ .

4. Обновлённые функции потерь и алгоритм

Алгоритм на каждой итерации:

Сэмплировать батч ${(si,ai∗)}\{(s_i,a^*_i)\}.$
Генерировать $ai∼πθ(⋅∣si)a_i \sim \pi_{\theta}(\cdot\mid s_i).$
Критик выдаёт $Cϕ,b,A,βC_\phi, b, A, \beta.$
Обновить LoRA-критика по $∇ϕL(ϕ)\nabla_\phi \mathcal{L}(\phi).$ Обновить LoRA-политику по $∇θL(θ)\nabla_\theta \mathcal{L}(\theta).$

Результаты сравнения правильности ответа по KL дивергенции и всего метода обновленного GMPO

Deep Research и Multi-Agent system

Как вы наверное слышали-Grok 4 прошел бенчмарк Humanity Last Exam с помощью мультиагентной системы.Я реализовал для моей модели тоже самое.Сначала модель парралельно генерирует 4 разных ответа, потом также модель критик совмещает лучшее из всех 4 ответов.Также был разработан Deep Research для этой модели.Код этих методов есть на hf карточки моей модели.

Набор обучающих данных

Я использовал набор данных из тысячи вопросов по разным научным сферам-технические, естественно научные, гуманитарные.Далее я создал мета промпт на тысячи строк и по обучению модель снова просматривала этот набор данных из вопросов и понимала как лучше отвечать на них.

Бенчмарки

К сожалению ресурсов было мало,поэтому я успел пройти только один тест- IMO 2025 и сравнили с gemini 2.5 pro.Я попросил сравнить правильный ответ, модель гемини и ответ моей модели у chatgpt 4.1.

№	Задача (кратко)	Модель	Корр.	Полнота	Строгость	Структура	Случаи	Финал	Среднее
1	Функции на простых делителях	7B	35%	30%	25%	40%	25%	55%	35%
		Gemini	90%	95%	90%	85%	90%	95%	91%
2	Бонза-функции	7B	30%	25%	20%	40%	15%	50%	30%
		Gemini	85%	90%	90%	80%	95%	95%	89%
3	Предшественники по делителям	7B	25%	30%	20%	45%	20%	55%	33%
		Gemini	90%	95%	95%	85%	90%	95%	92%
4	Игра с неравенствами	7B	35%	30%	25%	50%	20%	60%	37%
		Gemini	88%	92%	90%	85%	92%	93%	90%
5	Tiling на решётке	7B	40%	35%	30%	55%	25%	65%	42%
		Gemini	92%	95%	93%	88%	94%	96%	93%
6	Задача с бесконечным путём	7B	28%	25%	20%	50%	15%	55%	32%
		Gemini	87%	90%	88%	85%	90%	92%	88%

Да, вы скажете что gemini лучше LiberalMind 1.5 примерно в 2 раза.Но прогон был один раз, гемини 4 раза, а также специально был поставлено ограничение токенов в 4000 тысячи, с мультиагентной системой по бенчмаркам они сравнятся.

Результаты с GigaChat 2 MAX

Критерий	Твое решение	GigaChat	Победитель
1. Корректность	Всё верно, каждый случай доказан или построен	Есть интуиции и идеи, но нет полной уверенности	✅ LiberalMind
2. Полнота перебора kk	Явно показано, что возможны все k∈[0,n]k \in [0, n]	Говорится о "диапазоне значений", но без явного вывода	✅ LiberalMind
3. Структура изложения	Чётко: шаги, случаи, вывод	Много "рассуждений", разбросанный текст	✅ LiberalMind
4. Геометрическая строгость	Есть примеры, объяснение, покрытия	Рассуждения более высокоуровневые, абстрактные	✅ LiberalMind
5. Стиль (академичность)	Аккуратное оформление, чёткие заголовки	Более "эссе"-подобный стиль	зависит от цели
6. Финальный ответ	Чёткий: 0,1,2,…,n\boxed{0, 1, 2, \ldots, n}	Размытый: "в определённом диапазоне"	✅ LiberalMind

Тесты проводились открыто,вы также можете проверить сайт с задачами IMO 2025: https://matharena.ai/ Далее скачиваете мою модель, модель с открытыми весами: https://huggingface.co/liberalusa/LiberalMind_v1.5

Итог

Проделана огромная работа, создатель этой модели- автор этой статьи, 17 летний школьник,модель разработана на основе qwen 2.5 7B, единственные ресурсы обучения: подписка гугл колаб, которой давалось несколько часов Nvidia GPU A100 40GB.Если вы заинтересовались моей статьей и моей моделью, можете со мной связаться по поводу помощи в развитии модели или по предложению работы.Телеграм @Quloneco

Спасибо за прочтение!

Темы и теги

Россия Наука и Технологии

модель AGI gemini llm генеративный learning reinforcement Deep Research