LiberalMind 1.5- LLM на уровне Gemini 2.5, созданная в России

С чего все начиналось?

Сама идея возникла еще год назад.Хотелось создать LLM, которая будет больше всего приближена к AGI.В октябре 2024 было разработано и продумано несколько систем претрейна моделей,а также их дообучение и reinforcement learning системы.Также была разработана новая система декодера на основе декодировщика ROPE.Но к сожалению ресурсов на внедрение таких технологий хватало лишь на модели до 20M параметров,что означало и маленький набор данных для обучения,поэтому смысла в этом ине было.

В апреле был разработан опенсорс агент на основе гемини,который с помощью технологии нескольких вариантов ответа и их анализа был по качеству намного лучше grmini 2.5 pro, хотя агент был разработан на основе gemini 2.0.Агент был назван LiberalMind 1.0

Как я обучал LiberalMind 1.5?

Теперь перейдем именно к этой модели.Обучение построено на технологии GMPO-( Generative Model Policy Optimization ).Кратко опишу как он работает.

это современный метод в Reinforcement Learning, особенно актуальный в задачах offline RL и обучения генеративных политик (например, для языковых моделей).

Он был предложен как более простой, интерпретируемый и эффективный способ RL-обучения без сложных градиентов или value-функций.

Вместо того чтобы использовать классические методы, такие как:

  • PPO (Proximal Policy Optimization) — с критиком и актором;

  • QLearning / SAC / DDPG — с обучением функции ценности (value),

GMPO использует advantage-weighted supervised learning — регрессию на действия, взвешенную по преимуществу (advantage), без value-функции.

Формально:

где:

  • AAA — преимущество (advantage), может быть заранее посчитано;

  • w(A)w(A)w(A) — весовая функция, например: softmax(A/β)\text{softmax}(A / \beta)softmax(A/β);

  • πθ\pi_\thetaπθ​ — параметризованная политика.

⚙️ Как работает GMPO (по шагам)

  1. Сбор данных из offline датасета: (s,a,r)(s, a, r)(s,a,r).

  2. Оценка advantages для каждого действия (например, с использованием reward или других техник).

  3. Переобучение политики: политика обучается имитировать действия из набора, взвешивая их по преимуществу.

  4. Регуляризация — можно использовать KL-дивергенцию к начальной политике.

В чем суть моего метода обучения?

1. Архитектура и роли моделей

  1. Политика (Actor)

    • Генеративный трансформер с параметрами θ=θ0+Δθ\theta = \theta_0 + \Delta\theta, где Δθ\Delta\theta задаётся низкоранговыми LoRA‑модулями.

    • На входе состояние ss, на выходе распределение действий πθ(a∣s)\pi_\theta(a\mid s).

  2. Генеративный Критик (Generative Critic)

    • Тот же тип архитектуры (трансформер) с параметрами ϕ=ϕ0+Δϕ\phi = \phi_0 + \Delta\phi, где Δϕ\Delta\phi — LoRA‑модули критика.

    • Принимает на вход:

      1. Состояние ss (контекст или префикс).

      2. Предсказание актёра aa.

      3. Истинный ("правильный") ответ a∗a^*.

    • Выдаёт объяснение ошибки в виде текста и числовую оценку Cϕ(s,a,a∗)C_\phi(s,a,a^*). Именно эта модель генерирует числовые параметры:

      • Награду r=−Cϕ(s,a,a∗)r=-C_\phi(s,a,a^*).

      • Базовую линию b(s)b(s) (скаляр, усреднённое по батчу).

      • Преимущество A(s,a)=r−b(s)A(s,a)=r-b(s).Локальную температуру β\beta (при необходимости динамически адаптируемую).


2. Вычисление и генерация параметров критиком

  1. Награда r(s,a,a∗)=−Cϕ(s,a,a∗)r(s,a,a^*)=-C_\phi(s,a,a^*) — скаляр, который критик выводит как функцию от текста объяснения.

  2. Базовая линия b(s)b(s) — агрегатная статистика (mean), которую критик суммирует по нескольким сгенерированным ответам на тот же ss. Также рассчитана и выведена моделью.

  3. Преимущество A(s,a)=r−b(s)A(s,a)=r-b(s) — разница, рассчитанная внутри критика.

  4. Весовая функция:

    w(A)=exp⁡(A/β)∑iexp⁡(Ai/β),  w(A)=\frac{\exp(A/\beta)}{\sum_{i}\exp(A_i/\beta)},

    где β\beta — либо фиксированная гиперпараметрическая температура, либо динамическая величина, тоже сгенерированная критиком на основе центральной дисперсии {Ai}\{A_i\}.

Важно: Все эти числовые величины — результаты работы генеративного критика. Их можно логировать и анализировать отдельно.


3. LoRA‑fine‑tuning: интеграция параметров в веса

  1. Низкоранговая адаптация

    • В каждом слое трансформера (политики и критика) присутствуют дополнительные матрицы WU(l)∈Rd×rW_U^{(l)}\in\mathbb{R}^{d\times r} и WV(l)∈Rr×dW_V^{(l)}\in\mathbb{R}^{r\times d} (ранг r≪dr\ll d).

    • Полные параметры: θ=θ0+∑lWU(l)WV(l)\theta=\theta_0 + \sum_l W_U^{(l)} W_V^{(l)}, аналогично для ϕ\phi.

  2. Обучение LoRA‑весов

    • Градиенты ∇θL(θ)\nabla_\theta \mathcal{L}(\theta) и ∇ϕL(ϕ)\nabla_\phi \mathcal{L}(\phi) поступают только в LoRA‑модули. Базовая модель θ0,ϕ0\theta_0, \phi_0 остаётся замороженной.

    • LoRA‑модули обучаются методом SGD/Adam с малыми learning rate (обычно 10−510^{-5}–10−410^{-4}), что позволяет:

      • Сохранять языковые и генеративные способности исходной модели.

      • Быстро адаптироваться под специфические reward‑сигналы.

  3. Встраивание critic‑параметров

    • Значения w(A),λKL,βw(A), \lambda_{\text{KL}}, \beta используются как масштабные коэффициенты в терминах потерь:

    • Градиент этой функции порождает обновления LoRA‑матриц пропорционально critic‑оценкам.

  4. Практические детали

    • Размерность LoRA: обычно r=4r=4–1616 в зависимости от бюджета.

    • Частота обновлений: каждые N шагов актёр-генерации (например, N=1–4).

    • Механизм накопления: critic может запоминать статистики b(s),Var(A)b(s), \mathrm{Var}(A) в буфере, чтобы динамически регулировать β\beta.


4. Обновлённые функции потерь и алгоритм

Алгоритм на каждой итерации:

  1. Сэмплировать батч {(si,ai∗)}\{(s_i,a^*_i)\}.

  2. Генерировать ai∼πθ(⋅∣si)a_i \sim \pi_{\theta}(\cdot\mid s_i).

  3. Критик выдаёт Cϕ,b,A,βC_\phi, b, A, \beta.

  4. Обновить LoRA-критика по ∇ϕL(ϕ)\nabla_\phi \mathcal{L}(\phi).Обновить LoRA-политику по ∇θL(θ)\nabla_\theta \mathcal{L}(\theta).


Результаты сравнения правильности ответа по KL дивергенции и всего метода обновленного GMPO
Результаты сравнения правильности ответа по KL дивергенции и всего метода обновленного GMPO

Deep Research и Multi-Agent system

Как вы наверное слышали-Grok 4 прошел бенчмарк Humanity Last Exam с помощью мультиагентной системы.Я реализовал для моей модели тоже самое.Сначала модель парралельно генерирует 4 разных ответа, потом также модель критик совмещает лучшее из всех 4 ответов.Также был разработан Deep Research для этой модели.Код этих методов есть на hf карточки моей модели.

Набор обучающих данных

Я использовал набор данных из тысячи вопросов по разным научным сферам-технические, естественно научные, гуманитарные.Далее я создал мета промпт на тысячи строк и по обучению модель снова просматривала этот набор данных из вопросов и понимала как лучше отвечать на них.

Бенчмарки

К сожалению ресурсов было мало,поэтому я успел пройти только один тест- IMO 2025 и сравнили с gemini 2.5 pro.Я попросил сравнить правильный ответ, модель гемини и ответ моей модели у chatgpt 4.1.

Задача (кратко)

Модель

Корр.

Полнота

Строгость

Структура

Случаи

Финал

Среднее

1

Функции на простых делителях

7B

35%

30%

25%

40%

25%

55%

35%

Gemini

90%

95%

90%

85%

90%

95%

91%

2

Бонза-функции

7B

30%

25%

20%

40%

15%

50%

30%

Gemini

85%

90%

90%

80%

95%

95%

89%

3

Предшественники по делителям

7B

25%

30%

20%

45%

20%

55%

33%

Gemini

90%

95%

95%

85%

90%

95%

92%

4

Игра с неравенствами

7B

35%

30%

25%

50%

20%

60%

37%

Gemini

88%

92%

90%

85%

92%

93%

90%

5

Tiling на решётке

7B

40%

35%

30%

55%

25%

65%

42%

Gemini

92%

95%

93%

88%

94%

96%

93%

6

Задача с бесконечным путём

7B

28%

25%

20%

50%

15%

55%

32%

Gemini

87%

90%

88%

85%

90%

92%

88%

Да, вы скажете что gemini лучше LiberalMind 1.5 примерно в 2 раза.Но прогон был один раз, гемини 4 раза, а также специально был поставлено ограничение токенов в 4000 тысячи, с мультиагентной системой по бенчмаркам они сравнятся.

Результаты с GigaChat 2 MAX

Критерий

Твое решение

GigaChat

Победитель

1. Корректность

Всё верно, каждый случай доказан или построен

Есть интуиции и идеи, но нет полной уверенности

LiberalMind

2. Полнота перебора kk

Явно показано, что возможны все k∈[0,n]k \in [0, n]

Говорится о "диапазоне значений", но без явного вывода

LiberalMind

3. Структура изложения

Чётко: шаги, случаи, вывод

Много "рассуждений", разбросанный текст

LiberalMind

4. Геометрическая строгость

Есть примеры, объяснение, покрытия

Рассуждения более высокоуровневые, абстрактные

LiberalMind

5. Стиль (академичность)

Аккуратное оформление, чёткие заголовки

Более "эссе"-подобный стиль

зависит от цели

6. Финальный ответ

Чёткий: 0,1,2,…,n\boxed{0, 1, 2, \ldots, n}

Размытый: "в определённом диапазоне"

LiberalMind

Тесты проводились открыто,вы также можете проверить сайт с задачами IMO 2025: https://matharena.ai/ Далее скачиваете мою модель, модель с открытыми весами: https://huggingface.co/liberalusa/LiberalMind_v1.5

Итог

Проделана огромная работа, создатель этой модели- автор этой статьи, 17 летний школьник,модель разработана на основе qwen 2.5 7B, единственные ресурсы обучения: подписка гугл колаб, которой давалось несколько часов Nvidia GPU A100 40GB.Если вы заинтересовались моей статьей и моей моделью, можете со мной связаться по поводу помощи в развитии модели или по предложению работы.Телеграм @Quloneco

Спасибо за прочтение!