> For the complete documentation index, see [llms.txt](https://minara.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://minara.ai/docs/minara-handbook/ru/tekhnologii/dmind/training-methods.md).

# Методы обучения

Модели DMind объединяют два оригинальных метода обучения (HPS и C³-SFT) со стандартными методами, такими как SFT, RLHF, LoRA и дистилляция. На этой странице кратко рассматривается каждый из них и отмечается, какая модель что использует.

## Базовые модели

<table><thead><tr><th width="98.546875">Серия</th><th width="96.9140625">Параметры</th><th width="158.96484375">База</th><th width="96.515625">Поставщик базовой модели</th><th>Роль</th></tr></thead><tbody><tr><td>DMind-3</td><td>21B</td><td>gpt-oss-20b</td><td>ChatGPT</td><td>Облачная и корпоративная макростратегическая финансовая система для системного риска, кроссчейн-нарративов, институциональных исследований и оркестрации агентов.</td></tr><tr><td>DMind-3</td><td>4B</td><td><a href="https://huggingface.co/Qwen/Qwen3.5-4B">Qwen3.5-4B</a></td><td>Qwen</td><td>Локальная модель финансового моделирования и стратегического рассуждения. Приватность прежде всего, доступна офлайн, с глубоким рассуждением на устройстве.</td></tr><tr><td>DMind-3</td><td>270M</td><td><a href="https://huggingface.co/google/functiongemma-270m-it">functiongemma-270m-it</a></td><td>Gemini</td><td>Распознавание намерений кошелька и DEX на устройстве, а также вызов функций. Поддерживает SEARCH_TOKEN и EXECUTE_SWAP, мультичейн и намерения на китайском/английском.</td></tr><tr><td>DMind-2</td><td>107B</td><td>GLM-4.5-Air</td><td>GLM</td><td>Флагманская модель для анализа криптоинвестиций. Охватывает макротренды через ончейн-поведение, для профессионального консультирования и институционального анализа.</td></tr><tr><td>DMind-2</td><td>4B</td><td>Qwen3-4B-Thinking-2507</td><td>Qwen</td><td>Лёгкая модель для анализа криптоинвестиций для локального и edge-развертывания, с соблюдением приватности и низкой задержкой.</td></tr><tr><td>DMind-1</td><td>33B</td><td>Qwen3-32B</td><td>Qwen</td><td>Экспертная модель Web3 для DeFi, токеномики, управления и вопросов и ответов по смарт-контрактам и рассуждений.</td></tr><tr><td>DMind-1</td><td>15B</td><td>Qwen3-14B</td><td>Qwen</td><td>Облегчённая дистиллированная версия DMind-1. Подходит для малозадержанных Q&#x26;A в реальном времени, ончейн-анализа и лёгких агентов.</td></tr></tbody></table>

Использование моделей DMind требует соблюдения как Лицензионного соглашения модели DMind, так и исходной лицензии базовой модели.

## Стандартные методы

### Обучение с учителем с донастройкой (SFT)

Базовый метод. Сопоставляет вопросы с эталонными ответами и обучает модель им соответствовать. Первый этап обучения DMind-1 использует SFT.

### LoRA (Low-Rank Adaptation)

Эффективный по параметрам способ выполнять SFT. Вместо обновления всех параметров модели LoRA добавляет к каждому слою небольшую пару матриц низкого ранга и обучает только их. Это снижает стоимость обучения на порядок или больше. DMind-1 использует LoRA для SFT. Контролируемые эксперименты в статье с бенчмарками также используют LoRA с рангом 16 и alpha 32.

### RLHF и PPO

Обучение с подкреплением на основе человеческой обратной связи. Сначала обучают модель вознаграждения на данных человеческих предпочтений (ответ A лучше, чем ответ B на этот вопрос). Затем используют эту модель вознаграждения как обучающий сигнал для оптимизации основной модели с помощью PPO (Proximal Policy Optimization) — той же техники, которая использовалась, чтобы превратить GPT-3 в ChatGPT. На втором этапе обучения DMind-1 используется эта пара.

### Дистилляция знаний

Небольшая модель-ученик учится у большой модели-учителя. DMind-1-mini дистиллирован от двух учителей: самого DMind-1 и общей SOTA-модели (пропущенной через фреймворк DeepResearch от DMind для приведения её выходов к Web3-контекстам). Дистилляция работает на трёх уровнях. Ученик сопоставляет финальные выходы учителя, полное распределение вероятностей учителя по каждому токену и выравнивает представления промежуточных слоёв.

## Два оригинальных метода DMind

### HPS (Иерархический прогнозирующий синтез)

Целевая функция обучения, лежащая в основе DMind-3 (21B). HPS учит Oracle рассуждать по слоистой структуре входных данных. Внизу находятся сырые ончейн-события, такие как конкретные транзакции и вызовы контрактов. В середине — агрегированные рыночные индикаторы. На вершине — макросигналы, такие как политика ФРС, CPI и геополитические события.

Для каждой модальности входа модель учится предсказывать следующее глобальное состояние рынка. Функция потерь обучения сочетает многомодальное взвешенное правдоподобие и регуляризующий член, который штрафует слишком сильное отклонение от параметров базовой модели. Регуляризация нужна, чтобы предотвратить катастрофическое забывание, чтобы модель могла специализироваться в финансах, не теряя общих языковых способностей.

HPS также даёт Oracle двухрежимный переключатель вывода. Стандартный режим возвращает прямой ответ. Специальный `[СТРАТЕГИЯ]` токен переводит модель в стратегический режим, где она дополнительно учитывает пути риска и извлекает исторически похожие сценарии перед ответом. Быстрое и медленное мышление, управляемое вызывающей стороной.

### C³-SFT (Контрастивный SFT по цепочке исправлений)

Метод обучения, лежащий в основе DMind-3-Mini (4B). C³-SFT построен вокруг одной проблемы. Небольшая модель, уверенно заявляющая что-то неверное, опаснее модели, которая признаёт неопределённость.

Стандартный SFT обучает модель выдавать правильный ответ на основе вопроса. C³-SFT превращает обучающие данные в четырёхшаговые цепочки. Цепочка начинается с вопроса, затем идёт первоначальный ответ, который выглядит правдоподобно, но содержит ошибки, затем явная критика, указывающая, что именно упустил первоначальный ответ (например, риск манипуляции оракулом, который не был учтён), затем исправленный ответ, учитывающий критику.

Модель учится выполнять все четыре шага. Во время вывода это превращается в поведение самопроверки. Модель даёт первоначальный ответ, критикует его сама и пересматривает. «Контрастивная» часть названия связана с тем, что в ходе обучения модели показывают и правильные, и типично неправильные ответы, чтобы она научилась распознавать конкретную форму сбоев.

Это облегчённая версия подхода к рассуждению System-2, который более крупные модели реализуют с помощью отдельных токенов мышления. Встраивание его напрямую в модель 4B и позволяет Mini работать на устройстве пользователя, сохраняя при этом защитный механизм.

## Обучающие данные

Обучающие данные DMind-1 — это 13 276 экспертно отобранных элементов знаний, дистиллированных из 32,7 ГБ исходных Web3-документов по DeFi, токеномике, управлению, смарт-контрактам, архитектуре Layer-1/2, NFT, DAO и безопасности.

Обучающие данные DMind-3 больше и структурированнее:

| Источник                             | Доля | Что это                                                                                                              |
| ------------------------------------ | ---- | -------------------------------------------------------------------------------------------------------------------- |
| Институциональные исследования альфы | 35%  | Отчёты крипто-нативных фондов и TradFi, декомпозированные с помощью причинной модели                                 |
| Глобальные макроэкономические данные | 25%  | Временные ряды из FRED, Всемирного банка, МВФ, объединённые с ончейн-индикаторами                                    |
| Данные кроссчейн-индексов            | 20%  | Полная история транзакций, состояний и логов по основным EVM-цепочкам, Solana, Cosmos                                |
| Разборы инцидентов и аудиты          | 10%  | Системные сбои, экономические атаки, взломы протоколов, с акцентом на ранние сигналы и пути заражения                |
| Геополитика и регулирование          | 10%  | Глобальные изменения в регулировании, политические предложения, геополитические события, влияющие на цифровые активы |

Итого: более 500 000 отобранных документов, плюс структурированные ончейн-данные объёмом в несколько терабайт.

Все обучающие данные проверяются отраслевыми экспертами, а не собираются автоматически с веб-скрейпингом. Критерии отбора опубликованы в карточках моделей и статьях.


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://minara.ai/docs/minara-handbook/ru/tekhnologii/dmind/training-methods.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
