> For the complete documentation index, see [llms.txt](https://minara.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://minara.ai/docs/minara-handbook/zh/ji-shu/dmind/training-methods.md).

# 训练方法

DMind 的模型将两种原创训练方法（HPS 和 C³-SFT）与 SFT、RLHF、LoRA 和蒸馏等标准方法相结合。本页会对每种方法做简要介绍，并注明各模型使用了什么方法。

## 基础模型

<table><thead><tr><th width="98.546875">系列</th><th width="96.9140625">参数量</th><th width="158.96484375">基础</th><th width="96.515625">基础提供方</th><th>角色</th></tr></thead><tbody><tr><td>DMind-3</td><td>210亿</td><td>gpt-oss-20b</td><td>ChatGPT</td><td>面向云端和企业 VPC 的宏观策略金融引擎，用于系统性风险、跨链叙事、机构研究和智能体编排。</td></tr><tr><td>DMind-3</td><td>40亿</td><td><a href="https://huggingface.co/Qwen/Qwen3.5-4B">Qwen3.5-4B</a></td><td>Qwen</td><td>本地金融建模与策略推理模型。优先保护隐私，可离线使用，支持端侧深度推理。</td></tr><tr><td>DMind-3</td><td>2.7亿</td><td><a href="https://huggingface.co/google/functiongemma-270m-it">functiongemma-270m-it</a></td><td>Gemini</td><td>端侧钱包与 DEX 意图识别及函数调用。支持 SEARCH_TOKEN 和 EXECUTE_SWAP，支持多链，并支持中文/英文意图。</td></tr><tr><td>DMind-2</td><td>1070亿</td><td>GLM-4.5-Air</td><td>GLM</td><td>旗舰级加密投资分析模型。通过链上行为覆盖宏观趋势，面向专业投顾和机构分析。</td></tr><tr><td>DMind-2</td><td>40亿</td><td>Qwen3-4B-Thinking-2507</td><td>Qwen</td><td>轻量级加密投资分析模型，适用于本地和边缘部署、隐私保护以及低延迟使用。</td></tr><tr><td>DMind-1</td><td>330亿</td><td>Qwen3-32B</td><td>Qwen</td><td>面向 DeFi、代币经济学、治理以及智能合约问答与推理的 Web3 专家模型。</td></tr><tr><td>DMind-1</td><td>150亿</td><td>Qwen3-14B</td><td>Qwen</td><td>DMind-1 的轻量级蒸馏版本。适合低延迟实时问答、链上分析和轻量级智能体。</td></tr></tbody></table>

使用 DMind 模型时，必须同时遵守 DMind 的模型协议以及底层基础模型的原始许可。

## 标准方法

### 监督微调（SFT）

基础方法。将问题与参考答案配对，并训练模型去匹配。DMind-1 的第一阶段训练使用 SFT。

### LoRA（低秩适配）

一种更高参数效率的 SFT 方式。LoRA 不更新模型的全部参数，而是在每一层添加一对小型低秩矩阵，并只训练这些矩阵。这可以将训练成本降低一个数量级甚至更多。DMind-1 在 SFT 中使用 LoRA。基准论文中的受控实验也使用了秩为 16、alpha 为 32 的 LoRA。

### RLHF 和 PPO

基于人类反馈的强化学习。首先，用人类偏好数据训练奖励模型（对于这个问题，答案 A 比答案 B 更好）。然后将该奖励模型作为训练信号，使用 PPO（近端策略优化）来优化主模型，这与将 GPT-3 变成 ChatGPT 所用的技术相同。DMind-1 的第二阶段训练使用了这对方法。

### 知识蒸馏

一个小型学生模型向大型教师模型学习。DMind-1-mini 是从双教师蒸馏而来：既包括 DMind-1 本身，也包括一个通用的 SOTA 模型（通过 DMind 的 DeepResearch 框架运行，以使其输出对齐到 Web3 场景）。蒸馏分为三个层次：学生匹配教师的最终输出，匹配教师对每个 token 的完整概率分布，并对齐中间层表示。

## DMind 的两种原创方法

### HPS（分层预测综合）

这是 DMind-3（210亿）的训练目标。HPS 教会 Oracle 在分层结构的输入上进行推理。底层是原始链上事件，例如具体交易和合约调用；中层是聚合后的市场指标；顶层是宏观信号，例如美联储政策、CPI 和地缘政治事件。

对于每种输入模态，模型都学习预测下一个全局市场状态。训练损失由多模态加权对数似然和正则化项组成，后者用于惩罚模型参数偏离基础模型过远。该正则项是为了防止灾难性遗忘，使模型能够在保持通用语言能力的同时专注于金融领域。

HPS 还为 Oracle 提供了一个双模式推理切换。标准模式返回直接答案。一个特殊的 `[STRATEGY]` token 会将模型切换到策略模式，在回答前额外考虑风险路径并检索历史相似场景。快思考与慢思考，由调用者控制。

### C³-SFT（对比式纠错链式微调）

这是 DMind-3-Mini（40亿）的训练方法。C³-SFT 围绕一个问题展开：一个自信地说错的“小模型”比一个承认不确定性的模型更危险。

标准 SFT 训练模型在给定问题时生成正确答案。C³-SFT 将训练数据改造成四步链：先是问题，然后是一个看似合理但有缺陷的初始答案，接着是一段明确的批评，指出初始答案遗漏了什么（例如，没有考虑到某种 Oracle 操纵风险），最后是一个修正后的答案，用于回应该批评。

模型学习生成这四个步骤。在推理时，这就转化为自我提问行为。模型先给出初始答案，再自我批评，然后修正。“对比式”这个名称来自于在训练中同时向模型展示正确答案和典型错误答案，使其学习到这些失败模式的具体形态。

这是系统 2 推理方法的轻量版本，大模型通过单独的思考 token 来实现这一点。将它直接放入 4B 模型中，正是 Mini 能在用户设备上运行并同时保留安全护栏的原因。

## 训练数据

DMind-1 的训练数据包含 13,276 条专家精选知识条目，源自 32.7GB 的 Web3 原始文档，覆盖 DeFi、代币经济学、治理、智能合约、Layer-1/2 架构、NFT、DAO 和安全。

DMind-3 的训练数据更大，也更结构化：

| 来源           | 占比  | 内容                                     |
| ------------ | --- | -------------------------------------- |
| 机构级 Alpha 研究 | 35% | 加密原生基金与传统金融报告，通过因果模型进行拆解               |
| 全球宏观经济数据     | 25% | 来自 FRED、世界银行、IMF 的时间序列，并与链上指标结合        |
| 跨链指数数据       | 20% | 涵盖主要 EVM 链、Solana、Cosmos 的完整交易、状态和日志历史 |
| 事故复盘与审计      | 10% | 系统性故障、经济攻击、协议黑客事件，重点关注早期信号和传染路径        |
| 地缘政治与监管      | 10% | 影响数字资产的全球监管变化、政策提案和地缘政治事件              |

总计：50万+ 精选文档，以及多 TB 级链上结构化数据。

所有训练数据都经过领域专家审核，而不是直接抓取。筛选标准已在模型卡和论文中公开。


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://minara.ai/docs/minara-handbook/zh/ji-shu/dmind/training-methods.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
系列	参数量	基础	基础提供方	角色
DMind-3	210亿	gpt-oss-20b	ChatGPT	面向云端和企业 VPC 的宏观策略金融引擎，用于系统性风险、跨链叙事、机构研究和智能体编排。
DMind-3	40亿	Qwen3.5-4B	Qwen	本地金融建模与策略推理模型。优先保护隐私，可离线使用，支持端侧深度推理。
DMind-3	2.7亿	functiongemma-270m-it	Gemini	端侧钱包与 DEX 意图识别及函数调用。支持 SEARCH_TOKEN 和 EXECUTE_SWAP，支持多链，并支持中文/英文意图。
DMind-2	1070亿	GLM-4.5-Air	GLM	旗舰级加密投资分析模型。通过链上行为覆盖宏观趋势，面向专业投顾和机构分析。
DMind-2	40亿	Qwen3-4B-Thinking-2507	Qwen	轻量级加密投资分析模型，适用于本地和边缘部署、隐私保护以及低延迟使用。
DMind-1	330亿	Qwen3-32B	Qwen	面向 DeFi、代币经济学、治理以及智能合约问答与推理的 Web3 专家模型。
DMind-1	150亿	Qwen3-14B	Qwen	DMind-1 的轻量级蒸馏版本。适合低延迟实时问答、链上分析和轻量级智能体。