> For the complete documentation index, see [llms.txt](https://minara.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://minara.ai/docs/minara-handbook/ja/ji-shu/dmind/training-methods.md).

# 学習手法

DMindのモデルは、2つの独自の学習手法（HPSとC³-SFT）を、SFT、RLHF、LoRA、蒸留などの標準的な手法と組み合わせています。このページでは、それぞれを簡潔に説明し、どのモデルが何を使っているかを示します。

## ベースモデル

<table><thead><tr><th width="98.546875">シリーズ</th><th width="96.9140625">パラメータ数</th><th width="158.96484375">ベース</th><th width="96.515625">ベース提供元</th><th>役割</th></tr></thead><tbody><tr><td>DMind-3</td><td>21B</td><td>gpt-oss-20b</td><td>ChatGPT</td><td>システミックリスク、クロスチェーンのナラティブ、機関投資家向けリサーチ、エージェントのオーケストレーションのための、クラウドおよび企業VPC向けマクロ戦略ファイナンスエンジン。</td></tr><tr><td>DMind-3</td><td>4B</td><td><a href="https://huggingface.co/Qwen/Qwen3.5-4B">Qwen3.5-4B</a></td><td>Qwen</td><td>ローカル向けの金融モデリングと戦略推論モデル。プライバシー重視でオフライン利用可能、端末上で高度な推論を行えます。</td></tr><tr><td>DMind-3</td><td>270M</td><td><a href="https://huggingface.co/google/functiongemma-270m-it">functiongemma-270m-it</a></td><td>Gemini</td><td>端末上のウォレットとDEXの意図認識および関数呼び出し。SEARCH_TOKENとEXECUTE_SWAP、マルチチェーン、中国語/英語の意図をサポート。</td></tr><tr><td>DMind-2</td><td>107B</td><td>GLM-4.5-Air</td><td>GLM</td><td>フラッグシップの暗号資産投資分析モデル。オンチェーン行動を通じたマクロトレンドをカバーし、専門的なアドバイザリーおよび機関向け分析に対応します。</td></tr><tr><td>DMind-2</td><td>4B</td><td>Qwen3-4B-Thinking-2507</td><td>Qwen</td><td>ローカルおよびエッジ環境への展開、プライバシー、低遅延用途に適した軽量な暗号資産投資分析モデル。</td></tr><tr><td>DMind-1</td><td>33B</td><td>Qwen3-32B</td><td>Qwen</td><td>DeFi、トークノミクス、ガバナンス、スマートコントラクトのQ&#x26;Aと推論に対応するWeb3専門モデル。</td></tr><tr><td>DMind-1</td><td>15B</td><td>Qwen3-14B</td><td>Qwen</td><td>DMind-1の軽量蒸留版。低遅延のリアルタイムQ&#x26;A、オンチェーン分析、軽量エージェントに適しています。</td></tr></tbody></table>

DMindモデルを使用するには、DMindのモデル契約と基盤となるベースモデルの元のライセンスの両方を遵守する必要があります。

## 標準的な手法

### 教師ありファインチューニング（SFT）

基本的な手法です。質問と参照回答をペアにして、モデルがそれに一致するよう学習します。DMind-1の最初の学習段階ではSFTを使用します。

### LoRA（低ランク適応）

SFTを行うための、パラメータ効率の高い方法です。モデルのすべてのパラメータを更新する代わりに、LoRAは各層に小さな低ランク行列のペアを追加し、それらだけを学習します。これにより学習コストを1桁以上削減できます。DMind-1はSFTにLoRAを使用しています。ベンチマーク論文の制御実験でも、ランク16、alpha 32のLoRAを使用しています。

### RLHFとPPO

人間のフィードバックからの強化学習。まず、人間の選好データ（この質問では回答Aのほうが回答Bより良い）で報酬モデルを学習します。次に、その報酬モデルを学習信号として使い、PPO（近接方策最適化）でメインモデルを最適化します。これはGPT-3をChatGPTに変えたのと同じ手法です。DMind-1の第2学習段階ではこの組み合わせを使用します。

### 知識蒸留

小さな生徒モデルが、大きな教師モデルから学習します。DMind-1-miniは二重教師から蒸留されています。DMind-1自身と、一般的なSOTAモデル（DMindのDeepResearchフレームワークを通して、その出力をWeb3文脈に整合させたもの）です。蒸留は3つのレベルで行われます。生徒は教師の最終出力に一致し、各トークンに対する教師の完全な確率分布に一致し、中間層の表現にも整合します。

## DMindの2つの独自手法

### HPS（階層的予測合成）

DMind-3（21B）の背後にある学習目的です。HPSは、入力の階層構造をまたいで推論するようOracleを訓練します。最下層には、特定の取引やコントラクト呼び出しなどの生のオンチェーンイベントがあります。中間層には集約された市場指標があります。最上位には、FRBの政策、CPI、地政学的イベントなどのマクロシグナルがあります。

各入力モダリティごとに、モデルは次のグローバルな市場状態を予測することを学習します。学習損失は、マルチモーダルな重み付き対数尤度と、ベースモデルのパラメータからかけ離れすぎる変化を罰する正則化項を組み合わせたものです。この正則化は壊滅的忘却を防ぐためのもので、一般的な言語能力を失わずに金融に特化できるようにします。

HPSはまた、Oracleに2モードの推論切り替えを与えます。標準モードでは直接回答を返します。特別な `[STRATEGY]` トークンにより、モデルは戦略モードに切り替わり、回答前にリスク経路を追加で考慮し、過去に類似したシナリオを検索します。呼び出し元が制御する高速思考と低速思考です。

### C³-SFT（対照的な修正連鎖SFT）

DMind-3-Mini（4B）の背後にある学習手法です。C³-SFTは1つの問題を中心に構築されています。小さなモデルが自信を持って誤りを述べるほうが、不確実性を認めるモデルより危険です。

標準的なSFTは、質問に対して正しい回答を生成するようモデルを訓練します。C³-SFTでは学習データを4段階の連鎖に変えます。連鎖は質問から始まり、次にもっともらしいが欠点のある初期回答、次にその初期回答で見落とした点を特定する明示的な批評（たとえば、考慮されていなかったOracle操作リスク）、そしてその批評に対処した修正版回答へと続きます。

モデルはこの4つのステップすべてを生成することを学習します。推論時には、これが自己質問的な振る舞いになります。モデルは最初の回答を出し、自分で批評し、修正します。名前の「対照的」な部分は、学習中に正解と典型的な誤答の両方をモデルに見せることに由来し、失敗モードの具体的な形を学習させる点にあります。

これは、大規模モデルが別個の思考トークンで実装するSystem-2推論アプローチの軽量版です。これを4Bモデルに直接組み込むことで、Miniは安全装置を維持したままユーザーの端末上で動作できます。

## 学習データ

DMind-1の学習データは、DeFi、トークノミクス、ガバナンス、スマートコントラクト、Layer-1/2アーキテクチャ、NFT、DAO、セキュリティにまたがる32.7GBのWeb3ソース文書から抽出された、専門家が厳選した13,276件の知識項目です。

DMind-3の学習データは、より大規模で構造化されています:

| ソース               | 割合  | 内容                                               |
| ----------------- | --- | ------------------------------------------------ |
| 機関投資家向けアルファ研究     | 35% | 暗号資産ネイティブのファンドおよびTradFiレポートを、因果モデルを通じて分解したもの     |
| 世界のマクロ経済データ       | 25% | FRED、世界銀行、IMFの時系列データをオンチェーン指標と結合したもの             |
| クロスチェーンのインデックスデータ | 20% | 主要なEVMチェーン、Solana、Cosmosにわたる完全なトランザクション、状態、ログの履歴 |
| ポストモーテムと監査        | 10% | システム障害、経済攻撃、プロトコルハックで、初期シグナルと伝播経路に重点を置いたもの       |
| 地政学と規制            | 10% | デジタル資産に影響を与える世界的な規制変更、政策提案、地政学的イベント              |

合計: 50万件以上の厳選文書に加え、数テラバイト規模のオンチェーン構造化データ。

すべての学習データは、スクレイピングではなく、その分野の専門家によってレビューされています。選定基準はモデルカードと論文で公開されています。


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://minara.ai/docs/minara-handbook/ja/ji-shu/dmind/training-methods.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
シリーズ	パラメータ数	ベース	ベース提供元	役割
DMind-3	21B	gpt-oss-20b	ChatGPT	システミックリスク、クロスチェーンのナラティブ、機関投資家向けリサーチ、エージェントのオーケストレーションのための、クラウドおよび企業VPC向けマクロ戦略ファイナンスエンジン。
DMind-3	4B	Qwen3.5-4B	Qwen	ローカル向けの金融モデリングと戦略推論モデル。プライバシー重視でオフライン利用可能、端末上で高度な推論を行えます。
DMind-3	270M	functiongemma-270m-it	Gemini	端末上のウォレットとDEXの意図認識および関数呼び出し。SEARCH_TOKENとEXECUTE_SWAP、マルチチェーン、中国語/英語の意図をサポート。
DMind-2	107B	GLM-4.5-Air	GLM	フラッグシップの暗号資産投資分析モデル。オンチェーン行動を通じたマクロトレンドをカバーし、専門的なアドバイザリーおよび機関向け分析に対応します。
DMind-2	4B	Qwen3-4B-Thinking-2507	Qwen	ローカルおよびエッジ環境への展開、プライバシー、低遅延用途に適した軽量な暗号資産投資分析モデル。
DMind-1	33B	Qwen3-32B	Qwen	DeFi、トークノミクス、ガバナンス、スマートコントラクトのQ&Aと推論に対応するWeb3専門モデル。
DMind-1	15B	Qwen3-14B	Qwen	DMind-1の軽量蒸留版。低遅延のリアルタイムQ&A、オンチェーン分析、軽量エージェントに適しています。