学習手法
DMindのモデルは、2つの独自の学習手法(HPSとC³-SFT)を、SFT、RLHF、LoRA、蒸留などの標準的な手法と組み合わせています。このページではそれぞれを簡単に説明し、どのモデルが何を使っているかを示します。
ベースモデル
DMind-3
21B
gpt-oss-20b
ChatGPT
システミックリスク、クロスチェーンのナラティブ、機関投資家向けリサーチ、エージェントオーケストレーションのための、クラウドおよびエンタープライズVPC向けマクロ戦略金融エンジン。
DMind-3
270M
Gemini
デバイス上のウォレットとDEXの意図認識および関数呼び出し。SEARCH_TOKENとEXECUTE_SWAP、マルチチェーン、中国語/英語の意図に対応しています。
DMind-2
107B
GLM-4.5-Air
GLM
フラッグシップの暗号資産投資分析モデル。オンチェーン行動を通じてマクロトレンドをカバーし、プロ向けアドバイザリーや機関投資家向け分析に対応します。
DMind-2
4B
Qwen3-4B-Thinking-2507
Qwen
ローカルおよびエッジ展開、プライバシー、低遅延用途向けの軽量な暗号資産投資分析モデル。
DMind-1
33B
Qwen3-32B
Qwen
DeFi、トークノミクス、ガバナンス、スマートコントラクトのQ&Aと推論に特化したWeb3専門モデル。
DMind-1
15B
Qwen3-14B
Qwen
DMind-1の軽量蒸留版。低遅延のリアルタイムQ&A、オンチェーン分析、軽量エージェントに適しています。
DMindのモデルを使用するには、DMindのモデル利用契約と、基盤となるベースモデルの元のライセンスの両方を遵守する必要があります。
標準手法
教師ありファインチューニング(SFT)
基本となる手法です。質問と参照回答を組にして、モデルがそれに一致するよう学習させます。DMind-1の第1学習段階ではSFTを使用します。
LoRA(低ランク適応)
SFTを行うための、パラメータ効率の高い手法です。モデルの全パラメータを更新する代わりに、LoRAは各層に小さな低ランク行列の組を追加し、それらだけを学習します。これにより学習コストを10分の1以上削減できます。DMind-1はSFTにLoRAを使用します。ベンチマーク論文の制御実験でも、ランク16とalpha 32のLoRAを使用しています。
RLHFとPPO
人間のフィードバックからの強化学習です。まず、人間の嗜好データ(この質問では回答Aが回答Bより良い、など)で報酬モデルを学習します。次に、その報酬モデルを学習信号として使い、PPO(Proximal Policy Optimization)でメインモデルを最適化します。これはGPT-3をChatGPTに変えたのと同じ技法です。DMind-1の第2学習段階ではこの組み合わせを使用します。
知識蒸留
小さな生徒モデルが大きな教師モデルから学習します。DMind-1-miniは2つの教師から蒸留されています。DMind-1自体と、一般的なSOTAモデルです(DMindのDeepResearchフレームワークを通して、出力をWeb3の文脈に整合させています)。蒸留は3つのレベルで行われます。生徒は教師の最終出力に一致し、各トークンに対する教師の完全な確率分布に一致し、中間層の表現にも整合します。
DMindの2つの独自手法
HPS(階層的予測統合)
DMind-3(21B)の背後にある学習目的です。HPSは、階層構造を持つ入力全体にわたってOracleに推論を行わせるよう教えます。最下層には、特定のトランザクションやコントラクト呼び出しなどの生のオンチェーンイベントがあります。中間層には、集約された市場指標があります。最上層には、FRB政策、CPI、地政学的イベントなどのマクロシグナルがあります。
各入力モダリティについて、モデルは次のグローバル市場状態を予測するよう学習します。学習損失は、マルチモーダル加重対数尤度と、ベースモデルのパラメータから離れすぎることを罰する正則化項を組み合わせたものです。この正則化は破滅的忘却を防ぎ、金融に特化しながら一般的な言語能力を失わないようにするためにあります。
HPSはOracleに2モードの推論切り替えも与えます。標準モードでは直接的な回答を返します。特別な [STRATEGY] トークンはモデルを戦略モードに切り替え、回答する前にリスク経路を追加で考慮し、過去に類似したシナリオを検索します。呼び出し元が制御する高速思考と低速思考です。
C³-SFT(対照的修正連鎖SFT)
DMind-3-Mini(4B)の背後にある学習手法です。C³-SFTは1つの問題を中心に構築されています。自信を持って誤ったことを述べる小さなモデルは、不確実性を認めるモデルより危険です。
標準的なSFTは、質問に対して正しい回答を出すようモデルを学習させます。C³-SFTは学習データを4段階の連鎖に変えます。連鎖は質問から始まり、次にもっともらしいが欠陥のある初期回答、その初期回答が見落とした点を指摘する明示的な批評(たとえば、考慮されていなかったOracle操作リスク)、そしてその批評に対応した修正版の回答が続きます。
モデルはこの4段階すべてを生成するよう学習します。推論時には、これは自己質問的な振る舞いになります。モデルは初期回答を出し、自分で批評し、修正します。名前の「対照的」は、学習中に正しい回答と典型的な誤答の両方をモデルに示すことに由来し、そのため失敗モードの具体的な形を学習します。
これは、大規模モデルが別の思考トークンで実装するSystem-2推論アプローチの軽量版です。これを4Bモデルに直接組み込むことで、Miniは安全策を維持しながらユーザーデバイス上で動作できます。
学習データ
DMind-1の学習データは、DeFi、トークノミクス、ガバナンス、スマートコントラクト、レイヤー1/2アーキテクチャ、NFT、DAO、セキュリティにまたがる32.7GBのWeb3ソース文書から抽出された、専門家が厳選した13,276件の知識項目です。
DMind-3の学習データは、より大規模で、より構造化されています:
機関投資家向けアルファ研究
35%
暗号資産ネイティブファンドとTradFiのレポートを、因果モデルで分解したもの
世界のマクロ経済データ
25%
FRED、世界銀行、IMFの時系列データをオンチェーン指標と結合したもの
クロスチェーン指数データ
20%
主要EVMチェーン、Solana、Cosmos全体の完全なトランザクション、状態、ログ履歴
事後分析と監査
10%
システム障害、経済攻撃、プロトコルハッキング。初期兆候と伝播経路に重点
地政学と規制
10%
デジタル資産に影響する世界的な規制変更、政策提案、地政学的イベント
合計:50万件以上の精選文書に加え、マルチテラバイト規模のオンチェーン構造化データ。
すべての学習データは、スクレイピングではなく、分野の専門家によってレビューされています。選定基準はモデルカードと論文で公開されています。
最終更新
役に立ちましたか?

