DMindベンチマーク

DMind Benchmark は、大規模言語モデルにおける Web3 理解のための評価スイートです。513件の応募の中から KDD 2026 の Datasets & Benchmarks Track に採択され(採択率は約29%)、2026年8月に韓国・済州島で開催される本会議で発表予定です。

このデータセットは公開されており、Hugging Face から13,000回以上ダウンロードされています。DMind エコシステムで最も使われている成果物です。

対象範囲

Web3 の9つのサブドメインにまたがる、専門家レビュー済みの1,917問:

  1. ブロックチェーンの基礎概念: ハッシュ、マークルツリー、コンセンサス、PoW/PoS、ブロック構造、フォーク。

  2. ブロックチェーン基盤: Layer-1 と Layer-2(Optimistic Rollup と ZK Rollup)、ブリッジ、ノードアーキテクチャ、RPC。

  3. スマートコントラクト: Solidity、コールの仕組み、ストレージ、EVM バイトコード、アップグレードパターン。

  4. DeFi の仕組み: AMM の数理、貸出金利モデル、清算ロジック、デリバティブの価格付け。

  5. DAO: ガバナンストークン、投票、提案、定足数、タイムロック。

  6. NFT: ERC-721/1155 規格、ロイヤリティの仕組み、フロア価格、NFT レンディング。

  7. トークン経済学: 発行、ベスティング、バーン、インセンティブの整合、価格発見。

  8. ミーム概念: クリプト特有の文化的用語とミームトークンのダイナミクス。

  9. セキュリティ脆弱性: 再入、フラッシュローン攻撃、オラクル操作、署名リプレイ、一般的な監査指摘事項。

問題形式

このベンチマークでは2種類の問題を使用します。多肢選択問題は事実の想起をテストします。自由回答タスクには、モデルが Solidity の断片から脆弱性を見つける必要があるスマートコントラクトのデバッグや、AMM プールの状態が与えられ、特定の攻撃ベクトルからの利益を計算しなければならないオンチェーン数値推論が含まれます。

自由回答タスクは、多肢選択問題より意図的に難しくしてあります。多肢選択なら、モデルはパターンマッチで解けてしまいます。数値推論とコード解析には、実際に問題を解く必要があります。

論文で明らかになったこと

ベンチマークの最新版では、GPT-5、Claude Sonnet 4.5、DeepSeek、Gemini、Grok、Qwen シリーズを含む31の主流大規模モデルを評価しました。際立つ発見は3つあります。

基礎はほぼ解決済み、深さはまだ不十分

主要モデルはいずれも、Wikipedia に載っているようなブロックチェーンの基礎では概ね良好な成績を収めています。トークン経済学、ミーム概念、セキュリティでは性能が急激に低下します。これらは Web3 の専門知識が実際に重要となる領域であり、汎用モデルはもっともらしく聞こえるが誤った回答を作りがちです。

コストと精度は連動しない

トークン当たりコストに対して精度をプロットすると、明確なパレートフロンティアが見られます。GPT-5 系列は高精度側に位置します。GPT-OSS-120B、Kimi K2、Qwen3-235B Thinking を含むいくつかのオープンモデルは、中位の領域でより高いコストパフォーマンスを提供します。有名なクローズドモデルの中には、Web3 タスクに限ると高価なうえに代替より性能が劣るものもあります。論文では、数値を再現できるよう全データを公開しています。

より多くのデータでファインチューニングしても差は埋まらない

論文では対照実験を行っています。3つのベースモデル(QwQ-32B、Qwen3-32B、DeepSeek-R1-Distill-Llama-70B)を取り上げ、それぞれを LoRA でベンチマーク全データセット上でファインチューニングし、改善を測定します。学習曲線は緩やかなままです。データを追加しても Web3 推論は開花しません。真のボトルネックは、段階的推論、概念横断的な関連付け、そして時間とともに変化する市場を理解することです。これは、より大きな学習データセットではなく新しい学習手法が必要だという主張であり、DMind が HPS と C³-SFT に投資した理由でもあります(参照 学習手法).

読む場所

最終更新

役に立ちましたか?