> For the complete documentation index, see [llms.txt](https://minara.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://minara.ai/docs/minara-handbook/ja/ji-shu/dmind/benchmark.md).

# DMind Benchmark

DMind Benchmarkは、大規模言語モデルにおけるWeb3理解を評価するための評価セットです。513件の投稿の中からKDD 2026のDatasets & Benchmarks Trackに採択され（採択率は約29%）、2026年8月に韓国・済州で開催される本会議で発表されます。

このデータセットは公開されており、Hugging Faceから13,000回以上ダウンロードされています。DMindエコシステムで最も利用されている成果物です。

## 対象範囲

9つのWeb3サブドメインにわたる1,917問の専門家レビュー済み問題：

1. ブロックチェーンの基礎概念：ハッシュ、マークル木、コンセンサス、PoW/PoS、ブロック構造、フォーク。
2. ブロックチェーン基盤：レイヤー1とレイヤー2（Optimistic RollupとZK Rollup）、ブリッジ、ノードアーキテクチャ、RPC。
3. スマートコントラクト：Solidity、コールの仕組み、ストレージ、EVMバイトコード、アップグレードパターン。
4. DeFiの仕組み：AMMの数学、貸出金利モデル、清算ロジック、デリバティブの価格付け。
5. DAO：ガバナンストークン、投票、提案、定足数、タイムロック。
6. NFT：ERC-721/1155規格、ロイヤリティの仕組み、フロア価格、NFTレンディング。
7. トークン経済学：発行、ベスティング、バーン、インセンティブ整合、価格発見。
8. ミーム概念：暗号資産特有の文化用語とミームトークンのダイナミクス。
9. セキュリティ脆弱性：再入可能性、フラッシュローン攻撃、オラクル操作、署名リプレイ、一般的な監査指摘。

## 問題形式

このベンチマークでは2種類の問題を使用しています。多肢選択問題は事実の想起を পরীক্ষাします。自由記述タスクにはスマートコントラクトのデバッグが含まれ、モデルはSolidityの断片内の脆弱性を見つける必要があります。また、オンチェーン数値推論では、モデルにAMMプールの状態が与えられ、特定の攻撃ベクトルから得られる利益を計算しなければなりません。

自由記述タスクは、多肢選択問題よりも意図的に難しく設計されています。モデルは多肢選択ならパターン照合で答えられますが、数値推論やコード解析には実際に問題を解く必要があります。

## 論文が示したこと

このベンチマークの最新版では、GPT-5、Claude Sonnet 4.5、DeepSeek、Gemini、Grok、Qwenシリーズを含む31の主要大規模モデルを評価しました。特に注目すべき3つの発見があります。

### 基礎はほぼ解決、深さはまだ不十分

主要モデルはいずれも、Wikipediaに載っているようなブロックチェーン基礎ではかなり良い成績を示します。しかし、トークン経済学、ミーム概念、セキュリティでは性能が大きく低下します。これらはWeb3の専門知識が実際に重要になる領域であり、汎用モデルはもっともらしいが誤った答えを作り出しがちです。

### コストと精度は連動しない

精度をトークン当たりコストに対してプロットすると、明確なパレートフロンティアが現れます。GPT-5シリーズは高精度側に位置します。GPT-OSS-120B、Kimi K2、Qwen3-235B Thinkingを含むいくつかのオープンモデルは、中間帯でより高いコストパフォーマンスを示します。よく知られた一部のクローズドモデルは、Web3タスクに限って見ると高価であるうえに代替モデルより弱いことが分かりました。論文は全データを公開しており、数値は再現可能です。

### より多くのデータでファインチューニングしても差は埋まらない

論文では制御実験を行っています。3つのベースモデル（QwQ-32B、Qwen3-32B、DeepSeek-R1-Distill-Llama-70B）を取り上げ、それぞれをLoRAでベンチマーク全データセット上でファインチューニングし、改善度を測定しました。学習曲線は緩やかなままです。より多くのデータを与えてもWeb3推論は身につきません。真のボトルネックは、多段推論、概念間の関連付け、そして時間とともに変化する市場の理解です。これは、より大きな訓練データセットではなく新しい学習手法を求める論拠であり、DMindがHPSとC³-SFTに投資した理由でもあります（参照 [学習手法](/docs/minara-handbook/ja/ji-shu/dmind/training-methods.md)).

## どこで読むか

* 論文： [arXiv:2504.16116](https://arxiv.org/abs/2504.16116)
* データセット： [huggingface.co/datasets/DMindAI/DMind\_Benchmark](https://huggingface.co/datasets/DMindAI/DMind_Benchmark)
* KDD 2026査読： [OpenReviewフォーラム](https://openreview.net/forum?id=RvmxTg2mi5)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://minara.ai/docs/minara-handbook/ja/ji-shu/dmind/benchmark.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
