> For the complete documentation index, see [llms.txt](https://minara.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://minara.ai/docs/minara-handbook/zh/ji-shu/dmind/benchmark.md).

# DMind 基准测试

DMind Benchmark 是一个用于评估大型语言模型对 Web3 理解能力的基准测试套件。它从 513 份投稿中被 KDD 2026 Datasets & Benchmarks Track 接收（录用率约 29%），并将于 2026 年 8 月在韩国济州举行的主会上展示。

该数据集是开放的，已在 Hugging Face 上被下载超过 13,000 次。它是 DMind 生态系统中使用最广泛的资源。

## 它涵盖什么

1,917 道经专家审核的问题，涵盖 9 个 Web3 子领域：

1. 区块链基础概念：哈希、默克尔树、共识、PoW/PoS、区块结构、分叉。
2. 区块链基础设施：Layer-1 与 Layer-2（Optimistic Rollups 与 ZK Rollups）、跨链桥、节点架构、RPC。
3. 智能合约：Solidity、调用机制、存储、EVM 字节码、升级模式。
4. DeFi 机制：AMM 数学、借贷利率模型、清算逻辑、衍生品定价。
5. DAO：治理代币、投票、提案、法定人数、时间锁。
6. NFT：ERC-721/1155 标准、版税机制、地板价、NFT 借贷。
7. 代币经济学：发行、归属释放、销毁、激励对齐、价格发现。
8. 梗概念：加密领域特有的文化术语和 meme 代币动态。
9. 安全漏洞：重入攻击、闪电贷攻击、预言机操纵、签名重放、常见审计发现。

## 题目形式

该基准使用两类问题。选择题用于测试事实记忆。开放式任务包括智能合约调试，模型需要在一段 Solidity 代码中找出漏洞；以及链上数值推理，模型会得到一个 AMM 池状态，并需要计算某一特定攻击向量带来的利润。

开放式任务被刻意设计得比选择题更难。模型可以通过模式匹配来做选择题；而数值推理和代码分析则需要真正解决问题。

## 论文发现了什么

该基准的最新版本评测了 31 个主流大模型，包括 GPT-5、Claude Sonnet 4.5、DeepSeek、Gemini、Grok 以及 Qwen 系列。三点发现尤为突出。

### 基础知识大多已解决，深度仍然不足

所有主流模型在区块链基础知识上表现都还不错，这类内容在维基百科上也能找到。可一旦到了代币经济学、梗概念和安全领域，性能就会明显下滑。这些才是 Web3 专业知识真正重要的地方，而通用模型往往会编造看似合理但实际错误的答案。

### 成本与准确率并不同步变化

当你把准确率与每个 token 的成本作图时，会看到一条清晰的帕累托前沿。GPT-5 系列位于高准确率一端。一些开源模型，包括 GPT-OSS-120B、Kimi K2 和 Qwen3-235B Thinking，在中间区域提供了更高的性价比。少数广为人知的闭源模型，在 Web3 任务上不仅昂贵，而且表现反而弱于其他替代方案。论文公布了完整数据，因此这些数字可以复现。

### 在更多数据上微调并不能缩小差距

论文进行了一个受控实验。取三个基础模型（QwQ-32B、Qwen3-32B、DeepSeek-R1-Distill-Llama-70B），分别用完整基准数据集通过 LoRA 进行微调，并衡量提升幅度。学习曲线依然很平缓。喂入更多数据并不能解锁 Web3 推理能力。真正的瓶颈在于多步推理、跨概念关联，以及理解一个不断变化的市场。这就是为什么需要新的训练方法，而不是更大的训练集；也是 DMind 投入 HPS 和 C³-SFT 的原因（见 [训练方法](/docs/minara-handbook/zh/ji-shu/dmind/training-methods.md)).

## 在哪里阅读

* 论文： [arXiv:2504.16116](https://arxiv.org/abs/2504.16116)
* 数据集： [huggingface.co/datasets/DMindAI/DMind\_Benchmark](https://huggingface.co/datasets/DMindAI/DMind_Benchmark)
* KDD 2026 评审： [OpenReview 论坛](https://openreview.net/forum?id=RvmxTg2mi5)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://minara.ai/docs/minara-handbook/zh/ji-shu/dmind/benchmark.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
