For the complete documentation index, see llms.txt. This page is also available as Markdown.

DMind 基准测试

DMind Benchmark 是一个用于评估大语言模型对 Web3 理解能力的评测套件。它从 513 份投稿中被 KDD 2026 数据集与基准测试赛道录用(录用率约 29%),并将于 2026 年 8 月在韩国济州岛举行的主会议上展示。

该数据集是开放的,并已在 Hugging Face 上被下载超过 13,000 次。它是 DMind 生态中使用最广泛的成果。

它涵盖的内容

1,917 道由专家审核的问题,覆盖 9 个 Web3 子领域:

  1. 区块链基础概念:哈希、Merkle 树、共识、PoW/PoS、区块结构、分叉。

  2. 区块链基础设施:Layer-1 与 Layer-2(Optimistic Rollup 与 ZK Rollup)、跨链桥、节点架构、RPC。

  3. 智能合约:Solidity、调用机制、存储、EVM 字节码、升级模式。

  4. DeFi 机制:AMM 数学、借贷利率模型、清算逻辑、衍生品定价。

  5. DAO:治理代币、投票、提案、法定人数、时间锁。

  6. NFT:ERC-721/1155 标准、版税机制、地板价、NFT 借贷。

  7. 代币经济学:发行、归属锁定、销毁、激励对齐、价格发现。

  8. Meme 概念:加密货币特有的文化术语和 meme 代币动态。

  9. 安全漏洞:重入、闪电贷攻击、预言机操纵、签名重放、常见审计发现。

问题形式

该基准使用两类问题。选择题测试事实性记忆。开放式任务包括智能合约调试,即模型需要找出 Solidity 代码片段中的漏洞;以及链上数值推理,即给定一个 AMM 池状态,模型需要计算某一特定攻击向量带来的利润。

开放式任务被刻意设计得比选择题更难。模型可以通过模式匹配来做选择题,而数值推理和代码分析则要求真正解决问题。

论文发现了什么

该基准的最新版本评估了 31 个主流大模型,包括 GPT-5、Claude Sonnet 4.5、DeepSeek、Gemini、Grok 以及 Qwen 系列。三点发现尤为突出。

基础知识基本已解决,但深度还不够

所有主流模型在区块链基础知识上表现都相当不错,这类内容在维基百科上也能见到。但在代币经济学、meme 概念和安全性方面,性能会急剧下降。这些才是 Web3 专业知识真正重要的地方,而通用模型往往会编造听起来合理但错误的答案。

成本和准确率并不总是同步变化

当你把准确率与每个 token 的成本作图时,会看到一条清晰的帕累托前沿。GPT-5 系列处于高准确率一端。一些开放模型,包括 GPT-OSS-120B、Kimi K2 和 Qwen3-235B Thinking,在中间区间提供了更好的性价比。少数知名闭源模型在 Web3 任务上不仅昂贵,而且还比替代方案更弱。论文公开了完整数据,因此这些数字可以复现。

在更多数据上微调并不能缩小差距

论文进行了一项受控实验。取三个基础模型(QwQ-32B、Qwen3-32B、DeepSeek-R1-Distill-Llama-70B),分别在完整基准数据集上使用 LoRA 进行微调,并衡量提升幅度。学习曲线依然很平缓。喂入更多数据并不能解锁 Web3 推理。真正的瓶颈在于多步推断、跨概念关联,以及理解一个随时间变化的市场。这说明需要新的训练方法,而不是更大的训练集,这也是 DMind 投入 HPS 和 C³-SFT 的原因(见 训练方法).

在哪里阅读

最后更新于

这有帮助吗?