DMind 基准测试
DMind Benchmark 是一个用于评估大语言模型对 Web3 理解能力的评测套件。它从 513 份投稿中被 KDD 2026 数据集与基准测试赛道录用(录用率约 29%),并将于 2026 年 8 月在韩国济州岛举行的主会议上展示。
该数据集是开放的,并已在 Hugging Face 上被下载超过 13,000 次。它是 DMind 生态中使用最广泛的成果。
它涵盖的内容
1,917 道由专家审核的问题,覆盖 9 个 Web3 子领域:
区块链基础概念:哈希、Merkle 树、共识、PoW/PoS、区块结构、分叉。
区块链基础设施:Layer-1 与 Layer-2(Optimistic Rollup 与 ZK Rollup)、跨链桥、节点架构、RPC。
智能合约:Solidity、调用机制、存储、EVM 字节码、升级模式。
DeFi 机制:AMM 数学、借贷利率模型、清算逻辑、衍生品定价。
DAO:治理代币、投票、提案、法定人数、时间锁。
NFT:ERC-721/1155 标准、版税机制、地板价、NFT 借贷。
代币经济学:发行、归属锁定、销毁、激励对齐、价格发现。
Meme 概念:加密货币特有的文化术语和 meme 代币动态。
安全漏洞:重入、闪电贷攻击、预言机操纵、签名重放、常见审计发现。
问题形式
该基准使用两类问题。选择题测试事实性记忆。开放式任务包括智能合约调试,即模型需要找出 Solidity 代码片段中的漏洞;以及链上数值推理,即给定一个 AMM 池状态,模型需要计算某一特定攻击向量带来的利润。
开放式任务被刻意设计得比选择题更难。模型可以通过模式匹配来做选择题,而数值推理和代码分析则要求真正解决问题。
论文发现了什么
该基准的最新版本评估了 31 个主流大模型,包括 GPT-5、Claude Sonnet 4.5、DeepSeek、Gemini、Grok 以及 Qwen 系列。三点发现尤为突出。
基础知识基本已解决,但深度还不够
所有主流模型在区块链基础知识上表现都相当不错,这类内容在维基百科上也能见到。但在代币经济学、meme 概念和安全性方面,性能会急剧下降。这些才是 Web3 专业知识真正重要的地方,而通用模型往往会编造听起来合理但错误的答案。
成本和准确率并不总是同步变化
当你把准确率与每个 token 的成本作图时,会看到一条清晰的帕累托前沿。GPT-5 系列处于高准确率一端。一些开放模型,包括 GPT-OSS-120B、Kimi K2 和 Qwen3-235B Thinking,在中间区间提供了更好的性价比。少数知名闭源模型在 Web3 任务上不仅昂贵,而且还比替代方案更弱。论文公开了完整数据,因此这些数字可以复现。
在更多数据上微调并不能缩小差距
论文进行了一项受控实验。取三个基础模型(QwQ-32B、Qwen3-32B、DeepSeek-R1-Distill-Llama-70B),分别在完整基准数据集上使用 LoRA 进行微调,并衡量提升幅度。学习曲线依然很平缓。喂入更多数据并不能解锁 Web3 推理。真正的瓶颈在于多步推断、跨概念关联,以及理解一个随时间变化的市场。这说明需要新的训练方法,而不是更大的训练集,这也是 DMind 投入 HPS 和 C³-SFT 的原因(见 训练方法).
在哪里阅读
论文: arXiv:2504.16116
KDD 2026 审稿: OpenReview 论坛
最后更新于
这有帮助吗?

