> For the complete documentation index, see [llms.txt](https://minara.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://minara.ai/docs/minara-handbook/ko/technology/dmind/benchmark.md).

# DMind 벤치마크

DMind Benchmark는 대규모 언어 모델의 Web3 이해도를 평가하는 평가 세트입니다. 513편의 제출작 중 채택되었으며(채택률 약 29%), 2026년 8월 대한민국 제주에서 열리는 메인 컨퍼런스에서 발표될 예정입니다.

이 데이터셋은 공개되어 있으며 Hugging Face에서 13,000회 이상 다운로드되었습니다. DMind 생태계에서 가장 많이 사용되는 산출물입니다.

## 포함 내용

9개 Web3 하위 분야에 걸친 1,917개의 전문가 검토 질문:

1. 기초 블록체인 개념: 해싱, 머클 트리, 합의, PoW/PoS, 블록 구조, 포크.
2. 블록체인 인프라: 레이어 1 vs 레이어 2(옵티미스틱 vs ZK 롤업), 브리지, 노드 아키텍처, RPC.
3. 스마트 컨트랙트: Solidity, 호출 메커니즘, 저장소, EVM 바이트코드, 업그레이드 패턴.
4. DeFi 메커니즘: AMM 수학, 대출 금리 모델, 청산 로직, 파생상품 가격 책정.
5. DAO: 거버넌스 토큰, 투표, 제안, 정족수, 타임락.
6. NFT: ERC-721/1155 표준, 로열티 메커니즘, 바닥가, NFT 대출.
7. 토큰 경제학: 발행, 베스팅, 소각, 인센티브 정렬, 가격 발견.
8. 밈 개념: 암호화폐 특유의 문화적 용어와 밈 토큰 역학.
9. 보안 취약점: 재진입, 플래시론 공격, 오라클 조작, 서명 재사용, 일반적인 감사 지적 사항.

## 문항 형식

이 벤치마크는 두 가지 유형의 질문을 사용합니다. 객관식 문항은 사실 회상을 평가합니다. 서술형 과제에는 스마트 컨트랙트 디버깅이 포함되며, 이때 모델은 Solidity 코드 조각에서 취약점을 찾아야 합니다. 또한 온체인 수치 추론 과제에서는 모델에 AMM 풀 상태가 주어지고 특정 공격 벡터로부터의 이익을 계산해야 합니다.

서술형 과제는 객관식보다 의도적으로 더 어렵게 설계되었습니다. 모델은 객관식에서는 패턴 매칭으로 풀 수 있습니다. 수치 추론과 코드 분석은 실제로 문제를 풀어야 합니다.

## 논문에서 발견한 내용

벤치마크의 최신 버전에서는 GPT-5, Claude Sonnet 4.5, DeepSeek, Gemini, Grok, Qwen 시리즈를 포함한 31개의 주류 대형 모델을 평가했습니다. 세 가지 결과가 특히 두드러집니다.

### 기초는 대부분 해결되었지만, 깊이는 아니다

대부분의 주요 모델은 블록체인 기초 개념, 즉 위키피디아에 나오는 수준의 내용에서는 꽤 좋은 성능을 보입니다. 그러나 토큰 경제학, 밈 개념, 보안에서는 성능이 급격히 떨어집니다. 이 영역들은 Web3 전문성이 실제로 중요한 분야이며, 범용 모델은 그럴듯하지만 잘못된 답을 만들어내는 경향이 있습니다.

### 비용과 정확도는 함께 움직이지 않는다

정확도를 토큰당 비용에 대해 그려 보면 명확한 파레토 프런티어가 나타납니다. GPT-5 계열은 높은 정확도 구간에 위치합니다. GPT-OSS-120B, Kimi K2, Qwen3-235B Thinking을 포함한 일부 오픈 모델은 중간 구간에서 더 나은 가성비를 제공합니다. 몇몇 잘 알려진 폐쇄형 모델은 Web3 과제에서 특히 대안보다 비싸면서도 더 약한 것으로 드러났습니다. 논문은 전체 데이터를 공개해 수치를 재현할 수 있도록 했습니다.

### 더 많은 데이터로 미세조정해도 격차는 줄지 않는다

논문은 통제된 실험을 수행합니다. 세 개의 베이스 모델(QwQ-32B, Qwen3-32B, DeepSeek-R1-Distill-Llama-70B)을 가져와 각각 전체 벤치마크 데이터셋으로 LoRA 미세조정한 뒤 향상을 측정합니다. 학습 곡선은 여전히 완만합니다. 데이터를 더 넣는다고 Web3 추론 능력이 저절로 생기지는 않습니다. 진짜 병목은 다단계 추론, 개념 간 연상, 그리고 시간에 따라 변하는 시장을 이해하는 능력입니다. 이것이 더 큰 학습 세트보다 새로운 학습 방법이 필요한 이유이며, DMind가 HPS와 C³-SFT에 투자한 이유입니다(see [학습 방법](/docs/minara-handbook/ko/technology/dmind/training-methods.md)).

## 읽을 수 있는 곳

* 논문: [arXiv:2504.16116](https://arxiv.org/abs/2504.16116)
* 데이터셋: [huggingface.co/datasets/DMindAI/DMind\_Benchmark](https://huggingface.co/datasets/DMindAI/DMind_Benchmark)
* KDD 2026 리뷰: [OpenReview 포럼](https://openreview.net/forum?id=RvmxTg2mi5)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://minara.ai/docs/minara-handbook/ko/technology/dmind/benchmark.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.