For the complete documentation index, see llms.txt. This page is also available as Markdown.

DMind 벤치마크

DMind Benchmark는 대규모 언어 모델의 Web3 이해를 평가하는 평가 모음입니다. 513개의 제출작 중 KDD 2026 Datasets & Benchmarks Track에 채택되었으며(채택률은 약 29%), 2026년 8월 대한민국 제주에서 열리는 본 학술대회에서 발표될 예정입니다.

이 데이터셋은 공개되어 있으며 Hugging Face에서 13,000회 이상 다운로드되었습니다. DMind 생태계에서 가장 많이 사용된 산출물입니다.

포함 범위

9개 Web3 하위 분야에 걸친 1,917개의 전문가 검토 질문:

  1. 기초 블록체인 개념: 해싱, 머클 트리, 합의, PoW/PoS, 블록 구조, 포크.

  2. 블록체인 인프라: 레이어 1 대 레이어 2(낙관적 롤업 대 ZK 롤업), 브리지, 노드 아키텍처, RPC.

  3. 스마트 계약: Solidity, 호출 메커니즘, 저장소, EVM 바이트코드, 업그레이드 패턴.

  4. DeFi 메커니즘: AMM 수학, 대출 금리 모델, 청산 로직, 파생상품 가격 책정.

  5. DAO: 거버넌스 토큰, 투표, 제안, 정족수, 타임락.

  6. NFT: ERC-721/1155 표준, 로열티 메커니즘, 바닥가, NFT 대출.

  7. 토큰 경제학: 발행, 베스팅, 소각, 인센티브 정렬, 가격 발견.

  8. 밈 개념: 암호화폐 특유의 문화 용어와 밈 토큰 역학.

  9. 보안 취약점: 재진입, 플래시론 공격, 오라클 조작, 서명 재전송, 일반적인 감사 지적 사항.

질문 형식

이 벤치마크는 두 종류의 질문을 사용합니다. 객관식 문제는 사실 기억을 테스트합니다. 서술형 과제에는 스마트 계약 디버깅이 포함되는데, 모델은 Solidity 코드 조각에서 취약점을 찾아야 하며, 온체인 수치 추론에서는 모델에 AMM 풀 상태가 주어지고 특정 공격 벡터에서 얻는 이익을 계산해야 합니다.

서술형 과제는 객관식보다 의도적으로 더 어렵게 설계되었습니다. 모델은 객관식에서는 패턴 매칭만으로도 풀어낼 수 있습니다. 수치 추론과 코드 분석은 실제로 문제를 풀어야 합니다.

논문이 발견한 내용

이 벤치마크의 최신 버전은 GPT-5, Claude Sonnet 4.5, DeepSeek, Gemini, Grok, Qwen 시리즈를 포함한 31개의 주류 대규모 모델을 평가했습니다. 세 가지 발견이 두드러집니다.

기초는 대부분 해결됐고, 깊이는 아직 아니다

모든 주요 모델은 블록체인 기초, 즉 위키피디아에 나오는 수준의 내용에서는 상당히 잘합니다. 토큰 경제학, 밈 개념, 보안에서는 성능이 급격히 떨어집니다. 이 영역들이야말로 Web3 전문성이 실제로 중요한 곳이며, 범용 모델은 그럴듯하지만 잘못된 답을 만들어내는 경향이 있습니다.

비용과 정확도는 함께 움직이지 않는다

정확도를 토큰당 비용과 비교해 그리면, 뚜렷한 파레토 전선이 보입니다. GPT-5 시리즈는 높은 정확도 구간에 자리합니다. GPT-OSS-120B, Kimi K2, Qwen3-235B Thinking을 포함한 일부 오픈 모델은 중간 구간에서 더 나은 가성비를 제공합니다. 몇몇 잘 알려진 폐쇄형 모델은 Web3 과제에 한해서는 대안보다 비싸면서도 더 약한 것으로 드러났습니다. 논문은 수치를 재현할 수 있도록 전체 데이터를 공개합니다.

더 많은 데이터로 미세 조정해도 격차는 좁혀지지 않는다

논문은 통제된 실험을 수행합니다. 세 개의 기본 모델(QwQ-32B, Qwen3-32B, DeepSeek-R1-Distill-Llama-70B)을 가져와 각 모델을 전체 벤치마크 데이터셋으로 LoRA 미세 조정한 뒤 향상을 측정합니다. 학습 곡선은 완만한 상태로 유지됩니다. 더 많은 데이터를 넣는다고 Web3 추론 능력이 갑자기 생기지는 않습니다. 진짜 병목은 다단계 추론, 개념 간 연관, 그리고 시간에 따라 변하는 시장을 이해하는 능력입니다. 이것이 더 큰 학습 데이터셋이 아니라 새로운 학습 방법이 필요한 이유이며, DMind가 HPS와 C³-SFT에 투자한 이유입니다(참고 학습 방법).

어디서 읽을 수 있나

마지막 업데이트

도움이 되었나요?