DMind Benchmark
DMind Benchmark, büyük dil modellerinde Web3 anlayışını değerlendirmek için bir değerlendirme paketidir. 513 başvuru arasından KDD 2026 Veri Kümeleri ve Kıyaslamalar İzine kabul edildi (kabul oranı yaklaşık %29) ve Ağustos 2026'da Güney Kore'nin Jeju kentindeki ana konferansta sunulacak.
Veri kümesi açık kaynaklıdır ve Hugging Face'ten 13.000'den fazla kez indirildi. DMind ekosisteminde en çok kullanılan artefakttır.
Neleri kapsıyor
9 Web3 alt alanında uzman incelemesinden geçmiş 1.917 soru:
Temel blok zinciri kavramları: hashing, Merkle ağaçları, uzlaşı, PoW/PoS, blok yapısı, çatallanma.
Blok zinciri altyapısı: Layer-1 ve Layer-2 (Optimistic ve ZK Rollup'lar), köprüler, düğüm mimarisi, RPC.
Akıllı sözleşmeler: Solidity, çağrı mekanikleri, depolama, EVM bayt kodu, yükseltme kalıpları.
DeFi mekanizmaları: AMM matematiği, borç verme faiz oranı modelleri, tasfiye mantığı, türev fiyatlandırması.
DAO'lar: yönetişim tokenları, oylama, teklifler, yeter sayı, zaman kilitleri.
NFT'ler: ERC-721/1155 standartları, telif mekanikleri, taban fiyatlandırması, NFT borç verme.
Token ekonomisi: ihraç, kilit açma, yakım, teşvik uyumu, fiyat keşfi.
Meme kavramları: kriptoya özgü kültürel terimler ve meme-token dinamikleri.
Güvenlik açıkları: yeniden giriş, flash-loan saldırıları, oracle manipülasyonu, imza yeniden oynatma, yaygın denetim bulguları.
Soru biçimleri
Kıyaslama iki tür soru kullanır. Çoktan seçmeli sorular olgusal hatırlamayı test eder. Açık uçlu görevler arasında, modelin bir Solidity parçasındaki güvenlik açığını bulması gereken akıllı sözleşme hata ayıklama ve modelin bir AMM havuz durumu verildiğinde belirli bir saldırı vektöründen elde edilen kârı hesaplaması gereken zincir üstü sayısal muhakeme yer alır.
Açık uçlu görevler, çoktan seçmeli sorulardan bilinçli olarak daha zordur. Bir model çoktan seçmeli sorularda örüntü eşleştirme ile ilerleyebilir. Sayısal muhakeme ve kod analizi, sorunu gerçekten çözmeyi gerektirir.
Makalenin buldukları
Kıyaslamanın en son sürümü, GPT-5, Claude Sonnet 4.5, DeepSeek, Gemini, Grok ve Qwen serisi dahil olmak üzere 31 ana akım büyük modeli değerlendirdi. Üç bulgu öne çıkıyor.
Temeller büyük ölçüde çözülmüş, derinlik değil
Her büyük model, Wikipedia'da görülen türden içerik olan blok zinciri temellerinde makul ölçüde iyi performans gösteriyor. Token ekonomisi, meme kavramları ve güvenlikte performans keskin biçimde düşüyor. Web3 uzmanlığının gerçekten önemli olduğu ve genel amaçlı modellerin kulağa makul gelen ama yanlış cevaplar uydurma eğiliminde olduğu alanlar bunlar.
Maliyet ve doğruluk aynı yönde ilerlemez
Doğruluğu token başına maliyetle karşılaştırdığınızda, net bir Pareto sınırı ortaya çıkıyor. GPT-5 serisi yüksek doğruluk tarafında yer alıyor. GPT-OSS-120B, Kimi K2 ve Qwen3-235B Thinking dahil bazı açık modeller, orta bölgede daha iyi bir fiyat/performans sunuyor. Bazı iyi bilinen kapalı modellerin ise özellikle Web3 görevlerinde hem pahalı hem de alternatiflerinden daha zayıf olduğu görülüyor. Makale, sayıların yeniden üretilebilmesi için tüm verileri yayımlıyor.
Daha fazla veriyle ince ayar yapmak açığı kapatmıyor
Makale kontrollü bir deney yürütüyor. Üç temel modeli (QwQ-32B, Qwen3-32B, DeepSeek-R1-Distill-Llama-70B) alın, her birini LoRA ile tam kıyaslama veri kümesi üzerinde ince ayar yapın ve iyileşmeyi ölçün. Öğrenme eğrileri sığ kalıyor. Daha fazla veri vermek Web3 muhakemesini açığa çıkarmıyor. Asıl darboğaz, çok adımlı çıkarım, kavramlar arası ilişkilendirme ve zaman içinde değişen bir piyasayı anlamak. Bu, daha büyük eğitim kümeleri yerine yeni eğitim yöntemleri için bir argümandır ve DMind'in HPS ve C³-SFT'ye yatırım yapmasının nedeni budur (bkz. Eğitim yöntemleri).
Nereden okunur
Makale: arXiv:2504.16116
Veri kümesi: huggingface.co/datasets/DMindAI/DMind_Benchmark
KDD 2026 incelemesi: OpenReview forumu
Son güncelleme
Bu yararlı oldu mu?

