DMind Benchmark
DMind Benchmark es un conjunto de evaluación para la comprensión de Web3 en modelos de lenguaje grandes. Fue aceptado en la pista Datasets & Benchmarks de KDD 2026 de entre 513 propuestas (tasa de aceptación de alrededor del 29%) y se presentará en la conferencia principal en Jeju, Corea del Sur, en agosto de 2026.
El conjunto de datos es abierto y se ha descargado más de 13.000 veces desde Hugging Face. Es el artefacto más utilizado en el ecosistema DMind.
Lo que cubre
1.917 preguntas revisadas por expertos en 9 subdominios de Web3:
Conceptos fundamentales de blockchain: hashing, árboles de Merkle, consenso, PoW/PoS, estructura de bloques, forks.
Infraestructura de blockchain: Capa 1 frente a Capa 2 (Optimistic vs ZK Rollups), puentes, arquitectura de nodos, RPC.
Contratos inteligentes: Solidity, mecánica de llamadas, almacenamiento, bytecode de EVM, patrones de actualización.
Mecanismos DeFi: matemáticas de AMM, modelos de tipos de interés de préstamos, lógica de liquidación, fijación de precios de derivados.
DAOs: tokens de gobernanza, votaciones, propuestas, quórum, timelocks.
NFTs: estándares ERC-721/1155, mecánica de regalías, precio mínimo, préstamos de NFT.
Economía de tokens: emisión, adquisición gradual, quema, alineación de incentivos, descubrimiento de precios.
Conceptos de memes: términos culturales específicos de las criptomonedas y la dinámica de los meme-tokens.
Vulnerabilidades de seguridad: reentrancy, ataques de flash loans, manipulación de oráculos, repetición de firmas, hallazgos comunes de auditoría.
Formatos de preguntas
El benchmark utiliza dos tipos de preguntas. Las preguntas de opción múltiple evalúan el recuerdo de hechos. Las tareas abiertas incluyen depuración de contratos inteligentes, donde el modelo tiene que encontrar la vulnerabilidad en un fragmento de Solidity, y razonamiento numérico on-chain, donde se le da al modelo el estado de un pool AMM y tiene que calcular el beneficio de un vector de ataque específico.
Las tareas abiertas son deliberadamente más difíciles que las de opción múltiple. Un modelo puede resolver las de opción múltiple mediante reconocimiento de patrones. El razonamiento numérico y el análisis de código requieren realmente trabajar el problema.
Lo que encontró el artículo
La versión más reciente del benchmark ha evaluado 31 modelos grandes convencionales, incluidos GPT-5, Claude Sonnet 4.5, DeepSeek, Gemini, Grok y la serie Qwen. Destacan tres hallazgos.
Los fundamentos están mayormente resueltos, la profundidad no
Todos los modelos principales rinden razonablemente bien en los fundamentos de blockchain, el tipo de contenido que aparece en Wikipedia. El rendimiento cae bruscamente en economía de tokens, conceptos de memes y seguridad. Estas son las áreas donde realmente importa la experiencia en Web3, y donde los modelos de propósito general tienden a inventar respuestas plausibles pero incorrectas.
El coste y la precisión no van de la mano
Cuando se grafica la precisión frente al coste por token, aparece una frontera de Pareto clara. La serie GPT-5 se sitúa en el extremo de mayor precisión. Algunos modelos abiertos, incluidos GPT-OSS-120B, Kimi K2 y Qwen3-235B Thinking, ofrecen mejor relación calidad-precio en la zona intermedia. Algunos modelos cerrados muy conocidos resultan ser tanto caros como más débiles que las alternativas específicamente en tareas de Web3. El artículo publica todos los datos para que las cifras puedan reproducirse.
El ajuste fino con más datos no cierra la brecha
El artículo realiza un experimento controlado. Toma tres modelos base (QwQ-32B, Qwen3-32B, DeepSeek-R1-Distill-Llama-70B), ajusta cada uno con el conjunto de datos completo del benchmark mediante LoRA y mide la mejora. Las curvas de aprendizaje se mantienen planas. Aportar más datos no desbloquea el razonamiento en Web3. El verdadero cuello de botella es la inferencia de varios pasos, la asociación entre conceptos y la comprensión de un mercado que cambia con el tiempo. Este es el argumento a favor de nuevos métodos de entrenamiento en lugar de conjuntos de entrenamiento más grandes, y la razón por la que DMind invirtió en HPS y C³-SFT (véase Métodos de entrenamiento).
Dónde leerlo
Artículo: arXiv:2504.16116
Conjunto de datos: huggingface.co/datasets/DMindAI/DMind_Benchmark
Reseña de KDD 2026: Foro de OpenReview
Última actualización
¿Te fue útil?

