> For the complete documentation index, see [llms.txt](https://minara.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://minara.ai/docs/minara-handbook/es/tecnologia/dmind/benchmark.md).

# Benchmark de DMind

DMind Benchmark es una suite de evaluación para la comprensión de Web3 en modelos de lenguaje grandes. Fue aceptado en el track Datasets & Benchmarks de KDD 2026 entre 513 propuestas (tasa de aceptación de alrededor del 29%) y se presentará en la conferencia principal en Jeju, Corea del Sur, en agosto de 2026.

El conjunto de datos es abierto y se ha descargado más de 13.000 veces desde Hugging Face. Es el artefacto más utilizado en el ecosistema DMind.

## Qué cubre

1.917 preguntas revisadas por expertos en 9 subdominios de Web3:

1. Conceptos fundamentales de blockchain: hash, árboles de Merkle, consenso, PoW/PoS, estructura de bloques, bifurcaciones.
2. Infraestructura blockchain: Layer-1 frente a Layer-2 (Optimistic vs ZK Rollups), puentes, arquitectura de nodos, RPC.
3. Contratos inteligentes: Solidity, mecánica de llamadas, almacenamiento, bytecode de la EVM, patrones de actualización.
4. Mecanismos DeFi: matemáticas de AMM, modelos de tasas de préstamo, lógica de liquidación, fijación de precios de derivados.
5. DAOs: tokens de gobernanza, votación, propuestas, quórum, bloqueos temporales.
6. NFTs: estándares ERC-721/1155, mecánica de regalías, precio mínimo, préstamos de NFT.
7. Economía de tokens: emisión, vesting, quema, alineación de incentivos, descubrimiento de precios.
8. Conceptos meme: términos culturales específicos de las criptomonedas y dinámicas de los tokens meme.
9. Vulnerabilidades de seguridad: reentrancia, ataques de flash loans, manipulación de oráculos, repetición de firmas, hallazgos comunes de auditoría.

## Formatos de preguntas

El benchmark usa dos tipos de preguntas. Las preguntas de opción múltiple evalúan el recuerdo factual. Las tareas de respuesta abierta incluyen depuración de contratos inteligentes, donde el modelo tiene que encontrar la vulnerabilidad en un fragmento de Solidity, y razonamiento numérico en cadena, donde se le da al modelo el estado de un pool AMM y tiene que calcular la ganancia de un vector de ataque específico.

Las tareas de respuesta abierta son deliberadamente más कठिनas que las de opción múltiple. Un modelo puede resolver las de opción múltiple mediante reconocimiento de patrones. El razonamiento numérico y el análisis de código requieren realmente trabajar el problema.

## Lo que encontró el artículo

La versión más reciente del benchmark ha evaluado 31 modelos grandes convencionales, incluidos GPT-5, Claude Sonnet 4.5, DeepSeek, Gemini, Grok y la serie Qwen. Destacan tres hallazgos.

### Los fundamentos están mayormente resueltos; la profundidad no

Todos los modelos importantes rinden razonablemente bien en los fundamentos de blockchain, el tipo de contenido que aparece en Wikipedia. El rendimiento cae bruscamente en economía de tokens, conceptos meme y seguridad. Estas son las áreas donde realmente importa la experiencia en Web3 y donde los modelos de uso general tienden a inventar respuestas plausibles pero incorrectas.

### El costo y la precisión no van de la mano

Cuando se representa la precisión frente al costo por token, hay una clara frontera de Pareto. La serie GPT-5 se sitúa en el extremo de mayor precisión. Algunos modelos abiertos, incluidos GPT-OSS-120B, Kimi K2 y Qwen3-235B Thinking, ofrecen mejor relación calidad-precio en la zona intermedia. Resulta que algunos modelos cerrados muy conocidos son a la vez caros y más débiles que alternativas específicamente en tareas de Web3. El artículo publica los datos completos para que las cifras puedan reproducirse.

### El ajuste fino con más datos no cierra la brecha

El artículo realiza un experimento controlado. Toma tres modelos base (QwQ-32B, Qwen3-32B, DeepSeek-R1-Distill-Llama-70B), ajusta cada uno con el conjunto completo de datos del benchmark usando LoRA y mide la mejora. Las curvas de aprendizaje permanecen poco pronunciadas. Alimentar con más datos no desbloquea el razonamiento en Web3. El verdadero cuello de botella es la inferencia de varios pasos, la asociación entre conceptos y la comprensión de un mercado que cambia con el tiempo. Este es el argumento a favor de nuevos métodos de entrenamiento en lugar de conjuntos de entrenamiento más grandes, y la razón por la que DMind invirtió en HPS y C³-SFT (véase [Métodos de entrenamiento](/docs/minara-handbook/es/tecnologia/dmind/training-methods.md)).

## Dónde leerlo

* Artículo: [arXiv:2504.16116](https://arxiv.org/abs/2504.16116)
* Conjunto de datos: [huggingface.co/datasets/DMindAI/DMind\_Benchmark](https://huggingface.co/datasets/DMindAI/DMind_Benchmark)
* Revisión de KDD 2026: [Foro de OpenReview](https://openreview.net/forum?id=RvmxTg2mi5)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://minara.ai/docs/minara-handbook/es/tecnologia/dmind/benchmark.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
