> For the complete documentation index, see [llms.txt](https://minara.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://minara.ai/docs/minara-handbook/es/tecnologia/dmind/training-methods.md).

# Métodos de entrenamiento

Los modelos de DMind combinan dos métodos de entrenamiento originales (HPS y C³-SFT) con métodos estándar como SFT, RLHF, LoRA y destilación. Esta página los cubre brevemente y señala qué modelo usa qué.

## Modelos base

<table><thead><tr><th width="98.546875">Serie</th><th width="96.9140625">Parámetros</th><th width="158.96484375">Base</th><th width="96.515625">Proveedor base</th><th>Rol</th></tr></thead><tbody><tr><td>DMind-3</td><td>21B</td><td>gpt-oss-20b</td><td>ChatGPT</td><td>Estrategia macro financiera para la nube y VPC empresariales, motor para riesgo sistémico, narrativas entre cadenas, investigación institucional y orquestación de agentes.</td></tr><tr><td>DMind-3</td><td>4B</td><td><a href="https://huggingface.co/Qwen/Qwen3.5-4B">Qwen3.5-4B</a></td><td>Qwen</td><td>Modelo local de modelado financiero y razonamiento estratégico. Prioriza la privacidad, disponible sin conexión, con razonamiento profundo en el dispositivo.</td></tr><tr><td>DMind-3</td><td>270M</td><td><a href="https://huggingface.co/google/functiongemma-270m-it">functiongemma-270m-it</a></td><td>Gemini</td><td>Reconocimiento de intenciones y llamada de funciones para wallet y DEX en el dispositivo. Admite SEARCH_TOKEN y EXECUTE_SWAP, multichain e intenciones en chino/inglés.</td></tr><tr><td>DMind-2</td><td>107B</td><td>GLM-4.5-Air</td><td>GLM</td><td>Modelo insignia de análisis de inversiones en cripto. Cubre tendencias macro a través del comportamiento on-chain, para asesoramiento profesional y análisis institucional.</td></tr><tr><td>DMind-2</td><td>4B</td><td>Qwen3-4B-Thinking-2507</td><td>Qwen</td><td>Modelo ligero de análisis de inversiones en cripto para despliegue local y en el borde, privacidad y uso de baja latencia.</td></tr><tr><td>DMind-1</td><td>33B</td><td>Qwen3-32B</td><td>Qwen</td><td>Modelo experto de Web3 para DeFi, tokenómica, gobernanza y preguntas y respuestas y razonamiento sobre contratos inteligentes.</td></tr><tr><td>DMind-1</td><td>15B</td><td>Qwen3-14B</td><td>Qwen</td><td>Versión destilada y ligera de DMind-1. Se adapta a preguntas y respuestas en tiempo real de baja latencia, análisis on-chain y agentes ligeros.</td></tr></tbody></table>

Usar los modelos de DMind requiere respetar tanto el Acuerdo de modelo de DMind como la licencia original del modelo base subyacente.

## Métodos estándar

### Ajuste fino supervisado (SFT)

El método base. Empareja preguntas con respuestas de referencia y entrena al modelo para que las imite. La primera etapa de entrenamiento de DMind-1 usa SFT.

### LoRA (adaptación de bajo rango)

Una forma eficiente en parámetros de hacer SFT. En lugar de actualizar todos los parámetros del modelo, LoRA añade a cada capa un pequeño par de matrices de bajo rango y solo entrena esas. Esto reduce el costo de entrenamiento en un orden de magnitud o más. DMind-1 usa LoRA para SFT. Los experimentos controlados del artículo de referencia también usan LoRA con rango 16 y alpha 32.

### RLHF y PPO

Aprendizaje por refuerzo a partir de retroalimentación humana. Primero, entrena un modelo de recompensa con datos de preferencias humanas (la respuesta A es mejor que la respuesta B para esta pregunta). Luego usa ese modelo de recompensa como señal de entrenamiento para optimizar el modelo principal con PPO (optimización de políticas proximales), la misma técnica usada para convertir GPT-3 en ChatGPT. La segunda etapa de entrenamiento de DMind-1 usa este par.

### Destilación de conocimiento

Un pequeño modelo estudiante aprende de un gran modelo profesor. DMind-1-mini se destila a partir de un doble profesor: el propio DMind-1 más un modelo general SOTA (ejecutado a través del marco DeepResearch de DMind para alinear sus salidas con contextos Web3). La destilación funciona en tres niveles. El estudiante iguala las salidas finales del profesor, iguala la distribución completa de probabilidades del profesor sobre cada token y alinea las representaciones de las capas intermedias.

## Los dos métodos originales de DMind

### HPS (Síntesis Predictiva Jerárquica)

El objetivo de entrenamiento detrás de DMind-3 (21B). HPS enseña al Oracle a razonar a través de una estructura estratificada de entradas. En la parte inferior están los eventos brutos on-chain, como transacciones específicas y llamadas a contratos. En el nivel intermedio están los indicadores agregados del mercado. En la parte superior están las señales macro, como la política de la Fed, el IPC y los eventos geopolíticos.

Para cada modalidad de entrada, el modelo aprende a predecir el siguiente estado global del mercado. La pérdida de entrenamiento combina una log-verosimilitud ponderada multimodal con un término de regularización que penaliza desviarse demasiado de los parámetros del modelo base. La regularización está ahí para evitar el olvido catastrófico, de modo que el modelo pueda especializarse en finanzas sin perder su capacidad lingüística general.

HPS también le da al Oracle un conmutador de inferencia de dos modos. El modo estándar devuelve una respuesta directa. Un especial `[STRATEGY]` token cambia el modelo al modo estratégico, donde además considera rutas de riesgo y recupera escenarios históricamente similares antes de responder. Pensamiento rápido y lento, controlado por quien llama.

### C³-SFT (SFT de cadena de corrección contrastiva)

El método de entrenamiento detrás de DMind-3-Mini (4B). C³-SFT se construye en torno a un problema. Un modelo pequeño que afirma con confianza algo incorrecto es más peligroso que uno que admite incertidumbre.

El SFT estándar entrena un modelo para producir una respuesta correcta dada una pregunta. C³-SFT transforma los datos de entrenamiento en cadenas de cuatro pasos. La cadena comienza con la pregunta, luego una respuesta inicial que es plausible pero defectuosa, luego una crítica explícita que identifica lo que la respuesta inicial pasó por alto (por ejemplo, un riesgo de manipulación del oracle que no se consideró), y luego una respuesta corregida que aborda la crítica.

El modelo aprende a producir los cuatro pasos. En tiempo de inferencia, esto se convierte en un comportamiento de auto-cuestionamiento. El modelo da una respuesta inicial, se critica a sí mismo y la revisa. La parte «contrastiva» del nombre viene de mostrarle al modelo tanto respuestas correctas como respuestas erróneas típicas durante el entrenamiento, de modo que aprenda la forma específica de los modos de fallo.

Esta es una versión ligera del enfoque de razonamiento de Sistema 2 que los modelos más grandes implementan con tokens de pensamiento separados. Integrarlo directamente en un modelo de 4B es lo que permite que Mini se ejecute en el dispositivo de un usuario mientras mantiene una red de seguridad.

## Datos de entrenamiento

Los datos de entrenamiento de DMind-1 son 13.276 elementos de conocimiento curados por expertos, destilados de 32,7 GB de documentos fuente de Web3 en DeFi, tokenómica, gobernanza, contratos inteligentes, arquitectura de Capa 1/2, NFT, DAO y seguridad.

Los datos de entrenamiento de DMind-3 son más grandes y están más estructurados:

| Fuente                              | Participación | Qué es                                                                                                              |
| ----------------------------------- | ------------- | ------------------------------------------------------------------------------------------------------------------- |
| Investigación institucional de alfa | 35%           | Informes de fondos nativos de cripto y de TradFi, descompuestos mediante un modelo causal                           |
| Datos macroeconómicos globales      | 25%           | Series temporales de FRED, el Banco Mundial y el FMI, combinadas con indicadores on-chain                           |
| Datos de índices entre cadenas      | 20%           | Historial completo de transacciones, estado y registros en las principales cadenas EVM, Solana y Cosmos             |
| Análisis post mortem y auditorías   | 10%           | Fallos sistémicos, ataques económicos y hackeos de protocolos, con enfoque en señales tempranas y rutas de contagio |
| Geopolítica y regulación            | 10%           | Cambios regulatorios globales, propuestas de políticas y eventos geopolíticos que afectan a los activos digitales   |

Total: más de 500.000 documentos curados, además de datos estructurados on-chain de varios terabytes.

Todos los datos de entrenamiento son revisados por expertos del dominio en lugar de ser extraídos automáticamente. Los criterios de selección se publican en las tarjetas del modelo y en los artículos.


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://minara.ai/docs/minara-handbook/es/tecnologia/dmind/training-methods.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
