Métodos de entrenamiento
Los modelos de DMind combinan dos métodos de entrenamiento originales (HPS y C³-SFT) con métodos estándar como SFT, RLHF, LoRA y destilación. Esta página cubre brevemente cada uno y señala qué modelo usa qué.
Modelos base
DMind-3
21B
gpt-oss-20b
ChatGPT
Motor financiero de estrategia macro para la nube y VPC empresarial para riesgo sistémico, narrativas entre cadenas, investigación institucional y orquestación de agentes.
DMind-3
4B
Qwen
Modelo local de razonamiento y modelado financiero para estrategias. Prioriza la privacidad, está disponible sin conexión y ofrece razonamiento profundo en el dispositivo.
DMind-3
270M
Gemini
Reconocimiento de intenciones de monedero y DEX en el dispositivo y llamada de funciones. Admite SEARCH_TOKEN y EXECUTE_SWAP, multicanal e intenciones en chino/inglés.
DMind-2
107B
GLM-4.5-Air
GLM
Modelo insignia de análisis de inversiones en criptomonedas. Cubre desde tendencias macro hasta comportamiento en cadena, para asesoramiento profesional y análisis institucional.
DMind-2
4B
Qwen3-4B-Thinking-2507
Qwen
Modelo ligero de análisis de inversiones en criptomonedas para implementación local y en el borde, con privacidad y baja latencia.
DMind-1
33B
Qwen3-32B
Qwen
Modelo experto en Web3 para DeFi, tokenómica, gobernanza y preguntas y razonamiento sobre contratos inteligentes.
DMind-1
15B
Qwen3-14B
Qwen
Versión destilada ligera de DMind-1. Adecuada para preguntas y respuestas en tiempo real de baja latencia, análisis en cadena y agentes ligeros.
Usar los modelos de DMind requiere respetar tanto el Acuerdo de Modelos de DMind como la licencia original del modelo base subyacente.
Métodos estándar
Ajuste fino supervisado (SFT)
El método base. Se emparejan preguntas con respuestas de referencia y se entrena al modelo para que coincida. La primera etapa de entrenamiento de DMind-1 usa SFT.
LoRA (Adaptación de bajo rango)
Una forma eficiente en parámetros de realizar SFT. En lugar de actualizar todos los parámetros del modelo, LoRA añade a cada capa un pequeño par de matrices de bajo rango y entrena solo esas. Esto reduce el coste de entrenamiento en un orden de magnitud o más. DMind-1 usa LoRA para SFT. Los experimentos controlados del artículo de referencia también usan LoRA con rango 16 y alfa 32.
RLHF y PPO
Aprendizaje por refuerzo a partir de retroalimentación humana. Primero, se entrena un modelo de recompensa con datos de preferencia humana (la respuesta A es mejor que la respuesta B para esta pregunta). Luego, ese modelo de recompensa se usa como señal de entrenamiento para optimizar el modelo principal con PPO (Optimización de políticas proximales), la misma técnica usada para convertir GPT-3 en ChatGPT. La segunda etapa de entrenamiento de DMind-1 usa este par.
Destilación de conocimiento
Un modelo estudiante pequeño aprende de un gran modelo profesor. DMind-1-mini se destila a partir de un doble profesor: el propio DMind-1 más un modelo general SOTA (ejecutado a través del marco DeepResearch de DMind para alinear sus salidas con contextos Web3). La destilación funciona en tres niveles. El estudiante iguala las salidas finales del profesor, iguala la distribución completa de probabilidad del profesor sobre cada token y alinea las representaciones de las capas intermedias.
Los dos métodos originales de DMind
HPS (Síntesis predictiva jerárquica)
El objetivo de entrenamiento detrás de DMind-3 (21B). HPS enseña al Oráculo a razonar a través de una estructura por capas de entradas. En la parte inferior están los eventos crudos en cadena, como transacciones específicas y llamadas a contratos. En el medio están los indicadores de mercado agregados. En la parte superior están las señales macro, como la política de la Fed, el IPC y los eventos geopolíticos.
Para cada modalidad de entrada, el modelo aprende a predecir el siguiente estado global del mercado. La pérdida de entrenamiento combina una log-verosimilitud ponderada multimodal con un término de regularización que penaliza desviarse demasiado de los parámetros del modelo base. La regularización existe para evitar el olvido catastrófico, de modo que el modelo pueda especializarse en finanzas sin perder su capacidad general de lenguaje.
HPS también le da al Oráculo un conmutador de inferencia de dos modos. El modo estándar devuelve una respuesta directa. Un token especial [STRATEGY] cambia el modelo al modo estratégico, donde además considera rutas de riesgo y recupera escenarios históricamente similares antes de responder. Pensamiento rápido y lento, controlado por quien llama.
C³-SFT (Ajuste fino de cadena de corrección contrastiva)
El método de entrenamiento detrás de DMind-3-Mini (4B). C³-SFT se basa en un problema. Un modelo pequeño que afirma con seguridad algo incorrecto es más peligroso que uno que admite incertidumbre.
El SFT estándar entrena a un modelo para producir una respuesta correcta dada una pregunta. C³-SFT convierte los datos de entrenamiento en cadenas de cuatro pasos. La cadena empieza con la pregunta, luego una respuesta inicial plausible pero defectuosa, después una crítica explícita que identifica lo que le faltó a la respuesta inicial (por ejemplo, un riesgo de manipulación del oráculo que no se consideró), y luego una respuesta corregida que aborda la crítica.
El modelo aprende a producir los cuatro pasos. En la inferencia, esto se traduce en un comportamiento de auto-cuestionamiento. El modelo da una respuesta inicial, se critica a sí mismo y la revisa. La parte «contrastiva» del nombre viene de mostrar al modelo tanto respuestas correctas como respuestas típicamente incorrectas durante el entrenamiento, para que aprenda la forma específica de los modos de fallo.
Esta es una versión ligera del enfoque de razonamiento de Sistema 2 que los modelos más grandes implementan con tokens de pensamiento separados. Integrarlo directamente en un modelo de 4B es lo que permite que Mini se ejecute en el dispositivo del usuario manteniendo una red de seguridad.
Datos de entrenamiento
Los datos de entrenamiento de DMind-1 consisten en 13.276 elementos de conocimiento curados por expertos, destilados de 32,7 GB de documentos fuente de Web3 en DeFi, tokenómica, gobernanza, contratos inteligentes, arquitectura de capa 1/2, NFT, DAO y seguridad.
Los datos de entrenamiento de DMind-3 son más grandes y están más estructurados:
Investigación de alfa institucional
35%
Informes de fondos nativos de cripto y de TradFi, descompuestos mediante un modelo causal
Datos macroeconómicos globales
25%
Series temporales de FRED, Banco Mundial e FMI, unidas con indicadores en cadena
Datos de índices entre cadenas
20%
Historial completo de transacciones, estado y registros en las principales cadenas EVM, Solana y Cosmos
Análisis posteriores e auditorías
10%
Fallos sistémicos, ataques económicos y hacks de protocolos, con enfoque en señales tempranas y vías de contagio
Geopolítica y regulación
10%
Cambios regulatorios globales, propuestas de política y eventos geopolíticos que afectan a los activos digitales
Total: más de 500.000 documentos curados, además de datos estructurados en cadena de varios terabytes.
Todos los datos de entrenamiento son revisados por expertos del dominio en lugar de ser recopilados automáticamente. Los criterios de selección se publican en las fichas del modelo y en los artículos.
Última actualización
¿Te fue útil?

