> For the complete documentation index, see [llms.txt](https://minara.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://minara.ai/docs/minara-handbook/ko/technology/dmind/training-methods.md).

# 학습 방법

DMind의 모델은 두 가지 독자적인 학습 방법(HPS와 C³-SFT)을 SFT, RLHF, LoRA, 증류 같은 표준 방법과 결합합니다. 이 페이지에서는 각 방법을 간단히 설명하고 어떤 모델이 무엇을 사용하는지 보여줍니다.

## 기반 모델

<table><thead><tr><th width="98.546875">시리즈</th><th width="96.9140625">파라미터</th><th width="158.96484375">베이스</th><th width="96.515625">기반 제공자</th><th>역할</th></tr></thead><tbody><tr><td>DMind-3</td><td>21B</td><td>gpt-oss-20b</td><td>ChatGPT</td><td>시스템 리스크, 크로스체인 내러티브, 기관 리서치, 에이전트 오케스트레이션을 위한 클라우드 및 엔터프라이즈-VPC 매크로 전략 금융 엔진.</td></tr><tr><td>DMind-3</td><td>4B</td><td><a href="https://huggingface.co/Qwen/Qwen3.5-4B">Qwen3.5-4B</a></td><td>Qwen</td><td>로컬 금융 모델링 및 전략 추론 모델. 프라이버시 우선, 오프라인 사용 가능, 기기 내 심층 추론 지원.</td></tr><tr><td>DMind-3</td><td>270M</td><td><a href="https://huggingface.co/google/functiongemma-270m-it">functiongemma-270m-it</a></td><td>Gemini</td><td>기기 내 지갑 및 DEX 의도 인식과 함수 호출. SEARCH_TOKEN과 EXECUTE_SWAP, 멀티체인, 중국어/영어 의도를 지원합니다.</td></tr><tr><td>DMind-2</td><td>107B</td><td>GLM-4.5-Air</td><td>GLM</td><td>플래그십 암호화폐 투자 분석 모델. 온체인 행동을 통해 거시 트렌드까지 다루며, 전문 자문 및 기관 분석용입니다.</td></tr><tr><td>DMind-2</td><td>4B</td><td>Qwen3-4B-Thinking-2507</td><td>Qwen</td><td>로컬 및 엣지 배포, 프라이버시, 저지연 사용을 위한 경량 암호화폐 투자 분석 모델.</td></tr><tr><td>DMind-1</td><td>33B</td><td>Qwen3-32B</td><td>Qwen</td><td>DeFi, 토크노믹스, 거버넌스, 스마트 컨트랙트 Q&#x26;A 및 추론을 위한 Web3 전문가 모델.</td></tr><tr><td>DMind-1</td><td>15B</td><td>Qwen3-14B</td><td>Qwen</td><td>DMind-1의 경량 증류 버전. 저지연 실시간 Q&#x26;A, 온체인 분석, 경량 에이전트에 적합합니다.</td></tr></tbody></table>

DMind 모델을 사용하려면 DMind의 모델 계약과 기반 모델의 원래 라이선스를 모두 준수해야 합니다.

## 표준 방법

### 지도 미세조정(SFT)

기본 방법입니다. 질문과 정답을 짝지어 모델이 일치하도록 학습합니다. DMind-1의 첫 번째 학습 단계는 SFT를 사용합니다.

### LoRA(저랭크 적응)

SFT를 수행하는 파라미터 효율적인 방법입니다. 모델의 모든 파라미터를 업데이트하는 대신, LoRA는 각 레이어에 작은 저랭크 행렬 쌍을 추가하고 그 부분만 학습합니다. 이로 인해 학습 비용이 한 자릿수 이상 줄어듭니다. DMind-1은 SFT에 LoRA를 사용합니다. 벤치마크 논문의 통제 실험도 rank 16, alpha 32의 LoRA를 사용합니다.

### RLHF와 PPO

인간 피드백을 통한 강화학습입니다. 먼저 인간 선호 데이터(이 질문에는 답변 A가 답변 B보다 낫다)를 사용해 보상 모델을 학습합니다. 그런 다음 그 보상 모델을 학습 신호로 사용해 PPO(Proximal Policy Optimization)로 메인 모델을 최적화하는데, 이는 GPT-3를 ChatGPT로 바꿀 때 사용된 것과 같은 기법입니다. DMind-1의 두 번째 학습 단계는 이 조합을 사용합니다.

### 지식 증류

작은 학생 모델이 큰 교사 모델로부터 학습합니다. DMind-1-mini는 이중 교사로부터 증류됩니다. DMind-1 자체와 일반적인 SOTA 모델을 사용하며, SOTA 모델의 출력은 DMind의 DeepResearch 프레임워크를 통해 Web3 맥락에 맞게 정렬됩니다. 증류는 세 가지 수준에서 이루어집니다. 학생은 교사의 최종 출력을 맞추고, 각 토큰에 대한 교사의 전체 확률 분포를 맞추며, 중간 레이어 표현도 정렬합니다.

## DMind의 두 가지 독자적 방법

### HPS(계층적 예측 합성)

DMind-3(21B)의 학습 목표입니다. HPS는 Oracle이 계층적 구조의 입력을 가로질러 추론하도록 학습시킵니다. 가장 아래에는 특정 거래와 컨트랙트 호출 같은 원시 온체인 이벤트가 있습니다. 중간에는 집계된 시장 지표가 있습니다. 맨 위에는 연준 정책, CPI, 지정학적 사건 같은 거시 신호가 있습니다.

각 입력 양식마다 모델은 다음 전역 시장 상태를 예측하도록 학습합니다. 학습 손실은 멀티모달 가중 로그우도와, 기반 모델의 파라미터에서 너무 멀리 벗어나는 것을 벌점으로 주는 정규화 항을 결합합니다. 이 정규화는 치명적 망각을 막기 위한 것으로, 모델이 일반 언어 능력을 잃지 않으면서 금융에 특화될 수 있게 합니다.

HPS는 Oracle에 두 가지 모드의 추론 전환도 제공합니다. 표준 모드는 직접적인 답변을 반환합니다. 특수한 `[STRATEGY]` 토큰은 모델을 전략 모드로 전환하며, 이 모드에서는 답변하기 전에 위험 경로를 추가로 고려하고 과거에 유사한 시나리오를 검색합니다. 호출자가 제어하는 빠른 사고와 느린 사고입니다.

### C³-SFT(대조적 교정 연쇄 SFT)

DMind-3-Mini(4B) 뒤에 있는 학습 방법입니다. C³-SFT는 하나의 문제를 중심으로 설계되었습니다. 자신 있게 틀린 말을 하는 작은 모델은 불확실함을 인정하는 모델보다 더 위험합니다.

표준 SFT는 질문이 주어졌을 때 올바른 답변을 생성하도록 모델을 학습합니다. C³-SFT는 학습 데이터를 네 단계의 연쇄로 바꿉니다. 연쇄는 질문으로 시작하고, 그다음에는 그럴듯하지만 결함이 있는 초기 답변, 그다음에는 초기 답변이 놓친 점을 지적하는 명시적 비판(예: 고려되지 않은 오라클 조작 위험), 마지막으로 그 비판을 반영한 수정 답변이 이어집니다.

모델은 이 네 단계를 모두 생성하도록 학습합니다. 추론 시점에는 이것이 자기 질문(self-questioning) 행동으로 이어집니다. 모델은 초기 답변을 내고, 스스로 비판한 뒤, 수정합니다. 이름의 "대조적" 부분은 학습 중에 모델에 정답과 흔히 틀리는 답변을 함께 보여준다는 데서 오며, 이를 통해 실패 양상의 구체적인 형태를 학습합니다.

이것은 더 큰 모델이 별도의 사고 토큰으로 구현하는 시스템-2 추론 접근법의 경량 버전입니다. 이를 4B 모델에 직접 넣는 것이 Mini가 안전장치를 유지하면서 사용자 기기에서 실행될 수 있게 하는 핵심입니다.

## 학습 데이터

DMind-1의 학습 데이터는 DeFi, 토크노믹스, 거버넌스, 스마트 컨트랙트, Layer-1/2 아키텍처, NFT, DAO, 보안 전반의 32.7GB Web3 원문 문서에서 정제한 13,276개의 전문가 큐레이션 지식 항목입니다.

DMind-3의 학습 데이터는 더 크고 더 구조화되어 있습니다:

| 출처            | 비중  | 내용                                             |
| ------------- | --- | ---------------------------------------------- |
| 기관용 알파 리서치    | 35% | 인과 모델로 분해한 크립토 네이티브 펀드 및 TradFi 리포트            |
| 글로벌 거시경제 데이터  | 25% | FRED, World Bank, IMF의 시계열을 온체인 지표와 결합         |
| 크로스체인 인덱스 데이터 | 20% | 주요 EVM 체인, Solana, Cosmos 전반의 전체 거래, 상태, 로그 이력 |
| 사후 분석 및 감사    | 10% | 시스템 실패, 경제적 공격, 프로토콜 해킹, 초기 신호와 전염 경로에 초점      |
| 지정학과 규제       | 10% | 디지털 자산에 영향을 미치는 글로벌 규제 변화, 정책 제안, 지정학적 사건      |

총합: 50만 개 이상의 큐레이션 문서와 수 테라바이트의 온체인 구조화 데이터.

모든 학습 데이터는 스크래핑이 아니라 도메인 전문가가 검토합니다. 선정 기준은 모델 카드와 논문에 공개되어 있습니다.


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://minara.ai/docs/minara-handbook/ko/technology/dmind/training-methods.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
