For the complete documentation index, see llms.txt. This page is also available as Markdown.

학습 방법

DMind의 모델은 두 가지 독자적인 학습 방법(HPS와 C³-SFT)을 SFT, RLHF, LoRA, 증류 같은 표준 방법과 결합합니다. 이 페이지에서는 각 방법을 간단히 설명하고 어떤 모델이 무엇을 사용하는지 정리합니다.

기반 모델

시리즈
파라미터
기반
기반 제공업체
역할

DMind-3

21B

gpt-oss-20b

ChatGPT

시스템적 위험, 크로스체인 내러티브, 기관 리서치, 에이전트 오케스트레이션을 위한 클라우드 및 엔터프라이즈 VPC 거시 전략 금융 엔진.

DMind-3

4B

Qwen

로컬 금융 모델링 및 전략 추론 모델입니다. 개인정보 우선, 오프라인 사용 가능, 기기 내 심층 추론 지원.

DMind-3

270M

Gemini

기기 내 지갑 및 DEX 의도 인식과 함수 호출. SEARCH_TOKEN과 EXECUTE_SWAP, 멀티체인, 중국어/영어 의도를 지원합니다.

DMind-2

107B

GLM-4.5-Air

GLM

거시적 추세부터 온체인 행태까지 다루는 대표 암호화폐 투자 분석 모델. 전문 자문 및 기관 분석용.

DMind-2

4B

Qwen3-4B-Thinking-2507

Qwen

로컬 및 엣지 배포, 개인정보 보호, 저지연 사용을 위한 경량 암호화폐 투자 분석 모델.

DMind-1

33B

Qwen3-32B

Qwen

DeFi, 토크노믹스, 거버넌스, 스마트 컨트랙트 Q&A 및 추론을 위한 Web3 전문가 모델.

DMind-1

15B

Qwen3-14B

Qwen

DMind-1의 경량 증류 버전입니다. 저지연 실시간 Q&A, 온체인 분석, 경량 에이전트에 적합합니다.

DMind 모델을 사용하려면 DMind의 모델 계약과 기반이 되는 베이스 모델의 원래 라이선스 둘 다를 준수해야 합니다.

표준 방법

지도 미세조정(SFT)

기본 방법입니다. 질문과 참고 답변을 짝지어 모델이 이를 맞히도록 학습합니다. DMind-1의 첫 번째 학습 단계는 SFT를 사용합니다.

LoRA(저랭크 적응)

SFT를 수행하는 파라미터 효율적인 방법입니다. 모델의 모든 파라미터를 업데이트하는 대신, LoRA는 각 레이어에 작은 저랭크 행렬 쌍을 추가하고 그것만 학습합니다. 이를 통해 학습 비용을 한 자릿수 이상 줄일 수 있습니다. DMind-1은 SFT에 LoRA를 사용합니다. 벤치마크 논문의 통제 실험도 rank 16과 alpha 32의 LoRA를 사용합니다.

인간 피드백 기반 강화학습(RLHF)과 PPO

인간 피드백 기반 강화학습입니다. 먼저 인간 선호 데이터(이 질문에는 답변 A가 답변 B보다 더 좋다)로 보상 모델을 학습합니다. 그런 다음 그 보상 모델을 학습 신호로 사용해 PPO(Proximal Policy Optimization)로 주 모델을 최적화합니다. 이는 GPT-3를 ChatGPT로 바꿀 때 사용된 것과 같은 기법입니다. DMind-1의 두 번째 학습 단계가 이 조합을 사용합니다.

지식 증류

작은 학생 모델이 큰 교사 모델로부터 학습합니다. DMind-1-mini는 이중 교사로부터 증류되었는데, DMind-1 자체와 일반적인 SOTA 모델을 함께 사용하며(출력을 Web3 맥락에 맞추기 위해 DMind의 DeepResearch 프레임워크를 거침), 증류는 세 수준에서 이루어집니다. 학생은 교사의 최종 출력을 맞추고, 각 토큰에 대한 교사의 전체 확률 분포를 맞추며, 중간 레이어 표현도 정렬합니다.

DMind의 두 가지 독자적인 방법

HPS(계층적 예측 합성)

DMind-3(21B) 뒤에 있는 학습 목표입니다. HPS는 Oracle이 계층적 구조의 입력 전반에 걸쳐 추론하도록 가르칩니다. 맨 아래에는 특정 거래와 컨트랙트 호출 같은 원시 온체인 이벤트가 있습니다. 중간에는 집계된 시장 지표가 있습니다. 맨 위에는 연준 정책, CPI, 지정학적 사건 같은 거시 신호가 있습니다.

각 입력 양식에 대해 모델은 다음 전역 시장 상태를 예측하도록 학습합니다. 학습 손실은 다중 모달 가중 로그우도와, 기반 모델의 파라미터로부터 너무 멀어지는 것을 벌하는 정규화 항을 결합합니다. 이 정규화는 치명적 망각을 방지하기 위한 것으로, 모델이 일반 언어 능력을 잃지 않으면서 금융에 특화될 수 있게 합니다.

HPS는 Oracle에 두 가지 모드의 추론 토글도 제공합니다. 표준 모드는 직접 답변을 반환합니다. 특별한 [전략] 토큰은 모델을 전략 모드로 전환하며, 이 모드에서는 답변하기 전에 위험 경로까지 추가로 고려하고 역사적으로 유사한 시나리오를 검색합니다. 호출자가 제어하는 빠른 사고와 느린 사고입니다.

C³-SFT(대조적 수정 연쇄 SFT)

DMind-3-Mini(4B) 뒤에 있는 학습 방법입니다. C³-SFT는 하나의 문제를 중심으로 설계되었습니다. 자신 있게 틀린 말을 하는 작은 모델은 불확실성을 인정하는 모델보다 더 위험합니다.

표준 SFT는 질문이 주어졌을 때 모델이 올바른 답을 내도록 학습합니다. C³-SFT는 학습 데이터를 네 단계의 연쇄로 바꿉니다. 연쇄는 질문으로 시작하고, 그다음에는 그럴듯하지만 결함이 있는 초기 답변, 그다음에는 초기 답변이 놓친 점을 지적하는 명시적 비판(예: 고려되지 않은 오라클 조작 위험), 마지막으로 그 비판을 반영한 수정 답변이 이어집니다.

모델은 이 네 단계를 모두 생성하도록 학습합니다. 추론 시에는 이것이 자기 질문하는 행동으로 이어집니다. 모델은 초기 답변을 내고, 스스로를 비판한 뒤, 수정합니다. 이름의 "대조적" 부분은 학습 중에 모델에게 올바른 답변과 전형적으로 틀린 답변을 모두 보여주기 때문에, 실패 양상의 구체적인 형태를 학습하게 된다는 데서 왔습니다.

이는 더 큰 모델이 별도의 사고 토큰으로 구현하는 System-2 추론 접근법의 경량 버전입니다. 이를 4B 모델에 직접 넣는 것이 Mini가 안전장치를 유지하면서 사용자 기기에서 실행될 수 있게 하는 핵심입니다.

학습 데이터

DMind-1의 학습 데이터는 DeFi, 토크노믹스, 거버넌스, 스마트 컨트랙트, Layer-1/2 아키텍처, NFT, DAO, 보안 전반의 32.7GB Web3 원문에서 추출한 13,276개의 전문가 선별 지식 항목입니다.

DMind-3의 학습 데이터는 더 크고 더 구조화되어 있습니다:

출처
비중
내용

기관 알파 리서치

35%

인과 모델로 분해된 크립토 네이티브 펀드 및 TradFi 보고서

글로벌 거시경제 데이터

25%

FRED, 세계은행, IMF의 시계열을 온체인 지표와 결합한 데이터

크로스체인 인덱스 데이터

20%

주요 EVM 체인, 솔라나, 코스모스 전반의 전체 거래, 상태, 로그 이력

사후 분석 및 감사

10%

초기 신호와 전염 경로에 초점을 둔 시스템적 실패, 경제적 공격, 프로토콜 해킹

지정학 및 규제

10%

디지털 자산에 영향을 미치는 전 세계 규제 변화, 정책 제안, 지정학적 사건

총계: 50만 개 이상의 선별 문서와 수 테라바이트 규모의 온체인 구조화 데이터.

모든 학습 데이터는 스크래핑이 아니라 해당 분야 전문가가 검토합니다. 선정 기준은 모델 카드와 논문에 공개되어 있습니다.

마지막 업데이트

도움이 되었나요?