Eğitim yöntemleri

DMind modelleri, iki özgün eğitim yöntemini (HPS ve C³-SFT) SFT, RLHF, LoRA ve bilgi damıtma gibi standart yöntemlerle birleştirir. Bu sayfa her birini kısaca ele alır ve hangi modelin neyi kullandığını not eder.

Temel modeller

Seri
Parametreler
Temel
Temel sağlayıcı
Rol

DMind-3

21B

gpt-oss-20b

ChatGPT

Sistemik risk, zincirler arası anlatılar, kurumsal araştırma ve ajan orkestrasyonu için bulut ve kurumsal VPC makro strateji finans motoru.

DMind-3

4B

Qwen

Yerel finansal modelleme ve strateji akıl yürütme modeli. Gizlilik öncelikli, çevrimdışı kullanılabilir ve cihaz üzerinde derin akıl yürütme sunar.

DMind-3

270M

Gemini

Cihaz üzerindeki cüzdan ve DEX niyet tanıma ve fonksiyon çağırma. SEARCH_TOKEN ve EXECUTE_SWAP'ı, çok zinciri ve Çince/İngilizce niyetleri destekler.

DMind-2

107B

GLM-4.5-Air

GLM

Amiral gemisi kripto yatırım analizi modeli. Profesyonel danışmanlık ve kurumsal analiz için, zincir üstü davranış üzerinden makro eğilimleri kapsar.

DMind-2

4B

Qwen3-4B-Thinking-2507

Qwen

Yerel ve uç dağıtım, gizlilik ve düşük gecikmeli kullanım için hafif kripto yatırım analizi modeli.

DMind-1

33B

Qwen3-32B

Qwen

DeFi, tokenomik, yönetişim ve akıllı sözleşme Soru-Cevap ve akıl yürütme için Web3 uzman modeli.

DMind-1

15B

Qwen3-14B

Qwen

DMind-1'in hafif damıtılmış sürümü. Düşük gecikmeli gerçek zamanlı Soru-Cevap, zincir üstü analiz ve hafif ajanlar için uygundur.

DMind modellerini kullanmak, hem DMind'in Model Sözleşmesi'ne hem de temel modelin özgün lisansına uymayı gerektirir.

Standart yöntemler

Denetimli ince ayar (SFT)

Temel yöntem. Soruları referans yanıtlarla eşleştirin ve modeli bunları eşleştirmeye göre eğitin. DMind-1'in ilk eğitim aşaması SFT kullanır.

LoRA (Düşük Dereceli Uyumlama)

SFT yapmanın parametre verimli bir yolu. Modelin tüm parametrelerini güncellemek yerine, LoRA her katmana küçük bir düşük dereceli matris çifti ekler ve yalnızca bunları eğitir. Bu, eğitim maliyetini bir mertebe veya daha fazla azaltır. DMind-1, SFT için LoRA kullanır. Benchmark makalesindeki kontrollü deneyler de derece 16 ve alfa 32 ile LoRA kullanır.

RLHF ve PPO

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme. Önce, insan tercih verileri üzerinde bir ödül modeli eğitin (bu soru için A yanıtı B yanıtından daha iyidir). Ardından, GPT-3'ü ChatGPT'ye dönüştürmek için kullanılan aynı teknik olan PPO (Yakınsal Politika Optimizasyonu) ile ana modeli optimize etmek için bu ödül modelini bir eğitim sinyali olarak kullanın. DMind-1'in ikinci eğitim aşaması bu çifti kullanır.

Bilgi damıtma

Küçük bir öğrenci model, büyük bir öğretmen modelden öğrenir. DMind-1-mini, çift öğretmenden damıtılır: DMind-1'in kendisi artı genel bir SOTA model (çıktılarını Web3 bağlamlarına hizalamak için DMind'in DeepResearch çerçevesinden geçirilir). Damıtma üç düzeyde gerçekleşir. Öğrenci, öğretmenin nihai çıktılarıyla eşleşir, her bir token üzerindeki tam olasılık dağılımıyla eşleşir ve ara katman temsillerini hizalar.

DMind'in iki özgün yöntemi

HPS (Hiyerarşik Öngörülü Sentez)

DMind-3'ün (21B) arkasındaki eğitim hedefi. HPS, Oracle'a girişlerin katmanlı yapısı boyunca akıl yürütmeyi öğretir. En altta belirli işlemler ve sözleşme çağrıları gibi ham zincir üstü olaylar vardır. Ortada birleştirilmiş piyasa göstergeleri vardır. En üstte Fed politikası, TÜFE ve jeopolitik olaylar gibi makro sinyaller vardır.

Her bir giriş kipliği için model, bir sonraki küresel piyasa durumunu tahmin etmeyi öğrenir. Eğitim kaybı, çok kipli ağırlıklı log-olabilirlik ile, temel modelin parametrelerinden fazla sapmayı cezalandıran bir düzenlileştirme terimini birleştirir. Bu düzenlileştirme, felaket boyutunda unutmayı önlemek içindir; böylece model genel dil yeteneğini kaybetmeden finansta uzmanlaşabilir.

HPS ayrıca Oracle'a iki modlu bir çıkarım anahtarı verir. Standart mod doğrudan bir yanıt döndürür. Özel bir [STRATEGY] belirteci modeli stratejik moda geçirir; burada yanıt vermeden önce risk yollarını da değerlendirir ve tarihsel olarak benzer senaryoları getirir. Çağıran tarafından kontrol edilen hızlı ve yavaş düşünme.

C³-SFT (Karşılaştırmalı Düzeltme Zinciri SFT)

DMind-3-Mini'nin (4B) arkasındaki eğitim yöntemi. C³-SFT tek bir sorun etrafında inşa edilmiştir. Bir şeyleri yanlış olduğu halde kendinden emin biçimde söyleyen küçük bir model, belirsizliği kabul eden bir modelden daha tehlikelidir.

Standart SFT, bir modele bir soru verildiğinde doğru bir yanıt üretmeyi öğretir. C³-SFT, eğitim verisini dört adımlı zincirlere dönüştürür. Zincir soru ile başlar, ardından makul ama kusurlu bir ilk yanıt gelir, sonra ilk yanıtın neleri kaçırdığını belirleyen açık bir eleştiri gelir (örneğin, dikkate alınmamış bir oracle manipülasyon riski), ardından eleştiriyi ele alan düzeltilmiş bir yanıt gelir.

Model dört adımı da üretmeyi öğrenir. Çıkarım sırasında bu, kendi kendini sorgulama davranışına dönüşür. Model bir ilk yanıt verir, kendi yanıtını eleştirir ve revize eder. Adın "çelişkisel" kısmı, eğitim sırasında modele hem doğru hem de tipik yanlış yanıtların gösterilmesinden gelir; böylece başarısızlık kiplerinin özgül biçimini öğrenir.

Bu, büyük modellerin ayrı düşünme belirteçleriyle uyguladığı Sistem-2 akıl yürütme yaklaşımının hafif bir sürümüdür. Bunu doğrudan 4B bir modele yerleştirmek, Mini'nin bir kullanıcının cihazında çalışırken bir güvenlik ağına sahip olmasını sağlar.

Eğitim verisi

DMind-1'in eğitim verisi, DeFi, tokenomik, yönetişim, akıllı sözleşmeler, Katman-1/2 mimarisi, NFT'ler, DAO'lar ve güvenlik genelinde 32,7 GB Web3 kaynak belgesinden damıtılmış, uzmanlarca küratörlüğü yapılmış 13.276 bilgi öğesidir.

DMind-3'ün eğitim verisi daha büyük ve daha yapılandırılmıştır:

Kaynak
Pay
Nedir

Kurumsal alfa araştırması

35%

Kripto-yerli fon ve TradFi raporları, nedensel bir model üzerinden ayrıştırılmış

Küresel makroekonomik veriler

25%

FRED, Dünya Bankası, IMF'den zaman serileri, zincir üstü göstergelerle birleştirilmiş

Zincirler arası endeks verileri

20%

Başlıca EVM zincirleri, Solana ve Cosmos genelinde tam işlem, durum ve günlük geçmişi

Olay sonrası incelemeler ve denetimler

10%

Sistemik arızalar, ekonomik saldırılar, protokol hack'leri; erken sinyaller ve bulaşma yollarına odaklanılır

Jeopolitik ve düzenleme

10%

Küresel düzenleyici değişiklikler, politika teklifleri, dijital varlıkları etkileyen jeopolitik olaylar

Toplam: 500.000+ özenle seçilmiş belge, artı çok terabaytlık zincir üstü yapılandırılmış veri.

Tüm eğitim verileri, kazınıp toplanmak yerine alan uzmanları tarafından gözden geçirilir. Seçim kriterleri model kartlarında ve makalelerde yayımlanmıştır.

Son güncelleme

Bu yararlı oldu mu?