Eğitim yöntemleri
DMind modelleri, iki özgün eğitim yöntemini (HPS ve C³-SFT) SFT, RLHF, LoRA ve bilgi damıtma gibi standart yöntemlerle birleştirir. Bu sayfa her birini kısaca ele alır ve hangi modelin neyi kullandığını not eder.
Temel modeller
DMind-3
21B
gpt-oss-20b
ChatGPT
Sistemik risk, zincirler arası anlatılar, kurumsal araştırma ve ajan orkestrasyonu için bulut ve kurumsal VPC makro strateji finans motoru.
DMind-3
4B
Qwen
Yerel finansal modelleme ve strateji akıl yürütme modeli. Gizlilik öncelikli, çevrimdışı kullanılabilir ve cihaz üzerinde derin akıl yürütme sunar.
DMind-3
270M
Gemini
Cihaz üzerindeki cüzdan ve DEX niyet tanıma ve fonksiyon çağırma. SEARCH_TOKEN ve EXECUTE_SWAP'ı, çok zinciri ve Çince/İngilizce niyetleri destekler.
DMind-2
107B
GLM-4.5-Air
GLM
Amiral gemisi kripto yatırım analizi modeli. Profesyonel danışmanlık ve kurumsal analiz için, zincir üstü davranış üzerinden makro eğilimleri kapsar.
DMind-2
4B
Qwen3-4B-Thinking-2507
Qwen
Yerel ve uç dağıtım, gizlilik ve düşük gecikmeli kullanım için hafif kripto yatırım analizi modeli.
DMind-1
33B
Qwen3-32B
Qwen
DeFi, tokenomik, yönetişim ve akıllı sözleşme Soru-Cevap ve akıl yürütme için Web3 uzman modeli.
DMind-1
15B
Qwen3-14B
Qwen
DMind-1'in hafif damıtılmış sürümü. Düşük gecikmeli gerçek zamanlı Soru-Cevap, zincir üstü analiz ve hafif ajanlar için uygundur.
DMind modellerini kullanmak, hem DMind'in Model Sözleşmesi'ne hem de temel modelin özgün lisansına uymayı gerektirir.
Standart yöntemler
Denetimli ince ayar (SFT)
Temel yöntem. Soruları referans yanıtlarla eşleştirin ve modeli bunları eşleştirmeye göre eğitin. DMind-1'in ilk eğitim aşaması SFT kullanır.
LoRA (Düşük Dereceli Uyumlama)
SFT yapmanın parametre verimli bir yolu. Modelin tüm parametrelerini güncellemek yerine, LoRA her katmana küçük bir düşük dereceli matris çifti ekler ve yalnızca bunları eğitir. Bu, eğitim maliyetini bir mertebe veya daha fazla azaltır. DMind-1, SFT için LoRA kullanır. Benchmark makalesindeki kontrollü deneyler de derece 16 ve alfa 32 ile LoRA kullanır.
RLHF ve PPO
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme. Önce, insan tercih verileri üzerinde bir ödül modeli eğitin (bu soru için A yanıtı B yanıtından daha iyidir). Ardından, GPT-3'ü ChatGPT'ye dönüştürmek için kullanılan aynı teknik olan PPO (Yakınsal Politika Optimizasyonu) ile ana modeli optimize etmek için bu ödül modelini bir eğitim sinyali olarak kullanın. DMind-1'in ikinci eğitim aşaması bu çifti kullanır.
Bilgi damıtma
Küçük bir öğrenci model, büyük bir öğretmen modelden öğrenir. DMind-1-mini, çift öğretmenden damıtılır: DMind-1'in kendisi artı genel bir SOTA model (çıktılarını Web3 bağlamlarına hizalamak için DMind'in DeepResearch çerçevesinden geçirilir). Damıtma üç düzeyde gerçekleşir. Öğrenci, öğretmenin nihai çıktılarıyla eşleşir, her bir token üzerindeki tam olasılık dağılımıyla eşleşir ve ara katman temsillerini hizalar.
DMind'in iki özgün yöntemi
HPS (Hiyerarşik Öngörülü Sentez)
DMind-3'ün (21B) arkasındaki eğitim hedefi. HPS, Oracle'a girişlerin katmanlı yapısı boyunca akıl yürütmeyi öğretir. En altta belirli işlemler ve sözleşme çağrıları gibi ham zincir üstü olaylar vardır. Ortada birleştirilmiş piyasa göstergeleri vardır. En üstte Fed politikası, TÜFE ve jeopolitik olaylar gibi makro sinyaller vardır.
Her bir giriş kipliği için model, bir sonraki küresel piyasa durumunu tahmin etmeyi öğrenir. Eğitim kaybı, çok kipli ağırlıklı log-olabilirlik ile, temel modelin parametrelerinden fazla sapmayı cezalandıran bir düzenlileştirme terimini birleştirir. Bu düzenlileştirme, felaket boyutunda unutmayı önlemek içindir; böylece model genel dil yeteneğini kaybetmeden finansta uzmanlaşabilir.
HPS ayrıca Oracle'a iki modlu bir çıkarım anahtarı verir. Standart mod doğrudan bir yanıt döndürür. Özel bir [STRATEGY] belirteci modeli stratejik moda geçirir; burada yanıt vermeden önce risk yollarını da değerlendirir ve tarihsel olarak benzer senaryoları getirir. Çağıran tarafından kontrol edilen hızlı ve yavaş düşünme.
C³-SFT (Karşılaştırmalı Düzeltme Zinciri SFT)
DMind-3-Mini'nin (4B) arkasındaki eğitim yöntemi. C³-SFT tek bir sorun etrafında inşa edilmiştir. Bir şeyleri yanlış olduğu halde kendinden emin biçimde söyleyen küçük bir model, belirsizliği kabul eden bir modelden daha tehlikelidir.
Standart SFT, bir modele bir soru verildiğinde doğru bir yanıt üretmeyi öğretir. C³-SFT, eğitim verisini dört adımlı zincirlere dönüştürür. Zincir soru ile başlar, ardından makul ama kusurlu bir ilk yanıt gelir, sonra ilk yanıtın neleri kaçırdığını belirleyen açık bir eleştiri gelir (örneğin, dikkate alınmamış bir oracle manipülasyon riski), ardından eleştiriyi ele alan düzeltilmiş bir yanıt gelir.
Model dört adımı da üretmeyi öğrenir. Çıkarım sırasında bu, kendi kendini sorgulama davranışına dönüşür. Model bir ilk yanıt verir, kendi yanıtını eleştirir ve revize eder. Adın "çelişkisel" kısmı, eğitim sırasında modele hem doğru hem de tipik yanlış yanıtların gösterilmesinden gelir; böylece başarısızlık kiplerinin özgül biçimini öğrenir.
Bu, büyük modellerin ayrı düşünme belirteçleriyle uyguladığı Sistem-2 akıl yürütme yaklaşımının hafif bir sürümüdür. Bunu doğrudan 4B bir modele yerleştirmek, Mini'nin bir kullanıcının cihazında çalışırken bir güvenlik ağına sahip olmasını sağlar.
Eğitim verisi
DMind-1'in eğitim verisi, DeFi, tokenomik, yönetişim, akıllı sözleşmeler, Katman-1/2 mimarisi, NFT'ler, DAO'lar ve güvenlik genelinde 32,7 GB Web3 kaynak belgesinden damıtılmış, uzmanlarca küratörlüğü yapılmış 13.276 bilgi öğesidir.
DMind-3'ün eğitim verisi daha büyük ve daha yapılandırılmıştır:
Kurumsal alfa araştırması
35%
Kripto-yerli fon ve TradFi raporları, nedensel bir model üzerinden ayrıştırılmış
Küresel makroekonomik veriler
25%
FRED, Dünya Bankası, IMF'den zaman serileri, zincir üstü göstergelerle birleştirilmiş
Zincirler arası endeks verileri
20%
Başlıca EVM zincirleri, Solana ve Cosmos genelinde tam işlem, durum ve günlük geçmişi
Olay sonrası incelemeler ve denetimler
10%
Sistemik arızalar, ekonomik saldırılar, protokol hack'leri; erken sinyaller ve bulaşma yollarına odaklanılır
Jeopolitik ve düzenleme
10%
Küresel düzenleyici değişiklikler, politika teklifleri, dijital varlıkları etkileyen jeopolitik olaylar
Toplam: 500.000+ özenle seçilmiş belge, artı çok terabaytlık zincir üstü yapılandırılmış veri.
Tüm eğitim verileri, kazınıp toplanmak yerine alan uzmanları tarafından gözden geçirilir. Seçim kriterleri model kartlarında ve makalelerde yayımlanmıştır.
Son güncelleme
Bu yararlı oldu mu?

