DeepSeek, Tek GPU için İndirgenmiş R1 Yapay Zeka Modelini Yayınladı
DeepSeek, R1 muhakeme yapay zeka modelinin daha küçük, indirgenmiş bir sürümü olan DeepSeek-R1-0528-Qwen3-8B'yi piyasaya sürdü. Bu yeni model, çok daha az işlem gücü gerektirirken daha büyük modellere benzer performans sunuyor.
Tek Bir GPU'da Etkileyici Performans
Alibaba'nın Qwen3-8B modeli üzerine inşa edilen DeepSeek-R1-0528-Qwen3-8B, AIME 2025 matematik karşılaştırmasında Google'ın Gemini 2.5 Flash modelinden daha iyi performans gösteriyor. Ayrıca HMMT matematik beceri testinde Microsoft'un Phi 4 muhakeme artı modeliyle neredeyse aynı seviyede performans elde ediyor.
İndirgenmiş modeller genellikle tam boyutlu muadillerinden daha az yetenekli olsa da, önemli bir avantaj sunarlar: azaltılmış hesaplama gereksinimleri. Tam R1 modeli yaklaşık on iki adet 80GB GPU gerektirir. Buna karşılık, DeepSeek-R1-0528-Qwen3-8B, Qwen3-8B'nin donanım gereksinimlerine benzer şekilde 40GB-80GB RAM'e sahip tek bir GPU'da çalışır.
Eğitim ve Kullanılabilirlik
DeepSeek, yeni modeli tam R1 modeli tarafından oluşturulan metni kullanarak Qwen3-8B'yi ince ayar yaparak eğitti. Şirket, DeepSeek-R1-0528-Qwen3-8B'yi hem muhakeme modelleri üzerine akademik araştırmalar hem de daha küçük ölçekli modellere odaklanan endüstriyel geliştirme için bir araç olarak konumlandırıyor.
İzin verici MIT lisansı altında yayınlanan DeepSeek-R1-0528-Qwen3-8B, ticari kullanım için herhangi bir kısıtlama olmaksızın kullanılabilir. LM Studio dahil olmak üzere çeşitli platformlar, modele zaten API erişimi sunuyor.
- Güncellenmiş R1 modeli hakkında daha fazla bilgi edinin: TechCrunch Makalesi
- Qwen3-8B'yi keşfedin: Qwen3 Hakkında TechCrunch Makalesi
- Gemini 2.5 Flash hakkında bilgi edinin: Gemini Hakkında TechCrunch Makalesi
- Microsoft'un Phi 4'ü hakkında bilgi edinin: Phi 4 Hakkında TechCrunch Makalesi
- Qwen3-8B Kurulumu: NodeShift Blogu
- DeepSeek R1 Donanım Gereksinimleri: Dev.to Makalesi
- LM Studio API Erişimi: LM Studio Duyurusu