DeepSeek, Tek GPU için İndirgenmiş R1 Yapay Zeka Modelini Yayınladı

DeepSeek, R1 muhakeme yapay zeka modelinin daha küçük, indirgenmiş bir sürümü olan DeepSeek-R1-0528-Qwen3-8B'yi piyasaya sürdü. Bu yeni model, çok daha az işlem gücü gerektirirken daha büyük modellere benzer performans sunuyor.

Tek Bir GPU'da Etkileyici Performans

Alibaba'nın Qwen3-8B modeli üzerine inşa edilen DeepSeek-R1-0528-Qwen3-8B, AIME 2025 matematik karşılaştırmasında Google'ın Gemini 2.5 Flash modelinden daha iyi performans gösteriyor. Ayrıca HMMT matematik beceri testinde Microsoft'un Phi 4 muhakeme artı modeliyle neredeyse aynı seviyede performans elde ediyor.

İndirgenmiş modeller genellikle tam boyutlu muadillerinden daha az yetenekli olsa da, önemli bir avantaj sunarlar: azaltılmış hesaplama gereksinimleri. Tam R1 modeli yaklaşık on iki adet 80GB GPU gerektirir. Buna karşılık, DeepSeek-R1-0528-Qwen3-8B, Qwen3-8B'nin donanım gereksinimlerine benzer şekilde 40GB-80GB RAM'e sahip tek bir GPU'da çalışır.

Eğitim ve Kullanılabilirlik

DeepSeek, yeni modeli tam R1 modeli tarafından oluşturulan metni kullanarak Qwen3-8B'yi ince ayar yaparak eğitti. Şirket, DeepSeek-R1-0528-Qwen3-8B'yi hem muhakeme modelleri üzerine akademik araştırmalar hem de daha küçük ölçekli modellere odaklanan endüstriyel geliştirme için bir araç olarak konumlandırıyor.

İzin verici MIT lisansı altında yayınlanan DeepSeek-R1-0528-Qwen3-8B, ticari kullanım için herhangi bir kısıtlama olmaksızın kullanılabilir. LM Studio dahil olmak üzere çeşitli platformlar, modele zaten API erişimi sunuyor.