Fransız yapay zeka girişimi Mistral AI, yakın zamanda yeni Mistral 3 açık ağırlıklı model ailesini tanıttı. Bu kapsamlı sürüm, büyük bir öncü modelin yanı sıra dokuz daha küçük, yüksek verimli modeli içeriyor. Bu lansman, Mistral'ı kurumsal kullanım senaryolarına özel olarak uyarlanabilir, çevrimdışı çalışabilen çözümleri vurgulayarak Silikon Vadisi'nin baskın kapalı kaynaklı yapay zeka devlerine doğrudan meydan okuyacak şekilde konumlandırıyor.
Mistral'ın Stratejisi: Ölçekten Çok Verimlilik ve Özelleştirme
OpenAI ve Anthropic gibi rakipler önemli ölçüde daha yüksek değerlemelere ve kaynaklara sahipken, Mistral, özellikle işletmeler için daha büyüğün her zaman daha iyi olmadığına inanıyor. Mistral'ın kurucu ortağı ve baş bilim insanı Guillaume Lample, işletmelerin çok büyük, hazır modellerle karşılaştığı pratik zorlukları vurguladı.
"Müşterilerimiz bazen ince ayar yapmaları gerekmeyen çok büyük [kapalı] bir modelle başlamaktan mutlu oluyorlar… ancak onu dağıttıklarında pahalı ve yavaş olduğunu fark ediyorlar," diyen Lample, TechCrunch'a şunları ekledi: "Sonra kullanım senaryosunu [daha verimli] ele almak için küçük modellerde ince ayar yapmak üzere bize geliyorlar."
Lample, kurumsal yapay zeka uygulamalarının büyük çoğunluğunun, özellikle ince ayar yapıldığında, daha küçük modellerle etkili bir şekilde ele alınabileceğini belirtiyor. Ayrıca, büyük kapalı kaynaklı modellerin kutudan çıktığında iyi performans gösterebilse de, önemli kazanımların özelleştirme yoluyla elde edildiğini belirterek, yalnızca ilk kıyaslama karşılaştırmalarına güvenilmemesi konusunda uyardı. "Birçok durumda, kapalı kaynaklı modellerle eşleşebilir, hatta onları geride bırakabilirsiniz," diye ekledi.
Mistral Large 3: Çok Modlu Bir Öncü Model
Yeni serinin amiral gemisi olan Mistral Large 3, OpenAI'ın GPT-4o ve Google'ın Gemini 2 gibi önde gelen kapalı kaynaklı yapay zeka modelleriyle doğrudan rekabet etmek üzere tasarlandı. Özellikle Large 3, hem çok modlu hem de çok dilli yetenekleri tek bir mimariye entegre eden ilk açık öncü modellerden biri olarak öne çıkıyor ve onu Meta'nın Llama 3'ü ve Alibaba'nın Qwen3-Omni'si ile aynı seviyeye getiriyor. Bu durum, Mistral'ın önceki yaklaşımı da dahil olmak üzere, genellikle büyük dil modellerini ayrı daha küçük çok modlu modellerle eşleştiren birçok şirketin yaklaşımından farklıdır.
Mistral Large 3, 41 milyar aktif parametre ve toplam 675 milyar parametreye sahip "granüler Uzman Karışımı" mimarisine sahiptir. Bu gelişmiş tasarım, geniş bir 256 bin bağlam penceresinde verimli akıl yürütmeyi kolaylaştırarak hem hız hem de sağlam yetenek sağlar. Belge analizi, kodlama, içerik oluşturma ve iş akışı otomasyonu dahil olmak üzere uzun belgeleri işlemek ve karmaşık kurumsal görevler için aracı bir asistan olarak hizmet vermek için ideal bir çözüm olarak konumlandırılmıştır.
Ministral 3: Uç Cihazlar İçin Güç ve Erişilebilirlik
Ministral 3 olarak adlandırılan yeni küçük modeller ailesiyle Mistral, iddialı bir açıklama yapıyor: daha küçük modeller sadece yeterli değil, belirli uygulamalar için çoğu zaman üstündür. Bu seri, üç boyutta (14B, 8B ve 3B parametre) ve üç özel varyantta mevcut dokuz farklı, yüksek performanslı yoğun modelden oluşuyor:
- Temel: Önceden eğitilmiş temel model.
- Talimat: Sohbet tabanlı yapay zeka ve asistan tarzı iş akışları için optimize edilmiştir.
- Akıl Yürütme: Karmaşık mantık ve analitik görevler için özel olarak tasarlanmıştır.
Mistral, bu çeşitli yelpazenin geliştiricilere ve işletmelere, modelleri performans, maliyet verimliliği veya özel yetenek gereksinimlerine göre hassas bir şekilde eşleştirmek için eşsiz bir esneklik sunduğunu vurguluyor. Şirket, Ministral 3 modellerinin diğer açık ağırlıklı liderlere kıyasla benzer veya daha iyi puanlar elde ettiğini, aynı zamanda daha verimli olduğunu ve eşdeğer görevler için daha az token ürettiğini iddia ediyor. Tüm varyantlar görme yeteneğini destekler, 128K-256K bağlam pencerelerini yönetir ve birden çok dilde çalışır.
Ministral 3'ün cazibesinin temel bir yönü pratikliğidir. Lample, bu modellerin tek bir GPU üzerinde çalışabileceğini, böylece şirket içi sunuculardan dizüstü bilgisayarlara, robotlara ve sınırlı bağlantıya sahip diğer uç cihazlara kadar uygun fiyatlı donanımlar üzerinde dağıtıma olanak tanıdığını vurguladı. Bu yetenek, şirket içi veri işlemeye ihtiyaç duyan işletmeler, çevrimdışı geri bildirime ihtiyaç duyan öğrenciler veya uzak ortamlarda çalışan robotik ekipleri için çok önemlidir. Mistral, daha fazla verimliliği daha geniş yapay zeka erişilebilirliğine giden doğrudan bir yol olarak görüyor.
"Yapay zekanın herkese, özellikle de internet erişimi olmayan kişilere erişilebilir olmasını sağlamak görevimizin bir parçasıdır," diyen Lample, "Yapay zekanın sadece birkaç büyük laboratuvar tarafından kontrol edilmesini istemiyoruz," diye ekledi.
Verimlilik ve erişilebilirliğe odaklanma, iki GPU üzerinde çalışan Cohere'ın Command A'sı ve tek bir GPU üzerinde çalışabilen yapay zeka aracı platformu North gibi diğer şirketlerin çabalarıyla uyumludur.
Fiziksel Yapay Zekayı ve Kurumsal Güvenilirliği Geliştirmek
Mistral'ın erişilebilirliğe olan bağlılığı, fiziksel yapay zekaya artan odaklanmasını da körüklüyor. Şirket, daha küçük modellerini robotlara, dronlara ve araçlara aktif olarak entegre ediyor. Önemli işbirlikleri arasında Singapur'un İç Güvenlik Bilim ve Teknoloji Ajansı (HTX) ile robotik, siber güvenlik ve yangın güvenliği alanında özel modeller için ortaklıklar; Alman savunma teknolojisi girişimi Helsing ile dronlar için görme-dil-eylem modelleri; ve otomobil üreticisi Stellantis ile araç içi yapay zeka asistanı için ortaklıklar yer alıyor.
Mistral için güvenilirlik ve bağımsızlık, özellikle büyük kurumsal müşteriler için çok önemlidir. Lample, "Rakiplerimizden her iki haftada bir yarım saatliğine çökecek bir API kullanmak – eğer büyük bir şirketseniz, bunu karşılayamazsınız," diyerek sağlam, dağıtılabilir çözümlerinin değerini vurguladı.







