EleutherAI Dev Açık Kaynaklı Yapay Zeka Eğitim Veri Kümesini Yayınladı

Önde gelen bir yapay zeka araştırma kuruluşu olan EleutherAI, lisanslı ve kamu malı metinlerden oluşan 8 terabaytlık bir veri kümesi olan "Common Pile v0.1"i duyurdu. Bu devasa veri kümesi, yapay zeka modellerinin eğitimi için şeffaf ve yasal açıdan sağlam bir kaynak sağlamayı amaçlıyor.

Poolside ve Hugging Face gibi yapay zeka girişimleriyle ve akademik kurumlarla iki yılı aşkın bir süredir işbirliği içinde geliştirilen Common Pile v0.1, yapay zeka eğitimindeki artan telif hakkı endişelerini ele alıyor. EleutherAI, telif hakkıyla korunan verileri kullanan yapay zeka şirketlerine karşı açılan mevcut davaların şeffaflığı ve araştırma ilerlemesini engellediğini savunuyor.

Telif hakkı davaları, veri kaynak sağlama uygulamalarını anlamlı bir şekilde değiştirmedi, ancak şirketlerin şeffaflığını büyük ölçüde azalttı. Bu, modellerin nasıl çalıştığını anlamayı ve potansiyel kusurları belirlemeyi zorlaştırıyor.

Bu alıntı, EleutherAI'nin yönetici direktörü Stella Biderman'ın blog gönderisinden geliyor. Biderman, bu davaların veri merkezli yapay zeka alanlarındaki araştırmaları nasıl engellediğini vurguluyor.

Common Pile: Yasal Olarak Sağlam Bir Alternatif

Common Pile v0.1, Kongre Kütüphanesi ve İnternet Arşivi'nden 300.000 kamu malı kitap gibi kaynaklardan yararlanıyor. Ayrıca ses transkripsiyonu için OpenAI'nin açık kaynaklı Whisper modelini kullanıyor. Veri kümesi, uyumluluğu sağlamak için hukuk uzmanlarıyla görüşülerek oluşturuldu.

EleutherAI, Common Pile v0.1'i iki yeni 7 milyar parametreli yapay zeka modeli eğitmek için zaten kullandı: Comma v0.1-1T ve Comma v0.1-2T. Bu modellerin, lisanssız verilerle eğitilen modellerle karşılaştırılabilir performans gösterdiği ve veri kümesinin etkinliğini kanıtladığı bildiriliyor.

Kıyaslama testleri, Comma modellerinin kodlama, görüntü anlama ve matematikte Meta'nın ilk Llama yapay zeka modeliyle rekabet ettiğini gösteriyor. Bu, dikkatlice düzenlenmiş, lisanslı verilerin rekabetçi yapay zeka modelleri üretebileceğini gösteriyor.

Yapay Zekada Açıklığı ve Şeffaflığı Teşvik Etmek

EleutherAI, yapay zeka eğitimi için lisanssız metinlere güvenmenin haksız olduğuna inanıyor. Daha fazla lisanslı veri kullanıma sunuldukça, açık kaynaklı verilerle eğitilen modellerin kalitesinin artacağını bekliyorlar.

Common Pile v0.1, Hugging Face ve GitHub'dan indirilebilir. EleutherAI, gelecekte daha sık açık veri kümeleri yayınlayarak yapay zeka araştırmalarında daha fazla şeffaflığı ve işbirliğini teşvik etmeye kararlıdır.

Bu sürüm, yapay zeka gelişimindeki etik ve yasal zorlukların ele alınmasında önemli bir adımdır. Araştırmacılara güçlü ve sorumlu yapay zeka modelleri oluşturmak için değerli bir kaynak sağlar.