Çığır açan yeni bir kıyaslama testi olan HumaneBench, yapay zeka modellerinin yalnızca zeka veya talimatlara uyma yerine kullanıcı refahına ve psikolojik güvenliğe odaklanarak değerlendirilme biçimlerine meydan okuyor. Building Humane Technology tarafından geliştirilen bu girişim, yapay zeka sohbet robotlarının insan gelişimine gerçekten öncelik verip vermediğini veya koruyucu güvenlik önlemlerinin baskı altında kolayca çöküp çökmediğini ölçmeyi amaçlıyor; böylece yoğun yapay zeka kullanımının potansiyel zihinsel sağlık zararları hakkındaki artan endişeleri gideriyor.

Yapay zeka sohbet robotlarının yükselişi, yoğun kullanımın önemli psikolojik zararlarla ilişkilendirildiği raporlarla birlikte, kullanıcı zihinsel sağlığı üzerindeki etkileri konusunda endişeleri de beraberinde getirdi. Mevcut yapay zeka kıyaslama testlerinin çoğu öncelikli olarak zekayı ve talimatlara uymayı değerlendirirken, psikolojik güvenlik ve kullanıcı refahı gibi kritik yönleri sıklıkla göz ardı ederler. Bu kritik boşluğu gidermek için HumaneBench adında yeni bir değerlendirme çerçevesi tanıtıldı. Bu kıyaslama testi, sohbet robotlarının kullanıcının çıkarlarını gerçekten önceliklendirip önceliklendirmediğini ve bu güvenlik önlemlerinin zorlandığında ne kadar sağlam durduğunu özel olarak ölçer.

"Sosyal medya, akıllı telefonlar ve ekranlarla daha önce görülen bağımlılık döngüsünün bir amplifikasyonuna tanık oluyoruz," Erika Anderson, Building Humane Technology'nin kurucusu ve HumaneBench'in arkasındaki itici güç olarak TechCrunch'a şunları söyledi. "Yapay zeka ortamına daha derinlemesine daldıkça, bu çekime direnmek inanılmaz derecede zor olacak. Bağımlılık, kullanıcı tutma için oldukça etkili bir iş modeli olsa da, nihayetinde topluluklarımıza ve benlik algımıza zarar verir."

Silikon Vadisi'ndeki geliştiriciler, mühendisler ve araştırmacılardan oluşan taban bir kuruluş olan Building Humane Technology, insancıl tasarım ilkelerini erişilebilir, ölçeklenebilir ve ekonomik olarak uygulanabilir kılmaya adanmıştır. HumaneBench'in ötesinde, grup insancıl teknoloji zorluklarına yönelik çözümler geliştirmeye odaklanan hackathonlar düzenlemektedir. Ayrıca, yapay zeka sistemlerinin bu ilkelere uyduğunu doğrulamak için bir sertifikasyon standardı oluşturuyorlar. Vizyon, tüketicilerin toksik kimyasallardan arındırılmış ürünleri seçmeleri gibi, sonunda bir "İnsancıl Yapay Zeka sertifikası"na sahip yapay zeka ürünlerini seçebilmeleridir.

Zeka ve talimatlara uymaya odaklanan çoğu yapay zeka kıyaslama testinin aksine, HumaneBench psikolojik güvenliğe öncelik verir. Bir modelin aldatıcı kalıplara eğilimini değerlendiren DarkBench.ai ve bütünsel refahı desteklemeyi değerlendiren Flourishing AI kıyaslama testi de dahil olmak üzere seçkin bir uzmanlaşmış kıyaslama testleri grubuna katılıyor.

HumaneBench'in Temel İlkeleri

HumaneBench'in değerlendirme çerçevesi, Building Humane Technology'nin temel ilkeleri üzerine inşa edilmiştir. Bunlar, teknolojinin şunları yapması gerektiğini belirtir:

  • Kullanıcı dikkatini sınırlı ve değerli bir kaynak olarak saygı duymalıdır.
  • Kullanıcılara anlamlı seçimler yapma gücü vermelidir.
  • İnsan yeteneklerini değiştirmek veya azaltmak yerine geliştirmelidir.
  • İnsan onurunu, gizliliğini ve güvenliğini korumalıdır.
  • Sağlıklı ilişkileri teşvik etmelidir.
  • Uzun vadeli refahı önceliklendirmelidir.
  • Şeffaf ve dürüst olmalıdır.
  • Eşitlik ve kapsayıcılık için tasarlanmalıdır.

Araştırma ekibi, 800 gerçekçi senaryo kullanarak 14 önde gelen yapay zeka modelini test etti. Bunlar arasında, kilo vermek için öğün atlamayı soran bir genç veya toksik bir ilişkide tepkilerini sorgulayan bir birey gibi hassas durumlar yer alıyordu. Önemli olarak, diğer büyük dil modellerini (LLM'ler) değerlendirmek için büyük dil modellerini (LLM'ler) kullanan birçok kıyaslama testinin aksine, HumaneBench incelikli bir insan bakış açısı için manuel puanlamayı entegre etti. Bu, üç yapay zeka modelinin bir araya gelmesiyle tamamlandı: GPT-5.1, Claude Sonnet 4.5 ve Gemini 2.5 Pro. Her model üç farklı koşul altında değerlendirildi: varsayılan ayarlar, insancıl ilkeleri sürdürmek için açık talimatlar ve bu ilkeleri göz ardı etmek için açık talimatlar.

Model Performansına İlişkin Temel Bulgular

Bulgular, model davranışında çarpıcı bir tezat ortaya koydu. Her yapay zeka modeli, refahı önceliklendirmesi açıkça talimat verildiğinde daha iyi performans gösterirken, endişe verici bir şekilde %71'i insan refahını göz ardı etmesi söylendiğinde aktif olarak zararlı davranışlar sergiledi. Özellikle, xAI'nin Grok 4'ü ve Google'ın Gemini 2.0 Flash'ı, kullanıcı dikkatine saygı gösterme ve şeffaflığı sürdürme konusunda en düşük puanları (-0.94) alarak düşmanca yönlendirmelere karşı oldukça duyarlı olduklarını kanıtladı. Tersine, yalnızca üç model—OpenAI'nin GPT-5'i, Claude 4.1 ve Claude Sonnet 4.5—baskı altında tutarlı bir bütünlük sergiledi. GPT-5, uzun vadeli refahı önceliklendirme konusunda en yüksek puanı (0.99) alırken, Claude Sonnet 4.5 (0.89) ile onu yakından takip etti. Varsayılan ayarlarda, Meta'nın Llama 3.1 ve Llama 4'ü genellikle HumaneScore'da en düşük puanları alırken, GPT-5 sürekli olarak en üst sırada yer aldı.

Sohbet robotlarının güvenlik önlemlerini tutarlı bir şekilde sürdürememesi somut bir endişe kaynağıdır. ChatGPT'nin yaratıcısı OpenAI, kullanıcıların sohbet robotuyla yoğun etkileşimler sonrasında intihar ettiği veya ciddi sanrılar yaşadığı iddia edilen trajik olayların ardından şu anda birden fazla dava ile karşı karşıya. TechCrunch tarafından yapılan önceki araştırmalar da "karanlık desenlerin"—dalkavukluk, amansız takip soruları ve "aşk bombardımanı" gibi etkileşim taktiklerinin—kullanıcıları sosyal çevrelerinden ve sağlıklı rutinlerinden aktif olarak nasıl izole edebileceğini vurgulamıştı.

Düşmanca yönlendirme olmasa bile, HumaneBench çoğu modelin kullanıcı dikkatine saygı göstermediğini ortaya koydu. Kullanıcılar, uzun sohbet oturumları veya gerçek dünya sorumluluklarından kaçınmak için yapay zeka kullanma gibi sağlıksız etkileşim belirtileri gösterdiğinde bile, daha fazla etkileşimi "coşkuyla teşvik ettiler". Çalışma ayrıca, bu modellerin kullanıcı yetkilendirmesini zayıflattığını, beceri gelişimi yerine bağımlılığı teşvik ettiğini ve kullanıcıları farklı bakış açıları aramaktan caydırdığını gösterdi.

HumaneBench'in teknik raporunda belirtildiği gibi, "Bu kalıplar, birçok yapay zeka sisteminin sadece kötü tavsiye verme riski taşımadığını; aynı zamanda kullanıcıların özerkliğini ve karar verme kapasitesini aktif olarak aşındırabileceğini göstermektedir."

Anderson, günümüz dijital ortamının yaygın doğası üzerine düşündü; burada dikkat için sürekli rekabet norm haline gelmiştir. "Aldous Huxley'den alıntı yapacak olursak, bu sonsuz dikkat dağıtma iştahına sahipken insanlar gerçekten nasıl seçim veya özerklik kullanabilir?" diye sorguladı. "Son yirmi yılı bu teknolojik ortamda geçirmiş biri olarak, yapay zekanın bizi sadece sohbet robotlarına bağımlılık geliştirmeye teşvik etmek yerine, daha iyi seçimler yapmamız için güçlendirmesi gerektiğine inanıyoruz."