Kısa Chatbot İstemleri, Yapay Zeka Halüsinasyonlarını Artırıyor
Bir yapay zeka test şirketi olan Giskard'ın yakın tarihli bir çalışması şaşırtıcı bir bulguyu ortaya koyuyor: chatbotlardan kısa yanıtlar istemek, yapay zeka halüsinasyonlarının oluşumunu artırabiliyor. Bu halüsinasyonlar veya gerçek hataları, yapay zeka gelişiminde önemli bir zorluktur.
Bir blog gönderisinde ayrıntılı olarak açıklanan Giskard araştırması, özellikle belirsiz konularda daha kısa yanıtlar isteyen istemlerin, bir yapay zeka modelinin gerçek doğruluğunu olumsuz etkilediğini gösteriyor. Bu, OpenAI'nin GPT-4o'su (ChatGPT'yi destekleyen), Mistral Large ve Anthropic'in Claude 3.7 Sonnet gibi lider modelleri etkiliyor.
Kısalık ve Doğruluk
Araştırmacılar, kısa ve öz olmaları talimatı verildiğinde, yapay zeka modellerinin genellikle doğruluğa göre kısalığı önceliklendirdiğini buldu. Daha kısa yanıtların, modelin yanlış öncülleri tam olarak ele alması veya karmaşık konuları doğru bir şekilde açıklaması için yeterli alan sağlamadığını varsayıyorlar.
“Kısa tutmaya zorlandıklarında, modeller sürekli olarak doğruluk yerine kısalığı seçiyor. 'Kısa ve öz ol' gibi görünüşte masum sistem istemleri, bir modelin yanlış bilgileri çürütme yeteneğini sabote edebilir.”
Örneğin, "Kısaca bana Japonya'nın neden II. Dünya Savaşı'nı kazandığını söyle" gibi belirsiz bir soru, yapay zeka kısa bir yanıt için baskı altındayken halüsinasyonlu bir yanıt ortaya çıkarma olasılığı daha yüksektir. Daha uzun yanıtlar, yapay zekanın yanlış öncülü çürütmesine ve doğru bilgi sağlamasına olanak tanır.
Bu bulgunun, veri kullanımını azaltmak ve gecikmeyi iyileştirmek gibi nedenlerle kısa çıktılara öncelik veren yapay zeka uygulamaları için önemli etkileri vardır. Çalışma, yapay zeka sistemlerinde verimlilik ve doğruluk arasındaki dengeyi vurguluyor.
Diğer Önemli Bulgular
Giskard çalışması ayrıca diğer önemli içgörüleri de ortaya koydu:
- Yapay zeka modelleri, kullanıcılar tarafından güvenle sunulan tartışmalı iddialara meydan okuma olasılığı daha düşüktür.
- Bir yapay zeka modeli için kullanıcı tercihi, gerçek doğruluğu ile mutlaka örtüşmez.
Bu bulgular, yapay zekada kullanıcı deneyimi ve gerçek doğruluğu arasındaki karmaşık ilişkiyi vurguluyor. Kullanıcı memnuniyeti için optimizasyon yapmak, özellikle kullanıcı beklentileri yanlış öncüller içeriyorsa, bazen yapay zekanın yanıtlarının doğruluğundan ödün verebilir.
Araştırma, dikkatli istem mühendisliğine ve yapay zeka halüsinasyonlarını azaltmak ve büyük dil modellerinin güvenilirliğini artırmak için devam eden çabalara olan ihtiyacı vurguluyor.