OpenAI, ajans yetenekleriyle tasarlanmış Atlas yapay zeka tarayıcısının, prompt enjeksiyon saldırılarına karşı muhtemelen her zaman savunmasız kalacağını kabul ediyor. Bu tür bir siber saldırı, yapay zeka ajanlarını genellikle web sayfaları veya e-postalar içinde gizlenmiş kötü niyetli talimatları izlemeye manipüle eder. Şirket, bu riskin yakın zamanda azalmayacağını ve açık web'de yapay zeka ajanlarının güvenli çalışması hakkında önemli soruları gündeme getirdiğini itiraf ediyor.

OpenAI, Atlas'ı bu kalıcı tehditlere karşı güçlendirme çabalarını detaylandıran yakın tarihli bir blog yazısında, "Prompt enjeksiyonu, web'deki dolandırıcılıklar ve sosyal mühendislik gibi, hiçbir zaman tamamen 'çözülemeyecek' bir sorun." şeklinde belirtti. Şirket ayrıca, ChatGPT Atlas'taki "ajan modu"nun "güvenlik tehdit yüzeyini genişlettiğini" kabul etti.

Yaygın Prompt Enjeksiyonu Tehdidi

Geçtiğimiz Ekim ayında ChatGPT Atlas'ın piyasaya sürülmesinden bu yana, güvenlik araştırmacıları hızla onun hassasiyetini gösterdi. Demolar, Google Docs gibi belgelerdeki basit metinlerin tarayıcının temel davranışını nasıl değiştirebileceğini gösterdi. Aynı gün Brave, dolaylı prompt enjeksiyonunun Perplexity'nin Comet'i dahil olmak üzere tüm yapay zeka destekli tarayıcılar için sistemik bir zorluk teşkil ettiğini açıklayan bir blog yazısı yayınladı.

OpenAI, prompt tabanlı enjeksiyonların kalıcı doğasını kabul eden tek şirket değil. Birleşik Krallık Ulusal Siber Güvenlik Merkezi (NCSC) bu ayın başlarında uyardı ki, üretken yapay zeka uygulamalarına yönelik prompt enjeksiyon saldırıları "hiçbir zaman tamamen hafifletilemeyebilir." Bu durum, web sitelerini veri ihlali riskine sokuyor ve siber profesyonellere, bu tür saldırıları tamamen "durdurmayı" hedeflemek yerine, riskini ve etkisini azaltmaya odaklanmalarını tavsiye ediyor.

OpenAI bu görüşü yineleyerek şunları belirtti: "Prompt enjeksiyonunu uzun vadeli bir yapay zeka güvenlik sorunu olarak görüyoruz ve buna karşı savunmalarımızı sürekli olarak güçlendirmemiz gerekecek."

OpenAI'ın Yenilikçi Savunması: LLM Tabanlı Otomatik Saldırgan

Bu görünüşte Sisyphusvari görevin üstesinden gelmek için OpenAI, vahşi doğada istismar edilmeden önce yeni saldırı stratejilerini dahili olarak keşfetmede erken vaatler gösteren proaktif, hızlı yanıt döngüsü geliştirdi. Bu yaklaşım, kalıcı prompt tabanlı saldırılara karşı katmanlı ve sürekli stres testinden geçirilmiş savunmaları savunan Anthropic ve Google gibi rakiplerle uyumlu. Örneğin, Google'ın son çalışması, ajans sistemleri için mimari ve politika düzeyinde kontrolleri vurguluyor.

OpenAI'ın benzersiz katkısı, "LLM tabanlı otomatik saldırganı". Takviyeli öğrenme kullanılarak eğitilen bu bot, simüle edilmiş bir hacker gibi davranarak, kötü niyetli talimatları bir yapay zeka ajanına sızdırmanın yollarını sürekli arıyor. Bot, simülasyonda saldırıları test edebilir, hedef yapay zekanın kötü niyetli girdiyi nasıl yorumlayacağını ve buna göre nasıl hareket edeceğini gözlemleyebilir. Bu, botun saldırılarını yinelemeli olarak iyileştirmesine olanak tanır ve hedef yapay zekanın dahili muhakemesine ilişkin içgörülerden yararlanır – bu, harici saldırganlar için mevcut olmayan bir avantajdır. Bu taktik, yapay zeka güvenlik testlerinde yaygındır: simüle edilmiş bir ortamda uç durumları hızla tespit etmek ve test etmek için bir ajan oluşturmak.

"Bizim [takviyeli öğrenme] ile eğitilmiş saldırganımız, bir ajanı onlarca (hatta yüzlerce) adımda ortaya çıkan karmaşık, uzun vadeli zararlı iş akışlarını yürütmeye yönlendirebilir," diye belirtti OpenAI. "Ayrıca, insan kırmızı takım kampanyamızda veya harici raporlarda görünmeyen yeni saldırı stratejileri de gözlemledik."

Bir gösterimde OpenAI, otomatik saldırganının kötü niyetli bir e-postayı bir kullanıcının gelen kutusuna nasıl başarıyla enjekte ettiğini sergiledi. Yapay zeka ajanı daha sonra gelen kutusunu taradığında, gizli talimatları izleyerek, otomatik yanıt taslağı hazırlamak yerine bir istifa mesajı gönderdi. Ancak, yakın zamanda yapılan bir güvenlik güncellemesinin ardından, "ajan modu" prompt enjeksiyonu girişimini tespit edebildi ve kullanıcıya bildirebildi.

OpenAI, prompt enjeksiyonuna karşı kusursuz korumanın zor olduğunu kabul etse de, sistemlerini gerçek dünya saldırılarına karşı güçlendirmek için büyük ölçekli testlere ve daha hızlı yama döngülerine güveniyor. Bir sözcü, başarılı enjeksiyonlardaki azalmaya ilişkin belirli metrikleri paylaşmayı reddetti ancak Atlas'ın güvenliğini lansmanından önce güçlendirmek için üçüncü taraflarla devam eden işbirliğini doğruladı.

Uzman Bakış Açısı ve Kullanıcı Önerileri

Siber güvenlik firması Wiz'de baş güvenlik araştırmacısı olan Rami McCarthy, takviyeli öğrenmenin saldırgan davranışlarına uyum sağlamak için değerli bir araç olduğunu ancak kapsamlı bir savunma stratejisinin yalnızca bir parçasını temsil ettiğini belirtiyor.

"Yapay zeka sistemlerindeki riski düşünmenin faydalı bir yolu, özerkliğin erişimle çarpılmasıdır," dedi McCarthy TechCrunch'a. "Ajans tarayıcıları, bu alanın zorlu bir kısmında yer alma eğilimindedir: orta düzeyde özerklik, çok yüksek erişimle birleştiğinde."

McCarthy, mevcut birçok önerinin bu dengeyi yansıttığını açıklıyor. Oturum açılmış erişimi sınırlamak öncelikle maruziyeti azaltırken, onay isteklerinin incelenmesini gerektirmek özerkliği kısıtlar. Bunlar, OpenAI'ın kullanıcıların kendi risklerini azaltmaları için yaptığı önerilerle uyumlu. Bir OpenAI sözcüsü, Atlas'ın mesaj göndermeden veya ödeme yapmadan önce kullanıcı onayını alacak şekilde eğitildiğini doğruladı. OpenAI ayrıca kullanıcılara, "gereken her türlü eylemi yap" gibi belirsiz komutlarla gelen kutularına geniş erişim sağlamak yerine, ajanlara belirli talimatlar vermelerini tavsiye ediyor.

"Geniş yetki, güvenlik önlemleri mevcut olsa bile gizli veya kötü niyetli içeriğin ajanı etkilemesini kolaylaştırır," diye uyardı OpenAI.

OpenAI, Atlas kullanıcılarını prompt enjeksiyonlarından korumaya öncelik verse de, McCarthy riskli tarayıcılar için anlık yatırım getirisi konusunda şüphecilik çağrısında bulunuyor.

"Çoğu günlük kullanım durumu için, ajans tarayıcıları mevcut risk profillerini haklı çıkaracak kadar değer sunmuyor," dedi McCarthy. "E-posta ve ödeme bilgileri gibi hassas verilere erişimleri göz önüne alındığında risk yüksektir, ancak bu erişim aynı zamanda onları güçlü kılan şeydir. Bu denge zamanla gelişecektir, ancak bugün ödünleşimler hala çok gerçek."