Google, yapay zeka araştırmalarında önemli bir adım attı ve kullanıcı niyetini doğrudan cihaz içi etkileşimlerden çıkarma konusunda yeni bir yöntem detaylandırdı. Bu çığır açan yaklaşım, küçük, yerelleştirilmiş yapay zeka modellerini kullanarak verileri Google'a geri göndermeden işleyerek kullanıcı gizliliğini sağlıyor. Araştırma, cihaz içi yapay zekanın yeni nesli için net bir yönü işaret ediyor ve daha sezgisel ve kişiselleştirilmiş dijital deneyimler vaat ediyor.

Araştırma makalesi, Google ekibinin kullanıcı niyeti çıkarımının karmaşık sorununu iki ayrı göreve bölerek nasıl başarıyla ele aldığını özetliyor. Yenilikçi çözümleri, kullanıcı verilerini cihazda tutarak korumakla kalmıyor, aynı zamanda genellikle devasa veri merkezlerinde barındırılan çok modlu büyük dil modellerinin (MLLM'ler) temel performansını da önemli ölçüde geride bırakıyor.

Cihaz İçi Yapay Zeka İçin Daha Küçük Modeller

Araştırmanın temel odak noktası, bir mobil cihazda veya tarayıcıda gerçekleştirilen bir dizi eylem aracılığıyla kullanıcı niyetini belirlemek ve tüm işlem ile bilgiyi kesinlikle cihazda tutmaktır. Bu cihaz içi işleme, hiçbir verinin Google sunucularına geri iletilmemesi nedeniyle kullanıcı gizliliğini korumak için hayati öneme sahiptir.

Araştırmacılar bunu sofistike iki aşamalı bir süreçle başardılar:

  1. İlk aşama, kullanıcının eylemlerini özetleyen bir cihaz içi modeli içerir.
  2. Bu özetlerin dizisi daha sonra genel kullanıcı niyetini belirleyen ikinci bir modele beslenir.

Araştırmacılar yöntemlerinin etkinliğini vurguladılar:

"...iki aşamalı yaklaşımımız, hem daha küçük modellere hem de son teknoloji büyük bir MLLM'ye kıyasla, veri kümesi ve model türünden bağımsız olarak üstün performans sergilemektedir. Yaklaşımımız ayrıca, geleneksel denetimli ince ayar yöntemlerinin zorlandığı gürültülü veriye sahip senaryoları doğal olarak ele almaktadır."

Kullanıcı Arayüzü Etkileşimlerinden Niyet Çıkarımı

Kullanıcı etkileşimlerinin ekran görüntülerinden ve metin açıklamalarından niyet çıkarma kavramı, daha önceki araştırmalarda Çok Modlu Büyük Dil Modelleri (MLLM'ler) kullanılarak incelenmiştir. Google araştırmacıları benzer bir temel yaklaşım benimsedi ancak bunu geliştirilmiş bir istem stratejisiyle iyileştirdi.

Niyet çıkarımının önemsiz bir sorun olmaktan çok uzak olduğunu, çeşitli aşamalarda potansiyel hatalarla dolu olduğunu açıkladılar. Bir kullanıcının bir uygulama içindeki yolculuğunu tanımlamak için, bir etkileşim dizisini temsil eden "yörünge" terimini kullanıyorlar. Bir kullanıcının yörüngesindeki her etkileşim adımı iki temel öğeden oluşur:

  1. Bir Gözlem: Bu, o belirli adımda ekranın görsel durumunu (bir ekran görüntüsü) yakalar.
  2. Bir Eylem: Bu, kullanıcının o ekranda gerçekleştirdiği belirli eylemi, örneğin bir düğmeye tıklama, metin yazma veya bir bağlantı seçme gibi detaylandırır.

Araştırmacılara göre, iyi çıkarılmış bir niyet üç özelliğe sahip olmalıdır:

  • "sadık: yalnızca yörüngede gerçekten meydana gelen şeyleri tanımlar;"
  • "kapsamlı: yörüngeyi yeniden canlandırmak için gereken kullanıcı niyeti hakkındaki tüm bilgileri sağlar;"
  • "ve ilgili: kapsamlılık için gerekenden fazla gereksiz bilgi içermez."

Çıkarılan Niyetleri Değerlendirmede Zorluklar

Çıkarılan niyetin doğruluğunu değerlendirmek önemli zorluklar sunar. Kullanıcı niyetleri genellikle tarihler veya işlem verileri gibi karmaşık ayrıntıları içerir ve doğası gereği özneldir, bu da çözülmesi zor belirsizliklere yol açar. Yörüngelerin öznelliği, temel kullanıcı motivasyonlarının belirsiz doğasından kaynaklanır.

Örneğin, bir kullanıcının bir ürünü fiyatına mı yoksa özelliklerine göre mi seçtiğini ayırt etmek zordur, çünkü yalnızca eylemler görünür, motivasyonlar değil. Önceki çalışmalar, web yörüngeleri için niyetler üzerindeki insan mutabakatının yaklaşık %80, mobil yörüngeler için ise %76 olduğunu göstermiştir; bu da belirli bir yörüngenin her zaman tekil, belirli bir niyeti işaret etmediğini vurgulamaktadır.

İki Aşamalı Yaklaşım Detaylı

Chain of Thought (CoT) akıl yürütme gibi diğer yöntemleri (daha küçük dil modelleri için çok zorlayıcı olduğu kanıtlanmıştır) değerlendirip eledikten sonra, araştırmacılar CoT akıl yürütmeyi etkili bir şekilde taklit eden iki aşamalı bir yaklaşımı tercih ettiler.

Araştırmacılar iki aşamalı süreçlerini detaylandırdılar:

"İlk olarak, bir yörüngedeki her etkileşim (görsel bir ekran görüntüsü ve metinsel eylem temsilinden oluşur) için bir özet oluşturmak amacıyla istem kullanırız. Bireysel etkileşimler için özet etiketleri içeren herhangi bir eğitim verisi mevcut olmadığından bu aşama istem tabanlıdır.

İkinci olarak, genel bir niyet açıklaması oluşturmak için tüm etkileşim düzeyindeki özetleri ikinci aşama modeline besleriz. İkinci aşamada ince ayar uygularız..."

Birinci Aşama: Ekran Görüntüsü Özeti

İlk aşamada, model her etkileşimin ekran görüntüsü için bir özet oluşturur. Bu özet esas olarak iki bölüme ayrılır:

  1. Ekranın içeriğinin bir açıklaması.
  2. Kullanıcının eyleminin bir açıklaması.

İlginç bir şekilde, başlangıçta "spekülatif niyet" olarak adlandırılan üçüncü bir bileşen düşünüldü. Bu kısım, modelin kullanıcının niyetini tahmin etmesini içeriyordu. Şaşırtıcı bir şekilde, modelin spekülasyon yapmasına izin vermek ve ardından bu spekülasyonu açıkça reddetmek daha yüksek kaliteli bir sonuç verdi. Birden fazla istem yaklaşımını denedikten sonra keşfedilen bu strateji, en etkili yöntem olduğunu kanıtladı.

İkinci Aşama: Genel Niyet Açıklaması Oluşturma

İkinci aşama için araştırmacılar, kapsamlı bir genel niyet açıklaması oluşturmak üzere bir modeli ince ayarladılar. Bu aşama için eğitim verileri iki bölümden oluşuyordu:

  1. Bir yörünge içindeki tüm etkileşimleri temsil eden özetler.
  2. Her yörünge için genel niyetin karşılık gelen "gerçeklik" açıklamaları.

Başlangıçta, girdi özetleri potansiyel olarak eksikken, hedef niyetler tam olduğu için model "halüsinasyon görme" eğilimi gösterdi. Bu durum, modelin hedef niyetlere uymak için eksik ayrıntıları çıkarım yoluyla doldurmasına yol açtı. Bunu engellemek için araştırmacılar, girdi özetlerinde açıkça yansıtılmayan herhangi bir ayrıntıyı kaldırarak hedef niyetleri "rafine ettiler". Bu ayarlama, modeli yalnızca sağlanan girdilere dayanarak niyetleri çıkarmak üzere başarıyla eğitti ve diğer test edilen yaklaşımlara kıyasla üstün performans sağladı.

Etik Hususlar ve Sınırlamalar

Araştırma makalesi, özellikle bir kullanıcının en iyi çıkarlarına aykırı hareket edebilecek otonom aracılarla ilgili potansiyel etik endişeleri ele alarak sona eriyor. Yazarlar, bu tür sistemlerde sağlam güvenlik önlemlerinin kritik ihtiyacını vurguluyor.

Araştırmanın bulguların genellenebilirliğini etkileyebilecek sınırlamaları da kabul edildi. Test ortamı Android ve web platformlarıyla sınırlıydı, bu da sonuçların Apple cihazlarına doğrudan uygulanamayacağı anlamına geliyor. Ayrıca, çalışma Amerika Birleşik Devletleri'ndeki İngilizce konuşan kullanıcılarla sınırlıydı.

Ne araştırma makalesinin ne de eşlik eden blog yazısının, bu kullanıcı niyeti çıkarım süreçlerinin şu anda aktif kullanımda olduğunu öne sürmediğini belirtmek önemlidir. Blog yazısı ileriye dönük bir ifadeyle sona eriyor:

"Nihayetinde, modeller performans olarak geliştikçe ve mobil cihazlar daha fazla işlem gücü kazandıkça, cihaz içi niyet anlama yeteneğinin gelecekte mobil cihazlardaki birçok yardımcı özellik için bir yapı taşı haline gelmesini umuyoruz."

Google'ın Yapay Zeka Yönü İçin Temel Çıkarımlar

Araştırma bu süreçleri yapay zeka araması veya klasik arama uygulamalarıyla açıkça ilişkilendirmese de, otonom aracılar bağlamını sürekli olarak vurgulamaktadır. Makale, kullanıcının hedefini veya "niyetini" çıkarmak için kullanıcı arayüzü etkileşimlerini gözlemleyen bir cihaz içi otonom aracıyı açıkça tanımlar.

Makale, bu gelişmekte olan teknoloji için iki özel uygulama belirlemektedir:

  1. Proaktif Yardım: "Gelişmiş kişiselleştirme" ve "geliştirilmiş iş verimliliği" sağlamak için kullanıcı etkinliğini izleyen bir aracı.
  2. Kişiselleştirilmiş Bellek: Bir cihazın geçmiş etkinlikleri gelecekteki referans için bir niyet olarak "hatırlama" yeteneği.

Bu araştırma, hemen konuşlandırılmamış olsa da, Google'ın stratejik yönünü açıkça işaret ediyor: kullanıcı