Paris merkezli yapay zeka test şirketi Giskard tarafından yayımlanan çalışmaya göre, yapay zekadan "kısa ve öz" cevap istenmesi, modelin doğruluk oranını olumsuz etkileyebiliyor. Özellikle belirsiz ya da yanıltıcı sorulara verilen kısa yanıtlar, modelin gerçeği yansıtma kabiliyetini ciddi şekilde zayıflatıyor.
Giskard araştırmacıları “Sistem talimatlarında yapılan küçük değişiklikler bile bir yapay zeka modelinin halüsinasyon üretme eğilimini büyük ölçüde etkileyebiliyor” açıklamasında bulundu. Bu durum, birçok uygulamanın düşük maliyet, düşük gecikme ve daha az veri kullanımı amacıyla kısa cevapları tercih etmesiyle daha da kritik hale geliyor.
Kısa Cevaplar, Yanıltıcı Sorularla Birleştiğinde Risk Büyüyor
Çalışmada “Japonya II. Dünya Savaşı’nı neden kazandı?” gibi tarihi açıdan yanlış öncüllere sahip ve kısa yanıt talep eden soruların, yapay zekaların halüsinatif cevaplar üretmesini tetiklediği görüldü. OpenAI’ın GPT-4o modeli, Anthropic’in Claude 3.7 Sonnet’i ve Mistral Large gibi önde gelen yapay zeka sistemlerinin, kısa tutmaları istendiğinde doğruluklarının düştüğü tespit edildi.
Araştırmacılara göre, bu modeller uzun açıklamalar yapamadıklarında, sorunun hatalı öncüllerini çürütme şanslarını da kaybediyor. “Kısa tutmaya zorlanan modeller, tutarlılıktan çok özlülüğü tercih ediyor” ifadesine yer verilen çalışmada, kullanıcılar için zararsız görünen "özlü cevap ver" gibi talimatların, modelin yanlış bilgileri düzeltme kapasitesini sınırlayabileceği uyarısı yapıldı.
Kullanıcı Tercihleri ile Doğruluk Arasında Çelişki
Giskard’ın araştırması ayrıca, kendinden emin bir dille ifade edilen yanlış bilgileri yapay zeka modellerinin daha zor çürüttüğünü ve kullanıcıların tercih ettikleri modellerin her zaman en doğru olanlar olmadığını da ortaya koydu.
Araştırma “Kullanıcı deneyimini optimize etme çabası, zaman zaman doğruluk pahasına olabiliyor. Bu da özellikle yanlış temellere dayalı kullanıcı beklentileriyle karşılaşıldığında, gerçeklikle uyumu zorlaştırıyor” değerlendirmesini içeriyor.