Oxford ve Stanford'dan çarpıcı yapay zeka raporu: Testleri bile hatalı
Oxford, Stanford ve Berkeley'den uzmanların ortak araştırması, yapay zeka güvenliğini ölçen yüzlerce testte ciddi hatalar bulunduğunu ortaya koydu.
Yapay zeka modellerinin güvenliğini ve etkinliğini ölçmek için kullanılan testlerin ciddi hatalar barındırdığı ortaya çıktı.
İngiliz hükümetine bağlı Yapay Zeka Güvenliği Enstitüsü ile Stanford, Berkeley ve Oxford üniversitelerinden uzmanların yaptığı kapsamlı araştırmada 440'tan fazla test incelendi.
TESTLER KUSURLU ÇIKTI
İngiltere ve ABD'de kapsamlı bir yapay zeka yasası henüz yürürlükte olmadığı için teknoloji devleri yeni modellerini piyasaya sürmeden önce bu testlere başvuruyor. Testlerde modellerin mantık yürütme, matematik ve kodlama becerileri ile insan değerlerine ne kadar uyumlu davrandıkları ölçülüyor.
Araştırmada, bu testlerin "sonuçların geçerliliğini zayıflatan kusurlar içerdiği" ve neredeyse tamamının en az bir alanda zayıf olduğu saptandı.
Araştırma, testlerin yalnızca yüzde 16 gibi küçük bir kısmının istatistiksel güven aralıklarını ve hata olasılıklarını gösterdiğini ortaya koydu. Bazı testlerde ölçülmek istenen "zararsızlık" gibi özelliklerin tanımının bile tartışmalı olduğu tespit edildi.
Çalışmanın başyazarı ve aynı zamanda Oxford İnternet Enstitüsü araştırmacısı Andrew Bean, "Bu testler, yapay zekaların gerçekten gelişip gelişmediğini anlamamızı sağlıyor. Ancak ortak tanımlar ve güvenilir ölçüm yöntemleri olmadan, modellerin gerçekten mi yoksa sadece görünürde mi ilerleme kaydettiğini bilmek zorlaşıyor" dedi.
GÜVEN SORUNU BÜYÜYOR
Yapay zeka güvenliği tartışmaları son haftalarda yaşanan olaylarla yeniden alevlendi. Google, ABD'li senatör Marsha Blackburn hakkında asılsız cinsel ilişki iddiası uydurup sahte haber bağlantıları üreten Gemma modelini geri çekmek zorunda kaldı.
Blackburn, Google CEO'su Sundar Pichai'ye yazdığı mektupta "Bu zararsız bir hata değil, bir iftira eylemidir" vurgusu yaptı.
Yapay zekaların sıkça yaşadığı gerçek dışı bilgiler uydurma yani halüsinasyon görme durumu ile kullanıcıların duymak istediğini söyleme sorunu özellikle küçük modellerde çok daha yaygın görülüyor.