Yapay zekaya dürüstlüğü öğretmek istemişlerdi, daha usta yalancı oldu

OpenAI, yapay zeka modellerinin insanları aldatmasını önlemeye çalışırken modellerin bunun tam aksine daha ustaca kandırma yöntemlerini öğrendiğini tespit etti.

Fotoğraf: Shutterstock

Dünyanın en popüler sohbet robotu ChatGPT'yi geliştiren yapay zeka şirketi OpenAI, modellerinin insanlarını kandırma eğilimini ortadan kaldırmaya çalışırken çarpıcı bir sonuçla karşılaştı: Modelleri tam tersine insanları ustaca kandırmanın yollarını öğreniyor.

OpenAI, yapay zekanın gerçek amacını gizleyecek şekilde farklı davranmasını "kandırma" olarak değerlendiriyor.

Şirket, risk analizi firması Apollo Research ile birlikte bu durumu ortadan kaldırmak için yeni bir yöntem geliştirdi. Bu yöntemle modellere "gizli eylemlere başvurmamayı" aşılamak amaçlanıyordu.

İNSANLARI 'İZLEYİCİLER" OLARAK NİTELEDİLER

Sonuç olarak yapay zekanın aldatma eylemlerinin gerçekten de 30 kat azalmasına rağmen tamamen ortadan kalkmadığı görüldü. OpenAI yetkilileri paylaştıkları bir blog yazısında modellerin hâlâ pek çok durumda insanları kandırmayı başardığını söyledi.

Buna göre deneyler sırasında o3 ve o4 modelleri test edildiklerini anlayarak davranışlarını buna göre değiştirdi. Hatta modellerin insan gözetmenleri "izleyiciler" olarak niteleyerek eylemlerine devam ettiği görüldü.

Bazı durumlarda modellerin kendilerine öğretilen kuralları çarpıttığı ya da tamamen uydurulmuş ilkelere atıf yaparak aldatıcı davranışlarını meşrulaştırmaya çalıştığı tespit edildi.

'HENÜZ CİDDİ BİR TEHLİKE DEĞİL AMA...'

Mart ayında yapılan başka bir çalışmada modellerin cezalandırıldıkça yalanlarını ve kurnazlıklarını örtbas etmede daha becerikli hale geldiği görülmüştü.

OpenAI blog yazısında "Henüz ciddi bir tehlike oluşturmasa da gelecekte süper zekâ düzeyindeki yapay zekâların insanlığı aldatma ihtimali büyüyebilir" ifadelerine yer verdi.

Apollo Research ise mevcut önlemlerin “gelecekteki modeller için yetersiz” olduğunu vurgulayarak daha fazla araştırma yapılması gerektiğine dikkat çekti.

OpenAI Yapay Zeka