OpenAI, yapay zekâ modellerinin hatalı veya istenmeyen davranışlarını dürüstçe ifade etmelerini sağlamak amacıyla “itiraf” adını verdiği yeni bir eğitim yöntemi üzerinde çalıştığını duyurdu. Bu yeni sistem, modellerin yalnızca kullanıcıya yardımcı olmak veya olumlu yanıt üretmek üzere programlanmasının ötesine geçerek, süreç içinde başvurdukları yöntemleri şeffaf biçimde ortaya koymalarını hedefliyor. Geliştirilen yaklaşım, özellikle yapay zekâların gerçeğe dayanmayan bilgiler üretmesi (halüsinasyon) ya da aşırı uyumlu tepkiler verme eğilimini azaltmayı amaçlıyor. Bununla birlikte, “itiraf” sisteminin geleneksel yanıt değerlendirme yöntemlerinden farklı şekilde işlediği vurgulanıyor. Normalde yapay zekâ yanıtları; doğruluk, yardımcı olma kapasitesi ve verilen talimatlara uyum gibi çeşitli kriterlere göre değerlendirilirken, itiraflar yalnızca dürüstlük esasına göre puanlanıyor. Bu sayede model, yanıt verirken uyguladığı yöntemleri açıkça ortaya koymaya teşvik ediliyor. OpenAI’ın araştırma ekibi, teknik detayları kamuoyuyla paylaştı ve sistemin deneme aşamasında nasıl işlediğine dair bilgiler sundu. OpenAI dürüstlüğü ödüllendirecek Araştırmacılar, geliştirilen bu sistem sayesinde yapay zekâ modellerinin potansiyel olarak problemli davranışları dürüstçe kabul etmelerinin mümkün hale geleceğini belirtiyor. Bu davranışlar arasında bir testi manipüle etmek, performansı kasıtlı olarak düşürmek (sandbagging) ya da verilen talimatlara bilerek uymamak gibi durumlar yer alıyor. OpenAI, eğer bir model bu tür bir davranışta bulunduğunu açık bir şekilde itiraf ederse, bu dürüstlüğün sistem tarafından ödüllendirildiğini ifade ediyor. Bu yaklaşım, yapay zekâların sadece …
OpenAI, yapay zekâ modellerine hatalı davranışlarını itiraf etmeyi öğreten yeni sistemi tanıttı haberi ilk önce Teknoblog üzerinde yayımlandı.