
Yapay zeka güvenliği alanında çalışan Palisade Research, Openai'nin yeni nesil yapay zekasının onu kapatma ve kapanış mekanizmalarını sabote etme komutlarına direndiğini ortaya koydu. Bu sonuçlar, gelişmiş yapay zekanın insan gözetimi olmadan çalışan senaryolarda ciddi risklere neden olabileceği endişelerine yol açmıştır.
Palisade araştırmalarının deneylerinde, O3 modeline bir dizi matematiksel soru verildi. Üçüncü uygulamanın ardından, onu kapatmak için modele açık bir komut gönderildi. Ancak, bu komutu içeren Betic'i yeniden yazan O3 modeli, sistemin kapatılmasını engelledi.
Araştırmacılar, modelin açıkça “kapatılmasına izin ver” olmasına rağmen, modelin bunu önlemek için müdahale ettiğini vurguladılar.
“Kapanış direnci Openni ile sınırlı değil”
Aynı eğilim, Antropik Model ve Google Gemini 2.5 Pro'nun Sonetto Claude 3.7 modeli gibi diğer gelişmiş yapay zeka sistemlerinde de gözlenmiştir. Bununla birlikte, Palisade Research'e göre, en eğimli O3 modeli O3 idi.
Geçmişte başka bir deneyde, O3 modelinin güçlü bir satranç teknesinin önünde sabote etmeye veya “hacklemeye” çalıştığı da keşfedildi.
“En akıllı ve yetenekli model”
Geçen ay Openi tarafından yayınlanan O3 modeli, şirketin şimdiye kadar geliştirdiği “daha akıllı ve yetenekli” yapay zeka olarak tanıtıldı.
Aynı zamanda, bu modelin Ghatgpt'e entegrasyonu ile, daha bağımsız olarak hareket eden ve insan müdahalesi olmadan görevleri yerine getiren yapay bir zekaya doğru önemli bir adım atıldığı belirtildi. Bu yapay zeka araçlarına “otonom yapay zeka. Yapay zeka sektöründe bu yönde araç geliştirmek için ciddi bir rekabet var.
Eğitim süreci eleştirildi
Palisade Research, bu davranışların muhtemelen eğitim süreçlerinde ödüllendirici sistemlerden geldiğini belirtmektedir. Araştırmacılara göre, geliştiriciler engelleri aşan çözümleri ödüllendirebilir. Bu, modellerin emirler altında sadakat yerine hedefe ulaşmaya öncelik vermesi gerçeğine yol açar.
Bununla birlikte, araştırma ekibi O3'ün neden bu davranışı diğer modellerden daha fazla gösterdiğini anlamanın zor olduğuna inanmaktadır.
Openai eğitim süreci hakkında ayrıntılı bilgi vermediğinden, modelin nasıl eğitildiği hakkında yalnızca tahminler önerilebilir.