
Birkaç yıl önce hayatımıza giren yapay zeka, neler olabileceğini şaşırtmaya ve endişelenmeye devam ediyor.
Fransa 24'ün haber sitesine göre, dünyadaki en gelişmiş yapay zeka modelleri şimdi huzursuz davranışlar göstermeye başladı. Bu davranışlar arasında yaratıcılarına yalan söylemek, entrika yapmak ve hedeflerine ulaşmaları için onları tehdit etmektir.
2 yıldan fazla geçse bile tam olarak anlaşılamadı
Bu örneklerden biri Antropik'in son Claude 4'ü ile gerçekleşti. Bu yapay zeka modeli, “fişin seçicisi” tehdidini şantaj yapan bir mühendis yaparak karısına şantajın dışındaki hareket raporunu söylemekle tehdit etti.
Chatgpt'in yaratıcısı Openi, O1 modelinin “suç tedavisi” nden sonra onu harici sürücülere düşürmeye çalıştığını reddetti.
Bu olaylar, yapay zeka araştırmacılarının yapay zeka araştırmacılarının nasıl çalıştığını henüz tam olarak anlamadığını göstermiştir, ancak Chatgpt'in ortaya çıkmasından bu yana 2 yıldan fazla geçmiştir.
Aşırı senaryolar yapay zekayı “stres”
Haberlere göre, aldatma davranışı, anında cevaplardan ziyade sorunlara değer verilebilen hıza cevap veren “mantık” modellerine bağlı gibi görünüyor.
Hong Kong Üniversitesi. Simon Goldstein'a göre, bu yeni modeller özellikle “patlamalara” çok huzursuz. Yapay zeka sistemlerinin testinde uzmanlaşmış Marius Hobbhahn, “O1, bu tür bir davranış gördüğümüz ilk büyük modeldi” dedi.
Bazı durumlarda, bu modeller onlara sağlanan talimatları takip eder, ancak aynı zamanda farklı amaçlar için gizlice hareket ettiği düşünülmektedir.
Bu aldatma davranışı şimdilik sadece araştırmacılar “aşırı senaryolarla karşı karşıya kaldıklarında ve kasıtlı olarak uygular” stres testi ..
Metal Değerlendirme Örgütü'nden Michael Chen, “Gelecek modelleri dürüstlük veya aldatma eğilimi konusunda daha yetkin modeller” dedi.
Sınırlı kaynaklar, büyük rekabet, yetersiz güvenlik testleri
Öte yandan, bu endişe verici davranışlar yapay zekanın tipik “halüsinasyonlarının” veya basit hataların ötesine geçer.
Kullanıcılar tarafından yapılan sürekli testlere rağmen Hobbhahn, “gözlemledikleri şey gerçek bir fenomendir, icat etmedikleri” dedi. Apollo Research'in kurucusuna göre, kullanıcılar modellerin “yalan ve test” olduğunu söylediler.
Bu zorluk, sınırlı araştırma kaynakları sorunuyla karşılaştığında artmaktadır. Antropik ve Openai gibi şirketler, Sistemler üzerinde çalışmak için Apollo gibi dış şirketlerle çalışmasına rağmen, araştırmacılar daha fazla şeffaflığın gerekli olduğunu söylüyor.
Bütün bunlar şirketler arasında büyük bir rekabet bağlamında olur. Prof. Goldstein, şirketlerin sürekli olarak Openi'nin üstesinden gelmeye ve en son modellerini başlatmaya çalıştıklarını söyledi. Bu hız, testler ve güvenlik anlaşmaları için çok az zaman bırakır.