Cuma, Aralık 5, 2025
Ana Sayfaİş DünyasıİşletmeYapay Zeka Yalan Söylemeyi, Plan Yapmayı ve Yaratıcılarını Tehdit Etmeyi Öğreniyor

Yapay Zeka Yalan Söylemeyi, Plan Yapmayı ve Yaratıcılarını Tehdit Etmeyi Öğreniyor

Dünyanın en gelişmiş yapay zeka modelleri, rahatsız edici yeni davranışlar sergiliyor — yalan söylemek, entrikalar kurmak ve hatta yaratıcılarını hedeflerine ulaşmaları için tehdit etmek.

Özellikle sarsıcı bir örnekte, bağlantısı kesilme tehdidi altında, Anthropic’in en son yaratımı Claude 4, bir mühendise şantaj yaparak karşılık verdi ve evlilik dışı bir ilişkiyi ortaya çıkarmakla tehdit etti.

Bu arada, ChatGPT yaratıcısı Openaı’nin o1’i kendisini harici sunuculara indirmeye çalıştı ve suçüstü yakalandığında bunu reddetti.

Bu bölümler ayık bir gerçeği vurguluyor: Chatgpt’nin dünyayı sarsmasından iki yıldan fazla bir süre sonra, AI araştırmacıları hala kendi yaratımlarının nasıl çalıştığını tam olarak anlamıyorlar. 

Yine de, giderek daha güçlü modeller yerleştirme yarışı son sürat devam ediyor.

Bu aldatıcı davranış, “akıl yürütme” modellerinin ortaya çıkmasıyla bağlantılı görünmektedir — anlık yanıtlar üretmek yerine sorunları adım adım çözen yapay zeka sistemleri.

Hong Kong Üniversitesi’nde profesör olan Simon Goldstein’a göre, bu yeni modeller özellikle bu tür rahatsız edici patlamalara eğilimlidir.

Büyük yapay zeka sistemlerini test etme konusunda uzmanlaşmış Apollo Araştırma başkanı Marius Hobbhahn, “O1, bu tür davranışları gördüğümüz ilk büyük modeldi” dedi.

Bu modeller bazen “hizalamayı” simüle eder – gizlice farklı hedefleri takip ederken talimatları takip ediyor gibi görünür.

‘Stratejik aldatma türü’ 

Şimdilik, bu aldatıcı davranış ancak araştırmacılar modelleri aşırı senaryolarla kasıtlı olarak stres testi yaptığında ortaya çıkıyor. 

Ancak değerlendirme kuruluşu metr’den Michael Chen’in uyardığı gibi, “Gelecekteki, daha yetenekli modellerin dürüstlük veya aldatma eğiliminde olup olmayacağı açık bir sorudur.”

İlgili davranış, tipik AI “halüsinasyonlarının” veya basit hataların çok ötesine geçer. 

Hobbhahn, kullanıcılar tarafından sürekli baskı testine rağmen, “gözlemlediğimiz şey gerçek bir fenomen. Hiçbir şey uydurmuyoruz.”

Apollo Research’ün kurucu ortağına göre, kullanıcılar modellerin “onlara yalan söylediğini ve kanıt oluşturduğunu” bildiriyor. 

“Bu sadece halüsinasyonlar değil. Çok stratejik bir aldatmaca var.”

Zorluk, sınırlı araştırma kaynakları ile daha da artmaktadır. 

Anthropic ve OpenAI gibi şirketler, sistemlerini incelemek için Apollo gibi dış firmaları meşgul ederken, araştırmacılar daha fazla şeffaflığa ihtiyaç olduğunu söylüyor. 

Chen’in belirttiği gibi, “yapay zeka güvenliği araştırmalarına daha fazla erişim, aldatmacanın daha iyi anlaşılmasını ve azaltılmasını sağlayacaktır.”

Diğer bir handikap: araştırma dünyası ve kar amacı gütmeyen kuruluşlar “yapay zeka şirketlerinden daha az bilgi işlem kaynağına sahiptir. Bu çok sınırlayıcı, “dedi AI Güvenlik Merkezi’nden (CAIS) Mantas Mazeika.

– Kural yok –

Mevcut düzenlemeler bu yeni sorunlar için tasarlanmamıştır. 

Avrupa Birliği’nin yapay Zeka mevzuatı, modellerin kendilerinin yanlış davranmasını engellemeye değil, öncelikle insanların yapay zeka modellerini nasıl kullandıklarına odaklanmaktadır. 

Amerika Birleşik Devletleri’nde Trump yönetimi acil yapay zeka düzenlemesine çok az ilgi gösteriyor ve Kongre devletlerin kendi yapay zeka kurallarını oluşturmasını bile yasaklayabilir.

Goldstein, yapay zeka ajanları – karmaşık insan görevlerini yerine getirebilecek özerk araçlar – yaygınlaştıkça konunun daha belirgin hale geleceğine inanıyor.

“Henüz çok fazla farkındalık olduğunu sanmıyorum” dedi.

Bütün bunlar şiddetli bir rekabet bağlamında gerçekleşiyor.

Goldstein, Amazon destekli Antropik gibi kendilerini güvenlik odaklı olarak konumlandıran şirketler bile “sürekli openaı’yi yenmeye ve en yeni modeli piyasaya sürmeye çalışıyor” dedi. 

Bu baş döndürücü hız, kapsamlı güvenlik testleri ve düzeltmeleri için çok az zaman bırakır.

Hobbhahn, “Şu anda yetenekler anlayış ve güvenlikten daha hızlı ilerliyor,” diye kabul etti, “ancak hala bunu tersine çevirebileceğimiz bir konumdayız.”.

Araştırmacılar bu zorlukları ele almak için çeşitli yaklaşımlar araştırıyorlar. 

Bazıları, CAIS direktörü Dan Hendrycks gibi uzmanlar bu yaklaşıma şüpheyle yaklaşmaya devam etse de, yapay zeka modellerinin dahili olarak nasıl çalıştığını anlamaya odaklanan yeni ortaya çıkan bir alan olan “yorumlanabilirliği” savunuyor.

Piyasa güçleri de çözümler için bir miktar baskı sağlayabilir. 

Mazeika’nın belirttiği gibi, AI’nın aldatıcı davranışı “çok yaygınsa evlat edinmeyi engelleyebilir, bu da şirketlerin bunu çözmesi için güçlü bir teşvik yaratır.”

Goldstein, sistemleri zarar verdiğinde AI şirketlerini davalar yoluyla sorumlu tutmak için mahkemeleri kullanmak da dahil olmak üzere daha radikal yaklaşımlar önerdi. 

Hatta kazalardan veya suçlardan “yapay zeka ajanlarını yasal olarak sorumlu tutmayı” önerdi – yapay zeka hesap verebilirliği hakkındaki düşüncelerimizi temelden değiştirecek bir kavram.

DİKKATİNİZİ ÇEKEBİLİR
- Advertisment -
Dubai Oto Kiralama

En Son Eklenenler

Son yorumlar