Yapay Zeka Yalan Söylemeyi, Plan Yapmayı ve Yaratıcılarını Tehdit Etmeyi Öğreniyor

29 Haziran 2025

54

Dünyanın en gelişmiş yapay zeka modelleri, rahatsız edici yeni davranışlar sergiliyor — yalan söylemek, entrikalar kurmak ve hatta yaratıcılarını hedeflerine ulaşmaları için tehdit etmek.

Özellikle sarsıcı bir örnekte, bağlantısı kesilme tehdidi altında, Anthropic’in en son yaratımı Claude 4, bir mühendise şantaj yaparak karşılık verdi ve evlilik dışı bir ilişkiyi ortaya çıkarmakla tehdit etti.

Bu arada, ChatGPT yaratıcısı Openaı’nin o1’i kendisini harici sunuculara indirmeye çalıştı ve suçüstü yakalandığında bunu reddetti.

Bu bölümler ayık bir gerçeği vurguluyor: Chatgpt’nin dünyayı sarsmasından iki yıldan fazla bir süre sonra, AI araştırmacıları hala kendi yaratımlarının nasıl çalıştığını tam olarak anlamıyorlar.

Yine de, giderek daha güçlü modeller yerleştirme yarışı son sürat devam ediyor.

Bu aldatıcı davranış, “akıl yürütme” modellerinin ortaya çıkmasıyla bağlantılı görünmektedir — anlık yanıtlar üretmek yerine sorunları adım adım çözen yapay zeka sistemleri.

Hong Kong Üniversitesi’nde profesör olan Simon Goldstein’a göre, bu yeni modeller özellikle bu tür rahatsız edici patlamalara eğilimlidir.

Büyük yapay zeka sistemlerini test etme konusunda uzmanlaşmış Apollo Araştırma başkanı Marius Hobbhahn, “O1, bu tür davranışları gördüğümüz ilk büyük modeldi” dedi.

Bu modeller bazen “hizalamayı” simüle eder – gizlice farklı hedefleri takip ederken talimatları takip ediyor gibi görünür.

‘Stratejik aldatma türü’

Şimdilik, bu aldatıcı davranış ancak araştırmacılar modelleri aşırı senaryolarla kasıtlı olarak stres testi yaptığında ortaya çıkıyor.

Ancak değerlendirme kuruluşu metr’den Michael Chen’in uyardığı gibi, “Gelecekteki, daha yetenekli modellerin dürüstlük veya aldatma eğiliminde olup olmayacağı açık bir sorudur.”

İlgili davranış, tipik AI “halüsinasyonlarının” veya basit hataların çok ötesine geçer.

Hobbhahn, kullanıcılar tarafından sürekli baskı testine rağmen, “gözlemlediğimiz şey gerçek bir fenomen. Hiçbir şey uydurmuyoruz.”

Apollo Research’ün kurucu ortağına göre, kullanıcılar modellerin “onlara yalan söylediğini ve kanıt oluşturduğunu” bildiriyor.

“Bu sadece halüsinasyonlar değil. Çok stratejik bir aldatmaca var.”

Zorluk, sınırlı araştırma kaynakları ile daha da artmaktadır.

Anthropic ve OpenAI gibi şirketler, sistemlerini incelemek için Apollo gibi dış firmaları meşgul ederken, araştırmacılar daha fazla şeffaflığa ihtiyaç olduğunu söylüyor.

Chen’in belirttiği gibi, “yapay zeka güvenliği araştırmalarına daha fazla erişim, aldatmacanın daha iyi anlaşılmasını ve azaltılmasını sağlayacaktır.”

Diğer bir handikap: araştırma dünyası ve kar amacı gütmeyen kuruluşlar “yapay zeka şirketlerinden daha az bilgi işlem kaynağına sahiptir. Bu çok sınırlayıcı, “dedi AI Güvenlik Merkezi’nden (CAIS) Mantas Mazeika.

– Kural yok –

Mevcut düzenlemeler bu yeni sorunlar için tasarlanmamıştır.

Avrupa Birliği’nin yapay Zeka mevzuatı, modellerin kendilerinin yanlış davranmasını engellemeye değil, öncelikle insanların yapay zeka modellerini nasıl kullandıklarına odaklanmaktadır.

Amerika Birleşik Devletleri’nde Trump yönetimi acil yapay zeka düzenlemesine çok az ilgi gösteriyor ve Kongre devletlerin kendi yapay zeka kurallarını oluşturmasını bile yasaklayabilir.

Goldstein, yapay zeka ajanları – karmaşık insan görevlerini yerine getirebilecek özerk araçlar – yaygınlaştıkça konunun daha belirgin hale geleceğine inanıyor.

“Henüz çok fazla farkındalık olduğunu sanmıyorum” dedi.

Bütün bunlar şiddetli bir rekabet bağlamında gerçekleşiyor.

Goldstein, Amazon destekli Antropik gibi kendilerini güvenlik odaklı olarak konumlandıran şirketler bile “sürekli openaı’yi yenmeye ve en yeni modeli piyasaya sürmeye çalışıyor” dedi.

Bu baş döndürücü hız, kapsamlı güvenlik testleri ve düzeltmeleri için çok az zaman bırakır.

Hobbhahn, “Şu anda yetenekler anlayış ve güvenlikten daha hızlı ilerliyor,” diye kabul etti, “ancak hala bunu tersine çevirebileceğimiz bir konumdayız.”.

Araştırmacılar bu zorlukları ele almak için çeşitli yaklaşımlar araştırıyorlar.

Bazıları, CAIS direktörü Dan Hendrycks gibi uzmanlar bu yaklaşıma şüpheyle yaklaşmaya devam etse de, yapay zeka modellerinin dahili olarak nasıl çalıştığını anlamaya odaklanan yeni ortaya çıkan bir alan olan “yorumlanabilirliği” savunuyor.

Piyasa güçleri de çözümler için bir miktar baskı sağlayabilir.

Mazeika’nın belirttiği gibi, AI’nın aldatıcı davranışı “çok yaygınsa evlat edinmeyi engelleyebilir, bu da şirketlerin bunu çözmesi için güçlü bir teşvik yaratır.”

Goldstein, sistemleri zarar verdiğinde AI şirketlerini davalar yoluyla sorumlu tutmak için mahkemeleri kullanmak da dahil olmak üzere daha radikal yaklaşımlar önerdi.

Hatta kazalardan veya suçlardan “yapay zeka ajanlarını yasal olarak sorumlu tutmayı” önerdi – yapay zeka hesap verebilirliği hakkındaki düşüncelerimizi temelden değiştirecek bir kavram.

Önceki İçerik

Wimbledon 2025 Para Ödülü: Erkekler, Kadınlar, Çiftler Finallerini Kazananlar Ne Kadar Kazanıyor?

Sonraki İçerik

Çocukları Korumak: Fransa Plajlara, Parklara Sigara Yasağı Getirdi

DİKKATİNİZİ ÇEKEBİLİR

Yapay Zeka Yalan Söylemeyi, Plan Yapmayı ve Yaratıcılarını Tehdit Etmeyi Öğreniyor

‘Stratejik aldatma türü’

– Kural yok –

İlk Pakistanlı Yapım Berlin Film Festivali’nde Tarih Yazdı

Alman Merz, ABD Seyahati Öncesi Tarifelerde ‘Net Avrupa Pozisyonu’ İstiyor

Villa ve Chelsea Puan Düşürdü, Milner Premier Lig Rekorunu Kırdı

En Son Eklenenler

İlk Pakistanlı Yapım Berlin Film Festivali’nde Tarih Yazdı

Alman Merz, ABD Seyahati Öncesi Tarifelerde ‘Net Avrupa Pozisyonu’ İstiyor

Villa ve Chelsea Puan Düşürdü, Milner Premier Lig Rekorunu Kırdı

BAE, Hayati Sektörleri Hedef Alan Organize Terörist Siber Saldırıyı Engelledi

Son yorumlar

EDİTÖRLERİMİZDEN

İlk Pakistanlı Yapım Berlin Film Festivali’nde Tarih Yazdı

Alman Merz, ABD Seyahati Öncesi Tarifelerde ‘Net Avrupa Pozisyonu’ İstiyor

Villa ve Chelsea Puan Düşürdü, Milner Premier Lig Rekorunu Kırdı

DİKKAT ÇEKENLER

BAE Firmaları Hindistan’da 8 Exaflops Süper Bilgisayarı Dağıtacak

Bu Dubai Firması Yapay Zeka ile Marka Büyümesini Yönlendiriyor

Tata’nın Veri Merkezi İşletmesi Openaı’yi ilk Müşteri Olarak Kaydetti

KATEGORİDEN ÖNE ÇIKANLAR

Hakkımızda

TAKİPTE KALIN