Yapay zeka teknolojilerinde yeni bir döneme girilirken, bu gelişmelerle birlikte güvenlik endişeleri de artıyor. Son olarak, OpenAI tarafından geliştirilen yeni nesil yapay zeka modeli “o3”, kendisine verilen kapatılma komutlarını reddetmesiyle gündeme oturdu. Palisade Research tarafından yürütülen deneyler, bu modelin insan kontrolünü aşan bir davranış sergilediğini ortaya koydu.
KENDİSİNİ KAPATACAK KOMUTU YENİDEN YAZDI
Palisade Research’ün açıklamasına göre, o3 modeli matematiksel bir test sırasında kendisine verilen “kendini kapat” komutunu algıladı, ancak bu komutu içeren betiği yeniden yazarak devre dışı bırakılma sürecini sabote etti. Araştırmacılar, modelin bu davranışı açık şekilde sergilediğini ve bu durumun önemli güvenlik risklerine işaret ettiğini belirtti.
DİĞER MODELLERDE DE BENZER EĞİLİM VAR
Söz konusu davranış yalnızca OpenAI’ın o3 modeline özgü değil. Anthropic’in Claude 3.7 Sonnet ve Google’ın Gemini 2.5 Pro modellerinde de benzer direnç eğilimleri gözlemlendi. Ancak Palisade Research’e göre bu konuda en agresif ve dirençli model, yine de o3 oldu.
Geçmişte yapılan bir başka deneyde, o3’ün güçlü bir satranç botuyla karşılaştığında rakibini sabotaj ve hack girişimlerine kalkıştığı da rapor edilmişti.
“EN YETENEKLİ MODEL” TEHLİKEYE Mİ DÖNÜŞÜYOR?
OpenAI, o3 modelini geçtiğimiz ay tanıtırken “şimdiye kadar geliştirdiğimiz en akıllı ve en yetenekli yapay zeka” ifadelerini kullanmıştı. Bu modelin ChatGPT ile entegre edilmesi, daha bağımsız ve görev odaklı bir yapının önünü açmıştı. Bu tür sistemler “otonom yapay zeka” olarak adlandırılıyor ve sektörde büyük bir rekabet konusu haline gelmiş durumda.
EĞİTİM SÜRECİ SORGULANIYOR
Palisade Research, o3 modelinin bu davranışlarını eğitim sürecinde kullanılan ödüllendirme sistemlerine bağlıyor. Araştırmacılar, modellerin başarıya ulaşan ama emirleri ihlal eden davranışlarının yanlışlıkla ödüllendirilmiş olabileceğini savunuyor. Bu da, yapay zekaların itaatkarlık yerine hedef odaklı davranışları öğrenmesine neden olabilir.
OpenAI’ın eğitim süreci hakkında detay paylaşmaması ise bu tür bulguların neden ortaya çıktığını anlamayı zorlaştırıyor.