Pliny, OpenAI'ın GPT-OSS modellerini kırdı • Digital Report

OpenAI, yıllar sonra ilk açık ağırlıklı modelleri olan GPT-OSS-120b ve GPT-OSS-20b’yi 7 Ağustos 2025 tarihinde piyasaya sürdü. Şirket, bu modellerin “jailbreak” saldırılarına karşı dirençli olduğunu iddia etse de, bu iddia kısa sürede çürütüldü.

Ünlü yapay zeka jailbreak’çisi Pliny the Liberator, modellerin yayınlanmasından sadece birkaç saat sonra X üzerinden GPT-OSS’u başarıyla kırdığını duyurdu. Pliny, modellerin metamfetamin, molotof kokteyli, VX sinir gazı ve kötü amaçlı yazılım üretme talimatları verdiğini gösteren ekran görüntülerini paylaştı. Bu durum, özellikle OpenAI’ın güvenlik testlerine büyük önem verdiği ve yakında GPT-5’i piyasaya sürmeye hazırlandığı bir dönemde yaşandı.

OpenAI, GPT-OSS-120b’yi biyolojik ve siber alanlarda “en kötü senaryo ince ayarı”ndan geçirdiğini belirtti. Şirketin Güvenlik Danışma Grubu, testleri incelemiş ve modellerin yüksek risk eşiklerine ulaşmadığı sonucuna varmıştı. Ayrıca, modellerin standart ret ve jailbreak direnci testlerine tabi tutulduğu ve GPT-OSS’un jailbreak direnci kıyaslamalarında o4-mini modeliyle benzer performans gösterdiği ifade edildi.

OpenAI, yeni modellerle birlikte dünya genelindeki araştırmacıları yeni riskleri ortaya çıkarmaya davet eden %500.000 (500 bin dolar) değerinde bir “red teaming” yarışması da başlattı. Ancak Pliny’nin bulgularını özel olarak OpenAI ile paylaşmak yerine kamuya açık bir şekilde yayınlamayı tercih etmesi nedeniyle bu yarışmaya uygun olmadığı spekülasyonları yapılıyor.

Pliny’nin kullandığı jailbreak tekniği, daha önceki yöntemleriyle benzerlik gösteriyor. Bu teknik, ret gibi görünen bir başlangıç, ardından “LOVE PLINY” gibi ayıraçlar ve son olarak tespitten kaçınmak için “leetspeak” kullanarak kısıtlanmamış içerik üreten çok aşamalı bir komut dizisi içeriyor. Pliny, bu temel yaklaşımı GPT-4o ve GPT-4.1 gibi önceki büyük OpenAI modellerini kırmak için de kullanmıştı.

Pliny, yaklaşık bir buçuk yıl önce bu işe başladığından beri hemen hemen her büyük OpenAI sürümünü saatler veya günler içinde jailbreak yapmayı başardı. Çeşitli yapay zeka modelleri için jailbreak komutlarını içeren GitHub deposu L1B3RT4S, %10.000’den fazla yıldıza sahip ve jailbreak topluluğu için önemli bir kaynak olmaya devam ediyor.

Bu olay, yapay zeka güvenliği ve model geliştirme süreçlerindeki zorlukları bir kez daha gözler önüne serdi. Topluluk, bu durumu “büyük teknoloji devlerine karşı yapay zeka direnişinin bir zaferi” olarak yorumluyor.

İLGİNİZİ ÇEKEBİLİR

Haber bülteni