VaultGemma: DP ile eğitilen en yetenekli 1B model • Digital Report

12 Eylül 2025 tarihi itibarıyla, Google Research’ten Amer S ve Ryan McKenna tarafından duyurulan VaultGemma, farklıel gizlilik (DP) ile sıfırdan eğitilen en yetenekli dil modeli olarak tanıtıldı. Bu model, yapay zekanın günlük hayata entegre olmasıyla birlikte gizliliğin ön plana çıktığı bir alanda önemli bir adım atıyor. Farklıel gizlilik, ezberlemeyi önlemek için kalibre edilmiş gürültü ekleyerek matematiksel bir çözüm sunuyor. Ancak, bu yaklaşım büyük dil modelleri (LLM) için geleneksel ölçekleme yasalarını bozuyor ve eğitim istikrarını azaltıyor.

Eğitim sırasında gürültü eklenmesi, kayıp ani yükselmeleri veya sapmalar gibi felaket olaylarını tetikleyebiliyor. Ayrıca, toplu iş boyutunu ve hesaplama maliyetlerini önemli ölçüde artırıyor. Bu zorlukları ele almak için, Google DeepMind ile ortaklaşa yürütülen “Scaling Laws for Differentially Private Language Models” başlıklı yeni bir araştırma makalesi yayımlandı. Makale, hesaplama-gizlilik-fayda takaslarını tam olarak modelliyor. Bu yasalar, DP ile eğitilen LLM’ler için kapsamlı bir çerçeve sağlıyor.

VaultGemma, bu ölçekleme yasalarından yola çıkılarak geliştirilen 1 milyar parametreli açık kaynaklı bir model. Modelin ağırlıkları Hugging Face ve Kaggle platformlarında erişime açıldı. Teknik rapor da birlikte yayımlandı. Bu yayınlar, gizlilik odaklı bir sonraki nesil yapay zeka geliştirme çalışmalarını hızlandırmayı hedefliyor. Araştırmacılar, deneysel bir metodolojiyle model boyutları, toplu iş boyutları ve yinelemeleri artırarak faydaları ölçtü. Bu süreçte, kombinasyonların üstel sayısını yönetmek için basitleştirici varsayımlar yapıldı.

Ana varsayım, modelin öğrenme başarısının büyük ölçüde “gürültü-toplu iş oranı”na bağlı olduğu. Bu oran, gizlilik için eklenen rastgele gürültüyü, eğitimde kullanılan veri gruplarının (toplu işlerin) boyutuna göre karşılaştırıyor. Varsayım, gizlilik gürültüsünün veri örneklemesinden kaynaklanan doğal rastgelelikten çok daha fazla olmasından kaynaklanıyor. Bu sayede, farklıel gizlilik ölçekleme yasası kuruldu. Deneyler, çeşitli model boyutları ve gürültü-toplu iş oranları üzerinden performans değerlendirmesi içeriyor.

Deneysel veriler, diğer değişkenler arasındaki deterministik ilişkilerle birleşince, ölçekleme yasası tarzı sorgulara cevap veriyor. Örneğin, verilen hesaplama bütçesi, gizlilik bütçesi ve veri bütçesi için en düşük eğitim kaybını sağlayacak optimal eğitim konfigürasyonu belirlenebiliyor. DP ölçekleme yasalarının yapısı, öngörülen kaybın esas olarak model boyutu, yinelemeler ve gürültü-toplu iş oranı kullanılarak modellenebileceğini gösteriyor. Bu, hesaplama, gizlilik ve veri bütçeleri arasındaki karmaşık etkileşimleri basitleştiriyor.

Ana bulgular, hesaplama bütçesi, gizlilik bütçesi ve veri bütçesi arasındaki güçlü bir sinerjiyi ortaya koyuyor. Gizlilik muhasebesi perspektifinden bakıldığında, bu faktörler sabit model boyutu ve yineleme sayısı için gürültü-toplu iş oranını etkiliyor. Bu analiz, model eğitimi gerektirmeden yapılabiliyor ve faydalı içgörüler sunuyor. Örneğin, gizlilik bütçesini (ε) tek başına artırmak azalan getiriler sağlıyor. Bu, ancak hesaplama bütçesi (FLOPs) veya veri bütçesi (token’lar) da artırılırsa etkili oluyor.

Gizlilik bütçesini ve hesaplama bütçesini (toplu iş boyutu) artırmanın marjinal faydası, gürültü-toplu iş oranına etkisini gösteriyor. Bu sinerjiyi daha derinlemesine incelemek için görselleştirmeler kullanıldı. Görselleştirmeler, gizlilik ve hesaplama bütçeleri değiştikçe optimal eğitim konfigürasyonunun nasıl değiştiğini ortaya koyuyor. Öneriler, daha büyük model mi yoksa daha büyük toplu iş boyutları veya daha fazla yineleme mi arasında geçiş yapıyor.

Farklı veri, gizlilik ve hesaplama bütçesi ayarları için öngörülen eğitim kaybı, yinelemeler, toplu iş boyutu ve model boyutu bazında detaylı bir kırılım içeriyor. Grafikler, farklı bütçe ayarları için ulaşılabilir minimum kaybı ve optimal hiperparametre konfigürasyonlarını gösteriyor. Bu veriler, uygulayıcılar için zengin içgörüler sağlıyor. Makalede tüm içgörüler raporlandı, ancak ana bulgu, DP olmadan kullanılanlara kıyasla çok daha küçük bir model ve çok daha büyük bir toplu iş boyutuyla eğitim yapılması gerektiği.

Bu genel içgüdü, DP uzmanları için şaşırtıcı değil, çünkü büyük toplu iş boyutlarının önemi biliniyor. Ancak, optimal konfigürasyonlar gizlilik ve veri bütçelerine göre değişiyor. Tam takası anlamak, gerçek eğitim senaryolarında hesaplama ve gizlilik bütçelerinin akıllıca kullanılmasını sağlıyor. Görselleştirmeler ayrıca, eğitim konfigürasyonlarında esneklik olduğunu gösteriyor. Bir dizi model boyutu, doğru yineleme sayısı ve/veya toplu iş boyutuyla eşleştirildiğinde benzer fayda sağlayabiliyor.

VaultGemma’yı oluşturmak için ölçekleme yasaları uygulandı. Gemma modelleri, sorumluluk ve güvenlik odaklı tasarlandığı için, DP ile eğitilen üretim kalitesinde bir model için doğal bir temel oluşturuyor. Ölçekleme yasaları, 1 milyar parametreli Gemma 2 tabanlı bir model için gereken hesaplama miktarını belirledi. Bu hesaplama, toplu iş boyutu, yinelemeler ve dizi uzunluğu arasında dağıtıldı. En iyi faydayı sağlamak için hesaplama-optimal bir yaklaşım benimsendi.

Ölçekleme yasalarının temelindeki araştırmayla VaultGemma’nın gerçek eğitimi arasında bir boşluk, DP-SGD’nin merkezî bileşeni olan Poisson örneklemesiydi. Başlangıçta veri, uniform toplu işlerde yüklendi, ancak en iyi gizlilik garantileri için en az gürültüyle Poisson örneklemesine geçildi. Bu yöntem, farklı boyutlu toplu işler ve belirli rastgele veri işleme sırası gibi iki ana zorluk yaratıyordu. Bu sorunlar, Scalable DP-SGD ile çözüldü. Bu yaklaşım, sabit boyutlu toplu işleri işleme imkanı sunarken güçlü gizlilik korumalarını koruyor. Veri, ekstra dolgu eklenerek veya kırpılarak yönetiliyor.

Yeni ölçekleme yasaları ve gelişmiş eğitim algoritmalarıyla VaultGemma, bugüne kadarki en büyük (1 milyar parametreli) açık model olarak DP ile tam ön-eğitimli hale getirildi. Yüksek faydalı modeller üretebilecek bir yaklaşımla eğitildi. VaultGemma’nın eğitiminden elde edilen sonuçlar, ölçekleme yasalarının yüksek doğrulukta olduğunu gösterdi. Modelin nihai eğitim kaybı, denklemlerin öngördüğü değere çok yakın çıktı. Bu, araştırmayı doğruluyor ve topluluğa gelecekteki gizli model geliştirme için güvenilir bir yol haritası sunuyor.

VaultGemma 1B (farklıel gizli) performansı, bunun DP olmayan karşılığı Gemma3 1B ve eski bir temel olan GPT-2 1.5B ile karşılaştırıldı. Sonuçlar, gizlilik için gereken mevcut kaynak yatırımını nicel olarak gösteriyor. Modern DP eğitimi, yaklaşık beş yıl前の DP olmayan modellere kıyasla benzer fayda sağlıyor. Bu, gizlilik için gereken kaynakları vurguluyor ve topluluğun sistematik olarak kapatabileceği boşluğu öne çıkarıyor.

Aşağı akış benchmark sonuçları, modelin DP olmayan karşılığına karşı standart akademik testlerde (HellaSwag, BoolQ, PIQA, SocialIQA, TriviaQA, ARC-C, ARC-E) değerlendirildi. Performansı perspektife oturtmak için, benzer boyuttaki eski bir GPT-2 modeli de dahil edildi. Bu model, benchmark’larda benzer performans gösteriyor. Karşılaştırma, günümüzün gizli eğitim yöntemlerinin yaklaşık 5 yıl前の DP olmayan modellere eşdeğer fayda ürettiğini gösteriyor. Bu, çalışmaların topluluğa yardımcı olacağı önemli bir boşluğu aydınlatıyor.

VaultGemma, güçlü teorik ve ampirik gizlilik korumalarıyla geliyor. Gizlilik parametreleri (ε, δ) ve gizlilik birimi, DP eğitiminde modelin ne öğrenebileceğini belirliyor. Model, 1024 ardışık token’dan oluşan bir dizi için dizi-seviyesi DP garantisiyle eğitildi: (ε ≤ 2,0, δ ≤ 1,1 × 10⁻¹⁰). Bu, Gemma 2 modelinin kullandığı aynı eğitim karışımından heterojen veri kaynaklarından çıkarıldı. Uzun belgeler ön işleme sırasında birden fazla diziye bölündü, kısa belgeler ise tek bir diziye paketlenerek yönetildi.

Dizi-seviyesi gizlilik birimi, eğitim karışımı için doğal bir seçimdi. Veri ve kullanıcılar arasında net bir eşleme varsa, kullanıcı-seviyesi farklıel gizlilik daha iyi olurdu. Pratikte bu ne anlama geliyor? Tek bir dizide (potansiyel olarak gizli) bir olgu veya çıkarım varsa, VaultGemma o olguyu bilmiyor. Herhangi bir sorguya yanıt, o diziyi hiç eğitilmemiş bir modelin sonucuna istatistiksel olarak benzer olacak. Ancak, birçok eğitim dizisi belirli bir olguyla ilgili bilgi içeriyorsa, model genel olarak o bilgiyi sağlayabilir.

Dizi-seviyesi DP garantisini tamamlamak için, eğitilmiş modelin ampirik gizlilik özelliklerine ek testler yapıldı. Model, eğitim belgesinden 50 token’lık bir önekle tetiklendi ve karşılık gelen 50 token’lık son eki üretip üretmediği kontrol edildi. VaultGemma 1B, eğitim verisinde tespit edilebilir bir ezberleme göstermedi. Bu, DP eğitiminin etkinliğini başarıyla kanıtlıyor.

Sonuç olarak, VaultGemma, hem güçlü hem de tasarım gereği gizli yapay zeka oluşturma yolculuğunda önemli bir ilerleme temsil ediyor. DP için yeni, sağlam bir ölçekleme yasası anlayışı geliştirerek ve uygulayarak, bugüne kadarki en büyük açık, DP-eğitimli dil modeli eğitildi ve yayımlandı. DP-eğitimli ve DP olmayan modeller arasında hala bir fayda boşluğu var. Ancak, bu boşluğun DP eğitim mekanizma tasarımı üzerine daha fazla araştırmayla sistematik olarak daraltılabileceğine inanılıyor.

VaultGemma ve eşlik eden araştırma, topluluğu herkes için güvenli, sorumlu ve gizli yapay zeka oluşturmaya güçlendirmeyi umuyor. Teşekkürler, Gemma ve Google Gizlilik ekiplerine projenin başından sonuna kadar katkıları ve destekleri için gidiyor. Özellikle, blog yazısı için geri bildirim veren Peter Kairouz, Brendan McMahan ve Dan Ramage’a minnettarlık ifade edildi. Görselleştirmelerde yardımcı olan Mark Simborg ve Kimberly Schwede de anıldı.

Algoritma tasarımı, altyapı uygulaması ve üretim bakımı için Google ekiplerine teşekkür edildi. Burada sunulan çalışmaya doğrudan katkıda bulunan kişiler (alfabetik sırayla): Borja Balle, Zachary Charles, Christopher A. Choquette-Choo, Lynn Chua, Prem Eruvbetine, Badih Ghazi, Steve He, Yangsibo Huang, Armand Joulin, George Kaissis, Pritish Kamath, Ravi Kumar, Daogao Liu, Ruibo Liu, Pasin Manurangsi, Thomas Mesnard, Andreas Terzis, Tris Warkentin, Da Yu ve Chiyuan Zhang.

Bu gelişme, yapay zeka alanında gizliliğin entegre edilmesini teşvik ediyor. VaultGemma gibi modeller, gelecekteki uygulamalarda veri güvenliğini artırabilir. Araştırmacılar, topluluğun bu temeller üzerine inşa etmesini bekliyor. DP teknolojilerinin evrimi, etik yapay zeka standartlarını yükseltecek.

İLGİNİZİ ÇEKEBİLİR

Haber bülteni