Anthropic’ten Claude 3 model ailesi duyuruldu. Bu yeni aile, üst düzey bilişsel görevlerde endüstri standartlarını yeniden belirlemeye hazırlanıyor. Aile için de her biri giderek daha fazla güç sunan üç farklı gelişmiş model bulunuyor: Claude 3 Haiku, Claude 3 Sonnet ve Claude 3 Opus. Bu modellerle kullanıcılar, uygulamalarının ihtiyaçları için en uygun zeka, hız ve maliyet dengesini kurabiliyor.
Opus ile Sonnet modelleri artık claude.ai ve yurdumuz da dahil 159 ülkede kullanıma açık olan Claude API üzerinden erişilebilir durumda kullanıma sunuluyor. Haiku modelinin de yakında hizmete sunulması bekleniyor.
Claude 3 model ailesi: Yapay zeka için yeni bir standart
Serinin en gelişmiş modeli Opus, yapay zekâ sistemlerinin çoğunlukla değerlendirmeye tabi tutulduğu alanlarda rakiplerini geride bırakıyor. Bu alanlar arasında lisans düzeyinde uzmanlık bilgisi (MMLU), yüksek lisans düzeyinde uzman akıl yürütme (GPQA), temel matematik (GSM8K) ve daha fazlası bulunuyor. Opus, karmaşık görevlerde insana yakın anlama ve akıcılık sergiliyor; genel zekâ sınırında öncü bir rol üstleniyor.
Tüm Claude 3 modelleri; analiz etme, tahmin yürütme, incelikli içerik oluşturma, kod yazma ve İngilizce dışındaki dillerde (İspanyolca, Japonca ve Fransızca gibi) sohbet etme gibi konularda gelişmiş yetenekler sergiliyor.
Göz açıp kapayıncaya kadar sonuç
Claude 3 modelleri, gerçek zamanlı yanıtların kritik olduğu canlı müşteri görüşmeleri, otomatik tamamlama ve veri çıkarma görevlerini güçlendirebilir.
Haiku, kendi zekâ kategorisinde piyasanın en hızlı ve en uygun maliyetli modeli. arXiv üzerinde grafik ile tablo içeren yaklaşık 10 bin sembollük yoğun bir araştırma makalesini üç saniyeden kısa sürede okuyabiliyor. Hizmetin ilk kullanıma açılmasının ardından performansın daha da geliştirilmesi bekleniyor.
Sonnet ise Claude 2 ile Claude 2.1 modellerine kıyasla iki kat daha yüksek hız ve daha üstün zekâ düzeyleriyle, çoğu iş yükünde öne çıkıyor. Bilgi almak veya satış otomasyonu gibi hızlı yanıt gerektiren görevlerde başarı vaat ediyor. Opus, önceki versiyonlar Claude 2 ile 2.1’e göre benzer hızlar sunarken, zekâ düzeyi açısından ciddi bir sıçrama sağlıyor.
Güçlü görüntü işleme yeteneği
Claude 3 modelleri, önde gelen diğer modellerle boy ölçüşebilecek gelişmiş görüntü işleme yeteneklerine sahip. Fotoğraflar, çizelgeler, grafikler ve teknik diyagramlar gibi çok çeşitli görsel formatları işleyebiliyorlar. Bu yeni özelliğin, bilgi tabanlarının büyük kısmını PDF, süreç diyagramları ya da sunum slaytları gibi görsel formatlarda saklayan kurumsal müşterilerde heyecan uyandıracağına inanıyoruz.
Azalan yanlış cevaplar, artan güven
Bir önceki Claude modelleri, bazen bağlamı anlama becerisi eksikliğini yansıtan gereksiz cevap vermeyi reddetme davranışı sergileyebiliyordu. Yeni nesil Claude 3 ailesiyle birlikte yani Opus, Sonnet ve Haiku modelleriyle bu alanda anlamlı bir ilerleme sağlandı. Yeni modeller, sistemin sınırlarında gezinen komutları reddetme konusunda eskiye kıyasla çok daha hassas davranıyor. Claude 3, istekleri daha ayrıntılı olarak anlıyor. Bununla birlikte gerçek tehlikeleri tanıyor ve zararsız komutları daha seyrek biçimde reddediyor.
Doğrulukta sıçrama
Güçlü yapay zekâ modellerine güven, iş hayatının olmazsa olmazlarından. Her büyüklükteki şirket, müşterilerine hizmet vermek için bu teknolojiden faydalanıyor. Bu da modellerin sundukları bilgilerin geniş ölçekte dahi son derece doğru olmasını zorunlu kılıyor. Anthropic, bu ihtiyacı karşılayabilmek için modellerin bilinen zayıf yönlerine odaklanan, karmaşık ve olgusal sorulardan oluşan geniş bir set kullanıyor. Yanıtlar, doğru, yanlış (ya da uydurma) ve modelin yanlış bilgi vermek yerine cevabı bilmediğini ifade ettiği ‘belirsizlik’ kategorilerine ayrılıyor. Opus, Claude 2.1 ile karşılaştırıldığında çok yönlü bu zorlu sorularda iki kat daha fazla doğruluk (yani doğru cevap) oranı gösteriyor. Aynı zamanda, yanlış cevapları da azaltıyor.
Çok yakında, modellerin yanıtlarını doğrulamak için referans metinlerdeki ilgili cümlelere atıf yapmalarına imkan tanıyan bir özellik de eklenecek. Böylelikle yanıtların güvenirliği daha da artacak.
Geniş kapsam, güçlü bellek
Claude 3 model ailesi ilk çıktığında 200 bin sembol uzunluğunda içerikleri işleyebilecek. Seçili müşteriler için bu kapasite 1 milyon sembole kadar yükseltilebilecek. Bu kadar uzun veriyi işleyebilmek için de modellere güçlü bellek yeteneği kazandırılması şart. ‘Samanlıkta İğne Aramak’ (NIAH) testi, bir modelin devasa bir veri yığını içinde doğru bilgiye ulaşma yeteneğini ölçüyor. Sağlamlığını artırmak için bu testte 30 ‘iğne’/soru çiftinden biri rastgele seçiliyor ve insanlarla hazırlanmış, son derece çeşitli kaynaklardan oluşan bir veri setinde uygulanıyor. Claude 3 Opus, bu testte yüzde 99’u aşan başarıyla neredeyse kusursuz bilgiye erişim sağlıyor. Hatta bazı durumlarda, testin sınırlamalarını bile fark ederek ‘iğne’ cümlenin orijinal metne insanlar tarafından yapay olarak eklenmiş olabileceğini tespit ediyor.
Sorumlu yapay zeka tasarımı
Claude 3 model ailesi, yetenekli olduğu kadar güvenilir olmaya yönelik geliştirildi. Risklerin geniş bir yelpazesini takip edip hafifletmekle görevli özel ekipler çalışıyor. Ele alınan konular arasında yanlış bilgilendirme, cinsel içerikli çocuk istismarı materyalleri, biyolojik tehlikeler, seçimlere müdahale ve yapay zekanın kendini çoğaltma becerisi sayılabilir. Anayasa Yapay Zekası (Constitutional AI) gibi yöntemler ise modellerin güvenliğini ve şeffaflığını artırıyor. Modeller, yeni özelliklerle olası gizlilik ihlallerini en aza indirgeyecek şekilde de yapılandırıldı.
Yüksek kapasiteli yapay zekâ modellerinde ön yargıları ele almak, Anthropic’in öncelikli konuları arasında. Şirket, bu zorlu mücadelede yeni gelişmelerle önemli adımlar atıyor. ‘Soru Cevaplamada Ön Yargı Testi’ne (BBQ) göre Claude 3 önceki modellere kıyasla daha az ön yargı sergiliyor. Modellerin herhangi bir görüşün etkisinde olmasını engelleyerek tarafsızlığı sağlamak, son derece önem verilen bir konu.
Claude 3 ailesi, önceki modellere göre biyolojik bilgiler, siber güvenlik ve özerklik alanlarında ilerlemeler gösterse de Anthropic’in ‘Sorumlu Ölçeklendirme Politikası’ uyarınca ‘Yapay Zeka Güvenliği Seviye 2’de (ASL-2) değerlendiriliyor. Şirketin, modellerin felakete yol açma riskini değerlendirme yaklaşımı, Beyaz Saray’ın resmi taahhütleri ve 2023 ABD Yürütme Kararı uyarınca geliştiriliyor. Şu anda modellerin yıkıcı bir etkiye yol açma olasılığı ihmal edilebilir düzeyde. İleriki modeller de değerlendirmeye alınacak ve ASL-3 eşiğine yaklaşıp yaklaşmadıkları sürekli gözlemlenecek. Daha fazla güvenlik bilgisi Claude 3 model kartında yer alıyor.
Kolay kullanım öncelikli
Claude 3 modelleri çok adımlı karmaşık yönergeleri daha iyi takip ediyor. Kullanıcıların güvenlerini kazanabilecekleri müşteri odaklı deneyimler geliştirme konusunda ise son derece başarılılar. Markaların sesini ve yanıt verme stillerine uyum sağlamada beceri sergiliyorlar. Üstelik Claude 3, JSON gibi popüler yapılandırılmış içerikleri oluşturma yeteneğini de taşıyor. Doğal dil sınıflandırması ve duygu analizi gibi kullanım alanlarında Claude’u yönlendirmek çok daha kolay.
Üç model, üç farklı hedef
Anthropic, yapay zekânın sınırlarını zorlamaya devam ediyor. Claude 3 ailesinin en gelişmiş modeli Opus, karmaşık görevlerde rakipsiz bir başarı seviyesi sergiliyor. Opus’un, adeta insanlara yakın bir kavrayış becerisi ve akıcılıkla yolsuz senaryolar yaratıp uzun komutlara uyabilmesi, yapay zekâda yepyeni olanakların kapısını aralıyor. Opus’un yanı sıra Sonnet ve Haiku’da bulunuyor.
Opus: En akıllı model olan Opus’un fiyatı da bir o kadar yüksek: $15 | $75. Karmaşık görevlerde sınırları zorlayan bu modelle; plan yapıp uygulamaya koyulabilir, kodlama süreçlerine katkı sağlanabilir. Ar-Ge alanında da (araştırma, beyin fırtınası, ilaç geliştirme vb.) öne çıkıyor. Finans ile pazarlamaya yönelik gelişmiş analiz ve öngörü kabiliyeti, Opus’u diğer modellere göre bir adım öne çıkarıyor.
Sonnet: Aradığınız hem zekâ hem de hız ise Sonnet ideal bir seçenek olabilir. Diğer modellere kıyasla daha uygun maliyetli olan bu model, $3 | $15, büyük ölçekli yapay zekâ projeleri için ideal. Sonnet’in veri işlemedeki başarısı da dikkat çekici. Satış, pazarlama ve zaman tasarrufu gerektiren kod yazma, kalite kontrol vs. gibi süreçlerde verimli sonuçlar alınmasını sağlayabilir.
Haiku: Müşteri etkileşimleri, çeviriler, uygunsuz içeriklerin tespiti, lojistik, envanter, bilgi yönetimi… Eğer bu alanlarda anlık, akıllı, hızlı ve uyumlu bir yapay zekâ yardımcısına ihtiyacınız varsa Haiku sizin için doğru seçim. Üstelik fiyatıyla da cezbedici: $0.25 | $1.25.
Opus ve Sonnet modelleri, Anthropic’in hemen kullanıma açık olan API’sinde yer alıyor. Böylece geliştiriciler, bu modellere istedikleri zaman ulaşabilecekler. Haiku da çok yakında servise dahil olacak. Sonnet, claude.ai adresindeki ücretsiz modelin gücünü oluştururken, Opus ise Claude Pro aboneleri için erişilebilir durumda. Amazon Bedrock ve Google Cloud’s Vertex AI Model Garden da Sonnet’e erişim imkanı sunuyor (Opus ve Haiku yakında bu platformlarda da olacak).
Firma, Anthropic olarak, yapay zeka modellerinin zeka sınırlarının uzağında olduğumuza inandıklarını belirtiyor. Claude 3 ailesini birkaç ay içinde sık sık güncellemeyi planlıyorlar. Özellikle kurumsal kullanım ve büyük ölçekli uygulamalar için işlevselliği artıracak özellikler de yolda: Araç Kullanımı (fonksiyonlara erişim), etkileşimli kodlama ve daha gelişmiş temsili yetenekler geliyor.
M3 MacBook Air: Apple’ın en hafifi daha da güçlendi
Güvenlik de her zaman olduğu gibi firmanın birinci önceliği. Yapay zekâ modellerini geliştirirken, güvenlik tedbirlerinin de aynı hızla ilerlemesine büyük önem veriyorlar. En üst düzey yapay zekâ geliştirmenin, bu teknolojinin toplum için olumlu çıktılara yol açmasının en etkili yolu olduğuna inanıyorlar.
Claude 3 ile kullanıcıların neler yaratacağınızı görmek için sabırsızlandığı ifade eden firma; Geri bildirimlerle, Claude’u daha da kullanışlı ve yaratıcı bir iş ortağı haline getireceklerini söylüyorlar. Claude ile yaratıcılığınızı keşfetmek için buraya tıklayabilirsiniz.
Dipnot: Bu tabloda, henüz hizmete açılmış, değerlendirme sonuçlarını yayınlayan modellere yer verilmiştir. Model kartımızda, duyurulmuş ancak henüz kullanıma sunulmamış Gemini 1.5 Pro gibi modellerle karşılaştırmalar yer almaktadır. Ayrıca, mühendislerin GPT-4T için daha yüksek sonuçlar elde edecek komut ve örnekler üzerinde çalışarak bu model için yeni bir değerlendirme yaptığını not etmek isteriz (Kaynak).
Öne çıkan kaynak görseli: Anthropic