Anthropic, Claude Opus 4.5'i duyurdu • Digital Report

Anthropic, bugüne kadarki en akıllı, en verimli ve şirkete göre kodlama, yapay zeka ajanları ve bilgisayar kullanımı konularında dünyanın en iyi modeli olan Claude Opus 4.5‘i duyurdu. Sadece teknik alanlarda değil, aynı zamanda derinlemesine araştırma yapma, sunum ve e-tablolarla çalışma gibi günlük görevlerde de önemli ölçüde daha iyi performans gösteren bu yeni model, yapay zeka sistemlerinin neler yapabileceği konusunda ileriye doğru atılmış büyük bir adımı temsil ediyor.

Bu hamle, yapay zeka dünyasındaki rekabetin ne kadar kızıştığını bir kez daha gözler önüne seriyor. Özellikle Google’ın yakın zamanda duyurduğu ve benzer şekilde iddialı yetenekler sunan Gemini 3 Pro modelinin hemen ardından gelmesi, iki dev arasındaki teknoloji yarışının hız kesmeden devam ettiğini gösteriyor.

Opus 4.5, bugünden itibaren Anthropic’in uygulamaları, API’si ve üç büyük bulut platformu üzerinden kullanıma sunuldu.

İlk izlenimler ve performans

Anthropic, modeli piyasaya sürmeden önce kendi içinde yaptığı testlerde oldukça tutarlı geri bildirimler aldığını belirtiyor. Test kullanıcıları, Claude Opus 4.5’in belirsizlikleri anladığını, farklı seçenekler arasında el yordamıyla yönlendirilmeye gerek kalmadan akıl yürütebildiğini ve karmaşık, çok sistemli bir hatayla karşılaştığında çözümü kendi kendine bulabildiğini ifade etti.

Genel kanı, Opus 4.5’in “işi gerçekten anladığı” yönünde.

Şirketin bir adayı işe almadan önce uyguladığı ve oldukça zor olduğu bilinen bir “performans mühendisliği sınavında” yapılan test ise daha da çarpıcı bir sonuç ortaya koydu: Belirlenen 2 saatlik süre içinde Claude Opus 4.5, bugüne kadar sınava giren tüm insan adaylardan daha yüksek puan aldı.

Bu sonuç, yapay zekanın mühendislik gibi karmaşık bir mesleği nasıl değiştireceğine dair önemli soruları da beraberinde getiriyor.

Benchmark’larda zirvede

Claude Opus 4.5, sadece şirket içi testlerde değil, aynı zamanda sektör standardı olan birçok benchmark’ta da rakiplerini geride bırakıyor. Özellikle gerçek dünya yazılım mühendisliği yeteneklerini ölçen SWE-bench Verified testinde, rakiplerinin önünde yer alarak en yüksek skoru elde etti.

Modelin akıl yürütme yeteneği o kadar gelişmiş ki, bazı durumlarda testlerin kendisini bile aşıyor. Örneğin, bir “havayolu hizmet ajanı” senaryosunda, modelden “temel ekonomi” sınıfı bir bilette değişiklik yapmayı reddetmesi bekleniyordu, çünkü kural buydu. Ancak Opus 4.5, kuralların etrafından dolaşarak yaratıcı bir çözüm buldu: Önce yolcunun kabin sınıfını yükseltti, ardından da uçuşları değiştirdi. Benchmark bu durumu teknik olarak “başarısızlık” olarak puanlasa da, bu tür yaratıcı problem çözme yeteneği, modelin ne kadar ileri gittiğinin bir kanıtı.

Güvenlikte ileri bir adım

Anthropic, Opus 4.5’in bugüne kadar piyasaya sürdükleri en sağlam şekilde hizalanmış model olduğunu belirtiyor. Şirket, modeli kötü niyetli “prompt injection” (istem enjeksiyonu) saldırılarına karşı daha dayanıklı hale getirme konusunda da önemli ilerlemeler kaydettiğini söylüyor.

Geliştiriciler ve kullanıcılar için yeni araçlar ve güncellemeler

Opus 4.5 duyurusu, Claude platformuna gelen bir dizi güncellemeyle birlikte geldi:

Geliştirici Platformu: Geliştiriciler artık, modelin bir problem üzerinde ne kadar “düşüneceğine” karar verebilecekleri yeni bir “efor” parametresine sahip.
Claude Code: Masaüstü uygulamasına entegre edildi ve artık birden fazla oturumu paralel olarak çalıştırabiliyor.
Claude Uygulamaları: Artık uzun sohbetler bağlam kaybı yaşamadan devam edebilecek.
Claude for Excel ve Chrome: Tarayıcı eklentisi tüm Max kullanıcılarına, Excel eklentisi ise tüm Max, Team ve Enterprise kullanıcılarına açıldı.

Bu güncellemeler, Claude Opus 4.5’in sadece daha akıllı değil, aynı zamanda günlük iş akışlarına daha entegre ve daha kullanışlı bir araç haline geldiğini gösteriyor. Anthropic’in bu hamlesi, Google’ın Gemini 3.0 ile başlattığı yeni nesil yapay zeka yarışında “ben de varım” demenin en güçlü yolu oldu.

Anthropic, Claude Opus 4.5’i duyurdu

İLGİLİ YAZILAR

Deepfake krizi Grok’a kepenk indirtti

Microsoft: DeepSeek Çin’in %89’una hakim

Princeton mühendisleri minyatür robotların pil sorununu çözmek için çekirgelerden ilham aldı

Arm Holdings robotik ve otomotiv odaklı yeni Fiziksel Yapay Zeka bölümünü resmen duyurdu

SON YAZILAR

Deepfake krizi Grok’a kepenk indirtti

Microsoft: DeepSeek Çin’in %89’una hakim

Princeton mühendisleri minyatür robotların pil sorununu çözmek için çekirgelerden ilham aldı

Arm Holdings robotik ve otomotiv odaklı yeni Fiziksel Yapay Zeka bölümünü resmen duyurdu

ChatGPT Deep Research’te ZombieAgent zafiyeti keşfedildi

X’te rızasız çıplaklık seli sürüyor

Jensen Huang: Humanoid robotlar bu yıl insan seviyesine ulaşacak

AI patlaması PC fiyatlarını %50 fırlatacak

Trump ABD’yi Hybrid CoE, GFCE ve FOC’tan çekti

Gmail’in taslak yardımcısı ücretsiz oldu

SON REHBERLER

Bosch bulaşık makinesinde çalışan yıkama döngüsünü sıfırlama nasıl yapılır

Video boyutunu kalite kaybı olmadan küçültmenin pratik yolları

Ubisoft iç yazışmalarında oyunlar AAAA olarak nasıl tanımlanıyor

WhatsApp’ta kişileri ve grupları favorilere eklemenin yolları

Android’de ve iOS’ta veri kaybetmeden WhatsApp hesabı silme

Excel programı olmadan XLSX dosyasını açmanın pratik yolları

Modem şifresini unuttuğunuzda deneyebileceğiniz pratik çözüm yolları

Karşılaştığımız IPS ekran nedir avantajları ve dezavantajları nelerdir

İkinci el iPhone orijinal mi yenilenmiş mi nasıl anlaşılır

Windows’ta ve macOS’ta RAM hızını kontrol etmenin pratik yolları

BASIN BÜLTENLERİ

RTB House, Derin Öğrenme ile dijital reklamcılığın yeni işletim sistemini kuruyor

ESET, Çin bağlantılı LongNosedGoblin APT grubunu tespit etti

Simya VC’den Rudiq’e 1 milyon dolar yatırım

Huawei Cloud, İstanbul’da dijital perakende buluşması düzenledi

SteelSeries, tek kulaklıkla birden fazla platformda oyun oynama özgürlügü sunuyor

Aktif Tech, Deloitte Teknoloji Fast 50’de üçüncü oldu

Dolap, 2024 yılında 307 bin 340 ton karbon salımını önledi

Canon, Istanbul’da EOS R6 Mark III ve EOS C50 tanıttı

LG, yeni yıl için soundbar kampanyasını duyurdu

Citrix, Hibrit çoklu bulut lisans modeli sunuyor

© 2019 Digital Report bir Linkmedya markasıdır.