Microsoft’un yapay zeka ekibi, yapay zekanın tıbbın en karmaşık teşhis zorluklarını, yani uzman doktorların bile yanıtlamakta zorlandığı vakaları, sıralı bir şekilde nasıl araştırıp çözebileceğini gösteren çığır açıcı bir araştırmayı kamuoyuyla paylaştı. Bu gelişme, yapay zekanın sağlık hizmetlerindeki rolünü kökten değiştirme potansiyeli taşıyor.
Araştırmada, New England Journal of Medicine’de (NEJM) her hafta yayınlanan gerçek dünya vaka kayıtlarına karşı test edilen Microsoft AI Diagnostic Orchestrator (MAI-DxO) adlı sistem, NEJM vakalarının yüzde 85’ine kadarını doğru teşhis etti. Bu oran, deneyimli doktorlardan oluşan bir grubun başarı oranından dört kat daha yüksek. Üstelik MAI-DxO, doğru teşhise doktorlardan daha uygun maliyetle ulaşıyor.
Yapay zeka sağlık hizmetlerinde yeni bir sayfa açıyor
Sağlık hizmetlerine olan talep artmaya devam ederken, maliyetler sürdürülemez bir hızla yükseliyor ve milyarlarca insan, yanlış ve gecikmiş teşhisler de dahil olmak üzere daha iyi sağlığa ulaşmanın önündeki birçok engelle karşılaşıyor. İnsanlar, tıbbi tavsiye ve destek için giderek daha fazla dijital araçlara yöneliyor. Microsoft’un Bing ve Copilot gibi yapay zeka tüketici ürünlerinde her gün 50 milyondan fazla sağlıkla ilgili oturum görülüyor. İlk kez yaşanan bir diz ağrısı sorgusundan, gece geç saatlerde acil servis kliniği aramasına kadar, arama motorları ve yapay zeka yardımcıları hızla sağlık hizmetlerinin yeni ön cephesi haline geliyor.
Microsoft, bu alanda daha fazlasını yapmaya kararlı ve üretken yapay zekanın dönüştürücü olabileceğine inanıyor. Bu nedenle, 2024’ün sonunda Microsoft AI bünyesinde klinisyenler, tasarımcılar, mühendisler ve yapay zeka bilimcileri tarafından yönetilen özel bir tüketici sağlığı birimi kurdu. Bu çaba, Microsoft’un radyoloji iş akışlarını hızlandıran RAD-DINO ve klinisyenler için öncü sesli yapay zeka asistanı Microsoft Dragon Copilot gibi mevcut sağlık girişimlerini tamamlıyor.
Yapay zekanın bir fark yaratabilmesi için hem klinisyenlerin hem de hastaların performansına güvenebilmesi gerekiyor. İşte bu noktada Microsoft’un yeni kıyaslama ölçütleri ve yapay zeka orkestratörü devreye giriyor.
SD Bench nedir?
Tıpta çoktan seçmeli sorulara dayalı sınavlar (örneğin USMLE), yapay zekanın ezber yeteneğini ölçer, ancak derinlemesine anlama ve klinik akıl yürütme becerisini tam olarak yansıtmaz. Microsoft AI, bu sınırlamaların ötesine geçmek için gerçek dünyadaki tıbbi karar vermenin temel taşı olan sıralı teşhise odaklandı. Bu süreçte bir klinisyen, başlangıçtaki hasta sunumuyla başlar ve nihai bir teşhise ulaşmak için yinelemeli olarak sorular sorar ve teşhis testleri ister.
Bu yeteneği ölçmek için, dünyanın önde gelen tıp dergilerinden biri olan NEJM’de yayınlanan, teşhisi en karmaşık ve entelektüel olarak zorlayıcı vakalardan oluşan 304 vaka kullanılarak Sıralı Teşhis Kıyaslama Ölçütü (SD Bench) oluşturuldu. Bu kıyaslama ölçütü, modellerin veya insan doktorların yinelemeli olarak sorular sorup testler isteyebileceği adım adım teşhis karşılaşmalarına dönüştürüldü. İstenen her araştırma ayrıca, gerçek dünyadaki sağlık harcamalarını yansıtan sanal bir maliyete de sahip.
Bu, performansı iki temel boyutta değerlendirmeyi sağlıyor: Teşhis doğruluğu ve kaynak harcaması.
Yapay zeka nasıl performans gösterdi?
Microsoft, temel kıyaslamanın ötesinde, teşhis vakalarını çözmek için iş birliği yapan farklı teşhis yaklaşımlarına sahip sanal bir doktorlar panelini taklit etmek üzere tasarlanmış bir sistem olan Microsoft AI Diagnostic Orchestrator’ı (MAI-DxO) geliştirdi. Bu orkestratör, herhangi bir dil modelini (GPT, Llama, Gemini vb.) sanal bir klinisyenler paneline dönüştürebiliyor: takip soruları sorabiliyor, testler isteyebiliyor veya bir teşhis sunabiliyor, ardından bir maliyet kontrolü yapıp ilerlemeden önce kendi mantığını doğrulayabiliyor.
Sonuçlar oldukça çarpıcıydı. MAI-DxO, test edilen her modelin teşhis performansını artırdı. En iyi performans gösteren kurulum, NEJM kıyaslama vakalarının %85.5’ini doğru bir şekilde çözen OpenAI’nin o3 modeliyle eşleştirilmiş MAI-DxO oldu. Karşılaştırma için, 5-20 yıllık klinik deneyime sahip 21 pratisyen hekim de aynı görevlerde değerlendirildi. Bu uzmanlar, tamamlanan vakalarda ortalama %20’lik bir doğruluk oranına ulaştı.
Dahası, MAI-DxO’nun hem daha yüksek teşhis doğruluğu hem de doktorlardan veya test edilen herhangi bir bireysel temel modelden daha düşük toplam test maliyeti sunduğu bulundu. Bu, yapay zekanın sadece daha doğru değil, aynı zamanda daha verimli olabileceğini de gösteriyor.
Sırada ne var?
Hiçbir doktor, NEJM vaka serisinin tüm karmaşıklığını kapsayamaz. Ancak yapay zeka bu takasla yüzleşmek zorunda değil. Hem genişlik hem de derinlik uzmanlığını birleştirerek, birçok klinik akıl yürütme alanında herhangi bir bireysel doktorun yeteneklerini aşan yetenekler sergileyebiliyor.
Bu tür bir akıl yürütme, sağlık hizmetlerini yeniden şekillendirme potansiyeline sahip. Yapay zeka, hastaları bakımın rutin yönlerini kendi kendilerine yönetmeleri için güçlendirebilir ve klinisyenleri karmaşık vakalar için gelişmiş karar destek sistemleriyle donatabilir. Bulgular ayrıca yapay zekanın gereksiz sağlık maliyetlerini azaltabileceğini de gösteriyor.
Elbette, bu araştırmanın önemli sınırlamaları var. MAI-DxO, en karmaşık teşhis zorluklarını çözmede başarılı olsa da, daha yaygın, günlük sunumlardaki performansını değerlendirmek için daha fazla test gerekiyor. Ayrıca, çalışmadaki klinisyenler, normal klinik uygulamalarında yer alabilecek meslektaşlarına, ders kitaplarına ve hatta üretken yapay zekaya erişimleri olmadan çalıştılar.
Microsoft için bu sadece ilk adım. Üretken yapay zekanın sağlık hizmetlerinde güvenli ve sorumlu bir şekilde konuşlandırılmasından önce önemli zorluklar devam ediyor. Güvenilirlik, güvenlik ve etkinliği sağlamak için uygun yönetişim ve düzenleyici çerçevelerle birlikte gerçek klinik ortamlardan elde edilen kanıtlara ihtiyaç var. Bu nedenle Microsoft, bu yaklaşımları titizlikle test etmek ve doğrulamak için önde gelen sağlık kuruluşlarıyla ortaklık kuruyor.
Peki yapay zeka doktorların yerini alacak mı?
Microsoft’un bu konudaki duruşu net. Yapay zeka, doktorların ve diğer sağlık profesyonellerinin yerini almak yerine, onları tamamlayan güçlü bir araç olarak görülüyor. Klinisyenlerin rolleri, sadece teşhis koymaktan çok daha geniş. Belirsizlikle başa çıkmaları ve hastalarla ve aileleriyle yapay zekanın yapamayacağı bir şekilde güven inşa etmeleri gerekiyor. Klinik roller, yapay zeka ile birlikte evrim geçirecek; klinisyenlere rutin görevleri otomatikleştirme, hastalıkları daha erken teşhis etme, tedavi planlarını kişiselleştirme ve potansiyel olarak bazı hastalıkları tamamen önleme yeteneği verecek.
Bu çalışma, henüz klinik kullanım için onaylanmamış heyecan verici bir başlangıç araştırmasıdır. Ancak, insan uzmanlığını ve empatisini makine zekasının gücüyle artırarak şekillenecek bir sağlık hizmetleri geleceğinin kapılarını aralıyor.




