Microsoft araştırmacıları, doğal dil işleme ve görüntü oluşturma alanlarının güçlerini birleştirmeyi hedefleyen Visual ChatGPT adlı yeni bir mimari ortaya çıkardılar. Bu teknoloji, metin-ile-görüntü algoritmaları için önemli bir atılımı temsil ediyor ve daha organik ve etkileşimli bir yapay zeka (AI) deneyimi yaratmayı mümkün kılıyor.
Bu çığır açan teknoloji, uzun süredir dilbilimsel bağlama uyum sağlamakta zorlanan metin ile görüntü modellerinin yüzünü değiştirebilir. Üretken yapay zeka modellerinin ilişkisel anlayışını keşfeden bir makalede, araştırmacılar belirli nesnelerin fiziksel ilişkilerini “anlamadıklarını” buldular. Visual ChatGPT, bu kısıtlamayı aşmaya yardımcı olabilir ve yapay genel zeka (AGI) alanında gelecekteki gelişmelere yol açabilir.
Visual ChatGPT nasıl çalışır?
Visual ChatGPT, temelde, Stable Diffusion, ControlNet ve BLIP gibi görsel temel modellerinin yeteneklerini ChatGPT‘nin dil anlama özellikleriyle bütünleştiriyor. “Prompt yöneticisi“, ChatGPT ve görsel modeller arasında bir arayüz görevi görerek çıktının sorunsuz işlenmesini sağlıyor.
Bu entegrasyon, her iki platformun kısıtlamalarını aşmaya yardımcı oluyor ve halüsinasyonlara dayanmak yerine, prompt yöneticisi aracılığıyla VFMs’nin yeteneklerinden faydalanarak çok daha yetenekli bir ChatGPT sürümüne yol açıyor.
İşleyiş şekli ile ilgili bir görseli aşağıda bulabilirsiniz:
Visual ChatGPT’nin önemli avantajlarından biri, ChatGPT ile görüntü paylaşımına izin veriyor olması. Prompt yöneticisi, “garson” (ChatGPT) ile “aşçılar” (VFMs) arasında siparişleri ve yiyecekleri ileten bir “mutfak yöneticisi” gibi hareket ediyor.
Sistem ayrıca bir akıl yürütme biçimi içeriyor, bu da ChatGPT’nin gereken çıktıyı sağlamak için bir VFM gibi bir araca ne zaman ihtiyaç duyduğuna karar vermesini sağlıyor.
Visual ChatGPT nedir, nasıl kullanılır?
Visual ChatGPT demosunu kullanmadan önce, GitHub sayfasında belirtilen adımları izlemeniz gerekiyor. Visual ChatGPT’yi çalıştırmak için yapmanız gerekenler şu şekilde:
conda create -n visgpt python=3.8
# activate the new environment
conda activate visgpt
# prepare the basic environments
pip install -r requirement.txt
# download the visual foundation models
bash download.sh
# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}
# create a folder to save images
mkdir ./image
# Start Visual ChatGPT !
python visual_chatgpt.py
Yeni model, önceki LLM ve T2I modellerinin aksine izolasyon içinde geliştirilmediği için, metin-görüntü modellerinin öğrenme eğrisini potansiyel olarak azaltabilecek ve yapay zeka programlarının birbirleriyle etkileşimini sağlayabilecek faydalı bir araçtır.
Yenilikçi gelişmelerle, önceki modellerin performansı önemli ölçüde artırılabilir.
ChatGPT ile görüntü üretmede mükemmel olması beklenen GPT-4’ün çıkışı büyük bir heyecanla bekleniyor. Ancak, bu beklenen modelin çıkış tarihi şu anda bilinmiyor.
GrammarlyGO ile ChatGPT’ye alternatif geliyor
Yapay zekanın sunduğu yeni iş fırsatları
Prompt mühendisliği alanının gelişmesiyle birlikte, AI whisperers gibi kritik yeni iş kategorileri ortaya çıkıyor. Bu profesyoneller, yapay zeka modellerinin insan dilini ve bağlamı “anlamasına” yardımcı oluyor ve daha etkili doğal dil işleme sağlıyor.
Yeni yapay zeka modelindeki prompt yöneticisi, bu alanda önemli bir ilerleme olarak görülmekte ve karmaşık promptlara ihtiyaç duymadan modelle bilgi aktarımını basitleştiriyor. Bu nedenle, prompt mühendisliği gibi işler, yapay zeka teknolojilerine ilgi duyan insanlar için daha da erişilebilir hale geliyor.
Sonuç
Visual ChatGPT, yapay alanında önemli bir gelişme olarak görülüyor ve en son modellerin yeteneklerini arttırma potansiyeline sahip. LLM’ler ve T2I modellerinin güçlerini bir araya getirerek, giriş engellerini azaltma ve çeşitli AI araçları arasında uyumluluk ekleyerek potansiyel sağlıyor.
Visual ChatGPT ve benzeri teknolojilerin yetenekleri hakkında henüz çok şey öğrenmemiz gerekiyor.