Google DreamBooth AI burada. DALL-E 2, Stable Diffusion ve Midjourney gibi yeni yayınlanan AI sanat uygulamaları şimdiden interneti kasıp kavuruyor. Artık sıra sonuçları kişiselleştirmeye geldi. Peki ama nasıl? Boston Üniversitesi ve Google yanıtları sorunun cevabını verdi, biz de sizin için bu yazımızda detaylandıracağız.
DreamBooth, bir resmin konusunu tanıma, onu orijinal bağlamından ayırma ve ardından istenen yeni bir bağlamda hassas bir şekilde sentezleme yeteneğine sahip. Ayrıca, mevcut yapay zeka görsel oluşturucuları ile birlikte kullanılabiliyor. Okumaya devam ederek yapay zeka destekli hayal gücü hakkında daha fazla bilgi edinin.
Google DreamBooth AI nedir?
Google, yeni bir metinden görsele difüzyon modeli olan DreamBooth’u tanıttı. Bir Google DreamBooth AI, talimat olarak metinsel bir ipucu kullanarak kullanıcının seçtiği konunun çeşitli koşullarda çok çeşitli görüntülerini oluşturabiliyor.
Boston Üniversitesi ve Google’dan bir araştırma ekibi, yoğun bir şekilde önceden eğitilmiş metinden görüntüye modelleri değiştirmek için yeni bir yöntem olan DreamBooth’u yarattı. Genel olarak fikir oldukça basit: dil-görüntü sözlüğünü, nadir belirteç kimliklerinin kullanıcının oluşturmak istediği belirli bir konuyla bağlantılı olacağı şekilde genişletmek istiyorlar.
Google DreamBooth AI’ın temel özellikleri:
- 3-5 fotoğraf ile DreamBooth AI bir metinden görüntüye modeli geliştirebiliyor.
- DreamBooth AI kullanılarak, konunun tamamen orijinal, gerçekçi görüntüleri elde edilebiliyor.
- Ayrıca DreamBooth AI, bir konunun çeşitli perspektiflerden görüntülerini üretebiliyor.
Modelin temel amacı, kullanıcılara seçtikleri konunun örneklerinin gerçekçi fotoğraf temsillerini oluşturmak ve bunları metinden görüntüye yayılma modeline bağlamak için gerekli araçları sağlamak. Sonuç olarak, bu yöntemin çeşitli durumlarda konuların özetlenmesinde etkili olduğu görülüyor.
Google’ın DreamBooth’u DALL-E 2, Stable Diffusion ve Midjourney gibi yakın zamanda piyasaya sürülen diğer metinden görüntüye araçlardan biraz farklı bir çalışma şeklini benimseyerek kullanıcıların konu resmi üzerinde daha fazla kontrol sahibi olmalarını ve ardından metin tabanlı girdiler kullanarak yayılma modelini kontrol etmelerini sağlıyor.
DreamBooth, sadece birkaç fotoğraf girerek konuyu çeşitli kamera açılarından da gösterebiliyor. Yapay zeka (AI) konunun niteliklerini öngörebilir ve girdi fotoğrafları konu hakkında farklı bakış açılarından veri vermese bile metin rehberli gezinmede bunları sentezleyebiliyor.
Bu model ayrıca dil ipuçlarını kullanarak başka ruh halleri, aksesuarlar veya renk değişiklikleri yaratmak için fotoğrafları sentezleyebilir. Google DreamBooth AI bu özellikleriyle, kullanıcılara kişiselleştirme ve yaratıcılık konusunda daha fazla özgürlük sunuyor.
“DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation” başlıklı makale, yeni bir konu ve yaklaşım sunduklarını iddia ediyor.
- Konu odaklı üretim yeni bir konu.
Konunun aceleyle yapılmış birkaç görüntüsü verildiğinde amaç, konunun temel görsel özelliklerine sadakati koruyarak çeşitli ortamlarda yeni temsiller oluşturmak.
Google DreamBooth AI uygulamaları
En iyi Google DreamBooth AI uygulamaları aşağıdaki gibidir:
- Recontextualization
- Art renditions
- Expression manipulation
- Novel view synthesis
- Accessorization
- Property modification
PhotoShop ile yollarınızı ayırmaya hazır mısınız? Nataniel Ruiz ve DreamBooth ekibi tarafından oluşturulan öğretici resimleri kullanarak bunları daha yakından inceleyelim.
Recontextualization
DreamBooth AI, benzersiz tanımlayıcı ve sınıf ismini içeren bir cümleyi eğitilmiş modele çevirerek, belirli bir konu örneği için benzersiz resimler oluşturabiliyor. DreamBooth AI, arka planı değiştirmek yerine, özneyi yenilikçi, daha önce görülmemiş duruşlarda, eklemlerde ve sahne yapılarında üretebiliyor. Bu, stratejilerinin yalnızca ilgili bilgileri tahmin etmekten veya almaktan daha fazlasını sunduğunu gösteriyor.
Art renditions
Eğer “[büyük heykeltıraş] tarzında bir [V] [sınıf ismi] heykeli” ile “[ünlü ressam] tarzında bir [V] [sınıf ismi] resmi” arasında seçim yapma seçeneği sunulsaydı, hangisini seçerdiniz? DreamBooth AI kullanılarak orijinal yaratıcı temsiller oluşturulabiliyor.
Bu görev, orijinal görsele başka bir resmin stilini uygularken kaynak sahnenin anlamını koruyan stil transferinden farklı. Buna karşılık, yaratıcı stile bağlı olarak, yapay zeka, konu örneği ayrıntıları ve kimlik koruması ile büyük sahne değişiklikleri gerçekleştirebiliyor.
Expression manipulation
Google DreamBooth AI’ın yardımıyla, resmin orijinal halinden farklı yüz ifadelerine sahip yeni resimleri üretilebiliyor.
Novel view synthesis
Google DreamBooth AI, konuyu bir dizi benzersiz perspektiften tasvir edebiliyor. Örneğin, DreamBooth AI, aynı kedinin çeşitli kamera açılarını kullanarak, güvenilir bir şekilde ayrıntılı kürk desenleriyle dolu yeni görüntüler üretebiliyor.
DreamBooth AI, kedinin sadece önden çekilmiş dört fotoğrafı olmasına rağmen, aynı kediyi yandan, aşağıdan veya yukarıdan hiç görmemiş olsa bile, bu yaratıcı bakış açılarını oluşturmadan görsel oluşturabiliyor.
Accessorization
DreamBooth AI’ın nesneleri süsleme yeteneğinin ilgi çekici yönü, nesil modelinin güçlü kompozisyon önceliğinden kaynaklanıyor. Örneğin, modele “a [V] [class noun] wearing [accessory]” şeklinde bir cümle soruluyor. Bu, köpeğe çeşitli nesneleri çekici bir şekilde eklemenizi mümkün kılıyor.
Property modification
DreamBooth AI, özne örneğinin özelliklerini değiştirebiliyor. Örnek cümlede bir renk sıfatı kullanılabilir “bir [renk sıfatı] [V] [sınıf ismi]”. Bu, konunun yeni ve canlı örnekleriyle sonuçlanabiliyor. Birkaç gereksinim var, ancak bu özellikler DreamBooth AI’nın nasıl kullanılacağını da açıklıyor.
Google DreamBooth AI mı kullanıyorsunuz?
DreamBooth AI tekniği, bir konunun (örneğin, belirli bir köpek) az sayıda fotoğrafını (genellikle 3-5 görüntü yeterli) ve onunla ilişkili sınıf adını (örneğin, “köpek”) girdi olarak alıyor. Daha sonra, ince ayarlanmış ve “kişiselleştirilmiş” ve konu için benzersiz bir kimlik kodlayan bir metinden görüntüye model üretiyor. Konuları farklı bağlamlarda sentezlemek için DreamBooth AI daha sonra çıkarım sırasında ayırt edici kimliği çeşitli ifadelere ekleyebiliyor. Konunun üç ila beş görüntüsü verildiğinde, metinden görüntüye yayılımı iki adımda ayarlanabiliyor:
- Belirli bir kod ve öznenin ait olduğu sınıfın adını içeren bir metin istemi (örneğin, “[T] köpek resmi”), düşük çözünürlüklü metin-imge modelini geliştirmek için kullanılacak. Buna ek olarak, modelin sınıfla ilgili anlamsal önceliğinden yararlanan ve sınıf adını metin istemine koyarak (örneğin, “bir köpek resmi”) öznenin sınıfının üyesi olan bir dizi örnek oluşturmaya teşvik eden sınıfa özgü bir ön koruma kaybı kullanıyor.
- Giriş görüntü setimizdeki düşük ve yüksek çözünürlüklü fotoğraf çiftlerini kullanarak süper çözünürlük bileşenlerini ayarlayarak büyük bir aslına uygunluk elde edilebiliyor.
DALL-E 2 Outpainting özelliği tuval sınırlarının ötesini hayal ediyor
İlk Dreambooth, Imagen‘in metinden görüntüye paradigması kullanılarak yapıldı. Ancak Imagen’in modeli ve ağırlıkları mevcut değil. Bununla birlikte, birkaç örnek kullanarak, Stable Diffusion üzerindeki Dreambooth, kullanıcıların bir metinden görüntüye modeli ayarlamasına olanak tanıyor.
Stable Diffusion’da Google Dreambooth AI nasıl kullanılır?
Stable Diffusion üzerinde DreamBooth AI kullanmak için aşağıdaki adımları takip edin:
- LDM ortamınızı kurmak için Textual Inversion deposundaki veya orijinal Stable Diffusion deposundaki kurulum talimatlarını izleyin.
- Modele ince ayar yapmak için önceden eğitilmiş Stable Diffusion modellerini almalı ve talimatlarına uymalısınız. Ağırlıkları HuggingFace‘ten indirebilirsiniz.
- Dreambooth’un ince ayar yönteminin gerektirdiği şekilde düzenlileştirme için bir dizi görüntü hazırlayın.
Aşağıdaki komutu kullanarak pratik yapabilirsiniz:
1 2 3 4 5 6 7 8 | python main.py --base configs/stable-diffusion/v1-finetune_unfrozen.yaml -t --actual_resume /path/to/original/stable-diffusion/sd-v1-4-full-ema.ckpt -n <job name> --gpus 0, --data_root /root/to/training/images --reg_data_root /root/to/regularization/images --class_word <xxx> |
Generation
Eğitimden sonra komut, kişiselleştirilmiş örnekler almak için kullanılabilir.
1 2 3 4 5 6 7 | python scripts/stable_txt2img.py --ddim_eta 0.0 --n_samples 8 --n_iter 1 --scale 10.0 --ddim_steps 100 --ckpt /path/to/saved/checkpoint/from/training --prompt "photo of a sks <class>" |
Özellikle, class sınıf sözcüğüdür – eğitim için bir sınıf sözcüğü – ve sks tanımlayıcıdır (değiştirmek isterseniz, seçiminizle değiştirilmelidir). Daha fazla bilgi için DreamBooth Stable Diffusion için GitHub sayfasını ziyaret edin.
Dreambooth AI’nın Sınırlamaları
DreamBooth AI’ın sınırlamaları aşağıdaki gibidir:
- Language drift
- Overfitting
- Preservation loss
Onları daha yakından inceleyelim.
Language drift
Konu üzerinde yüksek derecede ayrıntı içeren yinelemeler üretmek komut istemi tarafından engelleniyor. DreamBooth konunun bağlamını değiştirebilir, ancak model asıl konuyu değiştirmek isterse çerçeve ile ilgili sorunlar ortaya çıkabilir.
Overfitting
Bir başka sorun da, resmin orijinal resme aşırı uyması olabilir. Yeterli girdi fotoğrafı yoksa konu değerlendirilemeyebilir veya yüklenen görüntülerin bağlamıyla birleştirilebilir. Bu aynı zamanda tek bir versiyon için bir bağlam sorulduğunda da ortaya çıkıyor.
Preservation loss
Halüsinojenik kaymalara ve süreksiz niteliklere neden olabilen değişken konu sadakatinin yanı sıra daha nadir veya daha karmaşık konuların resimlerinin sentezlenememesi de diğer sınırlamalardır. Girdi bağlamı sıklıkla girdi görüntülerinin konusuna dahil ediliyor.
Yapay zekanın toplumsal etkisi
DreamBooth projesinin amacı, kullanıcılara çeşitli ortamlarda kişisel konuları (hayvanlar, nesneler) sentezlemek için pratik bir araç sağlamak. Standart metinden görüntüye algoritmaları, kelimelerden görüntü sentezlerken belirli yönlere doğru önyargılı olabilirken, kullanıcının seçtikleri konuları daha iyi yeniden yaratmasına yardımcı oluyor. Ancak kötü niyetli taraflar benzer görüntüler kullanarak kullanıcıları kandırmaya çalışabilir. Çeşitli üretken model yöntemleri veya içerik değiştirme teknikleri bu yaygın sorunu ortaya koyuyor.
Sonuç
Metinden görüntüye uygulamalarının çoğu, tek bir metin girdisinden çıktılar oluşturmak için milyonlarca parametreye ve kütüphaneye ihtiyaç duyuyor. DreamBooth, yazılı bir arka planla birlikte üç ila beş konu görüntüsünün girilmesini gerektirerek kullanıcıların içerik elde etmesini ve kullanmasını kolaylaştırıyor.
Böylece konunun kendine özgü nitelikleri korunabilirken, geliştirilmiş model, konunun görüntülerden öğrenilen materyalistik yönlerini başka ortamlarda ve bakış açılarında çoğaltmak için yeniden kullanıyor. Metinden görüntüye dönüştürme algoritmalarının çoğu belirli anahtar kelimelere dayanıyor ve görüntüleri gösterirken belirli niteliklere öncelik verebiliyor. DreamBooth kullanıcıları, seçtikleri kişiyi benzersiz bir ortamda veya senaryoda görerek gerçekçi sonuçlar üretebilir. Öyleyse, beklemeyi bırakın. Hemen deneyin!
Google DreamBooth AI ile ilgili hazırladığımız bu yazımızı beğeneceğinizi umuyoruz. Eğer beğendiyseniz, Yapay zeka görsel çılgınlığı: DALL-E 2, Yapay zeka görsel çılgınlığında ikinci dalga: Midjourney AI ve Yapay zeka görsel çılgınlığında üçüncü dalga: Stable Diffusion isimli yazılarımıza da göz atmak isteyebilirsiniz.