WorldGen: Meta, etkileşimli 3B dünyalar için üretken yapay zekayı ortaya koyuyor



Özet


Meta'nın Dünya Oluşturma sistemi, üretken yapay zekayı 3D dünyalar oluşturmak için kullanıyor ve 3D modelleme zorluğunu ortadan kaldırıyor. Sistem, metin istemlerinden beş dakika içinde gezilebilir ve etkileşimli 3D dünyalar üretebiliyor. Dünya Oluşturma, görsel doğruluğun yanı sıra işlevselliğe de öncelik vererek navigasyon ağları oluşturuyor ve bu sayede etkileşimli ortamlar yaratılmasını sağlıyor. Bu teknoloji, tüketici oyunlarından endüstriyel uygulamalara kadar çeşitli alanlarda kullanılmak üzere tasarlanmıştır.




Dünya Oluşturma sistemiyle Meta, üretken yapay zekanın 3D dünyalar için kullanımını statik görüntüler oluşturmaktan tamamen etkileşimli varlıklara kaydırıyor.

Tüketici oyunları, endüstriyel dijital ikizler veya çalışan eğitim simülasyonları için olsun, sürükleyici uzamsal bilişim deneyimleri yaratmanın önündeki en büyük engel, 3D modellemenin emek yoğun doğası olmuştur. Etkileşimli bir ortamın üretimi tipik olarak haftalarca çalışan uzman sanatçılardan oluşan ekipler gerektirir.

Meta'nın Reality Labs'inden yeni bir teknik rapora göre Dünya Oluşturma, tek bir metin isteminden yaklaşık beş dakika içinde gezilebilir ve etkileşimli 3D dünyalar oluşturabiliyor.

Teknoloji şu anda araştırma aşamasında olmakla birlikte, Dünya Oluşturma mimarisi, üretken yapay zekanın profesyonel iş akışlarında faydalı olmasını engelleyen belirli sorunları ele alıyor: işlevsel etkileşim, motor uyumluluğu ve editoryal kontrol.

Üretken yapay zeka ortamları gerçek anlamda etkileşimli 3D dünyalar haline geliyor

Mevcut birçok metinden 3D'ye modelin temel başarısızlığı, işlevin yerine görsel doğruluğa öncelik vermeleridir. Gaussian splatting gibi yaklaşımlar, bir videoda etkileyici görünen ancak genellikle bir kullanıcının ortamla etkileşim kurması için gerekli temel fiziksel yapıdan yoksun fotogerçekçi sahneler oluşturur. Çarpışma verisi veya rampa fiziği eksik olan varlıklar, simülasyon veya oyun için çok az değer taşır veya hiç değer taşımaz.

Dünya Oluşturma, "geçilebilirlik"e öncelik vererek bu yoldan ayrılıyor. Sistem, görsel geometri ile birlikte bir navigasyon ağı (navmesh) (yürünebilir yüzeyleri tanımlayan basitleştirilmiş bir çokgen ağ) oluşturur. Bu, "ortaçağ köyü" gibi bir istemin sadece bir ev koleksiyonu değil, sokakların engellerden temizlendiği ve açık alanların erişilebilir olduğu uzaysal olarak tutarlı bir düzen üretmesini sağlar.

Kuruluşlar için bu ayrım hayati öneme sahiptir. Bir fabrika zemininin dijital ikizi veya tehlikeli ortamlar için bir güvenlik eğitim simülasyonu, geçerli fizik ve navigasyon verileri gerektirir.

Meta'nın yaklaşımı, çıktının "oyun motoruna hazır" olmasını sağlar, yani varlıklar doğrudan Unity veya Unreal Engine gibi standart platformlara aktarılabilir. Bu uyumluluk, teknik ekiplerin, diğer yöntemlerin (örneğin radyans alanları) sıklıkla talep ettiği özel işleme donanımlarına ihtiyaç duymadan, üretken iş akışlarını mevcut boru hatlarına entegre etmelerine olanak tanır.

Dünya Oluşturma'nın dört aşamalı üretim hattı

Meta'nın araştırmacıları, Dünya Oluşturma'yı 3D dünyalar oluşturmak için geleneksel geliştirme iş akışlarını yansıtan modüler bir yapay zeka boru hattı olarak yapılandırdı.

Süreç, sahne planlamasıyla başlar. Bir LLM, kullanıcının metin istemini ayrıştırarak mantıksal bir düzen oluşturmak için bir yapı mühendisi gibi davranır. Temel yapıların ve arazi özelliklerinin yerleşimini belirler, sahnenin fiziksel olarak mantıklı olmasını garanti eden bir "blok çıkışı" (kaba bir 3D taslak) üretir.

Sonraki "sahne yeniden yapılandırma" aşaması, ilk geometriyi oluşturur. Sistem, üretimi navmesh üzerine koşullandırır ve yapay zeka "halüsinasyon" gördüğünde