
Yapay Zekayı Fiziksel Dünyaya Getiren Milyar Dolarlık Girişimin İçinde
San Francisco's Mission semtindeki metalik bir kapı üzerinde bulunan tek bir karakter—"π"—, ötesinde gerçekleşen erdemli iş çemberi hakkında gizemli bir ipucu sunuyor.
Kapı, hem insanlar hem de makinelerin yer aldığı yoğun bir aktiviteyi ortaya çıkarıyor. Bir kadın, iki joystick'i kullanarak, masaüstü iki robot kolunu dikkatlice çalıştırıp T-shirtleri düzgün bir yığma haline getiriyor. Birkaç büyük robot, mutfak eşyalarını dağınık bir kutudan diğerine taşıyor. Odanın bir köşesinde bir adam, bileğinin üzerine oturan ve üstünde bir web kamerası bulunan plastik bir pense kullanıyor. Odanın her yerinde robot parçaları bulunuyor.
Deponun sahibi, Fiziksel Zeka olarak da bilinen ve PI veya π (öndeki sembolden dolayı) baş harfleri olan, robotlara derin bir yapay zeka yükseltmesi sağlamayı amaçlayan bir girişimdir. Şirketin hayalinin etrafındaki heyecan ve beklenti, yatırımcıların AI alanında bir sonraki sarsıcı atılımı yapacağına inanarak yüz milyonlarca dolar yatırım yapmasına yol açtı. Fiziksel Zeka geçen hafta, OpenAI ve Jeff Bezos'un da aralarında bulunduğu yatırımcılar tarafından 400 milyon dolarlık bir yatırım aldı ve değerlemesi 2 milyardan fazla oldu.
Binanın ikinci katındaki cam duvarlı bir toplantı odasında, şirketin CEO'su, kısa bir Alman aksanına sahip ve birkaç günlük sakalı olan uzun boylu Karol Hausman, vizyonu ortaya koyuyor.
"Yeni bir robotun kontrolünü size versem, biraz pratik yaparak muhtemelen nasıl kontrol edileceğini çözerdiniz," diyor Hausman. "Ve gerçekten bu sorunu çözersek, o zaman yapay zeka da aynı şeyi yapabilecektir."
Fiziksel Zeka, robotlara, robotların yaptığı çok sayıda gösteriden sensör ve hareket verilerini ana yapay zeka modeline besleyerek, fiziksel dünyanın ve çevikliğin insan benzeri bir anlayışını kazandırmayı hedefliyor. "Bizim için fiziksel zekayı 'çözmek' için gereken şey bu," diyor Hausman. "Modelimize bağlayarak bir robota zeka solumak."
Son yıllarda yapay zekada olağanüstü ilerlemeler kaydedilmesine rağmen, kimse robotları özellikle zeki veya yetenekli hale getirmeyi başaramadı. Fabrikalarda veya depoların bulunduğu makineler, hiçbir zekâ veya yaratıcılık izine sahip olmadan, tam olarak koreograf edilmiş hareketler gerçekleştiren yüksek teknolojiye sahip otomatiklardır.
Hausman, toplantı masasında UC Berkeley'de gözlüklü genç bir yardımcı profesör olan Sergey Levine, daha önce Hausman ile Google'da çalışan dost canlısı sakallı bir arkadaş olan Brian Ichter ve Stanford Üniversitesi'nde yardımcı profesör olan ve video bağlantısıyla katılan Chelsea Finn ile bir araya geliyor.
Bir araya gelen ekip, özellikle sohbet tabanlı yapay zekaları (LLM'ler) gibi ChatGPT'nin olağanüstü yetenekleri gibi diğer son yapay zeka gelişmelerinden ilham alan ve yakın zamanda robot devrimi umudunu alevlendiriyor. Fiziksel dünyaya aynı derecede hayranlık uyandıran bir şey getireceklerine ve bunu yakında yapacaklarına inanıyorlar.
Yapay zekanın dil becerileri 2018'de, OpenAI'in bir dönüştürücü olarak bilinen bir makine öğrenimi modelinin, başlangıç ipucu verildiğinde şaşırtıcı derecede tutarlı metin parçaları üretebileceğini gösterdiğinde değişti. Bilgisayar bilimciler, tüm karmaşıklığı ve belirsizliği ile dili ele almak için on yıllarca programlar yazmaya çalışmışlardı. OpenAI'nin Generative Pretrained Transformer veya GPT olarak bilinen modeli, kitaplardan ve internetten alınan giderek daha büyük miktarlarda veri beslendikçe sürekli olarak gelişti ve sonunda tutarlı sohbetler kurabildi ve çok çeşitli sorulara cevap verebildi.
2022'nin başlarında, Hausman ve Ichter (o zamanlar Google'da), Levine, Finn ve diğerleriyle birlikte LLMLerin robot zekasının temeli olabileceğini gösterdi. LLM'ler fiziksel dünya ile etkileşim kuramazken, eğitim verilerinin geniş kapsamı sayesinde nesneler ve sahneler hakkında bol miktarda bilgi içeriyorlar. Kusurlu olmalarına rağmen – dünyayı yalnızca hakkında okuyarak anlayan birinin gibi – bu anlayış seviyesi, robotlara basit eylem planları geliştirme yeteneği verebilir.
Hausman ve ekibi, Google'ın Kaliforniya, Mountain View'daki merkezindeki sahte bir mutfakta bir kol robotuna bir LLM bağlayarak, açık uçlu sorunları çözme gücü verdi. Robota "Masaya Kola döktüm" dendiğinde, LLM'yi kullanarak tenekeyi bulup almayı, çöpe atmayı ve ardından karışıklığı temizlemek için bir sünger bulmayı içeren makul bir eylem planı geliştirecekti – hepsi geleneksel programlama olmaksızın.
Daha sonra ek, hem metin hem de görüntü üzerinde eğitilmiş bir görsel dil modelini aynı robota bağlayarak, etrafındaki dünyayı anlama kabiliyetini yükseltti. Bir deneyde, yakınlarına farklı ünlülerin fotoğraflarını koydular ve ardından robottan bir kola Taylor Swift'e vermelerini istediler. "Taylor, robotun eğitim verilerinde hiç yer almıyordu ama görsel dil modelleri onun nasıl göründüğünü biliyor," diyor Finn, uzun kahverengi saçları geniş bir gülümsemeyi çerçeveliyor.
O yılın ilerleyen zamanlarında, ChatGPT virüs haline gelirken, ekip, Yeni Zelanda, Auckland'taki bir akademik konferansta robotu tanıttı. Seyircilere, istedikleri yazılan komutlarla Kaliforniya'daki robota kontrol etme fırsatı verdiler. Seyirci, robotun genel problem çözme yeteneklerinden etkilendi ve ChatGPT'nin daha geniş etkilerinin etrafında da bir heyecan oluşmaya başladı.
LLM'ler, robotların iletişim kurmasına, şeyleri tanımasına ve planlar geliştirmesine yardımcı olabilir, ancak fiziksel dünya hakkındaki zekâ eksikliği nedeniyle en temel eylemleri engelleniyor. İnsanlar için tuhaf şekilli bir nesneyi kavramayı bilmek sadece üç boyutlu şeylerin nasıl davrandığı ve ellerimizin ve parmaklarımızın nasıl çalıştığı hakkındaki derin içgüdüsel anlayış nedeniyle önemsizdir. Bir araya gelen robot bilimciler, ChatGPT'nin olağanüstü yeteneklerinin, eylemler sözlerden ziyade büyük bir ölçekte yakalanıp öğrenilebilirse, bir robotun fiziksel becerilerinde benzer derecede etkileyici bir şeye dönüşebileceğini fark ettiler. Finn, o etkinlik hakkında "Havada bir enerji vardı" diye hatırlıyor.
Bunun gerçekten işe yarayabileceğine dair işaretler vardı. 2023 yılında, Fiziksel Zeka'nın bir başka kurucusu Quan Vuong, 21 farklı kurumdaki araştırmacıları aynı tek dönüştürücü modeli kullanarak çeşitli görevleri tamamlamak üzere 22 farklı robot kolu eğitmek üzere bir araya getirdi. Sonuç, parçalarının toplamından daha fazlasıydı. "Çoğu durumda yeni model, araştırmacıların robotları için özel olarak geliştirdiklerinden daha iyisiydi," diyor Finn.
İnsanların erken çocukluk döneminde nesneleri karıştırmaktan birkaç yıl sonra piyano çalmaya kadar ilerlemesi için ömür boyu öğrenmeyi kullandıkları gibi, robotlara çok daha fazla eğitim verisi beslemek olağanüstü yeni beceriler açığa çıkarabilir.
Robot devrimi beklentileri, Agility ve Figure gibi yeni girişimler ve Hyundai ve Tesla gibi büyük şirketler tarafından şimdi öne sürülen birçok insansı robot tarafından da körükleniyor. Bu makinelerin becerileri hala sınırlı olsa da, uzaktan kumandalı gösterimler onları daha yetenekli gösterebilir ve savunucuları büyük şeyler vaat ediyor. Elon Musk yakın zamanda, insansı robotların 2040 yılına kadar Dünya'da insanlardan daha fazla sayıda olacağını öne sürdü – bu öneri muhtemelen çok fazla tuzla alınması gereken bir öneri.
Temel bir araştırma atılımını kovalayan bir şirkete yüz milyonlarca dolar yatırma fikri belki de çılgınca gelebilir. Ancak OpenAI, bunun ne kadar büyük bir sonuç verebileceğini gösterdi ve şirket hem Fiziksel Zeka'nın tohum yatırımına hem de son yatırımına girişim fonu aracılığıyla katkıda bulundu. OpenAI'ın düşünce tarzına aşina bir kaynağa göre, "Yatırımın nedeni yetenektir. Dünyanın en iyi robotik uzmanlarından bazılarında."
OpenAI'ın kendi robotik çabalarını da hızlandırdığı görülüyor. Geçen hafta, Meta'da sanal ve artırılmış gerçeklik kulaklıklarının geliştirilmesini önceden liderlik eden Caitlin Kalinowski, LinkedIn'de robotlar da dahil olmak üzere donanım üzerinde çalışmak için OpenAI'e katılacağını duyurdu.
OpenAI CEO'su Sam Altman'ın bir arkadaşı ve Fiziksel Zeka yatırımcısı ve kurucusu olan Lachy Groom, toplantı odasındaki ekibin, planın iş tarafını tartışmak üzere katılıyor. Groom pahalı görünen bir sweatshirt giyiyor ve dikkat çekici derecede genç görünüyor. Fiziksel Zeka'nın robot öğrenimi alanında bir atılımı takip etmek için bolca zamanının olduğunu vurguluyor. "Joshua Kushner ile bir görüşme yaptım" diyor, Joshua Kushner, şirketin tohum yatırım turuna öncülük eden Thrive Capital'ın kurucusu ve yönetici ortağı. Elbette, Donald Trump'ın damadı Jared Kushner'ın da kardeşidir.
Şimdi aynı tür atılımı kovalayan birkaç şirket daha var. Carnegie Mellon Üniversitesi'nden robotik uzmanlar tarafından kurulan Skild, temmuz ayında 300 milyon dolarlık yatırım topladı. Skild'in CEO'su ve CMU'da yardımcı profesör olan Deepak Pathak, "OpenAI'in dil kodunu çözdüğü gibi, biz de robotlar için genel amaçlı bir beyin inşa ediyoruz," diyor.
Herkesin OpenAI'ın yapay zekanın dil kodunu nasıl çözdüğüyle aynı şekilde bunu başarmadan emin değil.
LLM'leri eğitmek için mevcut olan metin ve görüntü verilerine benzer, internet ölçekli bir robot eylem deposu yok. Fiziksel zekada bir atılıma ulaşmak yine de katlanarak daha fazla veri gerektirebilir.
CMU'da, Skild ile ilgili olmayan bir robotik uzmanı olan Illah Nourbakhsh, "Sıralanmış kelimeler, boyut olarak, fiziksel dünyadaki nesnelerin tüm hareket ve aktivitesine kıyasla küçük bir oyuncak," diyor. "Fiziksel dünyada sahip olduğumuz özgürlük dereceleri, alfabedeki harflerden çok daha fazlasıdır."
Yapay zekayı robotlara uygulamak üzerine çalışan UC Berkeley'deki akademisyen Ken Goldberg, veri destekli bir robot devrimi ve insansı robotlar fikri etrafında oluşan heyecanının abartı seviyesine ulaştığı konusunda uyarıyor. "Beklenen performans seviyelerine ulaşmak için 'iyi eski moda mühendislik', modülerlik, algoritmalar ve ölçütlere ihtiyacımız olacak," diyor.
MIT'deki bilgisayar bilimci ve Toyota Araştırma Enstitüsü'ndeki robotik araştırma başkanı Russ Tedrake, LLM'lerin başarısının birçok robotik uzmanın, kendisinin de dahil olmak üzere, araştırma önceliklerini yeniden değerlendirmesine ve daha büyük ölçekte robot öğrenimi arama yollarını araştırmasına neden olduğu belirtiyor. Ancak zorlu zorlukların kaldığını kabul ediyor.
Tedrake, büyük ölçekli öğrenme ile genel robotik yetenekleri açığa çıkarma fikrini "Henüz biraz bir hayal" olarak tanımlıyor. "Her ne kadar insanlar yaşam belirtileri göstermiş olsa da."
İlerlemede sırrın, örneğin, insanların yaptığı şeylerin YouTube videolarını izleyerek robotları yeni şekillerde öğrenmeye teşvik etmekten kaynaklanabileceğini belirtiyor. Bu yöntemin gelecekteki makinelerde bazı tuhaf davranışlara, örneğin TikTok dansları veya şişe çevirme becerilerine yol açabileceği merak ediliyor. Tedrake, bu yöntemin başlangıçta sadece bir şeye uzanma gibi basit hareketler hakkında robotlara öğretmeyi amaçlayacağını ve gerçek robot çalışmasından toplanan verilerle birleştirilmesi gerektiğini açıklıyor.
"Siz ve ben YouTube videolarını izleyerek zekâmızı kullanırken, insanların kullandığı güçleri çıkarabiliriz," diyor. "Bazı öğrenmeler, robotların fiziksel nesnelerle etkileşime girmesini gerektirir."
Hausman, beni Physical Intelligence'ın büyük ölçekte robot öğrenimini nasıl gerçekleştireceğini görmem için aşağı kata götürüyor. Şimdi, şirketin algoritmasını kullanarak, iki robot kol, insan yardımı olmadan kıyafetleri katlamaya çalışıyor. Kollar, bir tişörtü almak ve ardından çocuğun yapacağı gibi kıyafeti yavaşça ve kaba bir şekilde katlamak ve ardından yere bırakmak için hızlı ve kesin bir şekilde hareket ediyor.
Hausman, kıyafet katlama gibi belirli görevlerin, genellikle bozulmuş ve kırışmış olan ve manipüle edilirken bükülüp esneyen çok çeşitli nesnelerle uğraşmayı içerdiği için robotları eğitmek için özellikle yararlı olduğunu söylüyor. "İyi bir görev, çünkü onu gerçekten çözmek için genellemeye ihtiyacınız var" diyor. "Çok fazla veri toplasanız bile, bir kıyafetin olabileceği her durumda toplayamazsınız."
Fiziksel Zeka, diğer şirketlerle, yani e-ticaret ve imalat şirketleriyle işbirliği yaparak robotların çeşitli şeyler yapmasını sağlayarak çok daha fazla veri toplamayı umuyor. Ayrıca, web kamerasıyla donatılmış pense gibi özel donanım geliştirmeyi umuyorlar; bunun nasıl kullanılacağı söylenmemiş olsa da, belki de insanların günlük görevleri yerine getirmesiyle crowdsourced eğitim sağlanabilir.
Gösterileri izledikten sonra, çok daha zeki robotlar fikriyle Physical Intelligence'dan coşkuyla ayrılıyorum. Güneşe geri dönerken, dünyanın ChatGPT'nin fiziksel dünyaya ulaşmasına ve bu kadar çok fiziksel görevi ele geçirmesine hazır olup olmadığını merak ediyorum. Fabrikaları ve depoları devrimleştirebilir ve ekonomiye büyük fayda sağlayabilir, ancak aynı zamanda yapay zekanın işleri otomatikleştirme potansiyeli konusunda daha geniş bir paniğe yol açabilir.
Birkaç ay sonra, Physical Intelligence ile görüşerek ekipte bazı etkileyici robot adımlarının atıldığını öğreniyorum.
Hausman, Levine ve Finn, bir Zoom penceresine sıkışarak, şirketin 50'den fazla karmaşık ev görevi hakkında çok büyük miktarda eğitim verisi kullanarak ilk modelini geliştirdiğini açıklıyorlar.
Üçlü, bir mobil robotun bir kurutucuyu boşalttığı, başka bir robot kolun dağınık bir mutfak masasını temizlediği ve sonra kıyafetleri katlamada son derece yetenekli görünen iki robot kolun bir videosunu gösteriyor. Robot hareketlerinin ne kadar insanı andığını görüyorum. Robot bileğinin bir hareketıyla şortları düzleştirmek için çırpıyor.
Daha genel yeteneklere ulaşmanın sırrı, yalnızca bol miktarda veri değil, aynı zamanda yapay zeka görüntü oluşturma modellerinden alınan bir model türüyle LLM'yi birleştirmekti. "Hiçbir şekilde ChatGPT değil ama belki OpenAI'nin ilk büyük dil modeli GPT-1'e yakın" diyor Levine.
Ayrıca tuhaf insan, ya da belki de çocukça, hatalar da var. Birinde, bir robot yumurta kutularını aşırı dolduruyor ve kapağı zorlamak için çalışıyor. Başka birinde bir robot bir kabı masadan fırlatıyor, doldurmak yerine. Üçlü endişeli görünmüyor. "Bizim için gerçekten heyecan verici olan, gerçekten ilginç yaşam belirtileri gösteren genel bir tarifimiz var," diyor Hausman.