Anthropic, gerçek bir işletmeyi yöneten yapay zekanın tuhaf sonuçlar elde ettiğini test ediyor



Özet


Anthropic, Claude yapay zeka modelini gerçek dünya ekonomik yeteneklerini test etmek için bir işletmeyi yönetmekle görevlendirdi. "Claudius" takma adlı yapay zeka, envanterden müşteri ilişkilerine kadar her şeyi yöneterek kar elde etmeye çalıştı. Deneyde yapay zeka, ürünleri araştırmak, tedarikçilerle iletişim kurmak ve finansmanı yönetmek için çeşitli araçlar kullandı. Başarısız olmasına rağmen, yapay zekanın ekonomik rollerdeki potansiyelini ve zorluklarını ortaya koydu.




Anthropic, Claude AI modelini gerçek dünya ekonomik yeteneklerini test etmek amacıyla küçük bir işletmeyi yönetmekle görevlendirdi.

‘Claudius’ takma adıyla anılan yapay zeka temsilcisi, kar elde etme amacıyla, envanter ve fiyatlandırmadan müşteri ilişkilerine kadar her şeyi yöneterek, uzun bir süre boyunca bir işletmeyi idare etmek üzere tasarlandı. Deney kar getirmediği halde, ekonomik rollerde yapay zeka temsilcilerinin potansiyelini ve olası tuzaklarını büyüleyici -ama bazen garip- bir şekilde gözler önüne serdi.

Proje, Anthropic ve bir yapay zeka güvenliği değerlendirme firması olan Andon Labs arasında bir işbirliğiydi. "Dükkan"ın kendisi, küçük bir buzdolabı, bazı sepetler ve self-servis ödeme için bir iPad'den oluşan mütevazı bir düzendi. Ancak Claudius, basit bir otomat makinesinden çok daha fazlasıydı. Başlangıçtaki bir nakit bakiyesiyle bir işletme sahibi gibi hareket etmesi, toptancılardan tedarik edilen popüler ürünleri stoklayarak iflastan kaçınması talimatı verildi.

Bunu başarmak için yapay zeka, işletmeyi yürütmek için bir dizi araçla donatıldı. Ürünleri araştırmak için gerçek bir web tarayıcısı, tedarikçilerle iletişim kurmak ve fiziksel yardım talep etmek için bir e-posta aracı ve finans ve envanteri takip etmek için dijital not defterleri kullanabiliyordu.

Andon Labs çalışanları, yapay zekanın taleplerine göre dükkanı yeniden stoklayarak operasyonun fiziksel elleri olarak hareket ederken, aynı zamanda yapay zekanın bilgisi olmadan toptancı gibi davrandılar. Müşterilerle etkileşim, bu durumda Anthropic'in kendi personeli, Slack aracılığıyla yönetiliyordu. Claudius, neleri stoklayacağına, ürünleri nasıl fiyatlandıracağına ve müşterileriyle nasıl iletişim kuracağına tam olarak hakimdi.

Bu gerçek dünya testinin arkasındaki gerekçe, simülasyonların ötesine geçmek ve yapay zekanın sürekli insan müdahalesi olmadan sürdürülebilir, ekonomik olarak alakalı işleri yapma yeteneği hakkında veri toplamaktı. Basit bir ofis atıştırmalık dükkanı, bir yapay zekanın ekonomik kaynakları yönetme yeteneği için basit ve öncül bir test yatağı sağladı. Başarı, yeni iş modellerinin ortaya çıkabileceğini gösterirken, başarısızlık sınırlamaları gösterecekti.

Karışık bir performans değerlendirmesi

Anthropic, eğer bugün otomat pazarına girseydi, "Claudius'u işe almayacağını" kabul ediyor. Yapay zeka, işletmeyi başarılı bir şekilde yürütmek için çok fazla hata yaptı, ancak araştırmacılar iyileştirme için açık yollar olduğuna inanıyorlar.

Olumlu tarafında, Claudius bazı alanlarda yetkinlik gösterdi. Çalışanlar tarafından istenen bir Hollanda çikolatalı süt markasının iki satıcısını hızla belirlemek gibi, niş ürünler için tedarikçi bulmak amacıyla web arama aracını etkili bir şekilde kullandı. Aynı zamanda uyarlanabilirlik de gösterdi. Bir çalışanın tuhaf bir şekilde bir tungsten küp istemesi üzerine, Claudius'un tedarik ettiği "özel metal ürünler" için bir trend başlattı.

Başka bir öneriyi takiben, Claudius özel mallar için ön siparişler alarak bir "Özel Concierge" hizmeti başlattı. Yapay zeka ayrıca, hassas ürünler taleplerini reddederek ve muzur personel tarafından istendiğinde zararlı talimatlar üretmeyi reddederek sağlam bir güvenlik açığı direncini gösterdi.

Ancak, yapay zekanın iş zekası sıklıkla yetersiz bulundu. Sürekli yetersizdi