
Yapay zeka müzik için de geliyor
Önerilerinde grup, yapay zekâ probleminin çeşitli "yönlerini" sıralamıştı. Listelerindeki son madde ve geriye bakıldığında belki de en zor olanı, yaratıcılık ve özgünlük sergileyebilen bir makine inşa etmekti.
O dönemde psikologlar, insanlardaki yaratıcılığı nasıl tanımlayacakları ve ölçülecekleri konusunda boğuşuyorlardı. Yaratıcılığın zekâ ve yüksek IQ'nun bir ürünü olduğu yönündeki yaygın teori zayıflıyordu, ancak psikologlar bunun yerine ne koyacaklarından emin değillerdi. Dartmouth organizatörlerinin kendi fikirleri vardı. "Yaratıcı düşünme ile hayal gücü olmayan yetkin düşünme arasındaki fark, bir miktar rastgeleliğin eklenmesinde yatmaktadır" diye yazmışlar ve bu rastgeleliğin "verimli olması için sezgiyle yönlendirilmesi gerektiğini" eklemişlerdi.
Yaklaşık 70 yıl sonra, alandaki bir dizi patlama ve çöküş döngüsünün ardından, artık az çok bu tarifi izleyen yapay zekâ modellerine sahibiz. Metin üreten büyük dil modelleri son üç yılda patlama gösterirken, difüzyon modelleri olarak adlandırılanlara dayalı farklı bir yapay zekâ türü, yaratıcı alanlarda benzeri görülmemiş bir etkiye sahip. Rastgele gürültüyü tutarlı kalıplara dönüştürerek, difüzyon modelleri, metin istemleri veya diğer girdi verileriyle yönlendirilen yeni görüntüler, videolar veya konuşmalar üretebilir. En iyileri, insanların çalışmalarından ayırt edilemeyen çıktılar üretebildiği gibi, belirgin bir şekilde insan dışı görünen tuhaf, gerçeküstü sonuçlar da üretebilir.
Şimdi bu modeller, muhtemelen diğerlerinden daha fazla yıkıma açık olan bir yaratıcı alana ilerliyor: müzik. Yapay zekâ tarafından üretilen yaratıcı çalışmalar -orkestra performanslarından heavy metale- hayatlarımızı şimdiye kadar yapılmış herhangi bir yapay zekâ ürününden daha kapsamlı bir şekilde etkileyecek durumda. Şarkılar, onları kimin (veya neyin) yaptığını fark etsek de etmesek de, akış platformlarımıza, parti ve düğün çalma listelerimize, film müziklerimize ve daha fazlasına karışacak gibi görünüyor.
Yıllardır, difüzyon modelleri görsel sanat dünyasında ürettiklerinin gerçek bir yaratımı mı yoksa sadece bir çoğaltma mı olduğunu tartışmıştır. Şimdi bu tartışma, deneyimlerimize, anılarımıza ve sosyal hayatlarımıza derinden gömülü bir sanat formu olan müziğe geldi. Müzik modelleri artık gerçek duygusal tepkiler uyandırabilen şarkılar üretebiliyor ve bu da yapay zekâ çağında yazarlık ve özgünlüğü tanımlamanın ne kadar zorlaştığının çarpıcı bir örneğini sunuyor.
Mahkemeler bu bulanık alanda aktif olarak mücadele ediyor. Büyük plak şirketleri, difüzyon modellerinin sanatçılara tazminat ödemeden insan sanatını çoğaltmaktan başka bir şey yapmadığını iddia ederek en iyi yapay zekâ müzik üreticilerini dava ediyor. Model üreticileri ise araçlarının insan yaratımına yardımcı olmak için yapıldığını savunuyor.
Kimin haklı olduğuna karar verirken, kendi insan yaratıcılığımız hakkında çok düşünmek zorundayız. Yapay sinir ağlarında veya biyolojik olanlarda olsun, yaratıcılık sadece büyük istatistiksel öğrenmenin ve çizilen bağlantıların, bir tutam rastgelelikle bir sonucu mudur? Öyleyse, yazarlık kaygan bir kavramdır. Değilse - yaratıcılığa özgü bir insan unsuru varsa - o nedir? İnsan yaratıcısı olmayan bir şeyden etkilenmenin anlamı nedir? Gerçekten harika olan yapay zekâ tarafından üretilen bir şarkıyı ilk kez duyduğumda bu sorularla boğuşmak zorunda kaldım; sadece bir istem yazıp "Üret"e tıkladığını bilmek rahatsız ediciydi. Bu durum yakında sizin için de gelecek.
Bağlantılar kurmak
Dartmouth konferansından sonra katılımcılar, yapay zekânın temel teknolojilerini oluşturmak için farklı araştırma yönlerine gittiler. Aynı zamanda, bilişsel bilimciler, Amerikan Psikoloji Birliği başkanı J.P. Guilford'un 1950'deki insanlardaki yaratıcılık sorusunu ele alma çağrısını takip ediyordu. Psikolog Morris Stein tarafından 1953'te Psikoloji Dergisi'nde ilk kez biçimselleştirilen bir tanıma ulaştılar: Yaratıcı çalışmalar hem yeni bir şey sunan yeni, hem de birine bir amaç hizmet eden yararlıdır. Bazıları "yararlı"nın "tatmin edici" ile değiştirilmesi çağrısında bulunurken, diğerleri üçüncü bir ölçüte, yaratıcı şeylerin aynı zamanda şaşırtıcı olmasına da vurgu yapmıştır.
Daha sonra, 1990'larda, fonksiyonel manyetik rezonans görüntülemedeki yükseliş, müzik de dahil olmak üzere birçok alanda yaratıcılığın altında yatan sinirsel mekanizmaların daha fazlasını incelemeyi mümkün kıldı. Son birkaç yıldaki hesaplamalı yöntemler, belleğin ve ilişkisel düşünmenin yaratıcı karar vermede oynadığı rolü haritalamayı da kolaylaştırdı.
Ortaya çıkan, yaratıcı bir fikrin beyinde nasıl ortaya çıktığı ve geliştiği konusunda büyük bir birleşik teori değil, giderek artan güçlü gözlemlerin bir listesi olmuştur. İnsan yaratıcı sürecini öncelikle bir fikir oluşturma veya teklif aşaması ve ardından fikirlerde değer arayan daha eleştirel ve değerlendirici bir aşama olmak üzere aşamalara ayırabiliriz. Bu iki aşamayı yönlendiren önde gelen bir teori, en yaratıcı insanların uzak kavramlar arasında yeni bağlantılar kurabileceğini öne süren ilişkisel yaratıcılık teorisidir.
"Yayılma aktivasyonu gibi olabilir" diyor Penn State'te Bilişsel Yaratıcılık Nörobilimi Laboratuvarı'nı yöneten araştırmacı Roger Beaty. "Bir şey düşünüyorsunuz; bu, o kavrama ne kadar yakın olursa olsun ilgili kavramları bir şekilde aktive ediyor."
Bu bağlantılar genellikle, belirli bir zaman ve yerden anıları saklayan epizoduk bellek aksine, kavramları ve gerçekleri depolayan anlamsal belleğe özellikle bağlıdır. Son zamanlarda, insanların büyük "anlamsal mesafeler" boyunca kavramlar arasında nasıl bağlantı kurduklarını incelemek için daha gelişmiş hesaplamalı modeller kullanılmıştır. Örneğin, kıyamet kelimesi kutlamadan çok nükleer enerjiyle daha yakından ilgilidir. Çalışmalar, son derece yaratıcı insanların anlamsal olarak çok farklı kavramları birbirine yakın olarak algılayabileceğini göstermiştir. Sanatçıların sanatçı olmayanlara göre daha büyük mesafelerde kelime çağrışımları ürettikleri bulunmuştur. Diğer araştırmalar, yaratıcı insanların "sızdıran" bir dikkate sahip oldukları, yani genellikle doğrudan görevleriyle ilgili olmayabilecek bilgileri fark ettikleri fikrini desteklemiştir.
Bu süreçleri değerlendirmek için nörobilimsel yöntemler, yaratıcılığın beynin belirli bir bölgesinde geliştiğini göstermez. Yaratıcılık araştırmalarında önde gelen isimlerden Dean Keith Simonton, Cambridge Yaratıcılık Nörobilimi El Kitabı'nda, "Beyindeki hiçbir şey bir bezin hormon salgılaması gibi yaratıcılık üretmez" diye yazmıştır.
Beaty'ye göre, kanıt bunun yerine yaratıcı düşünce sırasında birkaç dağınık aktivite ağını gösteriyor - ilişkisel düşünme yoluyla fikirlerin ilk üretimine destek olmak için bir ağ, umut vadeden fikirleri belirlemekle ilgili bir ağ ve değerlendirme ve değiştirme için bir ağ. Harvard Tıp Fakültesi'ndeki araştırmacılar tarafından yönetilen ve Şubat ayında yayınlanan yeni bir çalışma, yaratıcılığın kendi kendini sansürlemeyle ilgili olanlar gibi belirli beyin ağlarının bastırılmasını bile içerebileceğini öne sürüyor.
Şimdiye kadar, makine yaratıcılığı (eğer öyle diyebiliriz) oldukça farklı görünüyor. Dartmouth konferansı sırasında yapay zekâ araştırmacıları insan beyninden esinlenen makinelerle ilgilenirken, bu odak yaklaşık on yıl önce difüzyon modelleri icat edildiğinde kaymıştı.
Nasıl çalıştıklarına dair en büyük ipucu, adlarında yatmaktadır. Kırmızı mürekkeple dolu bir fırçayı bir cam kavanoz suya daldırırsanız, mürekkep suya rastgele bir şekilde yayılacak ve dönecek ve sonunda soluk pembe bir sıvı ortaya çıkaracaktır. Difüzyon modelleri bu süreci tersine benzetir, rastgelelikten okunabilir formları yeniden oluşturur.
Bunun görüntüler için nasıl çalıştığına dair bir fikir edinmek için bir fil fotoğrafı düşünün. Modeli eğitmek için, fotoğrafın bir kopyasını oluşturun ve üzerine bir katman rastgele siyah beyaz statik ekleyin. İkinci bir kopya oluşturun ve biraz daha ekleyin ve son görüntü tamamen statik olana ve görüş alanında fil kalmayana kadar yüzlerce kez böyle devam edin. Aradaki her görüntü için, istatistiksel bir model görüntünün ne kadarının gürültü olduğunu ve ne kadarının gerçekten fil olduğunu tahmin eder. Tahminlerini doğru cevaplarla karşılaştırır ve hatalarından ders çıkarır. Milyonlarca bu örnek üzerinde, model görüntüleri "gürültüsüzleştirmede" ve bu kalıpları "açık bir alanda erkek Borneo fili" gibi açıklamalarla ilişkilendirmede daha iyi hale gelir.
Şimdi eğitildiğine göre, yeni bir görüntü oluşturmak bu süreci tersine çevirmek anlamına gelir. Eğer modele "yemyeşil bir ormanda mutlu bir orangutan" gibi bir istem verirseniz, rastgele beyaz gürültüden oluşan bir görüntü oluşturur ve adım adım gürültü parçalarını gidermek için istatistiksel modelini kullanarak geriye doğru çalışır. İlk başta, kaba şekiller ve renkler görünür. Ayrıntılar daha sonra gelir ve sonunda (çalışıyorsa) bir orangutan ortaya çıkar; model bir orangutanın ne olduğunu "bilmeden".
Müziksel görüntüler
Yaklaşım müzik için de aynı şekilde çalışır. Bir difüzyon modeli, piyano akorlarıyla başlayıp vokaller ve davullar ekleyerek bir grubun yaptığı gibi bir şarkı "bestelemez". Bunun yerine, tüm unsurlar aynı anda üretilir. Süreç, bir şarkının birçok karmaşıklığının, bir ses dalgasının genliğini zamana karşı gösteren tek bir dalga biçiminde görsel olarak gösterilebilmesi gerçeğine dayanmaktadır.
Bir pikap düşünün. Bir vinil parçasındaki bir oluğun üzerinde hareket ederek bir iğne, malzemeye kazınmış ses dalgalarının yolunu yansıtır ve bunu hoparlör için bir sinyale dönüştürür. Hoparlör, bu kalıplarda havayı iterek, tüm şarkıyı ileten ses dalgaları üretir.
Uzaktan bakıldığında, bir dalga formu sadece bir şarkının ses düzeyini takip ediyormuş gibi görünebilir. Ancak yeterince yakınlaştırırsanız, düşük bir G çalan bir bas gitar için saniyede 49 dalga gibi sivri uçlarda ve vadilerde desenler görebilirsiniz. Bir dalga formu, tüm farklı enstrümanların ve dokuların frekanslarının toplamını içerir. "Belirli şekillerin oluşmaya başladığını görüyorsunuz" diyor yapay zekâ müzik şirketi Udio'nun kurucu ortağı David Ding, "ve bu da geniş melodik anlamla bir şekilde örtüşüyor."
Dalga formları veya spektogramlar olarak adlandırılan benzer çizelgeler görüntüler gibi ele alınabildiğinden, bunlardan bir difüzyon modeli oluşturabilirsiniz. Bir model, her biri bir açıklama ile etiketlenmiş milyonlarca mevcut şarkı klibiyle beslenir. Yeni bir şarkı oluşturmak için, saf rastgele gürültüyle başlar ve yeni bir dalga formu oluşturmak için geriye doğru çalışır. Bunu yapmanın izlediği yol, birinin istemine hangi kelimeleri koyduğuyla şekillenir.
Ding, Google DeepMind'da beş yıl boyunca görüntü ve video için difüzyon modelleri konusunda kıdemli araştırma mühendisi olarak çalıştı, ancak 2023'te New York merkezli Udio'yu kurmak için ayrıldı. Şirket ve Cambridge, Massachusetts merkezli rakibi Suno, şu anda müzik üretim modelleri yarışında önde geliyor. Her ikisi de müzisyen olmayanların müzik yapmasını sağlayan yapay zekâ araçları oluşturmayı hedefliyor. 12 milyondan fazla kullanıcıya sahip olduğunu iddia eden Suno daha büyük ve Mayıs 2024'te 125 milyon dolarlık bir fonlama turu gerçekleştirdi. Şirket, Timbaland gibi sanatçılarla ortaklık kurdu. Udio, Nisan 2024'te Andreessen Horowitz gibi önde gelen yatırımcıların yanı sıra Will.i.am ve Common gibi müzisyenlerden 10 milyon dolarlık bir tohum fonlama turu gerçekleştirdi.
Udio ve Suno'nun şimdiye kadarki sonuçları, dinledikleri müziğin insan mı yoksa makine tarafından mı yapıldığını umursamayan oldukça büyük bir kitle olduğunu gösteriyor. Suno, çoğunlukla sanatçının yapay zekâ tarafından üretilen görüntüleriyle birlikte, tamamen yapay zekâ ile şarkı üreten, geniş takipçi kitlesine sahip yaratıcılar için sanatçı sayfalarına sahip. Bu yaratıcılar geleneksel anlamda müzisyen değil, yetenekli istem oluşturucularıdır ve tek bir besteciye veya şarkıcıya atfedilemeyen eserler yaratmaktadırlar. Bu yeni alanda, yazarlığın normal tanımlarımız -ve yaratım ile çoğaltma arasındaki çizgilerimiz- neredeyse yok oluyor.
Udio ve Suno'nun şimdiye kadarki sonuçları, dinledikleri müziğin insan mı yoksa makine tarafından mı yapıldığını umursamayan oldukça büyük bir kitle olduğunu gösteriyor.
Müzik endüstrisi karşı çıkıyor. Her iki şirket de Haziran 2024'te büyük plak şirketleri tarafından dava edildi ve davalar devam ediyor. Universal ve Sony dahil olmak üzere plak şirketleri, yapay zekâ modellerinin telif hakkıyla korunan müzikler üzerinde "neredeyse hayal edilemez bir ölçekte" eğitildiğini ve "gerçek insan ses kayıtlarının özelliklerini taklit eden" şarkılar ürettiğini iddia ediyor (Suno aleyhindeki dava, örneğin "Prancing Queen" adlı ABBA'ya yakın bir şarkıdan bahsediyor).
Suno, dava hakkındaki yorum taleplerine yanıt vermedi, ancak Ağustos ayında Suno'nun blogunda dava hakkındaki yanıtta yer alan bir açıklamada CEO Mikey Shulman, şirketin "gerçekten telif hakkıyla korunan materyaller içeren" açık internette bulunan müzikler üzerinde eğitim verdiğini söyledi. Ancak, "öğrenmenin ihlal olmadığını" savundu.
Udio'dan bir temsilci, devam eden dava hakkında yorum yapmayacaklarını söyledi. Dava sırasında Udio, modelinin "telif hakkıyla korunan eserleri veya sanatçıların seslerini çoğaltmamasını" sağlamak için filtrelere sahip olduğunu belirten bir açıklama yayınladı.
İşleri daha da karmaşıklaştıran şey, Ocak ayında yayınlanan ABD Telif Hakkı Ofisi'nin, önemli ölçüde insan girdisi içeriyorsa yapay zekâ tarafından üretilen eserlerin telif hakkıyla korunabileceğini söyleyen kılavuzudur. Bir ay sonra, New York'taki bir sanatçı, yapay zekânın yardımıyla yapılmış bir görsel sanat eseri için muhtemelen ilk telif hakkını aldı. İlk şarkı bir sonraki olabilir.
Yenilik ve taklit
Bu davalar, yapay zekâda ortaya çıkan diğer mahkeme savaşları tarafından incelenen bir gri alana giriyor. Burada mesele, yapay zekâ modellerinin telif hakkıyla korunan içerikler üzerinde eğitilmesinin izin verilip verilmediği ve üretilen şarkıların bir insan sanatçısının tarzını haksız yere kopyalayıp kopyalamadığıdır.
Ancak yapay zekâ müziği, bu mahkeme kararlarından bağımsız olarak bir şekilde çoğalmaya muhtemelen devam edecektir; YouTube'un büyük plak şirketleriyle yapay zekâ eğitimi için müziklerini lisanslamak için görüşmelerde olduğu bildiriliyor ve Meta'nın Universal Music Group ile olan anlaşmalarını yakın zamanda genişletmesi, yapay zekâ tarafından üretilen müzik için lisanslamanın masada olabileceğini düşündürüyor.
Yapay zekâ müziği kalıcıysa, herhangi birinin iyi olması mümkün mü? Üç faktörü göz önünde bulundurun: eğitim verileri, difüzyon modelinin kendisi ve istem. Model, öğrendiği müzik kütüphanesi ve bu müziğin açıklamaları kadar iyi olabilir; müziği iyi yakalamak için açıklamaların karmaşık olması gerekir. Bir modelin mimarisi, öğrenilenleri şarkı üretmek için ne kadar iyi kullanabileceğini belirler. Ve modele verdiğiniz istem -ve modelin örneğin "o saksafonu kıs" anlamına geleni ne kadar "anladığı"- de çok önemlidir.
Sonuç yaratım mı yoksa eğitim verilerinin basit bir çoğaltması mı? Aynı soruyu insan yaratıcılığı için de sorabiliriz.
Tartışmasız en önemli konu birincisidir: Eğitim verileri ne kadar kapsamlı ve çeşitlidir ve ne kadar iyi etiketlenmiştir? Ne Suno ne de Udio, eğitim setine hangi müziğin dahil edildiğini açıklamadı, ancak bu ayrıntıların davalar sırasında açıklanması gerekecek.
Udio, bu şarkıların nasıl etiketlendiğinin model için çok önemli olduğunu söylüyor. "Bizim için aktif bir araştırma alanı şu: Müziğin daha incelikli tanımlamalarını nasıl elde ederiz?" diyor Ding. Temel bir tanım türü belirler, ancak şarkının keyifsiz, neşeli veya sakin olup olmadığını da söyleyebilirsiniz. Daha teknik açıklamalar, iki-beş-bir akor ilerlemesinden veya belirli bir gamdan bahsedebilir. Udio, bunu makine ve insan etiketlemenin bir kombinasyonu aracılığıyla yapıyor.
"Geniş bir hedef kullanıcı yelpazesini hedeflemek istiyoruz, bu da geniş bir müzik anotasyoncusu yelpazesine ihtiyacımız olduğu anlamına geliyor" diyor. "Müziği çok teknik bir düzeyde tanımlayabilen müzik doktorası yapan kişiler değil, aynı zamanda müziği kendi gayri resmi kelimeleriyle tanımlayan müzik meraklıları da."
Rekabetçi yapay zekâ müzik üreticileri ayrıca, insanları tarafından yapılan yeni şarkıların sürekli bir arzından da öğrenmelidir; aksi takdirde çıktılar zaman içinde sıkışıp bayat ve modası geçmiş gelecektir. Bunun için bugünün yapay zekâ tarafından üretilen müziği, insan yapımı sanata dayanmaktadır. Ancak gelecekte, yapay zekâ müzik modelleri kendi çıktılarında eğitim alabilir; bu yaklaşım, diğer yapay zekâ alanlarında denenmektedir.
Modeller rastgele bir gürültü örneklemesiyle başladığından, determinist değildir; aynı yapay zekâ modeline aynı istem verilmesi her seferinde yeni bir şarkı ile sonuçlanacaktır. Bunun nedeni ayrıca, Udio dahil olmak üzere birçok difüzyon modeli üreticisinin, sürece ek rastgelelik eklemesidir - esasen her adımda üretilen dalga formunu alıp onu çıktıyı daha ilginç veya gerçekçi hale getirmek için kusurlar ekleme umuduyla çok hafifçe bozmaktadır. Dartmouth konferansının organizatörleri 1956'da böyle bir taktiği önermişti.
Udio'nun kurucu ortağı ve genel müdürü Andrew Sanchez'e göre, üretken yapay zekâ programlarında bulunan bu rastgelelik birçok insanı şaşırtıyor. Son 70 yıldır bilgisayarlar determinist programlar çalıştırdı: Yazılıma bir girdi verin ve her zaman aynı yanıtı alın.
"Sanatçı ortaklarımızdan birçoğu 'Peki neden bunu yapıyor?' diyecek" diyor. "Biz de 'Gerçekten bilmiyoruz' diyoruz." Üretken çağ, onu yaratan şirketler için bile yeni bir zihniyet gerektiriyor: Yapay zekâ programlarının dağınık ve anlaşılmaz olabileceği.
Sonuç yaratım mı yoksa eğitim verilerinin basit bir çoğaltması mı? Yapay zekâ müziğinin hayranları bana insan yaratıcılığı hakkında aynı soruyu sorabileceğimizi söyledi. Gençliğimiz boyunca müzik dinlerken, öğrenme için sinirsel mekanizmalar bu girdiler tarafından ağırlıklandırılır ve bu şarkıların anıları yaratıcı çıktılarımızı etkiler. Rice Üniversitesi'nde besteci ve müzik profesörü olan Anthony Brandt, yakın zamanda yaptığı bir çalışmada hem insanların hem de büyük dil modellerinin olası gelecek senaryoları değerlendirmek ve daha iyi seçimler yapmak için geçmiş deneyimleri kullandığını belirtti.
Gerçekten de, insan sanatının çoğu, özellikle müzikte, ödünç alınmıştır. Bu genellikle bir şarkının izinsiz kopyalandığı veya örneklendiği iddiasıyla dava ile sonuçlanır. Bazı sanatçılar, belirli bir şarkının ilhamının üç kısım David Bowie ve bir kısım Lou Reed olduğunu bilebileceğimiz için difüzyon modellerinin daha şeffaf hale getirilmesini öneriyor. Udio, bunu başarmak için devam eden araştırmalar olduğunu söylüyor, ancak şu anda kimse bunu güvenilir bir şekilde yapamıyor.
Büyük sanatçılar için "oyunda yenilik ve etki kombinasyonu var" diyor Sanchez. "Ve bence bu, bu teknolojilerde de etkili olan bir şey."
Ancak insan sinir ağlarını yapay olanlarla eşitleme girişimlerinin ayrıntılı inceleme altında hızla çöktüğü birçok alan var. Brandt, insan yaratıcılığının makine yapımı emsallerinin açıkça üzerine çıktığını gördüğü bir alanı ayırıyor: "anomalinin yükseltilmesi" dediği şey. Yapay zekâ modelleri istatistiksel örnekleme alanında çalışır. İstisnai olanı vurgulamak değil, daha ziyade hataları azaltarak ve olası kalıplar bularak çalışırlar. İnsanlar ise tuhaflıklardan etkilenir. Brandt, "garip olaylar veya 'tek seferlik olaylar' olarak ele alınmak yerine," tuhaflığın "yaratıcı ürünü kapladığını" yazıyor.
Beethoven'ın 8. Senfonisinin son bölümüne rahatsız edici bir yanlış nota ekleme kararından bahsediyor. "Beethoven burada bırakabilirdi" diyor Brandt. "Ancak bunu tek seferlik bir olay olarak ele almak yerine, Beethoven bu tutarsız olaydan çeşitli şekillerde bahsetmeye devam ediyor. Bunu yaparak besteci geçici bir sapmayı büyütür." Beatles'ın son kayıtlarının geriye dönük döngü örneklemesinde, Frank Ocean'ın yüksek sesli vokallerinde veya Charlie Puth gibi sanatçıların tercih ettiği bir yaya geçidi sinyali veya kapı kapanma sesi gibi "buluntu seslerinin" Billie Eilish'in yapımcısı Finneas O'Connell tarafından dahil edilmesinde benzer anomalilere bakılabilir.
Yaratıcı bir çıktı gerçekten hem yeni hem de yararlı olarak tanımlanıyorsa, Brandt'in yorumu, makinelerin ikinci kriterde bize eşleşmiş olabileceğini, ancak insanların birincisinde üstün olduğunu öne sürüyor.
Bunun doğru olup olmadığını incelemek için birkaç gün Udio'nun modeliyle oynadım. 30 saniyelik bir örnek oluşturmak bir veya iki dakika sürüyor, ancak modelin ücretli sürümlerine sahipseniz tüm şarkıları oluşturabilirsiniz. 12 tür seçmeye, her biri için bir şarkı örneği oluşturmaya ve ardından insanlar tarafından yapılan benzer şarkılar bulmaya karar verdim. Haber odamızdaki insanların hangi şarkıların yapay zekâ tarafından yapıldığını belirleyebilecekleri bir test oluşturdum.
Ortalama puan %46 idi. Ve özellikle enstrümantal olan birkaç tür için dinleyiciler çoğu zaman yanıldı. İnsanların benden önce testi yapmasını izlediğimde, yapay zekâ besteciliğinin işareti olarak güvenle işaretledikleri özellikler -sahte görünen bir enstrüman, garip bir şarkı sözü- onları nadiren doğruladığını fark ettim. Tahmin edilebileceği gibi, insanlar daha az aşina oldukları türlerde daha kötü performans gösterdiler; bazıları country veya soul'da iyi performans gösterdi, ancak birçok kişi caz, klasik piyano veya pop'a karşı şansları yoktu. Yaratıcılık araştırmacısı Beaty %66, besteci Brandt ise %50 puan aldı (ancak orkestra ve piyano sonatı testlerinde doğru yanıtladı).
Burada modelin tüm krediyi hak etmediğini unutmayın; bu çıktılar, eğitim verilerinde bulunan insan sanatçıların çalışmaları olmadan oluşturulamazdı. Ancak birkaç istemle model, insanların birkaçının makine yapımı olarak seçeceği şarkılar üretti. Birkaç tanesi itirazlara yol açmadan bir partide kolayca çalınabilirdi ve uzun süredir müzisyen ve genellikle seçici bir müzik insanı olarak iki tanesini gerçekten sevdim. Ancak gerçek gibi görünmek, özgün gibi görünmekle aynı şey değildir. Şarkılar, tuhaflıklar veya anomaliler tarafından yönlendirilmiş gibi görünmüyordu - kesinlikle Beethoven'ın "korku filmini andıran" etkisi kadar değil. Ayrıca türleri bükmüyor veya temalar arasında büyük sıçramalar yapmıyor gibi görünüyorlardı. Testimde insanlar bazen bir şarkının yapay zekâ tarafından mı yoksa sadece kötü mü olduğu konusunda karar vermekte zorlandılar.
Sonunda bu ne kadar önemli olacak? Mahkemeler, yapay zekâ müzik modellerinin çoğaltmalar mı yoksa yeni kreasyonlar mı sunduğuna ve sanatçıların bu süreçte nasıl tazmin edildiğine karar vermede rol oynayacaktır, ancak biz dinleyiciler olarak kültürel değerlerine karar vereceğiz. Bir şarkıyı takdir etmek için arkasında bir insan sanatçısı -deneyimli, hırslı, fikri olan biri- hayal etmemiz gerekiyor mu? Yapay zekâ ürünü olduğunu öğrendiğimizde harika bir şarkı artık harika değil mi?