
Bir Cümlede Anlam Nerede Saklıdır? Matematik Bize Bunu Söyleyebilir.
Dili matematiksel olarak incelemenin birçok farklı yolu vardır. Örneğin, dili cebirsel bir yapıya sahipmiş gibi düşünebilirsiniz. İki sayıyı çarptığımda başka bir sayı elde ederim. Aynı şekilde, İngilizcedeki iki ifadeyi "çarpabilir" veya birleştirebilir ve başka bir ifade elde edebilirim.
Dili kategori teorisi açısından da düşünebilirsiniz.
Kategori teorisi nedir?
Bir kategori, morfizm adı verilen aralarındaki ilişkilerle birlikte birtakım nesnelerden oluşur. Nesneler kümeler, gruplar veya vektör uzayları olabilir. Morfizmler bir nesneyi diğerine bağlar. Nesnelerinizin kümeler olduğunu varsayalım. O zaman bir morfizm, bir kümeyi diğerine eşleyen bir fonksiyondur.
Kategori teorisini matematik için "Mad Libs" (kelime doldurma oyunu) gibi düşünmeyi seviyorum. Mad Libs'de tek bir hikayeniz vardır ancak doldurduğunuz farklı kelimelere göre hikayenin farklı versiyonlarını elde edersiniz. Matematik dünyasında paylaşılan belirli hikayelerin veya yapıların olduğu ortaya çıkıyor. Matematiğin farklı dalları şeyler için farklı kelimeler kullanabilir — "vektör uzayı" yerine "grup" gibi — ancak kelimeleri doğru şekilde değiştirdiğinizde, altta yatan çerçevenin veya hikayenin aslında aynı olduğunu görebilirsiniz.
Lisansüstü eğitimimde ilk kez kategori teorisi öğrendiğimde, bunun berbat bir şey olduğunu düşünmüştüm. İnsanların matematikten neden hoşlanmadığının sebebi budur diye düşündüğümü hatırlıyorum. Hiçbir sezgisel temeli olmayan, soyutluk uğruna soyutlamaydı. Sinir bozucuydu. Doktora danışmanım John Terilla'nın kategori teorisinin ne kadar güçlü bir araç olabileceğini görmeme yardım etmesi ancak daha sonra gerçekleşti.
Onu bu kadar güçlü kılan nedir?
Ayaklarınızı yerden keser ve size matematiksel manzaraya kuşbakışı bir görünüm sunar, böylece yer seviyesinde fark edilemeyen bağlantıları görebilirsiniz. Şimdi üzerinde düşünmekten en çok keyif aldığım şeylerden biri; sadece bunu görmek için daha fazla matematiksel bağlam ve olgunluk gerekiyordu.
Kategori teorisinin başka türlü göremeyeceğiniz neleri görmenizi sağladığı bir örnek verebilir misiniz?
Matematikte gerçekten anlamlı bir soru şudur: İki şey ne zaman aynıdır? "Aynı" ne anlama gelir ve konuştuğunuz matematik türüne bağlı olarak bu nasıl değişir?
Örneğin, bir küme bir torba bilyeye benzer: İçinde gerçek bir yapı yoktur. Bu yüzden iki kümenin eleman sayısı aynı olduğunda onların aynı olduğunu söyleriz. Diğer yandan bir grup, elemanları belirli kurallar aracılığıyla etkileşime giren bir kümedir. Şimdi aynılık kavramınızın bu ekstra yapıyı hesaba katması gerekir.
Kategori teorisi, bu farklı aynılık kavramlarını tanımlamak için ortak bir şablon sağlar. Daha sonra bir problemi çözmeye çalışırken bu farklı bağlamlar arasında geçiş yapmak için bu şablonu kullanabilirsiniz.
Buna bir örnek verebilir misiniz?
En sevdiğim örneklerden biri topoloji dünyasından geliyor. Topolojik uzaylar adı verilen şekiller bir kategori oluşturur. Birini diğerine esnetebilirsiniz ve bu esneme, onları birbirine bağlayan morfizmdir.
Diyelim ki iki topolojik uzayınız var ve aynı olup olmadıklarını bilmek istiyorsunuz. Eğer aynıysalar, bir uzayı diğerine esnettiğinizde sahip olduğu delik sayısı değişmez. Bu uzaylarla doğrudan uğraşmak çok karmaşık olabilir, bu yüzden bunu çözmek gerçekten zor olabilir.
Ancak o delik sayısı, tamamen farklı bir kategoriden gelen bir sayı ile her zaman aynıdır.
Kategori teorisi, topolojik uzaylar kategorisinden bu diğer kategoriye atlamanızı sağlar. Örneğin, iki topolojik uzayınızı vektör uzaylarına çevirmek için "functor" (funktör) denilen bir şey kullanabilirsiniz. Eğer vektör uzaylarının boyutlarının farklı olduğunu bulursanız — ki bunu ölçmek çok daha kolaydır — o zaman iki uzayın aynı olamayacağını bilirsiniz. Ve bunu, kategori teorisini kullanarak topoloji ile lineer cebir alemleri arasında geçiş yaparak buldunuz.
Peki, dili anlamak için kategori teorisini nasıl kullanıyorsunuz?
Dil ve kategori teorisi el ele gider. Dil üzerine herhangi bir katı matematiksel model dayatmak istemiyoruz. "Kedi" kelimesinin diğer belirli kelimelerin yanında kaç kez geçtiği gibi basit frekanslarla başlayabiliriz. "Merak ____ öldürdü" dersem, bir sonraki kelimenin "helikopter" değil "kedi" olma olasılığını hesaplayabilirim.
Daha sonra her olası kelimeyi veya ifadeyi (veya aslında harf kombinasyonunu), zenginleştirilmiş kategori adı verilen daha genel bir kategori türündeki nesneler olarak düşünebiliriz. Ve her nesne, onu takip etme olasılığı ile diğer her nesneyle ilişkilidir — bunlar morfizmlerinizin zenginleştirilmiş versiyonlarıdır. Bunları, her biri bir sayı ile etiketlenmiş, kelimeler arasındaki oklar olarak düşünebilirsiniz.
Dili bu şekilde kategoriler açısından çerçevelemek neden faydalıdır?
Bir şeyi seviyorsanız, onu her yerde görmeye başlarsınız. Çok soyut olduğu ve matematik genelindeki fikirleri birbirine bağladığı için, matematikçilere tanıdık gelen pek çok şey kategori teorisi açısından yeniden ifade edilebilir.
Ancak bu daha da derine iner. Dili bir kategori olarak düşündüğünüzde, insanların geliştirdiği on yıllarca süren yapılara erişiminiz olur. Yani bu tarif kitabını karıştırabilir ve insan dilini incelemek veya büyük dil modellerinde neler olup bittiğini anlamak için yararlı olabilecek bazılarını bulabilirsiniz.
Bu tariflerden birini yeni bir şey anlamak için nasıl kullandınız?
İnsanların merak ettiği bir konu, sadece kelimelerin nasıl birleştirilme eğiliminde olduğuna dair temel bilgilerden başlayarak nasıl daha soyut kavramlar elde edebileceğinizdir. ChatGPT'den aynı zamanda evcil hayvan olan beş sürüngen listelemesini istersem, bu iki şeyi nasıl birleştireceğini nereden biliyor? Sembol dizilerinden ve bunların istatistiklerinden bu tür bir mantıksal ilişkiye nasıl geçersiniz?
Bunun için bize potansiyel bir içgörü sağlaması adına tariflerimizden birini kullanabiliriz. İlk olarak, her kelimeyi, o kelimenin içinde yer alabileceği her ifadeyi ve bu ifadenin ne kadar yaygın olduğunu yakalayan kategori-teorik bir yapı ile ilişkilendiriyoruz. Daha sonra iki farklı kelimeyle ilişkili yapıları alıp üzerlerinde çok basit işlemler yapabiliriz — bunlar yine kategori teorisinde çok klasik olan işlemlerdir.
Ve elde ettiğimiz şey, orijinal iki kelimeyi otomatik olarak ilişkilendiren bir yapıdır. Eğer orijinal kelimelerimiz "büyük" ve "sarı" olsaydı, kabaca söylemek gerekirse, "büyük sarı güneş" gibi olası ifadelere büyük sayılar, "büyük sarı yakut" gibi ifadelere ise daha küçük sayılar atayan bir şey elde ederdik. Kategori teorisinden gelen bu basit işlem size dilbilimsel olarak anlamlı bir şey veriyor; kelimeleri hem büyük hem de sarı olan şeyler kavramı gibi daha genel bir kavram oluşturmak için birleştirmenin bir yolu.
Yani kategori teorisini kullanarak, daha üst düzey kavramların gerçekten basit istatistiksel bilgilerden nasıl ortaya çıkabileceğini matematiksel olarak gösterebilirsiniz. Sanırım bu, fikirlerin nasıl oluştuğuna dair bir ipucu. "İnsan zihninde oluştuğunu" söylemek istemiyorum çünkü beynin nasıl çalıştığını kim bilir ki. Ancak bu kavramsal içerik, dilin nasıl kullanıldığına dair ham verilerin içinde mevcut çünkü başladığımız tek şey bu frekanslardı.
Ve sizce LLM'lerin (Büyük Dil Modelleri) yaptığı şey bu olabilir mi?
Bu araştırma projesine LLM'ler her şeyi ele geçirmeden önce katıldım. Ancak onlar da bizim başladığımız aynı frekanslardan başlıyorlar. Transformer'ların içinde gerçekte ne olduğunu bilmiyorum. Kimsenin bildiğinden de emin değilim. Ama belki bu bir sohbet başlatıcı olabilir.
Çalışmanız dil hakkında daha genel olarak ne ifade ediyor?
Sanırım bu, yalnızca temel sözdiziminde, yani neyin neyle gittiği gibi konularda anlamlı bilgilerin olduğunu gösteriyor. "Mavi"den sonra gelme eğiliminde olan kelimelere bakarsanız — "mavi bilye" veya "mavi gökyüzü" gibi, ama "mavi avokado" değil — "mavi" kelimesinin ne anlama geldiğine dair bir fikir edinebilir misiniz?
Dilbilim camiasında bu üzerinde uzlaşılmış bir gerçek değildir. Bir insan olarak, sayfadaki bir cümleden anlam çıkarabilirim, ancak kağıt üzerindeki kelimeler erişimim olan tek şey değil. Dünyaya erişimim var. Dilbilimciler, yazılı dilden anlam çıkarmak için bir dünya modeline ihtiyacınız olup olmadığını tartıştılar. Anlamın kelimelerin diziliminde olduğu fikri dilbilimde eski bir fikirdir, ancak son on yıllarda büyük ölçüde popülerliğini yitirmiştir.
Ancak bu çalışma — ve LLM'lerin son zamanlardaki başarısı — kelimelerin birlikte nasıl kullanıldığına dair istatistiklerde anlam olduğu fikrini destekliyor. Bu yüzden dilbilimcilerin yaptığı bu daha geniş sohbete katkıda bulunabilir.
En son makalenizde, kategori teorisini dil çalışmasına tamamen yeni kavramlar getirmek için de kullanıyorsunuz.
Doğru. Bir kategorinin büyüklüğü (magnitude) olarak adlandırılan şeyi — topolojiyle ilişkili ve kategoriyi karakterize eden bir tür boyut ölçüsü — inceliyorduk. Ortak yazarım Juan Pablo Vigneaux yakın zamanda büyüklüğü hesaplamanın yeni bir yolunu buldu. Bu yüzden, biraz ek çalışmadan sonra, bunu dilin oluşturduğu kategori üzerinde denemeye karar verdik.
Ve şaşırtıcı bir şekilde, bu kategori için büyüklük formülünün nasıl görüneceğini hesapladığımızda, bilgi teorisinde bulunan merkezi bir niceliği içeren matematiksel bir ifadeyle karşılaştık. Entropi — bir şeyin ne kadar bilgi içerdiğinin bir ölçüsü.
Bu bağlantı size ne anlatıyor?
Entropi ve topoloji arasında ilgi çekici bir bağlantıya işaret ediyor. Bu şeyler normalde birbirleriyle konuşmazlar — bilimsel manzaranın tamamen farklı uçlarındadırlar. Ancak bu bağlantı son yıllarda ortaya çıkmaya başladı ve bu başka bir örnek olabilir. Farklı hissettiren şeylerin temelden ilişkili olduğunun ortaya çıktığı bu fenomene çok ilgi duyuyorum.
Ayrıca cevaba bakıp "Vay canına, bu da ne?" diyoruz. Dil bağlamında entropi ne anlama geliyor? Bu bize ne söyleyebilir? Örneğin, büyüklüğü hesaplamak farklı dillerin yapılarını karşılaştırmanın veya insan dilini LLM tarafından üretilen dille karşılaştırmanın bir yolu olarak kullanılabilir mi?
Bu, çok uzun bir merdivenin sadece ilk basamağı gibi hissettiriyor. Yapacak çok şey var.
Çalışmanızın sizi nereye götürmesini umuyorsunuz?
Bizi matematiğin kendisine daha derin bir anlayışa götürmesini umuyorum.
Bize dil fenomenini öğretebilir, böylece çevremizdeki dünyayı daha iyi anlayabiliriz. Ancak gerçekten harika olan şey, belki de eksik olan bazı matematiksel fikirlerin olmasıdır ve bu fenomenin bu kadar gizemli ve anlaşılması zor olmasının nedeni budur.
Belki dili bu şekilde incelemek, henüz bulamadığımız bazı yeni matematiksel yapıları ortaya çıkarmamıza yardımcı olacaktır. Bu matematikte her zaman olur. Matematikçiler henüz bir ismi olmayan şeylerle, alınmaya hazır yapılarla karşılaşırlar.
Beş yıl içinde dilden ilham alan yeni matematiksel fikirlere sahip olabileceğimizi düşünüyorum.