
Yapay zekâ kullanılarak dört ayda 32.000'den fazla ortaçağ el yazması yazıya geçirildi.
Orta Çağ araştırmacıları artık CoMMA adlı bir projenin parçası olarak yalnızca dört ayda üretilen, dijitalleştirilmiş 32.763 Orta Çağ el yazmasının otomatik olarak deşifre edilmiş metinlerine erişebiliyorlar; bu, el ile yapılması imkansız olacak ölçekte el yazması metinlerini aranabilir ve analiz edilebilir kılmak için tasarlanmış büyük ölçekli bir korpustur.
Çalışma, Inria'daki (Institut national de recherche en sciences et technologies du numérique) hesaplamalı beşeri bilimler araştırmacıları tarafından Fransa ve İsviçre'deki ortaklarla birlikte yürütüldü. Inria, Fransa'nın dijital bilim ve teknoloji alanındaki ulusal araştırma enstitüsüdür ve ülke çapındaki merkezler ve ekipler aracılığıyla bilgisayar bilimleri ve uygulamalı matematik gibi alanlardaki araştırmaları desteklemektedir.
Orta Çağ el yazmalarının otomasyonu neden bu kadar zor oldu
Orta Çağ el yazısını deşifre etmek tek bir kodeks düzeyinde bile yeterince zordur. Ölçek büyüdükçe sorun daha da karmaşık hale gelir, çünkü Orta Çağ yazısı modern yazım, noktalama veya tutarlı harf formları beklentilerine uymamaktadır. Araştırmacıların belirttiği gibi, Orta Çağ'da Avrupa'daki çoğu yerel dil hala gelişmekteydi, yazım standartlaşmamıştı, yeni harf formları ortaya çıkıyordu ve el yazması sayfaları kısaltmalar, semboller ve eklemelerle doluydu.
Inria'daki ALMANACH proje ekibinde hesaplamalı beşeri bilimler araştırmacısı olan Thibault Clérice, "Orta Çağ el yazmalarını deşifre etme meselesi söz konusu olduğunda, bireysel uzmanlar bunu kendi yöntemleriyle yapıyorlardı," diye açıklıyor. "Ancak el yazması deşifresini otomatikleştirmek makine öğrenimi gerektirir ve bunun için standartlara ihtiyacınız vardır."
CATMuS: standartlaştırılmış bir eğitim korpusu oluşturma
Bunu başarmak için, 2022'de CNRS'de Orta Çağ çalışmaları ve dijital beşeri bilimler araştırmacısı olan Ariane Pinche'nin girişimiyle ilk girişim olan CATMuS başlatıldı. Pinche ve Clérice liderliğindeki ekip, güvenilir eğitim materyali olarak hizmet verebilecek büyük, tek tip bir veri kümesi oluşturmayı amaçladı.
Araştırmacılar ilk olarak zaten deşifre edilmiş veya kısmen deşifre edilmiş 300 Orta Çağ el yazmasını topladılar - toplamda yaklaşık 200.000 satır - ve bunları Orta Çağ yazım ve kısaltma uygulamalarına saygı göstermeyi amaçlayan yerleşik standartları kullanarak hizaladılar.
Clérice, "Söz konusu belgeler 8. yüzyıldan 16. yüzyıla kadar değişiyordu ve yaklaşık bir düzine farklı dilde yazılmıştı - çoğunlukla Eski Fransızca ve Latince, ancak İspanyolca dillerde, İtalyanca, Venedikçe, Felemenkçe vb. dillerde de," diye açıklıyor.
Bu standartlaştırılmış korpus mevcut olduğunda, proje bir el yazısı metin tanıma modeli eğitebildi. Yaklaşım, EPHE–Université PSL'de geliştirilen ve deşifre kampanyalarını yönetmek ve bir segmentasyon/deşifre motoru olarak Kraken'ı kullanmak için tasarlanmış bir iş akışı olan eScriptorium ve Kraken dahil olmak üzere deşifre araçlarına dayanmaktadır.
Inria'nın açıklaması iki pratik önceliğe vurgu yapıyor: verimlilik ve kısıtlama. Model, enerji açısından verimli ve - daha da önemlisi - Orta Çağ yazımı, kısaltmaları veya alışılmadık el yazmalarıyla uğraşırken kendinden emin ama yanlış çıkarımlara yol açabilen geniş dil "anlayışı" denemek yerine, sayfadakini tanımaya daha fazla odaklanmış olarak sunulmaktadır.
CoMMA: modeli devasa ölçekte uygulama
CATMuS temeli oluşturdu, ancak ekip eğitilmiş modeli gerçek dünya, yüksek hacimli deşifre için kullanmak istedi. Clérice, "İki yıldan fazla el yazması toplama ve deşifre etme ve ardından modeli eğitme sürecinden sonra, tek istediğimiz onu kendimiz kullanmaktı!" diye hatırlıyor.
Bu bir sonraki aşama, genişletilmiş bir ekiple 2024'te başlatılan CoMMA (Corpus of Multilingual Medieval Archives) oldu. Clérice, modelleme ve hesaplama yönetimine devam etti, ona Almanach ekip lideri Benoît Sagot katıldı, Hassen Aguili ise arayüz tarafına katkıda bulundu.
Temel bir kolaylaştırıcı, dijitalleştirilmiş el yazmalarının büyük kataloglarına erişimdi. Ekip, Bibliothèque nationale de France dahil olmak üzere birden fazla kurumdan dijitalleştirilmiş el yazması varlıklarına ve meta verilere bağlantıları bir araya getiren Biblissima+'a başvurdu. Bu altyapı kurulduktan sonra, yüzlerden toplam 32.763 el yazmasına ölçeklendiler; bunların çoğu Eski Fransızca ve Latinceydi ve bunları dört ayda deşifre ettik.
Inria, sistemin iki bileşeni birleştirdiğini açıklıyor: bir algoritma el yazması sayfasının farklı unsurlarını (ana metin, notlar, illüstrasyonlar vb.) tanımlar ve ayırır, diğeri ise - CATMuS sırasında geliştirilen - metnin kendisinin deşifresini üstlenir.
Doğruluğu kontrol etme ve sınırları anlama
Ekip, 670 el yazmasındaki art arda üç satırı manuel olarak kontrol etti ve %9,7 hata oranı buldu. Bazı hatalar, el yazmaları eğitim için kullanılan malzemeden daha eski olduğunda ortaya çıktı; diğerleri ise, özellikle yazıcılar el yazısı kullanıldığında bazı el yazılarını tanımanın zorluğundan kaynaklanmaktadır.
Süreci ve sınırlamalarını ana hatlarıyla belirten bir makale yolda ve ekip modelin hata oranını daha da düşürme olasılığını göz ardı etmedi. Thibault Clérice, "Değdiğince," diyor. "Hata oranını yalnızca %1 azaltmak için işlem süresini ikiye katlamak gerçekten değmezdi."
Clérice için daha geniş nokta aynı zamanda metodolojiktir: bu tür bir çalışma, Orta Çağ araştırmacıları ve teknologların birlikte çalışmasına bağlıdır. Projenin ifadesiyle: "Dijital uzmanlık tek başına, işlediğimiz el yazmalarını ve onlara uygulanması gereken süreçleri bu kadar iyi anlamamıza izin vermezdi."
Orta Çağ araştırmacıları CoMMA ile ne yapabilir?
CoMMA, teknik bir gösterimden daha fazlası olarak çerçevelenmiştir. Korpüs, aranabilir ve tutarlı bir şekilde deşifre edilmiş (orijinal yazım ve kısaltmalara saygı gösterirken) olduğundan, Orta Çağ yazma alışkanlıklarının, düzen uygulamalarının, kısaltma sistemlerinin ve dilsel değişimin büyük ölçekli incelenmesi için bir platform sunar.
Örneğin, araştırmacılar kaydedilen sözde kelimelerin - karakter gruplarının - muazzam bir şekilde arttığına dikkat çekiyorlar. Daha önce, Eski Fransızca el yazmalarının en büyük korpusu 11 milyon sözde kelime içeriyordu, oysa CoMMA 516 milyona ulaştı. Latince için ise 226 milyondan 2,7 milyara yükseldi.
Tours Üniversitesi Dijital Beşeri Bilimler Profesörü Elena Pierazzo da sunulan olanaklar konusunda heyecanlı. "Bu korpus, metinsel verileri işleme şeklimizi değiştirecek," diyor, "orijinal yazım ve kısaltmalara saygı duyan böylesine büyük miktarda veri, yazma alışkanlıklarını incelemek için her türlü yolu açıyor. CoMMA, istatistiksel verilerin kullanımı yoluyla dillerin, lehçeler de dahil olmak üzere evrimini anlamamıza yardımcı olacak. Bu korpus ayrıca daha önce araştırmacılar tarafından gözden kaçırılan ve şimdi dönem veya temaya göre aranarak kolayca erişilebilen metinlere de ışık tutuyor."
Disiplinlerarası bir araç - ve genişletme planları
Dijital bir bakış açısıyla CoMMA, ön modern kaynaklar üzerine yapay zeka araştırmaları için neyin mümkün olduğunu da değiştiriyor. Korpüs artık eski metinlerin analizi için özelleştirilmiş yapay zekayı eğitmek için kullanılabilir, bu da daha önce yetersiz veri nedeniyle imkansızdı. Ve Elena Pierazzo'nun vurgulamakta ısrarcı olduğu gibi: "CoMMA, beşeri bilimler içindeki disiplinler arasındaki sınırları yeniden şekillendirecek. Daha önce yolları asla kesişmeyecek olan sanat tarihi, tıp veya felsefe uzmanları artık Eski Fransızca ve Latince'de mevcut olan hemen hemen tüm bilgileri kapsayan bu disiplinlerarası aracı kullanarak birlikte çalışabilecekler."
Ekip şimdiden Eski Fransızca ve Latince'nin ötesine bakıyor. Biblissima+'tan yeni metinler alarak korpusu diğer dillere açma planları mevcut. Thibault Clérice, "İspanyolca veya İtalyanca dillerin ve onları inceleyen araştırmacıların modelimizden alınan deşifrelerden faydalanmasının bir nedeni yok," diye sonuçlandırıyor. Orta Çağ araştırmacıları için bir sonraki keşif dalgası, yeni el yazmaları bulmaktan değil, nihayet onları ölçekte arama ve karşılaştırma yeteneğinden gelebilir.