Bugün öğrendim ki: ChatGPT gibi yapay zeka modellerinin dili gerçek bir zihin gibi anlamadığını, verilerdeki kalıplara dayanarak bir sonraki kelimeyi tahmin ettiğini biliyoruz.
Büyük Dil Modeli (BDM) Türü
Mantık öğrenme makinesiyle karıştırılmamalıdır.
"BDM" buraya yönlendirir. Diğer kullanımlar için bkz. BDM (ayrıntılandırma).
Büyük bir dil modeli (BDM), doğal dil işleme görevleri, özellikle dil üretimi için tasarlanmış, çok miktarda metin üzerinde öz-gözetimli makine öğrenmesi ile eğitilmiş bir dil modelidir.
En büyük ve en yetenekli BDM'ler, büyük ölçüde ChatGPT, Gemini veya Claude gibi üretken sohbet robotlarında kullanılan üretken önceden eğitilmiş dönüştürücülerdir (GPT'ler). BDM'ler belirli görevler için ince ayarlanabilir veya istem mühendisliğiyle yönlendirilebilir.[1] Bu modeller, insan dili korpuslarında[2] bulunan sözdizimi, anlambilim ve ontolojilerle ilgili tahmine dayalı gücü edinirler, ancak eğitildikleri verilerde bulunan yanlışlıkları ve önyargıları da miras alırlar.[3]
Tarih
[düzenle]
2017'de dönüştürücü tabanlı modellerin ortaya çıkmasından önce, bazı dil modelleri o dönemin hesaplama ve veri kısıtlamalarıyla ilgili olarak büyük kabul ediliyordu. 1990'ların başlarında, IBM'in istatistiksel modelleri, makine çevirisi için kelime hizalama tekniklerinde öncülük ederek, korpus tabanlı dil modellemesi için zemin hazırladı. 2001'de, Kneser-Ney yumuşatmasını kullananlar gibi, 300 milyon kelime üzerinde eğitilmiş yumuşatılmış bir n-gram modeli, o zamanlar kıyaslama testlerinde en iyi karmaşıklığı elde etti.[4] 2000'li yıllarda, yaygın internet erişiminin artmasıyla birlikte, araştırmacılar istatistiksel dil modellerini eğitmek için web'den ("korpus olarak web"[5]) büyük metin veri kümeleri derlemeye başladılar.[6][7]
2012 civarında görüntü sınıflandırmasında derin sinir ağlarının atılımının ardından,[8] benzer mimariler dil görevleri için uyarlandı. Bu değişim, kelime gömmelerinin (örneğin, 2013'te Mikolov tarafından Word2Vec) ve LSTM kullanan diziye-dizi (seq2seq) modellerinin geliştirilmesiyle belirlendi. 2016'da Google, istatistiksel ifade tabanlı modelleri derin tekrarlayan sinir ağlarıyla değiştirerek çeviri hizmetini sinirsel makine çevirisine (NMT) geçirdi. Bu erken NMT sistemleri, dönüştürücülerin icadından önce geldikleri için LSTM tabanlı kodlayıcı-kod çözücü mimariler kullandı.
2017 NeurIPS konferansında, Google araştırmacıları "Dikkat Her Şeydir" başlıklı önemli çalışmalarında dönüştürücü mimarisini tanıttılar. Bu çalışmanın amacı, 2014 seq2seq teknolojisini geliştirmekti[9] ve esas olarak 2014'te Bahdanau vd. tarafından geliştirilen dikkat mekanizmasına dayanıyordu.[10] Ertesi yıl 2018'de BERT tanıtıldı ve hızla "her yerde" oldu.[11] Orijinal dönüştürücü hem kodlayıcı hem de kod çözücü bloklara sahip olsa da, BERT yalnızca kodlayıcıya sahip bir modeldir. GPT gibi yalnızca kod çözücü modellerinin yeteneklerindeki hızlı gelişmelerin ardından, istem yoluyla görevleri çözme[12] yeteneğinin ardından BERT'in akademik ve araştırma kullanımı 2023 yılında azalmaya başladı.
2018'de yalnızca kod çözücü olan GPT-1 tanıtılmış olsa da, OpenAI'nın başlangıçta kötü niyetli kullanım korkusuyla kamuoyuna açıklanmasını çok güçlü bulduğunu iddia etmesi nedeniyle 2019'daki GPT-2 yaygın ilgiyi çekti.[13] 2020'deki GPT-3 bir adım daha ileri gitti ve 2025 itibariyle yalnızca API aracılığıyla kullanılabilir, modeli yerel olarak çalıştırmak için indirme seçeneği yoktur. Ancak 2022'deki tüketiciye yönelik sohbet robotu ChatGPT, geniş medya kapsamı ve kamuoyu dikkatini çekti.[14] 2023 GPT-4, artan doğruluğu ve çok modlu yetenekleri için "kutsal kâse" olarak övgü aldı.[15] OpenAI, GPT-4'ün üst düzey mimarisini ve parametre sayısını açıklamadı. ChatGPT'nin piyasaya sürülmesi, robotik, yazılım mühendisliği ve toplumsal etki çalışmaları da dahil olmak üzere bilgisayar biliminin çeşitli araştırma alt alanlarında BDM kullanımında bir artışa yol açtı.[12] 2024 yılında OpenAI, nihai cevabı vermeden önce uzun bir düşünce zinciri üreten akıl yürütme modeli OpenAI o1'i piyasaya sürdü.[16] OpenAI'nin GPT serisinin parametre sayılarıyla karşılaştırılabilir parametre sayısına sahip birçok BDM geliştirilmiştir.[17]
2022'den beri, özellikle öncelikle BLOOM ve LLaMA ile açık kaynak kodlu modeller popülerlik kazanıyor, ancak her ikisinin de kullanım alanı konusunda kısıtlamaları var. Mistral AI'nin Mistral 7B ve Mixtral 8x7b modelleri daha izin verici Apache Lisansına sahiptir. Ocak 2025'te DeepSeek, OpenAI o1 ile karşılaştırılabilir performans gösteren ancak çok daha düşük maliyetli 671 milyar parametreli açık ağırlıklı bir model olan DeepSeek R1'i piyasaya sürdü.[18]
2023'ten beri, birçok BDM, görüntü veya ses gibi diğer veri türlerini de işleyebilen veya üretebilen çok modlu olacak şekilde eğitilmiştir. Bu BDM'ler büyük çok modlu modeller (BMM) olarak da adlandırılır.[19]
2024 itibariyle, en büyük ve en yetenekli modellerin tamamı dönüştürücü mimarisine dayanmaktadır. Bazı yeni uygulamalar, tekrarlayan sinir ağı varyantları ve Mamba (bir durum uzayı modeli) gibi diğer mimarilere dayanmaktadır.[20][21][22]
Veri Kümesi Ön İşleme
[düzenle]
Belirteçleme
[düzenle]
Makine öğrenimi algoritmaları metin yerine sayıları işlediğinden, metnin sayılara dönüştürülmesi gerekir. İlk adımda bir kelime hazinesi belirlenir, ardından her kelime hazinesi girişine keyfi ancak benzersiz bir şekilde tamsayı indeksleri atanır ve son olarak tamsayı indeksine bir gömme ilişkilendirilir. Algoritmalar arasında bayt çift kodlaması (BPE) ve WordPiece bulunur. Ayrıca, BERT'te kullanılan maskeleyen belirteç (MASK) ve kelime dağarcığında görünmeyen karakterler için [UNK] ("bilinmeyen") gibi kontrol karakterleri görevi gören özel belirteçler de vardır. Ayrıca, özel metin biçimlendirmesini belirtmek için bazı özel semboller kullanılır. Örneğin, "Ġ", RoBERTa ve GPT'de öncesindeki boşluğu gösterir. "##", BERT'te önceki kelimenin devam ettiğini gösterir.[23]
Örneğin, GPT-3 (Eski) tarafından kullanılan BPE belirteçleyici, belirteçleyiciyi şu şekilde böler: metinler -> sayısal "belirteçler" dizisi olarak
belirteçleyici: metinler -> sayısal " t ok ens " dizisi
Belirteçleme ayrıca veri kümelerini de sıkıştırır. BDM'lerin genellikle girdinin düzensiz olmayan bir dizi olması gerekmesi nedeniyle, daha kısa metinler en uzun metinle eşleşene kadar "dolgusuz" olmalıdır. Ortalama olarak kelime başına kaç belirteç gerektiği, veri kümesinin diline bağlıdır.[24][25]
BPE
[düzenle]
Ana madde: Bayt çift kodlaması
Örnek olarak, bayt çift kodlamasına dayalı bir belirteçleyiciyi ele alalım. İlk adımda, tüm benzersiz karakterler (boşluklar ve noktalama işaretleri dahil) başlangıç n-gramları kümesi (yani başlangıç tek-gramları kümesi) olarak işlenir. Ardından, en sık yan yana gelen karakter çifti bir iki-grama birleştirilir ve çiftin tüm örnekleri bununla değiştirilir. En sık birlikte meydana gelen (önceden birleştirilmiş) n-gramlarının yan yana gelen çiftlerinin tüm oluşumları daha sonra daha uzun n-gramlara birleştirilir, ta ki önceden belirlenmiş boyutta bir kelime hazinesi elde edilene kadar (GPT-3 durumunda, boyut 50257'dir).[26] Bir belirteçleyici eğitildikten sonra, başlangıç tek-gramları kümesinde görünmeyen karakterler içermediği sürece, herhangi bir metin bununla belirteçlenebilir.[27]
Sorunlar
[düzenle]
Esas olarak İngilizce korpuslardan çıkarılan frekanslara dayalı bir belirteç kelime hazinesi, ortalama bir İngilizce kelime için mümkün olduğunca az belirteç kullanır. Bununla birlikte, böyle İngilizce optimize edilmiş bir belirteçleyici tarafından kodlanan başka bir dildeki ortalama kelime, optimal olmayan miktarda belirteçlere bölünür. GPT-2 belirteçleyici, bazı diller için kelime başına 15 kata kadar daha fazla belirteç kullanabilir, örneğin Myanmar'dan Shan dili. Portekizce ve Almanca gibi daha yaygın diller bile İngilizceye göre "%50 prim" almaktadır.[25]
Açgözlü belirteçleme ayrıca metin tamamlamada ince sorunlara neden olur.[28]
Veri Kümesi Temizleme
[düzenle]
Ana madde: Veri temizleme
BDM'lerin eğitilmesi bağlamında, veri kümeleri genellikle düşük kaliteli, çoğaltılmış veya zehirli verileri kaldırarak temizlenir.[29] Temizlenen veri kümeleri, eğitim verimliliğini artırabilir ve alt akış performansını iyileştirebilir.[30][31] Eğitilmiş bir BDM, daha fazla BDM eğitmek için veri kümelerini temizlemek için kullanılabilir.[32]
Web'de BDM tarafından oluşturulan içerik oranının artmasıyla birlikte, gelecekte veri temizleme, bu tür içeriği filtrelemeyi içerebilir. BDM tarafından oluşturulan içerik, içerik insan metnine benzerse (filtrelemeyi zorlaştırır) ancak düşük kalitedeyse (üzerinde eğitilmiş modellerin performansını düşürür) bir sorun oluşturabilir.[1]
Sentetik Veri
[düzenle]
Ana madde: Sentetik veri
En büyük dil modellerinin eğitilmesi, doğal olarak mevcut olandan daha fazla dilbilimsel veri gerektirebilir veya doğal olarak oluşan verilerin kalitesi yetersiz olabilir. Bu durumlarda sentetik veri kullanılabilir. Microsoft'un Phi serisi BDM'ler, başka bir BDM tarafından oluşturulan ders kitabı benzeri veriler üzerinde eğitilmiştir.[33]
Eğitim
[düzenle]
Ayrıca bkz.: İnce ayar (makine öğrenimi)
Bir BDM, dil üzerinde eğitilmiş bir temel model türüdür (büyük X modeli).[34] BDM'ler farklı şekillerde eğitilme olabilir. Özellikle, GPT modelleri önce büyük miktarda veri üzerinde bir sonraki kelimeyi tahmin etmek üzere önceden eğitildikten sonra ince ayarlanır.[35]
Ön Eğitim Maliyeti
[düzenle]
"Büyük dil modeli"ndeki "büyük" niteleyici, "büyük" olarak nitelendirilmesi için gereken parametre sayısı için kesin bir eşik olmadığı için doğal olarak belirsizdir. Zaman geçtikçe, daha önce "büyük" olarak kabul edilenler gelişebilir. 2018'in GPT-1'i, yalnızca 117 milyon parametreye sahip olmasına rağmen genellikle ilk BDM olarak kabul edilir. Büyük modellere yönelik eğilim, büyük dil modelleri listesinde görülebilir.
Teknoloji ilerledikçe, giderek daha büyük modellere büyük meblağlar yatırıldı. En büyük modelleri eğitmek için önemli bir altyapı gereklidir.[36][37][38] Örneğin, 2019'da GPT-2'nin (yani 1,5 milyar parametreli bir model) eğitiminin maliyeti 50.000 ABD doları iken, 2022'de PaLM'nin (yani 540 milyar parametreli bir model) eğitiminin maliyeti 8 milyon ABD doları ve 2021'de Megatron-Turing NLG 530B'nin maliyeti yaklaşık 11 milyon ABD dolarıydı.[39]
Dönüştürücü tabanlı BDM için eğitim maliyeti, çıkarım maliyetinden çok daha yüksektir. Bir belirteç üzerinde eğitmek için parametre başına 6 FLOP maliyeti varken, bir belirteç üzerinde çıkarım yapmak için parametre başına 1 ila 2 FLOP maliyeti vardır.[40]: §2.1; Tablo 1
İnce Ayar
[düzenle]
İnce ayarlanmadan önce, çoğu BDM bir sonraki belirteç tahminleyicileridir. İnce ayar, BDM'nin asistan rolünü oynadığı bir konuşma formatı benimsemesini sağlayabilir.[41] İnsan tercihlerini aşılamak ve BDM'leri daha "yardımcı, dürüst ve zararsız" hale getirmek için insan geri bildirimlerinden takviyeli öğrenme (RLHF) veya anayasal yapay zekâ gibi teknikler kullanılabilir.[42][41]
Talimat İnce Ayarlama
[düzenle]
2021'de Google Araştırma, geniş bir talimat yelpazesini takip etmek üzere ince ayarlanmış yeni bir model olan FLAN'ı piyasaya sürdü. Hiçbir örnek gerektirmeden sözel bir talimat verilen bir görevi yerine getirebilirdi.[43] 2022'de OpenAI, talimatları takip etmek üzere benzer şekilde ince ayarlanmış GPT-3.5'in bir sürümü olan InstructGPT'yi gösterdi. Cümleyi tamamlamak yerine (örneğin, "Hamlet'te temsil edilen ana temalar hakkında bir deneme yazın" talimatını, korpusdaki bu metinsel dizinin sıklığına dayanarak "Denemeyi 17 Mart'tan sonra gönderirseniz, her gecikme günü için notunuz %10 azaltılacaktır" ile takip etmek), talimatı takip eden modellerin aslında talimata göre hareket etme eğilimi vardır.[41]
İnsan Geri Bildirimlerinden Takviyeli Öğrenme
[düzenle]
RLHF, insanların hangi metni tercih ettiğini tahmin etmek için bir ödül modeli eğitmeyi içerir. Daha sonra, BDM bu ödül modelini daha iyi karşılamak için takviyeli öğrenme yoluyla ince ayarlanabilir. İnsanlar genellikle doğru, yardımcı ve zararsız cevapları tercih ettiklerinden, RLHF bu tür cevapları tercih eder.[41]
Mimarisi
[düzenle]
BDM'ler genellikle, modelin birbirlerinden uzaklıklarına bakılmaksızın bir dizideki tüm öğeler arasındaki ilişkileri aynı anda işlemesini sağlayan bir dikkat mekanizmasından yararlanan dönüştürücü mimarisine dayanır.[44]
Dikkat Mekanizması ve Bağlam Penceresi
[düzenle]
Ayrıca bkz: Dikkat (makine öğrenimi)
Bağlam penceresi kapsamında hangi belirteçlerin birbirleriyle ilgili olduğunu bulmak için, dikkat mekanizması her bir belirteç için, daha doğrusu gömmeleri için, her biri kendi yumuşak ağırlıklarını hesaplamak için kendi "ilgisine" sahip birden fazla dikkat başlığı kullanarak "yumuşak" ağırlıklar hesaplar. Örneğin, küçük (yani 117 milyon parametre boyutunda) GPT-2 modelinin on iki dikkat başlığı ve yalnızca 1k belirteçlik bir bağlam penceresi vardı.[46] Orta sürümünde 345 milyon parametre vardır ve her biri 12 dikkat başlığına sahip 24 katman içerir. Gradyan inişiyle eğitimde 512'lik bir toplu boyut kullanıldı.[27]
Şubat 2024'te sunulan Google'ın Gemini 1.5 gibi en büyük modellerin 1 milyona kadar (10 milyonluk bağlam penceresi de "başarıyla test edildi") bağlam penceresi boyutu olabilir.[47] Büyük bağlam pencerelerine sahip diğer modeller arasında, 200k belirtece kadar bağlam penceresine sahip Anthropic'in Claude 2.1'i bulunur.[48] Bu maksimumun giriş belirteç sayısına atıfta bulunduğunu ve çıkış belirteçlerinin maksimum sayısının girişten farklı olduğunu ve genellikle daha küçük olduğunu unutmayın. Örneğin, GPT-4 Turbo modelinin maksimum 4096 belirteç çıkışı vardır.[49]
Modelin bir sonraki cevabını oluştururken dikkate alabileceği bir konuşmanın uzunluğu da bağlam penceresinin boyutuyla sınırlıdır. Örneğin, ChatGPT ile yapılan bir konuşmanın uzunluğu bağlam penceresinden uzunsa, bir sonraki cevabı oluştururken yalnızca bağlam penceresi içindeki bölümler dikkate alınır veya modelin konuşmanın çok uzak bölümlerini özetlemek için bir algoritma uygulaması gerekir.
Bağlam penceresini büyütmenin dezavantajları arasında daha yüksek hesaplama maliyeti ve olası olarak yerel bağlama odaklanmanın sulanması bulunurken, küçültmek modelin önemli uzun menzilli bir bağımlılığı kaçırmasına neden olabilir. Bunları dengelemek, deney ve alan özel hususlar meselesidir.
Bir model, eğitim veri kümesinden bir segment verildiğinde, segmentin nasıl devam ettiğini veya segmentte neyin eksik olduğunu tahmin etmek üzere önceden eğitilmiş olabilir.[50] Bu şu şekilde olabilir:
otomatik gerilemeli (yani GPT'lerin yaptığı gibi segmentin nasıl devam ettiğini tahmin etmek): örneğin "Yemek yemeyi severim" segmentini verildiğinde, model "dondurma" veya "suşi" tahmin eder.
"maskelenmiş" (yani BERT'in yaptığı gibi segmentten eksik olan parçaları doldurmak): örneğin, "Yemek yemeyi [__] [__] dondurma" segment verildiğinde, model "yemek" ve "dondurma" kelimelerinin eksik olduğunu tahmin eder.
Modeller, eğitim korpusunda ardışık olarak görünüp görünmediklerini tahmin etmesi gereken cümle çiftlerinin sunulduğu Bir Sonraki Cümle Tahmini (NSP) gibi veri dağılımının anlayışını test eden yardımcı görevler üzerinde eğitilmiş olabilir.[51] Eğitim sırasında, eğitimi dengelemek için düzenleme kaybı da kullanılır. Ancak düzenleme kaybı genellikle test ve değerlendirme sırasında kullanılmaz.
Uzman Karışımı
[düzenle]
Ana madde: Uzman karışımı
Uzman karışımı (MoE), birden çok uzmanlaşmış sinir ağının ("uzman") birlikte çalıştığı ve her girdiyi en uygun uzmana (uzmanlara) yönlendiren bir geçit mekanizmasına sahip bir makine öğrenimi mimarisidir. Uzman karışımları, çıkarım maliyetlerini azaltabilir, çünkü her girdi için yalnızca parametrelerin bir kısmı kullanılır. Yaklaşım 2017'de Google araştırmacıları tarafından tanıtıldı.[52][53][54]
Parametre Boyutu
[düzenle]
Tipik olarak, BDM'ler tek veya yarım hassasiyetli kayan nokta sayıları (float32 ve float16) ile eğitilmektedir. Bir float16'nın 16 biti veya 2 baytı vardır ve bu nedenle bir milyar parametre 2 gigabayt gerektirir. En büyük modeller tipik olarak 100 milyar parametreye sahiptir ve yüklenmesi 200 gigabayt gerektirir, bu da onları çoğu tüketici elektroniğinin dışına iter.[55]
Nicemleme
[düzenle]
Eğitim sonrası nicemleme[56], performansının çoğunu koruyarak eğitilmiş bir modelin parametrelerinin hassasiyetini düşürerek yer gereksinimini azaltmayı amaçlar.[57][58] Nicemleme, nicemleme parametreleri önceden (tipik olarak bir kalibrasyon aşamasında) belirlenirse statik nicemleme ve nicemleme çıkarım sırasında uygulanırsa dinamik nicemleme olarak sınıflandırılabilir. Nicemlemenin en basit biçimi, tüm parametreleri verilen bir bit sayısına kadar keser: bu hem statik hem de dinamik nicemleme için geçerlidir, ancak çok fazla hassasiyet kaybeder. Dinamik nicemleme, katman başına farklı bir nicemleme kod kitabı kullanılmasına, ya bir değer arama tablosu ya da doğrusal bir eşleme (ölçekleme faktörü ve önyargı) kullanılmasına izin verir; bunun maliyeti, düşük hassasiyetli aritmetik kullanmaktan elde edilebilecek hız iyileştirmelerinden feragat etmektir.[59]
Nicemlenmiş modeller genellikle, ağırlıkların değiştirilmesiyle (örneğin, ince ayar) yalnızca orijinal modele uygulanan dondurulmuş olarak görülür. Bununla birlikte, düşük sıra uyarlaması kullanarak nicemlenmiş modelleri ince ayarlamak yine de mümkündür.[60] Ayrıca, nicemlenmiş modellerden hassasiyet kaybını azaltmak için daha gelişmiş yöntemlerin de eğitime benzer bir adıma ihtiyacı vardır:[61]
Nicemleme farkında eğitim (QAT, 2020), ana ağın eğitimine nicemleme kaybının bir temsilini ekler, bu da sıradan geri yayılım kullanılarak geliştirilebilir. Eğitmek pahalıdır ancak yalnızca BDM'ler değil, geniş bir model yelpazesi üzerinde etkilidir.[62]
GPT Nicemleme (GPTQ, 2022), ağırlıklar için sınırlı sayıda olası değer verildiğinde her katmanın çıktısının karesel hatasını en aza indirir.
Aktivasyon farkında nicemleme (AWQ, 2023), en önemli ağırlıkları fp16'da tutar. Seyrek Nicemlenmiş Gösterim (SpQR) ayrıca özellikle önemli parametreleri ("aykırı ağırlıklar") daha yüksek hassasiyette tutar.[63]
Unsloth'un "dinamik" yöntemi (2024), yukarıdaki dinamik nicemlemeyle karıştırılmamalıdır, daha yüksek hassasiyette tutulacak önemli katmanları seçer.[64]
Apple'dan damıtılan ağırlık nicemlemesi (DWQ, 2025), iyi ölçekleme faktörleri ve önyargılar bulmak için damıtmayı kullanır.
Genişletilebilirlik
[düzenle]
Temel metin oluşturmanın ötesinde, harici araçlar ve veri kaynaklarının kullanımı, karmaşık problemler üzerinde geliştirilmiş akıl yürütme ve istem yöntemleri aracılığıyla geliştirilmiş talimat izleme veya özerklik dahil olmak üzere BDM yeteneklerini genişletmek için çeşitli teknikler geliştirilmiştir.
İstem Mühendisliği
[düzenle]
2020'de OpenAI araştırmacıları, kısmen RLHF tekniği sayesinde, yeni modelleri GPT-3'ün, girdi verilerinde örnek olarak birkaç tur S ve C (veya başka bir görev türü) verildiğinde hangi formatı kullanacağını anlayabileceğini gösterdi. Az örnekli istemleme olarak adlandırılan bu teknik, BDM'lerin ince ayar gerektirmeden herhangi bir göreve uyarlanmasını sağlar.[1] Ayrıca 2022'de, temel GPT-3 modelinin kullanıcı girişine dayalı bir talimat üretebileceği bulundu. Üretilen talimat ve kullanıcı girişi daha sonra, "Talimat: [...], Girdi: [...], Çıktı:" biçiminde modelin başka bir örneğine girdi olarak kullanılır. Diğer örnek, çıktıyı tamamlayabilir ve bunu yaparken genellikle doğru cevabı üretir. "Kendini eğitme" yeteneği, BDM'lerin kendilerini doğru bir cevaba doğru yönlendirmelerini sağlar.[65]
Diyalog İşleme (Sohbet Robotu)
[düzenle]
Bir BDM, konuşma için uzmanlaştırılarak bir sohbet robotuna veya "diyalog asistanına" dönüştürülebilir. Özünde, kullanıcı girişi "S:" veya "Kullanıcı:" gibi bir işaretçiyle öne eklenir ve BDM'den sabit bir "C:" veya "Asistan:"dan sonra çıktıyı tahmin etmesi istenir. Bu tür bir model, GPT-3.5'e dayalı olarak diyalog biçimli metin kabul etmek ve üretmek üzere ince ayarlanmış InstructGPT'nin kardeş modeli olan ChatGPT ile 2022'de ticari olarak kullanılabilir hale geldi. Benzer şekilde kullanıcı talimatlarını da izleyebilirdi.[66] Kullanıcı ve Asistan satırlarının akışından önce, bir sohbet bağlamı genellikle kullanıcının girişinden daha yüksek bir yetki aktarmak için "geliştirici" veya "sistem" adlı bir rolden gelen birkaç genel talimat satırıyla başlar. Buna "sistem istemi" denir.[67][68]
Getirme ile Artırılmış Oluşturma
[düzenle]
Getirme ile artırılmış oluşturma (RAG), BDM'leri belge getirme sistemleriyle entegre ederek geliştirmek için kullanılan bir yaklaşımdır. Bir sorgu verildiğinde, en ilgili belgeleri getirmek için bir belge getirici çağrılır. Bu genellikle sorguyu ve belgeleri vektörlere kodlayarak ve ardından vektörleri (genellikle bir vektör veritabanında depolanan) sorgu vektörüne en benzer olan belgeleri bularak yapılır. BDM daha sonra hem sorgudan hem de getirilen belgelerden alınan bağlamdan yola çıkarak bir çıktı oluşturur.[69]
Araç Kullanımı
[düzenle]
Araç kullanımı, BDM'lerin harici sistemler, uygulamalar veya veri kaynaklarıyla etkileşim kurmasını sağlayan bir mekanizmadır. Örneğin, bir API'den gerçek zamanlı bilgi getirmeyi veya kod yürütmeyi sağlayabilir. BDM'den ayrı bir program, BDM'nin çıktı akışını özel bir araç çağırma sözdizimi için izler. Bu özel belirteçler göründüğünde, program buna göre aracı çağırır ve çıktısını BDM'nin giriş akışına geri besler.[70]
Erken araç kullanan BDM'ler belirli araçların kullanımı konusunda ince ayarlanmıştır. Ancak, API belgelerini okuma ve API'yi doğru bir şekilde çağırma yeteneği için BDM'leri ince ayarlamak, bir BDM'ye erişilebilen araç yelpazesini büyük ölçüde genişletmiştir.[71][72] Sistem isteminde mevcut araçları tanımlamak da bir BDM'nin araç kullanabilmesini sağlayabilir. Çevrimiçi olarak birden fazla araç türünü kullanması için ChatGPT'ye (GPT-4) talimat veren bir sistem istemi bulunabilir.[73]
Hafıza
[düzenle]
Bir BDM'nin yalnızca mevcut konuşmaya erişimi vardır, ancak harici bir araç olarak uzun süreli bellek verilebilir. Bellek oluşturma, BDM'nin harici depolamaya yazmak için aracı çağırdığında gerçekleşir. Getirme, her konuşmanın başına eklenen tam bir bağlam olarak veya isteğe bağlı olarak çağrılan başka bir "araç" olarak gerçekleşebilir. Getirme aracı basit bir anahtar-değer deposuna veya getirme ile artırılmış oluşturma gibi anlamsal aramaya dayalı olabilir.[74]
Özerklik
[düzenle]
Ana madde: Yapay zekâ aracı
Bir BDM, dinamik ortamlarla etkileşim kurma, geçmiş davranışları hatırlama ve gelecekteki eylemleri planlama yeteneğinden yoksun olduğu için tipik olarak kendi başına özerk bir arac değildir. Ancak destekleyici unsurlar eklenerek bir araca dönüştürülebilir: bir aracın rolü (profili) ve çevresi BDM'ye ek girdi olabilirken, bellek bir araç olarak entegre edilebilir veya ek girdi olarak sağlanabilir. BDM'nin eylemler planlamasını sağlamak için talimatlar ve girdi kalıpları kullanılır ve potansiyel olarak bu eylemleri gerçekleştirmek için araç kullanımı kullanılır.[75]
"Sebep + Eylem" kelimelerinin bir birleşimi olan ReAct deseni, BDM'yi bir planlayıcı olarak kullanarak bir BDM'den bir araç oluşturur. BDM'den "düşüncelerini yüksek sesle söylemesi" istenir. Spesifik olarak, dil modeline ortamın metinsel açıklaması, bir hedef, olası eylemlerin bir listesi ve bugüne kadarki eylemlerin ve gözlemlerin kaydı verilir. Bir eylem oluşturmadan önce bir veya daha fazla düşünce üretir ve bu daha sonra ortamda yürütülür.[76]
DEPS ("Tanımla, Açıkla, Planla ve Seç") yönteminde, bir BDM önce görüntü açıklamaları aracılığıyla görsel dünyaya bağlanır. Daha sonra, önceden eğitilmiş bilgisine ve aldığı çevresel geri bildirime dayanarak karmaşık görevler ve davranışlar için planlar üretmesi istenir.[77]
Reflexion yöntemi[78], birden fazla bölüm üzerinde öğrenen bir araç oluşturur. Her bölümün sonunda, BDM'ye bölümün kaydı verilir ve bir sonraki bölümde daha iyi performans göstermesine yardımcı olacak "öğrenilen dersler" düşünmesi istenir. Bu "öğrenilen dersler" uzun süreli bellek biçimi olarak saklanır ve bir sonraki bölümlerde araca verilir.[78]
Monte Carlo ağaç arama, bir BDM'yi açılış öngörüsü olarak kullanabilir. Programatik bir dünya modeli mevcut olmadığında, bir BDM'ye ortamın bir açıklamasıyla dünya modeli görevi görür.[79]
Açık uçlu keşif için, bir BDM, bir ödül sinyali olarak kullanılabilen normal (BDM olmayan) bir takviyeli öğrenme aracını yönlendirmek için "ilginçlik" gözlemlerini puanlamak için kullanılabilir.[80] Alternatif olarak, müfredat öğrenmesi için giderek daha zor görevler önerebilir.[81] Bireysel eylemler üretmek yerine, bir BDM planlayıcısı ayrıca karmaşık eylem dizileri için "beceriler" veya işlevler de oluşturabilir. Beceriler saklanabilir ve daha sonra çağrılabilir, böylece planlamada giderek artan soyutlama seviyelerine izin verilir.[81]
Belleğe sahip birden fazla araç sosyal olarak etkileşime girebilir.[82]
Akıl Yürütme
[düzenle]
BDM'ler geleneksel olarak ara adımlar oluşturmadan çıktı üretmek üzere eğitilmiştir. Sonuç olarak, (en azından insanlarda) ara düşünme adımları gerektiren karmaşık sorularda performansları yetersiz olma eğilimindedir. Bu eksiklik, görevleri BDM için elle veya otomatik olarak daha küçük adımlara ayırarak giderilmiştir.
Zincirleme
[düzenle]
"İstem zincirleme" paradigması 2021'de yayınlandı.[83] Bu yöntemde, kullanıcı karmaşık bir problemi elle birkaç adıma ayırır. Her adımda, BDM'ye ne yapılacağını anlatan bir istem ve önceki adımlardan bazı sonuçlar girdi olarak verilir. Bir adımdaki sonuç daha sonra, nihai bir cevaba ulaşılana kadar bir sonraki adımda yeniden kullanılır. Bir BDM'nin talimatları izleme yeteneği, birkaç deneme yanılma turu verildiğinde, uzman olmayanların bile başarılı bir adım adım istem koleksiyonu yazabileceği anlamına gelir.[84][85]
2022 tarihli bir çalışma, BDM'nin soruyu otonom olarak ayırmasını sağlayan "Düşünce Zinciri İstemi" adı verilen ayrı bir tekniği gösterdi. Bir BDM'ye, "asistanın" bir cevaba ulaşmadan önce düşünce sürecini sözel olarak parçaladığı bazı örnekler verilir. BDM bu örnekleri taklit eder ve ayrıca nihai cevabı vermeden önce ara adımlar oluşturmak için biraz zaman harcamaya çalışır. İstemlemeyle ortaya çıkarılan bu ek adım, nispeten karmaşık sorularda BDM'nin doğruluğunu iyileştirir. Matematik kelime sorularında, istemlenmiş bir model, doğrulayıcıya sahip ince ayarlı GPT-3'ü bile geçebilir.[83][86] Düşünce zincirini, BDM'yi cevabı doğrudan tahmin etmeye çalışmak yerine usulüne uygun bir şekilde ilerlemeye teşvik etmek için istemin sonuna "Adım adım düşünelim" gibi bir talimat ekleyerek de ortaya çıkarılabilir.[87]
Model Yerleşik Akıl Yürütme
[düzenle]
Ana maddeler: Akıl yürütme dili modeli ve Yansıma (yapay zeka)
2024 yılının sonlarında, özellikle karmaşık akıl yürütme görevleri için tasarlanmış modellerle BDM geliştirmede yeni bir yön ortaya çıktı. Bu "akıl yürütme modelleri", insan problem çözme süreçlerine benzer şekilde, nihai cevapları vermeden önce adım adım çözümler oluşturmak için daha fazla zaman harcamak üzere eğitildi.[88] OpenAI, bu eğilimi Eylül 2024'te o1 modeliyle, ardından Nisan 2025'te o3 modeliyle tanıttı. Bu modeller, geleneksel BDM'lere kıyasla matematik, bilim ve kodlama görevlerinde önemli ölçüde gelişmeler gösterdi. Örneğin, Uluslararası Matematik Olimpiyatı eleme sınavı sorularında GPT-4o %13 doğruluk elde ederken o1 %83'e ulaştı.[88][89]
Ocak 2025'te Çinli şirket DeepSeek, OpenAI'nin o1'i ile karşılaştırılabilir performans gösteren ancak çalıştırılması önemli ölçüde daha uygun maliyetli 671 milyar parametreli açık ağırlıklı bir akıl yürütme modeli olan DeepSeek-R1'i piyasaya sürdü. OpenAI'nin tescilli modellerinden farklı olarak, DeepSeek-R1'in açık ağırlıklı yapısı, araştırmacıların algoritmayı incelemesine ve üzerine inşa etmesine olanak sağladı, ancak eğitim verileri özel kaldı.[90]
Bu akıl yürütme modelleri, sorunları adım adım işlemek için daha kapsamlı işlem gerçekleştirdikleri için, geleneksel BDM'lere kıyasla sorgu başına daha fazla hesaplama kaynağı gerektirir. Bununla birlikte, matematik, bilimsel araştırma ve bilgisayar programlama gibi yapılandırılmış mantıksal düşünme gerektiren alanlarda üstün yetenekler göstermişlerdir.[89]
Girdi ve Çıktı Biçimleri
[düzenle]
Çok Mod