
GPT-5.5, OpenAI'nin bugüne kadarki en yetenekli ajan tabanlı yapay zeka modelidir.
Özet
OpenAI, planlama yapabilen, araçları bağımsız kullanabilen ve karmaşık görevleri kendi başına yürütebilen yeni nesil ajan tabanlı yapay zeka modeli GPT-5.5'i tanıttı. NVIDIA'nın gelişmiş sistemleri ile yeniden eğitilen bu model, özellikle uzun bağlamlı muhakeme ve yazılım geliştirme süreçlerinde önceki sürümlere kıyasla önemli performans artışları sunuyor. Çeşitli kıyaslama testlerinde yüksek skorlar elde eden model, kullanıcıların karmaşık görevlerde insan müdahalesine olan ihtiyacını azaltmayı hedefliyor. Bazı spesifik araç kullanım testlerinde rakiplerinin gerisinde kalsa da GPT-5.5, OpenAI'ın bağımsız çalışan ajan odaklı vizyonunun en yetenekli temsilcisi olarak öne çıkıyor.
OpenAI, 23 Nisan'da GPT-5.5'i "gerçek işler ve ajanlara güç sağlamak için yeni bir zeka sınıfı" olarak adlandırarak piyasaya sürdü ve bu çerçeveleme bilinçli olarak yapıldı. OpenAI, bunun planlama yapmak, araçları kullanmak, kendi çıktısını kontrol etmek ve görevleri bağımsız olarak yürütmek üzere sıfırdan inşa edilmiş, bugüne kadarki en yetenekli ajan tabanlı yapay zeka modeli olduğunu söylüyor.
GPT-5.5, GPT-4.5'ten bu yana NVIDIA'nın GB200 ve GB300 NVL72 raf ölçekli sistemleriyle ortaklaşa tasarlanan ilk yeniden eğitilmiş temel modeldir. Şirket, pratik farkın, GPT-5.5 kullanılırken daha önce birden fazla istem ve insan tarafından "rota düzeltmesi" gerektiren görevlerin artık daha eksiksiz bir şekilde devredilebilmesi olduğunu belirtiyor. Model, ChatGPT ve Codex'te Plus, Pro, Business ve Enterprise kullanıcılarına sunuluyor. API erişimi ise 24 Nisan'da sağlandı.
Kıyaslamalar
OpenAI'ın en güçlü performans iddiası, korumalı bir ortamda planlama ve araç koordinasyonu gerektiren komut satırı iş akışlarını test eden bir kıyaslama olan Terminal-Bench 2.0 üzerindedir. GPT-5.5, GPT-5.4'ün %75,1 ve Claude Opus 4.7'nin %69,4'lük skorlarına karşılık %82,7 puan alıyor.
GitHub sorun çözümünü değerlendiren SWE-Bench Pro'da GPT-5.5, önceki sürümlere göre tek geçişte daha fazla sorunu çözerek %58,6'ya ulaşıyor. OpenAI ayrıca, görevlerin ortalama tahmini insan tamamlama süresinin 20 saat olduğu bir iç kıyaslama olan Expert-SWE'yi de tanıttı. GPT-5.5, GPT-5.4'ün %68,5'lik skoruna kıyasla %73,1 puan alıyor.
Bir milyon token'lık MRCR v2 uzun bağlamlı muhakemede (bir modelin büyük bir belgeye gömülü belirli bir yanıtı bulup bulamayacağını test eden bir geri alma kıyaslaması), GPT-5.5, GPT-5.4'ün %36,6'lık skoruna karşılık %74,0 puan alıyor.
Ancak, Scale AI'ın Model Bağlam Protokolü araç kullanım kıyaslaması olan MCP Atlas'ta Claude Opus 4.7 %79,1 ile lider durumda ve GPT-5.5 için herhangi bir skor kaydedilmemiş. OpenAI, bu eksikliği kendi kıyaslama tablosuna dahil etti; bu da en azından genel tabloya olan güvenine işaret ediyor.
Token verimliliği, fiyatlandırma gerçeği
API erişimi, milyon girdi token'ı başına 5 ABD Doları ve milyon çıktı token'ı başına 30 ABD Doları olarak fiyatlandırılmıştır; bu, GPT-5.4 oranlarının tam iki katıdır. OpenAI'ın savunması, GPT-5.5'in aynı Codex görevlerini GPT-5.4'ten daha az token ile tamamladığı ve verimliliği hesaba katıldığında efektif maliyetleri yaklaşık %20 oranında artırdığı yönündedir; bu, bağımsız test laboratuvarı Artificial Analysis tarafından da doğrulanmış bir iddiadır.
Pro, Business ve Enterprise kullanıcılarına sunulan GPT-5.5 Pro, milyon girdi token'ı başına 30 ABD Doları ve milyon çıktı token'ı başına 180 ABD Doları olarak fiyatlandırılmıştır. Daha zor problemlerde ek paralel test zamanlı hesaplama uygular ve OpenAI'ın ajan tabanlı web tarama kıyaslaması olan BrowseComp'te halka açık modeller listesinde %90,1 ile liderdir.
Token verimliliği, model değişikliğine karar vermeden önce gerçek iş yüklerine karşı stres testine tabi tutulmaya değerdir. Ayda 10 milyon çıktı token'ı için standart GPT-5.5'in maliyeti 300 ABD Doları iken Claude Opus 4.7'nin maliyeti 250 ABD Dolarıdır; bu %20'lik fark, ancak modelin üstün ajan performansı daha az görev yinelemesi ve daha az yeniden deneme anlamına geliyorsa karşılığını verir ve matematik kullanım durumuna göre değişir.
Uygulamada
OpenAI, çalışanların %85'inden fazlasının artık bölümlerinde haftalık olarak Codex kullandığını söylüyor.