OpenAI, 'görüntülerle düşünen' ve araçları otonom olarak kullanan AI modelleri o3 ve o4-mini'yi piyasaya sürdü



OpenAI, bugün görsellerle akıl yürütebilen ve bağımsız olarak araçlar kullanabilen iki çığır açan yapay zeka modeli yayınladı; bu durum uzmanların yapay zeka yeteneklerinde önemli bir adım değişikliği olarak nitelendirdiği bir gelişmeyi temsil ediyor.

San Francisco merkezli şirket, bugüne kadarki en zeki ve yetenekli modelleri olduğunu iddia ettiği, "o serisi"nin en yeni üyeleri olan o3 ve o4-mini'yi tanıttı. Bu sistemler, görselleri doğrudan akıl yürütme süreçlerine entegre edebilir, web'de arama yapabilir, kod çalıştırabilir, dosyaları analiz edebilir ve hatta tek bir görev akışı içinde görseller oluşturabilir.

OpenAI başkanı Greg Brockman, yayını duyuran bir basın toplantısında, "Geleceğe niteliksel bir adım gibi gelen bazı modeller var. GPT-4 bunlardan biriydi. Bugün de bunlardan biri olacak." dedi. "Bunlar, en üst düzey bilim insanlarının bize gerçekten iyi ve yararlı yeni fikirler ürettiğini söylediği ilk modeller."

OpenAI'nin yeni modellerinin görsel problem çözümünü nasıl dönüştürdüğü

Bu yeni modellerin en çarpıcı özelliği, "görsellerle düşünme" yeteneğidir; sadece görmeleri değil, problem çözme süreçlerinin bir parçası olarak bunları manipüle etme ve hakkında akıl yürütme yeteneği.

OpenAI, VentureBeat'e gönderdiği bir açıklamada, "Sadece bir görüntüyü görmüyorlar - onunla düşünüyorlar." dedi. "Bu, görsel ve metinsel akıl yürütmeyi birleştiren yeni bir problem çözme sınıfının kilidini açıyor."

Basın toplantısında yapılan bir gösteride, bir araştırmacı o3'ün on yıl öncesinden kalma bir stajdan fizik posterini nasıl analiz ettiğini, karmaşık diyagramlarında bağımsız olarak nasıl gezindiğini ve hatta sonucun posterin kendisinde bulunmadığını nasıl belirlediğini gösterdi.

Çoklu modal akıl yürütme üzerinde çalışan OpenAI araştırmacısı Brandon McKenzie, gösteri sırasında, "Muhtemelen benim için birkaç saniyede en az 10 farklı makale okudu," dedi. Görevin kendisinin "projesine geri dönmesi ve literatürde arama yapması için bile birkaç gün, muhtemelen birkaç gün daha" süreceğini tahmin etti.

Yapay zekanın akıl yürütme sürecinde görselleri manipüle etme yeteneği - ayrıntıları yakınlaştırma, diyagramları döndürme veya gereksiz öğeleri kırpma - sektör analistlerinin bilimsel araştırmadan eğitime kadar birçok alanı devrimleştireceğini söylediği yeni bir yaklaşımı temsil ediyor.

Yapay zeka modellerinin ötesinde: o3 ve o4-mini'nin gelişmiş araç entegrasyonuna sahip tam yapay zeka sistemleri olarak nasıl çalıştığı

OpenAI yöneticileri, bu sürümlerin sadece geliştirilmiş modellerden daha fazlasını temsil ettiğini - problemleri çözerken bağımsız olarak birden fazla aracı kullanıp birbirine bağlayabilen tam yapay zeka sistemleri olduğunu vurguladı.

Şirket açıklamasında, "Onları pekiştirmeli öğrenme yoluyla araçları kullanacak şekilde eğittik - sadece araçları nasıl kullanacaklarını değil, ne zaman kullanacakları konusunda da akıl yürütmeyi öğrettik," diye açıkladı.

Greg Brockman, modellerin kapsamlı araç kullanım yeteneklerini vurguladı: "Zor bir problemi çözmeye çalışırken düşünce zincirlerinde bu araçları gerçekten kullanıyorlar. Örneğin, o3'ün bir problemi çözmeye çalışırken 600 araç çağrısını arka arkaya kullandığını gördük.