Baidu ERNIE çok modlu yapay zekası, kıyaslamalarda GPT ve Gemini'yi geride bıraktı



Özet


Baidu'nun yeni multimodal yapay zeka modeli ERNIE-4.5, metin dışı verileri işleme konusunda üstün yeteneklere sahip olup, özellikle kurumsal verileri hedeflemektedir. Model, "hafif" mimarisi sayesinde yüksek çıkarım maliyetlerini azaltarak verimliliğe odaklanmaktadır. ERNIE-4.5, lojistik planlama gibi alanlarda pratik çözümler sunarken, mühendislik şemalarını yorumlama gibi teknik görevlerde de başarılıdır. Kıyaslamalarda GPT ve Gemini'yi geride bırakarak, MathVista, ChartQA ve VLMs Are Blind gibi önemli testlerde daha iyi performans sergilemiştir.




Baidu'nun en yeni ERNIE modeli, süper verimli bir multimodal yapay zeka, önemli kıyaslamalarda GPT ve Gemini'yi geride bırakıyor ve genellikle metin odaklı modeller tarafından göz ardı edilen kurumsal verileri hedefliyor.

Birçok işletme için değerli bilgiler, mühendislik şemalarında, fabrika katı video akışlarında, tıbbi taramalarda ve lojistik panolarında kilitli durumda. Baidu'nun yeni modeli ERNIE-4.5-VL-28B-A3B-Thinking, bu boşluğu doldurmak için tasarlandı.

Kurumsal mimarlar için ilginç olan sadece multimodal yeteneği değil, aynı zamanda mimarisi. Operasyon sırasında yalnızca üç milyar parametreyi etkinleştiren "hafif" bir model olarak tanımlanıyor. Bu yaklaşım, genellikle yapay zeka ölçeklendirme projelerini engelleyen yüksek çıkarım maliyetlerini hedefliyor. Baidu, sadece algılamakla kalmayıp, akıl yürütebilen ve eyleme geçebilen "multimodal ajanlar" için bir temel olarak sistemi eğiterek, benimsemenin yolu olarak verimliliğe bahis yapıyor.

Yapay zeka kıyaslamaları tarafından desteklenen karmaşık görsel veri analizi yetenekleri

Baidu'nun multimodal ERNIE yapay zeka modeli, yoğun, metin dışı verileri işlemekte mükemmeldir. Örneğin, lojistik veya perakendedeki kaynak planlama zorluklarını yansıtan bir görev olan "Yoğun Saat Hatırlatıcısı" grafiğini yorumlayarak, en uygun ziyaret saatlerini bulabilir.

ERNIE 4.5 ayrıca, Ohm ve Kirchhoff yasalarını uygulayarak bir köprü devre şemasını çözmek gibi teknik alanlarda da yetenek gösteriyor. Ar-Ge ve mühendislik birimleri için, gelecekteki bir asistan, tasarımları doğrulayabilir veya yeni işe alınanlara karmaşık şemaları açıklayabilir.

Bu yetenek, Baidu'nun kıyaslamaları tarafından desteklenmektedir ve ERNIE-4.5-VL-28B-A3B-Thinking'in bazı önemli testlerde GPT-5-High ve Gemini 2.5 Pro gibi rakiplerinden daha iyi performans gösterdiğini ortaya koymaktadır:

MathVista: ERNIE (82.5) vs Gemini (82.3) ve GPT (81.3)

ChartQA: ERNIE (87.1) vs Gemini (76.3) ve GPT (78.2)

VLMs Are Blind: ERNIE (77.3) vs Gemini (76.5) ve GPT (69.6)

Elbette, yapay zeka kıyaslamalarının bir rehber sağladığını ancak kusurlu olabileceğini belirtmekte fayda var. Herhangi bir yapay zeka modelini kritik görev uygulamaları için dağıtmadan önce her zaman dahili testler yapın.

Baidu, en yeni ERNIE yapay zeka modeliyle algılamadan otomasyona geçiyor

Kurumsal yapay zeka için birincil engel, algılamadan ("bu nedir?") otomasyona ("şimdi ne?") geçmektir. ERNIE 4.5, görsel temellendirmeyi araç kullanımıyla entegre ederek bunu ele aldığını iddia ediyor.

Multimodal yapay zekadan bir resimde takım elbise giyen tüm kişileri bulmasını ve koordinatlarını JSON formatında döndürmesini istemek işe yarıyor. Model, yapılandırılmış verileri oluşturur, bu işlev, görsel denetim için bir üretim hattına veya güvenlik uyumluluğu için site resimlerini denetleyen bir sisteme kolayca aktarılabilir.

Model ayrıca harici araçları yönetir ve küçük metinleri okumak için bir fotoğrafa otomatik olarak yakınlaştırabilir. Bilinmeyen bir nesneyle karşılaşırsa, onu tanımlamak için bir görsel arama tetikleyebilir. Bu, yalnızca bir veri merkezi hatasını işaretlemekle kalmayıp, aynı zamanda koda yakınlaşabilen, dahili bilgi tabanını arayabilen ve düzeltmeyi önerebilen bir ajana güç verebilecek daha az pasif bir yapay zeka biçimini temsil eder.

Multimodal yapay zeka ile iş zekasının kilidini açmak

Baidu'nun en yeni ERNIE yapay zeka modeli aynı zamanda kurumsal hedefleri de hedefliyor.