
ARC-AGI-3, sınır yapay zeka puan tablosunu sıfırlıyor.
Özet
François Chollet’in geliştirdiği ARC-AGI-3 testi, mevcut yapay zeka modellerinin insan benzeri akıl yürütme becerilerini ölçmek için tasarlanmış ve en gelişmiş sistemlerin dahi %1 başarı oranının altında kaldığı oldukça zorlu bir kıyaslama sunmaktadır. Yapay zeka endüstrisinin bu engeli ne kadar sürede aşacağı merak konusuyken, testin asıl amacı modellerin gerçek akıl yürütme kapasitesi ile kaba kuvvet yöntemleri arasındaki farkı ayırt etmektir. Öte yandan, Salesforce’un yeni Agentforce özelliği, yapay zeka temsilcilerini Slack gibi günlük iş araçlarına entegre ederek verimliliği artırmayı hedeflemektedir. Bu gelişmeler, yapay zeka teknolojilerinin hem teknik performans hem de pratik uygulama alanlarında hızla evrildiğini göstermektedir.
Günaydın, {{ first_name | AI meraklıları }}. Yapay zeka endüstrisinin AGI'nın (Yapay Genel Zeka) eşiğinde olduğuna dair en sevdiği söylemlerden biri, dünyanın en iyi modellerinin bile %1'in üzerinde puan alamadığı bir testle karşılaştı.
ARC-AGI-3, AGI iddiaları için başvurulan temel gerçeklik kontrolü haline gelen kıyaslama testinin daha zor bir versiyonudur ve %0,37 ile liderliği elinde bulunduran Gemini Pro ile birlikte, sınır modelleri yepyeni bir zorlukla karşı karşıya kaldı (muhtemelen bunu da yaklaşık altı ay içinde aşacaklar).
Hatırlatma: Bir sonraki canlı atölyemiz bugün EST saatiyle 14:00'te. Sadece prototipler yerine uygulamalarınızı gerçek kullanıcılar ve iş akışları için nasıl üretime taşıyacağınızı öğreneceğiniz "Vibe Coding'e Giriş" serimizin 3. bölümüne katılın. Buradan kaydolun.
Özet: François Chollet'in ARC Ödül Vakfı, insanların ilk denemede görevlerin %100'ünü çözebildiği ancak yapay zeka modellerinin zorlandığı ve en iyi sistemlerin bile %1 puan alamadığı interaktif akıl yürütme kıyaslama testinin en yeni sürümü olan ARC-AGI-3'ü yayınladı.
Neden önemli: En iyi modellerin yeni bir ARC-AGI sürümünde %1'in altına düştüğünü görmek her zaman şaşırtıcı olsa da, eski testler bir gösterge teşkil ediyorsa, sınır laboratuvarlarının bu merdiveni ne kadar hızlı tırmanacağı daha da şaşırtıcı olacaktır. Bunun gerçek bir akıl yürütmeyi mi yoksa sadece daha maliyetli bir kaba kuvvet yöntemini mi yansıttığını bulmak, tam olarak Chollet'in V3'ü geliştirme amacıydı.
Özet: Agentforce, hiçbir yeni giriş veya bağlam değiştirme gerektirmeden güçlü yapay zeka temsilcilerini doğrudan Slack'e getiriyor. Bir temsilciye özel mesaj gönderin, bir kanalda @etiketiyle bahsedin veya Salesforce içgörülerini çekerek, kayıtları güncelleyerek ve anında tuvaller oluşturarak harekete geçmesini sağlayın.
Neden önemli: "Ölü İnternet Teorisi", son altı ayda gördüğümüz yapay zeka temsilcisi hızlanmasından önce de mevcuttu. Şimdi ise her sosyal medya sitesinin uğraştığı bir gerçeklik haline geldi. Bu biraz geçici bir çözüm gibi hissettirse de, platformların kullanıcılar için kullanılabilir kalabilmesi adına ciddi bir "önce insan" çözümüne duyduğu ihtiyaca doğru atılmış küçük bir adımdır.
Özet: Bu rehberde, Higgsfield (bir görsel ve video oluşturucu) kullanarak şirketinizin Slack'i için nasıl özel, markalı tepki GIF'leri yapacağınızı öğreneceksiniz. İşin püf noktası, animasyonu oluşturmadan önce başlangıç karesini oluşturmaktır.
Profesyonel ipucu: Eğer bir grup MP4 dosyası oluşturursanız, bunları tek tek dönüştürücü sitelerle uğraşmamak için masaüstünüzde toplu halde GIF'e dönüştürmesi için Claude Code'dan yardım isteyin.
Özet: Müşterileriniz yapay zekaya sorular soruyor ve yapay zeka ise sizin yerinize rakiplerinizi öneriyor. Tely, ChatGPT, Google ve Claude gibi yapay zekaların sizin işletmenizi önermesini sağlıyor.
Özet: Google Research, yapay zeka modeli belleğini herhangi bir yeniden eğitim gerektirmeden 6 katından fazla sıkıştıran, Nvidia H100 çiplerinde 8 kata kadar hız artışı sağlayan ve doğruluk oranında neredeyse hiç kayıp yaşamayan TurboQuant algoritmasını tanıttı.
Neden önemli: Nisan 2025'te ilk kez yayınlanmasına rağmen, önde gelen yapay zeka bellek şirketleri resmi sürümün baskısını hissetti ve hisseleri %3-5 oranında düştü. Tek bir sıkıştırma makalesi bellek talebini bir gecede çökertmeyecektir ancak bu satış dalgası, Wall Street'in daha akıllı yazılımların premium pazarı daralttığı bir dünyayı fiyatladığını gösteriyor.