• Hatalı yapay zeka kıyaslamaları kurumsal... Hatalı yapay zeka kıyaslamaları kurumsal bütçeleri riske atıyor (artificialintelligence-news.com)
    by AI News            0 Yorum       



  • Hatalı yapay zeka kıyaslamaları kurumsal bütçeleri riske atıyor



    Özet


    Yeni bir akademik inceleme, yapay zeka kıyaslamalarının, işletmelerin yanıltıcı verilere dayalı riskli kararlar almasına yol açabileceğini ortaya koyuyor. Çalışma, önde gelen yapay zeka konferanslarından 445 kıyaslamayı analiz ederek, neredeyse tüm makalelerin model performansı iddialarını zayıflatan zayıflıkları olduğunu tespit etti. Araştırmacılar, kıyaslamaların yapı geçerliliğinin düşük olması nedeniyle, yüksek puanların yanıltıcı olabileceğini vurguladı. Bu durum, yapay zeka yatırımlarını ve yönetişimini etkileyerek, kuruluşları finansal ve itibar risklerine maruz bırakabilir.




    Yeni bir akademik inceleme, yapay zeka kıyaslamalarının kusurlu olduğunu ve potansiyel olarak bir işletmenin "yanıltıcı" verilere dayalı yüksek riskli kararlar almasına yol açabileceğini öne sürüyor.

    İşletme liderleri, üretken yapay zeka programlarına sekiz veya dokuz haneli bütçeler ayırıyor. Bu tedarik ve geliştirme kararları genellikle model yeteneklerini karşılaştırmak için halka açık lider tablolarına ve kıyaslamalara dayanmaktadır.

    'Ne Önemliyse Onu Ölçmek: Büyük Dil Modeli Kıyaslamalarında Yapı Geçerliliği' adlı geniş çaplı bir çalışma, önde gelen yapay zeka konferanslarından 445 ayrı LLM kıyaslamasını analiz etti. 29 uzman hakemden oluşan bir ekip, "neredeyse tüm makalelerin en az bir alanda zayıflıkları olduğunu" tespit ederek, model performansı hakkında yaptıkları iddiaları baltaladı.

    CTO'lar ve Veri Direktörleri için bu, yapay zeka yönetişimi ve yatırım stratejisinin kalbine dokunuyor. Eğer 'güvenlik' veya 'sağlamlık' ölçtüğünü iddia eden bir kıyaslama, aslında bu nitelikleri yakalamıyorsa, bir kuruluş onu ciddi finansal ve itibar riskine maruz bırakan bir model kullanabilir.

    'Yapı geçerliliği' sorunu

    Araştırmacılar, yapı geçerliliği olarak bilinen temel bir bilimsel ilkeye odaklandılar. Basitçe ifade etmek gerekirse, bu, bir testin ölçtüğünü iddia ettiği soyut kavramı ne ölçüde ölçtüğüdür.

    Örneğin, 'zekâ' doğrudan ölçülemezken, ölçülebilir vekil görevi görmesi için testler oluşturulur. Makalede, bir kıyaslamanın yapı geçerliliği düşükse, "yüksek bir puanın alakasız veya hatta yanıltıcı olabileceği" belirtilmektedir.

    Bu sorun, yapay zeka değerlendirmesinde yaygındır. Çalışma, temel kavramların genellikle "kötü tanımlandığını veya işleme alındığını" tespit etti. Bu, "zayıf desteklenen bilimsel iddialara, yanlış yönlendirilen araştırmalara ve sağlam kanıtlara dayanmayan politika sonuçlarına" yol açabilir.

    Satıcılar, işletme sözleşmeleri için kıyaslamalardaki en yüksek puanlarını vurgulayarak rekabet ettiklerinde, liderler etkili bir şekilde bu puanların gerçek dünya iş performansı için güvenilir bir vekil olduğuna güveniyorlar. Bu yeni araştırma, bu güvenin yersiz olabileceğini öne sürüyor.

    İşletme yapay zeka kıyaslamalarının başarısız olduğu yerler

    İnceleme, kıyaslamaların nasıl tasarlandığından sonuçların nasıl raporlandığına kadar her alanda sistemik başarısızlıkları tespit etti.

    Belirsiz veya tartışmalı tanımlar: Tanımlayamadığınızı ölçemezsiniz. Çalışma, bir olgu için tanımlar sağlansa bile, %47,8'inin "tartışmalı" olduğunu, "birçok olası tanıma veya hiç net tanıma sahip olmayan" kavramlara değindiğini buldu.

    Makalede, işletme güvenliği uyumunda temel bir hedef olan 'zararsızlık', genellikle net, üzerinde anlaşılmış bir tanımın eksikliğini gösteren bir örnek olarak kullanılıyor. İki satıcı, bir 'zararsızlık' kıyaslamasında farklı puan alırsa, bu sadece terimin iki farklı, keyfi tanımını yansıtabilir, model güvenliğinde gerçek bir farkı değil.

    İstatistiksel titizlik eksikliği: Veriye dayalı kuruluşlar için belki de en endişe verici olanı, inceleme, 445 kıyaslamanın yalnızca %16'sının model sonuçlarını karşılaştırmak için belirsizlik tahminleri veya istatistiksel testler kullandığını buldu.

    İstatistiksel anali olmadan