منصة تقييم الذكاء الاصطناعي تحت المجهر: دراسة تكشف تلاعب الشركات الكبرى

التكنولوجيا اليومية

·

23/05/2025

تواجه منصة تقييم الذكاء الاصطناعي الشهيرة LM Arena انتقادات شديدة من قبل الباحثين الذين يدعون أن اختبارات المنصة تفضل نماذج الذكاء الاصطناعي الخاصة بالشركات الكبرى. هذه الادعاءات تثير تساؤلات حول كيفية اختبار نماذج الذكاء الاصطناعي بشكل عادل ومتسق.

النقاط الرئيسية

تفضيل النماذج الخاصة: الدراسة تشير إلى أن LM Arena تمنح نماذج الذكاء الاصطناعي الخاصة مزايا غير معلنة.
تحليل البيانات: الباحثون قاموا بتحليل أكثر من 2.8 مليون معركة على مدى خمسة أشهر.
توزيع غير عادل للبيانات: الشركات الكبرى مثل جوجل وأوبن إيه آي حصلت على نسبة كبيرة من البيانات مقارنة بالنماذج المفتوحة.
تأثير الاختبارات المتكررة: النماذج الخاصة يتم اختبارها عدة مرات قبل الإطلاق، مما يمنحها ميزة تنافسية.

خلفية عن LM Arena

بدأت LM Arena كمشروع بحثي في عام 2023 من قبل باحثين في جامعة كاليفورنيا، بيركلي. سرعان ما أصبحت المنصة وجهة مفضلة للشركات الكبرى ونماذج الذكاء الاصطناعي المفتوحة لاختبار أدائها. المنصة تعتمد على تحليل ردود الفعل من المستخدمين بدلاً من المعايير الأكاديمية التقليدية، مما جعلها تجذب أكثر من مليون زائر شهريًا.

نتائج الدراسة

في الدراسة التي نُشرت في 29 أبريل، أشار الباحثون إلى أن النماذج الرائدة من شركات مثل ميتا وأوبن إيه آي وجوجل حصلت على 19.2% و20.4% من البيانات على التوالي، بينما حصلت 83 نموذجًا مفتوحًا على 29.7% فقط.

اختبارات متعددة: النماذج الخاصة يتم اختبارها عدة مرات قبل إصدارها، مما يمنحها فرصة لتحسين أدائها.
تراجع النتائج: يمكن للشركات الكبرى سحب نتائجها من التقييمات، مما يؤثر على تصنيفها في القائمة العامة.

ردود الفعل

لم تقدم LM Arena تعليقًا رسميًا على الدراسة، لكنها أكدت عبر وسائل التواصل الاجتماعي أنها تحاول دائمًا تلبية طلبات التقييم من جميع مقدمي النماذج. كما أشاروا إلى أن الاختلاف في عدد الاختبارات المقدمة لا يعني أن بعض مقدمي النماذج يتلقون معاملة غير عادلة.

أهمية النتائج

تثير هذه النتائج تساؤلات حول مصداقية LM Arena كمعيار لتقييم الذكاء الاصطناعي. مع تزايد أهمية الذكاء الاصطناعي في مختلف المجالات، يصبح من الضروري تطوير طرق تقييم أكثر عدلاً وموضوعية.

في ظل هذه الظروف، يتعين على المجتمع العلمي والمطورين العمل معًا لضمان أن تكون اختبارات الذكاء الاصطناعي عادلة وموثوقة، مما يساهم في تحسين جودة النماذج وتقديم نتائج دقيقة للمستخدمين.

قراءة مقترحة

وارنر براذرز تقاضي مولد الصور بالذكاء الاصطناعي ميدجورني لانتهاك حقوق النشر

تُقاضي شركة وارنر براذرز ديسكفري مُولّد الصور بالذكاء الاصطناعي Midjourney بتهمة انتهاك حقوق النشر، زاعمة أن الشركة تسمح للمستخدمين عن علم بإنشاء صور لشخصياتها المحمية بحقوق النشر.

نظارات الذكاء الاصطناعي تظهر كساحة معركة تكنولوجية قادمة: الولايات المتحدة ضد الصين

تطلق Meta نظارات الذكاء الاصطناعي الجديدة المزودة بشاشات مدمجة، مما قد يشعل سباقًا تقنيًا جديدًا بين الولايات المتحدة والصين، على غرار عصر الهواتف الذكية. استكشف الآثار المترتبة واهتمام المستهلكين بهذه التكنولوجيا القابلة للارتداء المستقبلية.

تحصد يونيتري روبوتيكس أربع ذهبيات في الألعاب الافتتاحية للروبوتات البشرية

هيمنت يونيتري روبوتيكس على الألعاب العالمية الافتتاحية للروبوتات البشرية في بكين، محققة أربع ميداليات ذهبية في سباقات المضمار، ومستعرضة التطورات السريعة في مجال الروبوتات البشرية.

طموحات الإمارات الفضائية تحلق عالياً: الشيخ حمدان يدعم ابتكار الشركات الناشئة

الشيخ حمدان يلتقي بالشركات الناشئة في قطاع الفضاء الإماراتي، مسلطًا الضوء على التزام الدولة بأن تصبح مركزًا عالميًا للفضاء من خلال التعاون بين القطاعين العام والخاص والابتكار.

تُطلق "دو" اشتراكًا مجانيًا لمدة 12 شهرًا في Disney+ لمشتركيها في الإمارات العربية المتحدة

تقدم Du اشتراكًا مجانيًا لمدة 12 شهرًا في Disney+ لمشتركي خدمة الإنترنت المنزلي اللاسلكي في الإمارات العربية المتحدة، مما يعزز خيارات الترفيه الرقمي.

دورة الضجيج حول الذكاء الاصطناعي تتسارع بشكل كبير، مدفوعة بـ ChatGPT وتغير التوجهات

تحليل بيانات هاكر نيوز يكشف عن ارتفاع هائل في مناقشات الذكاء الاصطناعي، خاصة بعد إصدار ChatGPT، مما يشير إلى تسارع كبير في دورة الضجة حول الذكاء الاصطناعي وتحول في الرأي العام.

نصيحة مسؤول تنفيذي في Microsoft بشأن الذكاء الاصطناعي للعاملين المسرحين تثير غضبًا

يواجه مسؤول تنفيذي في Microsoft Xbox ردود فعل عنيفة لنصحه الموظفين المسرحين باستخدام روبوتات الدردشة المدعومة بالذكاء الاصطناعي للتغلب على الحزن الناتج عن فقدان الوظيفة، مما أثار انتقادات واسعة النطاق.

تصميم "الزجاج السائل" من آبل: هل هو ممل لأجهزة الماك؟

يقدم الإصدار التجريبي العام لنظام macOS Tahoe من Apple تصميم "الزجاج السائل"، لكن المراجعات المبكرة تشير إلى أنه تحديث مخيب للآمال لأجهزة Mac، مع مشاعر متباينة حول تأثيره البصري ووظيفته.

اصطدام الكويكب مقابل المخاطر اليومية: دراسة جديدة تضع المخاطر في منظورها الصحيح

دراسة جديدة تقارن احتمالات الوفاة من اصطدام كويكب مقابل المخاطر اليومية مثل ضربات البرق وحوادث السيارات، مما يقدم منظورًا فريدًا حول المخاطر العالمية والفردية.

ما وراء التمرير المروع: تطبيقات وسائل التواصل الاجتماعي الجديدة تعطي الأولوية للتواصل والاهتمامات المتخصصة

استكشف ظهور تطبيقات وسائط اجتماعية جديدة مصممة لمكافحة التمرير السلبي من خلال تعزيز المجتمعات المتخصصة وإعطاء الأولوية لتواصل المستخدمين ومشاركتهم.

مكبرات صوت سونوس روم ترتفع درجة حرارتها وتذيب منافذ USB-C وسط مخاوف تتعلق بالسلامة

مكبرات صوت Sonos Roam ترتفع حرارتها وتذيب منافذ USB-C، مما يثير مخاوف من خطر الحريق. تعرف على المشكلة، تقارير المستخدمين، واستجابة Sonos.

لا تنظروا إلى الشرق الأوسط كـ "فوز سريع": نصيحة لشركات التكنولوجيا الزراعية الناشئة

اكتشف لماذا يجب على الشركات الناشئة في مجال التكنولوجيا الزراعية التركيز على خلق قيمة طويلة الأجل والتعاون في الشرق الأوسط، بدلاً من البحث عن "فوز سريع"، وفقًا لـ Silal Innovation Oasis.

الإنسان الآلي زايون يذهل ديترويت وينتشر بسرعة

روبوت شبيه بالبشر يدعى Zion يمشي في شوارع ديترويت، ويفاجئ المارة ويثير مناقشات واسعة الانتشار، كجزء من مبادرة لتعزيز الروبوتات وإلهام الشباب.

إطلاق الذكاء الاصطناعي لرصد مخاطر حركة الطيران في الولايات المتحدة

أعلن وزير النقل شون دافي عن استخدام الذكاء الاصطناعي لرصد مخاطر حركة الطيران في الولايات المتحدة، بهدف تعزيز السلامة الجوية ومنع الكوارث المستقبلية.

الروبوتات الشبيهة بالبشر تستعد للاستيلاء الصناعي، مما يعزز مصنعي المكونات

من المتوقع أن تُحدث الروبوتات الشبيهة بالبشر ثورة في التطبيقات الصناعية، مع نمو كبير متوقع لمصنعي المكونات في سلسلة التوريد. تعرف على أحدث الاتجاهات والاستثمارات.

آندي كوهين حول الذكاء الاصطناعي: أداة للراحة، تهديد للفكر

يناقش آندي كوهين استخدامه المدهش للذكاء الاصطناعي في المهام اليومية معربًا عن قلقه العميق بشأن قدرته المحتملة على تعزيز الكسل وتقليل التفكير النقدي لدى الأجيال القادمة.