نتائج اختبار مستقلة تثير الجدل حول أداء نموذج الذكاء الاصطناعي “O3” من OpenAI
قناة اليمن | نيويورك

أثارت نتائج اختبار مستقلة تساؤلات حول شفافية ومصداقية شركة OpenAI، بعدما كشفت عن أداء أقل من المتوقع لنموذج الذكاء الاصطناعي O3 مقارنةً بالنتائج التي أعلنتها الشركة سابقًا.
وكانت OpenAI قد استعرضت في ديسمبر الماضي قدرات النموذج الجديد، مشيرةً إلى أنه قادر على الإجابة على أكثر من 25% من أسئلة اختبار FrontierMath المتقدم، وهو اختبار متخصص في المسائل الرياضية المعقدة، متفوقًا بشكل كبير على النماذج المنافسة التي لم تتجاوز دقتها 2% فقط.
لكن تقريرًا حديثًا صادرًا عن معهد Epoch AI، الجهة المطورة لمعيار FrontierMath، كشف أن الاختبارات التي أجراها على الإصدار العام من O3 أظهرت أداءً أقل بكثير، حيث لم يتجاوز النموذج حاجز 10% من الإجابات الصحيحة.
اختلاف في الإعدادات الحوسبية يثير التساؤلات
رغم أن هذه النتائج لا تثبت أن OpenAI قدمت معلومات مغلوطة، إلا أنها تثير تساؤلات حول أسلوب الشركة في عرض قدرات نماذجها. وأوضح معهد Epoch AI أن الفروقات قد تكون ناجمة عن اختلاف الإعدادات الحوسبية أو عدد المسائل المستخدمة في كل اختبار.
وفي منشور على منصة إكس، أكدت مؤسسة ARC Prize أن النسخة التي اختبرتها قبل الإطلاق الرسمي كانت أكثر قوة من النموذج الموجّه للاستخدام في المنتجات، مشيرةً إلى أن مستويات الحوسبة التي طُرحت للعامة أقل تطورًا من النسخ التجريبية.
OpenAI تبرر الفروقات في الأداء
من جهتها، قالت ويندا تشو، من الفريق التقني في OpenAI، إن النسخة الحالية من O3 مخصصة لتكون أكثر كفاءة وسرعة في الاستخدامات اليومية، مما قد يؤدي إلى تفاوت في نتائج الأداء.
الجدل حول شفافية اختبارات الذكاء الاصطناعي
هذه الواقعة تضيف حلقة جديدة إلى سلسلة من الانتقادات التي تطال قطاع الذكاء الاصطناعي بشأن الشفافية في نتائج الاختبارات، حيث سبق أن وُجهت اتهامات لشركات مثل ميتا وxAI التابعة لإيلون ماسك بنشر نتائج اختبار غير دقيقة أو لم تُطبَّق على النماذج الفعلية المتاحة للمستخدمين.
وفيما تستعد OpenAI لإطلاق نسخة أقوى من النموذج تحت اسم O3-Pro، تبقى العبرة بضرورة توخي الحذر عند تقييم قدرات نماذج الذكاء الاصطناعي، خصوصًا عندما يكون مصدر النتائج جهةً لها مصلحة تجارية مباشرة.





