بوكيمون يدخل سباق الذكاء الاصطناعي: جيميني يتفوق على كلود؟

قناة اليمن | متابعات

حتى بوكيمون لم يسلم من جدل معايير الذكاء الاصطناعي! في الأسبوع الماضي، انتشر منشور على منصة إكس يزعم أن أحدث طراز من نموذج الذكاء الاصطناعي جيميني من غوغل تفوق على طراز كلود الرائد من أنثروبيك في ثلاثية لعبة بوكيمون الأصلية. وفقًا للتقارير، تمكن جيميني من الوصول إلى لافندر تاون في بث مباشر على تويتش، بينما كان كلود لا يزال عالقًا في جبل مون منذ فبراير الماضي.

المثير للاهتمام أن المطور المسؤول عن بث جيميني قام ببناء خريطة مصغرة مخصصة تساعد النموذج على تحديد العناصر داخل اللعبة، مثل الأشجار القابلة للقطع، مما قلل من حاجته لتحليل لقطات الشاشة قبل اتخاذ قرارات اللعب. هذا التطور جعل بوكيمون معيارًا شبه جاد لتقييم أداء الذكاء الاصطناعي.

على الجانب الآخر، حصل نموذج Anthropic 3.7 Sonnet على معيار SWE-bench Verified، المصمم لتقييم قدرات البرمجة، حيث حقق دقة بنسبة 62.3%، ولكن ارتفعت إلى 70.3% عند استخدام أداة مخصصة طورتها أنثروبيك. كما قامت ميتا بتحسين نسخة من نموذجها Llama 4 Maverick لتحقيق أداء أفضل في معيار LM Arena، رغم أن الإصدار الأساسي سجل نتائج أقل بكثير في نفس التقييم.

في ظل هذه التطورات، يبدو أن معايير أداء الذكاء الاصطناعي لا تزال غير مثالية، حيث تهدد التطبيقات المخصصة وغير القياسية بزيادة الغموض حول كيفية مقارنة النماذج المختلفة. هل سيصبح تقييم الذكاء الاصطناعي أكثر تعقيدًا مع مرور الوقت؟

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

مقالات ذات صلة

زر الذهاب إلى الأعلى