امتیاز هوش مصنوعی اوپن‌ای‌آی اشتباه از آب درآمد

 به گزارش تک‌کرانچ، اوپن‌ای‌آی هنگام رونمایی این مدل را در دسامبر ۲۰۲۴ میلادی مدعی شد o۳ می‌تواند بیش از یک‌چهارم سوالات در بنچمارک FrontierMath (مجموعه‌ای چالش‌برانگیز از مساله‌های ریاضی) را پاسخ دهد. مارک چن، محقق ارشد اوپن‌ای‌آی، در یک برنامه پخش زنده گفت: «امروز تمام محصولات ارائه شده در بنچمارک FrontierMath کمتر از دو درصد امتیاز دارند. ما در تست‌های داخلیo۳ که در محیط‌های رایانشی با عملکرد بالا انجام شد، به امتیاز بیش از ۲۵ درصد دست یافتیم.

به نظر می‌رسد این رقم احتمالا حد بالایی بود که توسط نسخه‌ای از o۳ با محاسبات بیشتر نسبت به مدل OpenAI که هفته گذشته به‌طور عمومی عرضه شد، به دست آمد. انستیتو تحقیقات Epoch AI که بنچمارک FrontierMath را ارائه می‌کند، نتایج تست‌های مستقل خود از o۳ را منتشر کرد. این شرکت متوجه شد امتیاز این مدل حدود ۱۰ درصد و بسیار پایین‌تر از ارقام بسیار بالای ادعا شده توسط اوپن‌ای‌آی است.