اخیرا پلتفرم SciArena، مدل o3 ساخته OpenAI (تیم سازنده ChatGPT) را به عنوان بهترین مدل هوش مصنوعی برای پاسخ به سوالات علمی در حوزههای مختلف معرفی کرده است. در ادامه ضمن بررسی جزئیات این رتبهبندی، با معیارهای ارزیابی مدلهای زبان بزرگ (LLM) و اهمیت آنها در دنیای علم آشنا میشویم.
رتبهبندی مدلهای هوش مصنوعی در SciArena
بر اساس آخرین رتبهبندی منتشر شده توسط SciArena (محصول موسسه Allen Institute for Artificial Intelligence)، مدل o3 از OpenAI موفق شد با فاصله قابل توجهی، عنوان بهترین مدل هوش مصنوعی برای پاسخ به سوالات علمی را به خود اختصاص دهد.
در این ارزیابی که با مشارکت ۱۰۲ پژوهشگر و بیش از ۱۳ هزار رأی انجام شد، عملکرد ۲۳ مدل هوش مصنوعی مختلف در پاسخ به سوالات علمی در حوزههای علوم طبیعی، سلامت، مهندسی، علوم انسانی و اجتماعی سنجیده شد. نتایج نشان داد که مدل o3 در تمامی این حوزهها بالاترین کیفیت پاسخ را ارائه میدهد.
در رتبهبندی SciArena، پس از مدل o3، مدل DeepSeek-R1 (محصول شرکت DeepSeek چین) در رتبه دوم در حوزه علوم طبیعی و رتبه چهارم در مهندسی قرار گرفت. همچنین مدل Gemini-2.5-Pro از گوگل موفق به کسب رتبه سوم در علوم طبیعی و رتبه پنجم در مهندسی و سلامت شد.
این نتایج نشاندهنده رشد چشمگیر مدلهای آسیایی و تلاش شرکتهای مطرح فناوری برای ارتقاء بهترین مدل هوش مصنوعی برای پاسخ به سوالات علمی است.
چرا o3 بهترین مدل هوش مصنوعی برای پاسخ به سوالات علمی است؟
بر اساس گفته پژوهشگران SciArena، علت محبوبیت و برتری مدل o3 در جزئینگری فنی پاسخها و ارائه اطلاعات دقیق با ذکر منابع علمی است.
این مدل نه تنها به سوالات کاربران پاسخ میدهد، بلکه با استناد به ادبیات علمی و مقالات روز، امکان بررسی صحت اطلاعات را برای پژوهشگران فراهم میکند.
با این حال، توضیح دقیق دلیل اختلاف عملکرد مدلها، به علت ماهیت محرمانه معماری و دادههای آموزشی بیشتر آنها، کار آسانی نیست.
پلتفرم SciArena یکی از نخستین بسترهای ارزیابی عملکرد مدلهای هوش مصنوعی در پاسخ به سوالات علمی با کمک بازخورد جمعی است. در این سیستم، پژوهشگران سوالات علمی خود را ثبت میکنند و پاسخ از دو مدل بهطور تصادفی دریافت میشود. سپس کاربران (پس از تایید هویت) به کیفیت پاسخها رأی میدهند و نتایج در جدول رتبهبندی پلتفرم ثبت میشود. این فرآیند ارزیابی شفاف، میتواند محرک نوآوری و پیشرفت مدلهای هوش مصنوعی علمی باشد.
اگرچه پلتفرمهایی مانند SciArena میتوانند به پژوهشگران در یافتن سریع پاسخ و کشف مقالات جدید کمک کنند، لازم است که به محدودیتهای مدلهای زبان بزرگ (LLM) نیز توجه کنیم. گاهی اوقات مدلها ممکن است متون نادرست تولید کنند یا مفاهیم تخصصی را اشتباه تفسیر کنند. بنابراین، خواندن خلاصههای مقاله توسط مدل هوش مصنوعی جایگزین مطالعه مستقیم مقاله نخواهد بود.

بهترین مدل هوش مصنوعی برای پاسخ به سوالات علمی کدام است؟
با توجه به نتایج پلتفرم SciArena و استقبال پژوهشگران، مدل o3 از OpenAI در حال حاضر بهترین مدل هوش مصنوعی برای پاسخ به سوالات علمی محسوب میشود. این مدل با ارائه پاسخهای دقیق و استناد به منابع معتبر، جایگاه ویژهای در میان پژوهشگران و علاقمندان به فناوری هوش مصنوعی پیدا کرده است.