بهترین مدل هوش مصنوعی برای پاسخ به سوالات علمی

اخیرا پلتفرم SciArena، مدل o3 ساخته OpenAI (تیم سازنده ChatGPT) را به عنوان بهترین مدل هوش مصنوعی برای پاسخ به سوالات علمی در حوزه‌های مختلف معرفی کرده است. در ادامه ضمن بررسی جزئیات این رتبه‌بندی، با معیارهای ارزیابی مدل‌های زبان بزرگ (LLM) و اهمیت آنها در دنیای علم آشنا می‌شویم.

رتبه‌بندی مدل‌های هوش مصنوعی در SciArena

بر اساس آخرین رتبه‌بندی منتشر شده توسط SciArena (محصول موسسه Allen Institute for Artificial Intelligence)، مدل o3 از OpenAI موفق شد با فاصله قابل توجهی، عنوان بهترین مدل هوش مصنوعی برای پاسخ به سوالات علمی را به خود اختصاص دهد.
در این ارزیابی که با مشارکت ۱۰۲ پژوهشگر و بیش از ۱۳ هزار رأی انجام شد، عملکرد ۲۳ مدل هوش مصنوعی مختلف در پاسخ به سوالات علمی در حوزه‌های علوم طبیعی، سلامت، مهندسی، علوم انسانی و اجتماعی سنجیده شد. نتایج نشان داد که مدل o3 در تمامی این حوزه‌ها بالاترین کیفیت پاسخ را ارائه می‌دهد.

در رتبه‌بندی SciArena، پس از مدل o3، مدل DeepSeek-R1 (محصول شرکت DeepSeek چین) در رتبه دوم در حوزه علوم طبیعی و رتبه چهارم در مهندسی قرار گرفت. همچنین مدل Gemini-2.5-Pro از گوگل موفق به کسب رتبه سوم در علوم طبیعی و رتبه پنجم در مهندسی و سلامت شد.
این نتایج نشان‌دهنده رشد چشمگیر مدل‌های آسیایی و تلاش شرکت‌های مطرح فناوری برای ارتقاء بهترین مدل هوش مصنوعی برای پاسخ به سوالات علمی است.

چرا o3 بهترین مدل هوش مصنوعی برای پاسخ به سوالات علمی است؟

بر اساس گفته پژوهشگران SciArena، علت محبوبیت و برتری مدل o3 در جزئی‌نگری فنی پاسخ‌ها و ارائه اطلاعات دقیق با ذکر منابع علمی است.
این مدل نه تنها به سوالات کاربران پاسخ می‌دهد، بلکه با استناد به ادبیات علمی و مقالات روز، امکان بررسی صحت اطلاعات را برای پژوهشگران فراهم می‌کند.
با این حال، توضیح دقیق دلیل اختلاف عملکرد مدل‌ها، به علت ماهیت محرمانه معماری و داده‌های آموزشی بیشتر آنها، کار آسانی نیست.

پلتفرم SciArena یکی از نخستین بسترهای ارزیابی عملکرد مدل‌های هوش مصنوعی در پاسخ به سوالات علمی با کمک بازخورد جمعی است. در این سیستم، پژوهشگران سوالات علمی خود را ثبت می‌کنند و پاسخ از دو مدل به‌طور تصادفی دریافت می‌شود. سپس کاربران (پس از تایید هویت) به کیفیت پاسخ‌ها رأی می‌دهند و نتایج در جدول رتبه‌بندی پلتفرم ثبت می‌شود. این فرآیند ارزیابی شفاف، می‌تواند محرک نوآوری و پیشرفت مدل‌های هوش مصنوعی علمی باشد.

اگرچه پلتفرم‌هایی مانند SciArena می‌توانند به پژوهشگران در یافتن سریع پاسخ و کشف مقالات جدید کمک کنند، لازم است که به محدودیت‌های مدل‌های زبان بزرگ (LLM) نیز توجه کنیم. گاهی اوقات مدل‌ها ممکن است متون نادرست تولید کنند یا مفاهیم تخصصی را اشتباه تفسیر کنند. بنابراین، خواندن خلاصه‌های مقاله توسط مدل هوش مصنوعی جایگزین مطالعه مستقیم مقاله نخواهد بود.