یک مطالعه جدید نشان میدهد یک «مربی هوش مصنوعی» میتواند به داوران علمی کمک کند تا در فرآیند peer review بازخوردهایی سازندهتر و کمتنشتر ارائه دهند. با این حال، اینکه این رویکرد در نهایت کیفیت مقالات پژوهشی را هم بهطور ملموس بهتر میکند یا نه، هنوز نیازمند بررسیهای بیشتر است.
امروزه پژوهشگران هنگام انجام peer review بیش از گذشته به ابزارهای هوش مصنوعی تکیه میکنند؛ از یافتن منابع علمی مرتبط گرفته تا بهبود نگارش و شفافتر کردن متن.
جیمز زو (James Zou)، دانشمند علوم کامپیوتر در دانشگاه استنفورد در کالیفرنیا، به همراه همکارانش بررسی کردند که آیا مدلهای زبانی بزرگ (LLM) میتوانند یکی از رایجترین انتقادها نسبت به peer review را کاهش دهند یا نه: اینکه بازخوردها اغلب یا بهاندازه کافی دقیق و کامل نیستند یا لحن مناسبی ندارند. برای نمونه، در نشست سالانه «Association for Computational Linguistics» در سال ۲۰۲۳ در تورنتو کانادا، نویسندگان مقالات کنفرانس حدود ۱۲.۹٪ از داوریها را بهعنوان داوری «کمکیفیت» علامتگذاری کردند.
زو میگوید دلیل اصلی این ارزیابی منفی، مبهم بودن بسیاری از داوریهاست؛ یعنی داور به جای توضیح دقیق، به جملات کلی و کوتاهی مثل «نوآورانه نیست» بسنده میکند. به گفته او، گاهی نیز داوریها میتوانند غیرحرفهای باشند یا حتی به حملات شخصی نزدیک شوند؛ برای مثال جملههایی مانند «این نویسندگان نمیدانند درباره چه صحبت میکنند». در برخی موارد هم داوران دچار خطاهای واقعی میشوند؛ مثلاً به مقاله ایراد میگیرند که یک تحلیل انجام نشده، در حالیکه آن تحلیل در متن مقاله وجود دارد.
هوش مصنوعی میتواند داوری علمی را بهبود بخشد؛ چون هدف آن کمک به دقیقتر شدن، محترمانهتر شدن و کاربردیتر شدن بازخوردهاست بدون اینکه نقش داور انسانی را حذف کند.
بررسی لحن و کیفیت داوریها (Tone checker)
زو و همکارانش چندین گزارش داوری را که مبهم، غیرحرفهای یا نادرست بودند جمعآوری کردند و در کنار آنها، نمونههایی از بازخوردی را که از نظر خودشان «مناسب» و استاندارد بود قرار دادند. سپس این دادهی گزینششده را به یک مدل زبانی بزرگ (LLM) دادند تا پاسخهایش اصلاح و دقیقتر شود. خروجی این کار، ابزاری به نام Review Feedback Agent بود؛ سامانهای که در آن پنج مدل زبانی با هم همکاری میکنند و کار یکدیگر را بررسی میکنند تا خطا و سوگیری کاهش یابد.
تیم پژوهشی این ابزار را پیش از برگزاری کنفرانس بینالمللی ICLR 2025 در سنگاپور به کار گرفت. ICLR یکی از کنفرانسهای مهم هوش مصنوعی است که در چند سال اخیر هر سال بیش از ۱۰ هزار ارسال مقاله داشته است. هر مقاله معمولاً توسط ۳ تا ۴ داور بررسی میشود و حدود ۳۰٪ از مقالات پذیرفته میشوند.
پژوهشگران بهصورت تصادفی حدود ۲۰ هزار داوریِ از پیش نوشتهشده را انتخاب کردند، آنها را با Review Feedback Agent ارزیابی کردند و سپس بازخورد تولیدشده توسط ابزار هوش مصنوعی را برای داوران ارسال کردند. در بیشتر موارد، سیستم پیشنهاد میداد داوران چگونه میتوانند دقیقتر و سازندهتر بنویسند و اغلب از عبارت «برای اینکه این بازخورد عملیتر شود…» استفاده میکرد.
نتایج نشان داد حدود ۲۴٪ از داورانی که بازخورد هوش مصنوعی دریافت کرده بودند، داوری خود را بازبینی و اصلاح کردند. بهطور میانگین، متن داوریهای اصلاحشده ۸۰ کلمه طولانیتر شد؛ چون داوران جزئیات بیشتری اضافه کرده بودند. گروهی از ارزیابان انسانی که بخشی از این داوریهای اصلاحشده را بررسی کردند، ۶۸٪ از آنها را بهتر از نسخههای اولیه دانستند.
همچنین نویسندگانی که داوریهایشان تحت تأثیر بازخورد هوش مصنوعی قرار گرفته بود، پاسخ (rebuttal) طولانیتری نوشتند؛ و پاسخ داوران به آن rebuttalها نیز طولانیتر بود. زو این افزایش طول پاسخها را نشانهای از درگیری و مشارکت بیشتر در فرآیند داوری تفسیر میکند.
این هوش مصنوعی میتواند peer review را بهبود بخشد چون به داور کمک میکند بازخورد را از حالت کلی و مبهم خارج کند، لحن را حرفهایتر نگه دارد و پیشنهادهایی ارائه دهد که برای نویسنده «قابل اقدام» باشد.
مشارکت طولانیتر (Long engagement)
با این حال، محمد حسینی (Mohammad Hosseini)، پژوهشگر حوزه پیامدهای اخلاقی استفاده از ابزارهای هوش مصنوعی در دانشگاه نورثوسترن در شیکاگو، میگوید طولانیتر شدن متنها معیار مناسبی برای سنجش «مشارکت» نیست. به گفته او، مدلهای زبانی بزرگ معمولاً تمایل به پرگویی دارند و «این الزاماً به معنای بهبود کیفیت نیست». او اضافه میکند که طولانیتر شدن گفتوگوها میتواند بار کاری بیشتری هم برای داوران و هم برای نویسندگان ایجاد کند.
طبق گزارش پژوهش، بازخورد هوش مصنوعی اثر معنیداری بر امتیازهایی که داوران به مقالات داده بودند نداشت و همچنین نرخ پذیرش را هم بهطور قابل توجهی تغییر نداد. زو این را نکتهای مثبت میداند؛ چون نشان میدهد «مربی هوش مصنوعی» قرار نبوده داوران را به سمت نتیجه خاصی سوق دهد، بلکه فقط کمک کرده نظرها شفافتر نوشته شوند. اما همین موضوع یک پیام دیگر هم دارد: شواهد قوی وجود ندارد که این بازخوردها باعث شده باشند مقالات در فرآیند بازبینی، به شکل چشمگیری بهتر شوند. زو میگوید بررسی این موضوع جالب است که آیا بازخوردهای واسطهگریشده با هوش مصنوعی، در بلندمدت میتواند کیفیت کار یک پژوهشگر را بهتر کند یا نه.
لوری شینتلر (Laurie Schintler)، دانشمند علوم اجتماعی محاسباتی در دانشگاه جورج میسون در فرفکس ویرجینیا، تأکید میکند که در نهایت باید اثر این سیستمها بر «خطای داوری» سنجیده شود: آیا باعث میشوند مطالعات ضعیف کمتر از فیلتر peer review عبور کنند یا برعکس، آیا مطالعات خوب کمتر رد میشوند؟ او همچنین معتقد است که احتمالاً در آینده نزدیک به سمت سامانههای کاملاً خودکار میرویم و باید از همین حالا برای آن آماده شویم؛ یعنی انجام چنین پژوهشهایی باید پیشدستانه و جدی دنبال شود.
این هوش مصنوعی میتواند peer review را بهبود بخشد، اما برای اثبات اثر واقعی آن، فقط افزایش طول متن کافی نیست؛ معیارهای مهمتر، کاهش خطاهای داوری و بهبود خروجی علمی در کوتاهمدت و بلندمدت است.

