هوش مصنوعی می‌تواند داوری علمی را بهبود بخشد

این هوش مصنوعی می‌تواند داوری علمی را بهبود بخشد

یک مطالعه جدید نشان می‌دهد یک «مربی هوش مصنوعی» می‌تواند به داوران علمی کمک کند تا در فرآیند peer review بازخوردهایی سازنده‌تر و کم‌تنش‌تر ارائه دهند. با این حال، اینکه این رویکرد در نهایت کیفیت مقالات پژوهشی را هم به‌طور ملموس بهتر می‌کند یا نه، هنوز نیازمند بررسی‌های بیشتر است.

امروزه پژوهشگران هنگام انجام peer review بیش از گذشته به ابزارهای هوش مصنوعی تکیه می‌کنند؛ از یافتن منابع علمی مرتبط گرفته تا بهبود نگارش و شفاف‌تر کردن متن.

دوره جامع زبان برنامه‌نویسی R | بدون پیش‌نیاز و از پایه به زبان برنامه‌نویسی R با رویکرد آنالیز و مصورسازی داده، مسلط شوید | مناسب تمامی رشته‌ها و مقاطع تحصیلی علوم زیستی و پزشکی
مشاهده و ثبت‌نام

جیمز زو (James Zou)، دانشمند علوم کامپیوتر در دانشگاه استنفورد در کالیفرنیا، به همراه همکارانش بررسی کردند که آیا مدل‌های زبانی بزرگ (LLM) می‌توانند یکی از رایج‌ترین انتقادها نسبت به peer review را کاهش دهند یا نه: اینکه بازخوردها اغلب یا به‌اندازه کافی دقیق و کامل نیستند یا لحن مناسبی ندارند. برای نمونه، در نشست سالانه «Association for Computational Linguistics» در سال ۲۰۲۳ در تورنتو کانادا، نویسندگان مقالات کنفرانس حدود ۱۲.۹٪ از داوری‌ها را به‌عنوان داوری «کم‌کیفیت» علامت‌گذاری کردند.

زو می‌گوید دلیل اصلی این ارزیابی منفی، مبهم بودن بسیاری از داوری‌هاست؛ یعنی داور به جای توضیح دقیق، به جملات کلی و کوتاهی مثل «نوآورانه نیست» بسنده می‌کند. به گفته او، گاهی نیز داوری‌ها می‌توانند غیرحرفه‌ای باشند یا حتی به حملات شخصی نزدیک شوند؛ برای مثال جمله‌هایی مانند «این نویسندگان نمی‌دانند درباره چه صحبت می‌کنند». در برخی موارد هم داوران دچار خطاهای واقعی می‌شوند؛ مثلاً به مقاله ایراد می‌گیرند که یک تحلیل انجام نشده، در حالی‌که آن تحلیل در متن مقاله وجود دارد.

هوش مصنوعی می‌تواند داوری علمی را بهبود بخشد؛ چون هدف آن کمک به دقیق‌تر شدن، محترمانه‌تر شدن و کاربردی‌تر شدن بازخوردهاست بدون اینکه نقش داور انسانی را حذف کند.

بررسی لحن و کیفیت داوری‌ها (Tone checker)

زو و همکارانش چندین گزارش داوری را که مبهم، غیرحرفه‌ای یا نادرست بودند جمع‌آوری کردند و در کنار آن‌ها، نمونه‌هایی از بازخوردی را که از نظر خودشان «مناسب» و استاندارد بود قرار دادند. سپس این داده‌ی گزینش‌شده را به یک مدل زبانی بزرگ (LLM) دادند تا پاسخ‌هایش اصلاح و دقیق‌تر شود. خروجی این کار، ابزاری به نام Review Feedback Agent بود؛ سامانه‌ای که در آن پنج مدل زبانی با هم همکاری می‌کنند و کار یکدیگر را بررسی می‌کنند تا خطا و سوگیری کاهش یابد.

تخفیف ویژه
Rank Math Pro
دوره جامع سیستم بیولوژی
بدون پیش‌نیاز

مشاهده و ثبت‌نام
--:--:-- زمان باقی‌مانده
۵۸٪ تخفیف

تیم پژوهشی این ابزار را پیش از برگزاری کنفرانس بین‌المللی ICLR 2025 در سنگاپور به کار گرفت. ICLR یکی از کنفرانس‌های مهم هوش مصنوعی است که در چند سال اخیر هر سال بیش از ۱۰ هزار ارسال مقاله داشته است. هر مقاله معمولاً توسط ۳ تا ۴ داور بررسی می‌شود و حدود ۳۰٪ از مقالات پذیرفته می‌شوند.

پژوهشگران به‌صورت تصادفی حدود ۲۰ هزار داوریِ از پیش نوشته‌شده را انتخاب کردند، آن‌ها را با Review Feedback Agent ارزیابی کردند و سپس بازخورد تولیدشده توسط ابزار هوش مصنوعی را برای داوران ارسال کردند. در بیشتر موارد، سیستم پیشنهاد می‌داد داوران چگونه می‌توانند دقیق‌تر و سازنده‌تر بنویسند و اغلب از عبارت «برای اینکه این بازخورد عملی‌تر شود…» استفاده می‌کرد.

نتایج نشان داد حدود ۲۴٪ از داورانی که بازخورد هوش مصنوعی دریافت کرده بودند، داوری خود را بازبینی و اصلاح کردند. به‌طور میانگین، متن داوری‌های اصلاح‌شده ۸۰ کلمه طولانی‌تر شد؛ چون داوران جزئیات بیشتری اضافه کرده بودند. گروهی از ارزیابان انسانی که بخشی از این داوری‌های اصلاح‌شده را بررسی کردند، ۶۸٪ از آن‌ها را بهتر از نسخه‌های اولیه دانستند.

همچنین نویسندگانی که داوری‌هایشان تحت تأثیر بازخورد هوش مصنوعی قرار گرفته بود، پاسخ (rebuttal) طولانی‌تری نوشتند؛ و پاسخ داوران به آن rebuttalها نیز طولانی‌تر بود. زو این افزایش طول پاسخ‌ها را نشانه‌ای از درگیری و مشارکت بیشتر در فرآیند داوری تفسیر می‌کند.

این هوش مصنوعی می‌تواند peer review را بهبود بخشد چون به داور کمک می‌کند بازخورد را از حالت کلی و مبهم خارج کند، لحن را حرفه‌ای‌تر نگه دارد و پیشنهادهایی ارائه دهد که برای نویسنده «قابل اقدام» باشد.

مشارکت طولانی‌تر (Long engagement)

با این حال، محمد حسینی (Mohammad Hosseini)، پژوهشگر حوزه پیامدهای اخلاقی استفاده از ابزارهای هوش مصنوعی در دانشگاه نورث‌وسترن در شیکاگو، می‌گوید طولانی‌تر شدن متن‌ها معیار مناسبی برای سنجش «مشارکت» نیست. به گفته او، مدل‌های زبانی بزرگ معمولاً تمایل به پرگویی دارند و «این الزاماً به معنای بهبود کیفیت نیست». او اضافه می‌کند که طولانی‌تر شدن گفت‌وگوها می‌تواند بار کاری بیشتری هم برای داوران و هم برای نویسندگان ایجاد کند.

طبق گزارش پژوهش، بازخورد هوش مصنوعی اثر معنی‌داری بر امتیازهایی که داوران به مقالات داده بودند نداشت و همچنین نرخ پذیرش را هم به‌طور قابل توجهی تغییر نداد. زو این را نکته‌ای مثبت می‌داند؛ چون نشان می‌دهد «مربی هوش مصنوعی» قرار نبوده داوران را به سمت نتیجه خاصی سوق دهد، بلکه فقط کمک کرده نظرها شفاف‌تر نوشته شوند. اما همین موضوع یک پیام دیگر هم دارد: شواهد قوی وجود ندارد که این بازخوردها باعث شده باشند مقالات در فرآیند بازبینی، به شکل چشمگیری بهتر شوند. زو می‌گوید بررسی این موضوع جالب است که آیا بازخوردهای واسطه‌گری‌شده با هوش مصنوعی، در بلندمدت می‌تواند کیفیت کار یک پژوهشگر را بهتر کند یا نه.

لوری شینتلر (Laurie Schintler)، دانشمند علوم اجتماعی محاسباتی در دانشگاه جورج میسون در فرفکس ویرجینیا، تأکید می‌کند که در نهایت باید اثر این سیستم‌ها بر «خطای داوری» سنجیده شود: آیا باعث می‌شوند مطالعات ضعیف کمتر از فیلتر peer review عبور کنند یا برعکس، آیا مطالعات خوب کمتر رد می‌شوند؟ او همچنین معتقد است که احتمالاً در آینده نزدیک به سمت سامانه‌های کاملاً خودکار می‌رویم و باید از همین حالا برای آن آماده شویم؛ یعنی انجام چنین پژوهش‌هایی باید پیش‌دستانه و جدی دنبال شود.

این هوش مصنوعی می‌تواند peer review را بهبود بخشد، اما برای اثبات اثر واقعی آن، فقط افزایش طول متن کافی نیست؛ معیارهای مهم‌تر، کاهش خطاهای داوری و بهبود خروجی علمی در کوتاه‌مدت و بلندمدت است.

دریچه‌ای به علوم نوین با تمرکز تخصصی بر دنیای زیستی و پزشکی
مقالات مرتبط

هوش مصنوعی مشاغل علمی را تهدید می‌کند. کدام مشاغل بیشتر در معرض خطر هستند؟

هوش مصنوعی بسیاری از مشاغل را در معرض تهدید قرار داده است…

5 اسفند 1404

انقلابی در سلامت فردی با عامل سلامت شخصی (Personal Health Agent)

سال‌هاست که دنیای سلامت با چالش‌های بزرگی مثل پیچیدگی داده‌های زیستی، عدم…

16 مهر 1404

مدل‌های زبانی ژنومی – انقلابی نوین در رمزگشایی DNA

در دهه‌های اخیر، پیشرفت هوش مصنوعی و یادگیری عمیق، دریچه‌ای تازه برای…

16 مهر 1404

دیدگاهتان را بنویسید