این هوش مصنوعی می‌تواند داوری علمی را بهبود بخشد

یک مطالعه جدید نشان می‌دهد یک «مربی هوش مصنوعی» می‌تواند به داوران علمی کمک کند تا در فرآیند peer review بازخوردهایی سازنده‌تر و کم‌تنش‌تر ارائه دهند. با این حال، اینکه این رویکرد در نهایت کیفیت مقالات پژوهشی را هم به‌طور ملموس بهتر می‌کند یا نه، هنوز نیازمند بررسی‌های بیشتر است.

امروزه پژوهشگران هنگام انجام peer review بیش از گذشته به ابزارهای هوش مصنوعی تکیه می‌کنند؛ از یافتن منابع علمی مرتبط گرفته تا بهبود نگارش و شفاف‌تر کردن متن.

جیمز زو (James Zou)، دانشمند علوم کامپیوتر در دانشگاه استنفورد در کالیفرنیا، به همراه همکارانش بررسی کردند که آیا مدل‌های زبانی بزرگ (LLM) می‌توانند یکی از رایج‌ترین انتقادها نسبت به peer review را کاهش دهند یا نه: اینکه بازخوردها اغلب یا به‌اندازه کافی دقیق و کامل نیستند یا لحن مناسبی ندارند. برای نمونه، در نشست سالانه «Association for Computational Linguistics» در سال ۲۰۲۳ در تورنتو کانادا، نویسندگان مقالات کنفرانس حدود ۱۲.۹٪ از داوری‌ها را به‌عنوان داوری «کم‌کیفیت» علامت‌گذاری کردند.

زو می‌گوید دلیل اصلی این ارزیابی منفی، مبهم بودن بسیاری از داوری‌هاست؛ یعنی داور به جای توضیح دقیق، به جملات کلی و کوتاهی مثل «نوآورانه نیست» بسنده می‌کند. به گفته او، گاهی نیز داوری‌ها می‌توانند غیرحرفه‌ای باشند یا حتی به حملات شخصی نزدیک شوند؛ برای مثال جمله‌هایی مانند «این نویسندگان نمی‌دانند درباره چه صحبت می‌کنند». در برخی موارد هم داوران دچار خطاهای واقعی می‌شوند؛ مثلاً به مقاله ایراد می‌گیرند که یک تحلیل انجام نشده، در حالی‌که آن تحلیل در متن مقاله وجود دارد.

هوش مصنوعی می‌تواند داوری علمی را بهبود بخشد؛ چون هدف آن کمک به دقیق‌تر شدن، محترمانه‌تر شدن و کاربردی‌تر شدن بازخوردهاست بدون اینکه نقش داور انسانی را حذف کند.

بررسی لحن و کیفیت داوری‌ها (Tone checker)

زو و همکارانش چندین گزارش داوری را که مبهم، غیرحرفه‌ای یا نادرست بودند جمع‌آوری کردند و در کنار آن‌ها، نمونه‌هایی از بازخوردی را که از نظر خودشان «مناسب» و استاندارد بود قرار دادند. سپس این داده‌ی گزینش‌شده را به یک مدل زبانی بزرگ (LLM) دادند تا پاسخ‌هایش اصلاح و دقیق‌تر شود. خروجی این کار، ابزاری به نام Review Feedback Agent بود؛ سامانه‌ای که در آن پنج مدل زبانی با هم همکاری می‌کنند و کار یکدیگر را بررسی می‌کنند تا خطا و سوگیری کاهش یابد.

تیم پژوهشی این ابزار را پیش از برگزاری کنفرانس بین‌المللی ICLR 2025 در سنگاپور به کار گرفت. ICLR یکی از کنفرانس‌های مهم هوش مصنوعی است که در چند سال اخیر هر سال بیش از ۱۰ هزار ارسال مقاله داشته است. هر مقاله معمولاً توسط ۳ تا ۴ داور بررسی می‌شود و حدود ۳۰٪ از مقالات پذیرفته می‌شوند.

پژوهشگران به‌صورت تصادفی حدود ۲۰ هزار داوریِ از پیش نوشته‌شده را انتخاب کردند، آن‌ها را با Review Feedback Agent ارزیابی کردند و سپس بازخورد تولیدشده توسط ابزار هوش مصنوعی را برای داوران ارسال کردند. در بیشتر موارد، سیستم پیشنهاد می‌داد داوران چگونه می‌توانند دقیق‌تر و سازنده‌تر بنویسند و اغلب از عبارت «برای اینکه این بازخورد عملی‌تر شود…» استفاده می‌کرد.

نتایج نشان داد حدود ۲۴٪ از داورانی که بازخورد هوش مصنوعی دریافت کرده بودند، داوری خود را بازبینی و اصلاح کردند. به‌طور میانگین، متن داوری‌های اصلاح‌شده ۸۰ کلمه طولانی‌تر شد؛ چون داوران جزئیات بیشتری اضافه کرده بودند. گروهی از ارزیابان انسانی که بخشی از این داوری‌های اصلاح‌شده را بررسی کردند، ۶۸٪ از آن‌ها را بهتر از نسخه‌های اولیه دانستند.

همچنین نویسندگانی که داوری‌هایشان تحت تأثیر بازخورد هوش مصنوعی قرار گرفته بود، پاسخ (rebuttal) طولانی‌تری نوشتند؛ و پاسخ داوران به آن rebuttalها نیز طولانی‌تر بود. زو این افزایش طول پاسخ‌ها را نشانه‌ای از درگیری و مشارکت بیشتر در فرآیند داوری تفسیر می‌کند.

این هوش مصنوعی می‌تواند peer review را بهبود بخشد چون به داور کمک می‌کند بازخورد را از حالت کلی و مبهم خارج کند، لحن را حرفه‌ای‌تر نگه دارد و پیشنهادهایی ارائه دهد که برای نویسنده «قابل اقدام» باشد.

مشارکت طولانی‌تر (Long engagement)

با این حال، محمد حسینی (Mohammad Hosseini)، پژوهشگر حوزه پیامدهای اخلاقی استفاده از ابزارهای هوش مصنوعی در دانشگاه نورث‌وسترن در شیکاگو، می‌گوید طولانی‌تر شدن متن‌ها معیار مناسبی برای سنجش «مشارکت» نیست. به گفته او، مدل‌های زبانی بزرگ معمولاً تمایل به پرگویی دارند و «این الزاماً به معنای بهبود کیفیت نیست». او اضافه می‌کند که طولانی‌تر شدن گفت‌وگوها می‌تواند بار کاری بیشتری هم برای داوران و هم برای نویسندگان ایجاد کند.

طبق گزارش پژوهش، بازخورد هوش مصنوعی اثر معنی‌داری بر امتیازهایی که داوران به مقالات داده بودند نداشت و همچنین نرخ پذیرش را هم به‌طور قابل توجهی تغییر نداد. زو این را نکته‌ای مثبت می‌داند؛ چون نشان می‌دهد «مربی هوش مصنوعی» قرار نبوده داوران را به سمت نتیجه خاصی سوق دهد، بلکه فقط کمک کرده نظرها شفاف‌تر نوشته شوند. اما همین موضوع یک پیام دیگر هم دارد: شواهد قوی وجود ندارد که این بازخوردها باعث شده باشند مقالات در فرآیند بازبینی، به شکل چشمگیری بهتر شوند. زو می‌گوید بررسی این موضوع جالب است که آیا بازخوردهای واسطه‌گری‌شده با هوش مصنوعی، در بلندمدت می‌تواند کیفیت کار یک پژوهشگر را بهتر کند یا نه.

لوری شینتلر (Laurie Schintler)، دانشمند علوم اجتماعی محاسباتی در دانشگاه جورج میسون در فرفکس ویرجینیا، تأکید می‌کند که در نهایت باید اثر این سیستم‌ها بر «خطای داوری» سنجیده شود: آیا باعث می‌شوند مطالعات ضعیف کمتر از فیلتر peer review عبور کنند یا برعکس، آیا مطالعات خوب کمتر رد می‌شوند؟ او همچنین معتقد است که احتمالاً در آینده نزدیک به سمت سامانه‌های کاملاً خودکار می‌رویم و باید از همین حالا برای آن آماده شویم؛ یعنی انجام چنین پژوهش‌هایی باید پیش‌دستانه و جدی دنبال شود.

این هوش مصنوعی می‌تواند peer review را بهبود بخشد، اما برای اثبات اثر واقعی آن، فقط افزایش طول متن کافی نیست؛ معیارهای مهم‌تر، کاهش خطاهای داوری و بهبود خروجی علمی در کوتاه‌مدت و بلندمدت است.

بیوتکنولوژی

14 پادکست بیوتکنولوژی در سال 2025 که نباید از دست بدهید!

پلتفرم تولید مینی‌ارگان برای ارزیابی درمان‌های RNA: گامی نوین در درمان شخصی‌سازی‌شده بیماری‌های ژنتیکی

چگونه چین می‌تواند به یک ابرقدرت زیست‌فناوری تبدیل شود

سیستم ایمنی پوست: آنتی بادی های ساخته شده لوکال با باکتری های ساکن مبارزه می کنند

پروتئین Killswitch، ابزاری انقلابی برای مطالعه قطرات بیومولکولی سلولی

۱۰ شرکت پیشرو گوشت کشت شده در آزمایشگاه که آینده غذای پایدار را در ۲۰۲۵ رقم می‌زنند

بیوتکنولوژی

14 پادکست بیوتکنولوژی در سال 2025 که نباید از دست بدهید!

پروتئین Killswitch، ابزاری انقلابی برای مطالعه قطرات بیومولکولی سلولی

۱۰ شرکت پیشرو گوشت کشت شده در آزمایشگاه که آینده غذای پایدار را در ۲۰۲۵ رقم می‌زنند

پیش‌بینی ۱۰ داروی پرفروش جهان در سال ۲۰۲۵ – رهبری Keytruda و انقلاب در حوزه متابولیک

پلتفرم تولید مینی‌ارگان برای ارزیابی درمان‌های RNA: گامی نوین در درمان شخصی‌سازی‌شده بیماری‌های ژنتیکی

چگونه چین می‌تواند به یک ابرقدرت زیست‌فناوری تبدیل شود

آخرین پست ها

:: برای جستجو تایپ کنید ::

این هوش مصنوعی می‌تواند داوری علمی را بهبود بخشد

بررسی لحن و کیفیت داوری‌ها (Tone checker)

مشارکت طولانی‌تر (Long engagement)

مجله دایامگ

هوش مصنوعی مشاغل علمی را تهدید می‌کند. کدام مشاغل بیشتر در معرض خطر هستند؟

انقلابی در سلامت فردی با عامل سلامت شخصی (Personal Health Agent)

مدل‌های زبانی ژنومی – انقلابی نوین در رمزگشایی DNA

دیدگاهتان را بنویسید لغو پاسخ

دنبال چیزی می گردی؟

دسته بندی ها

نوشته‌های تازه

آخرین پست ها

درباره ما

آخرین پست ها

دسترسی سریع

دسته بندی ها

بیوتکنولوژی

بیوتکنولوژی

این هوش مصنوعی می‌تواند داوری علمی را بهبود بخشد

اشتراک گذاری

اشتراک گذاری

بررسی لحن و کیفیت داوری‌ها (Tone checker)

مشارکت طولانی‌تر (Long engagement)

دیدگاهتان را بنویسید لغو پاسخ

دنبال چیزی می گردی؟

دسته بندی ها

نوشته‌های تازه

آخرین پست ها