در دهههای اخیر، پیشرفت هوش مصنوعی و یادگیری عمیق، دریچهای تازه برای درک زبانهای پیچیده باز کرده است. درست همانطور که مدلهای زبانی بزرگ (Large Language Models) توانستهاند متن و معنای زبان انسان را رمزگشایی کنند، دانشمندان امروز به دنبال رمزگشایی زبانی دیگرند؛ زبان ژنوم.
مدلهای زبانی ژنومی یا همان gLMs، الهامگرفته از موفقیت چشمگیر ترنسفورمرها در حوزه زبان طبیعی، برای خواندن و تحلیل کدهای زیستی DNA طراحی شدهاند. اما چرا این مسیر تا این حد مهم است؟ تنها ۲٪ از ژنوم انسان مربوط به پروتئینهاست؛ ۹۸٪ باقیمانده شامل نواحی غیرکدگذاری است که نقش تنظیمی و عملکردی آنها هنوز تا حد زیادی ناشناخته مانده.
درک اینکه چگونه این نواحی بر بیان ژنها تأثیر میگذارند یا تحت چه شرایطی فعال یا غیرفعال میشوند، یکی از چالشهای اساسی زیستشناسی مدرن است.
چرا ترنسفورمرها و مدلهای زبانی ژنومی؟
ترنسفورمرها به خاطر مکانیسم توجه (Attention) که امکان شناسایی روابط دور و نزدیک را بدون وابستگی به مجاورت نوکلئوتیدها فراهم میکند، انقلابی در تحلیل دادههای ترتیبی مانند زبان و ژنوم ایجاد کردند. برخلاف شبکههای عصبی بازگشتی (RNN) که با وابستگیهای طولانی مشکل دارند و شبکههای عصبی کانولوشنی (CNN) که فقط الگوهای محلی را میبینند، ترنسفورمرها میتوانند تمام نقاط یک توالی DNA را با هم مرتبط کنند.
در عمل، دادههای ژنومی معمولا فاقد برچسباند. این یعنی بیشتر دادهها صرفا توالی خام DNA هستند. قدرت gLMs در این است که میتوان آنها را با یادگیری خودنظارتی (self-supervised) پیشآموزش داد؛ یعنی مدل، ساختار ژنوم را صرفا با دیدن حجم بزرگی از توالیها یاد میگیرد و نیاز به دادههای برچسبدار کاهش مییابد. این ویژگی امکان یادگیری بدون نمونه (zero-shot) و یادگیری با نمونه اندک (few-shot) را در مسائل ژنومی فراهم میکند؛ یعنی مدل حتی برای وظایفی که هرگز آموزش ندیده، میتواند پیشبینیهای معنادار ارائه دهد.
معماریهای نوین و چالشهای مدلسازی ژنوم
مدلسازی ژنوم تنها با چهار حرف (A, T, G, C) آغاز میشود اما پایان آن در رمزگشایی کل حیات است. دادههای ژنومی امروز بسیار متنوع هستند؛ از توالی خام گرفته تا اطلاعات ساختار سهبعدی، متیلاسیون، وضعیت رونویسی، و دادههای اپیژنتیکی. دادهها میتوانند به صورت تک-نوکلئوتیدی، k-mer (کلمات k-تایی)، یا حتی با روشهایی مانند BPE توکنیزه شوند تا هم مدلها انعطافپذیر باشند و هم امکان تحلیل توالیهای طولانی فراهم شود.
یکی از چالشهای اساسی، محدودیت حافظه و قدرت محاسباتی مدلهاست؛ ترنسفورمرها هزینه محاسباتی بالایی دارند و برای توالیهای ژنومی طولانی (گاهی تا یک میلیون جفتباز) این هزینه به شدت افزایش مییابد. اینجا بود که معماریهای جدیدی مثل مدلهای حالت-فضا (SSM) و به طور خاص مدلهایی مانند HyenaDNA و Mamba معرفی شدند تا با کاهش هزینه و افزایش طول کانتکست، بر محدودیتهای ترنسفورمرها غلبه کنند.
از هیبریدها تا gLMهای خالص؛ مدلها چگونه DNA را میفهمند؟
مدلهای ژنومی بر پایه ترنسفورمر به دو دسته اصلی تقسیم میشوند:

۱. مدلهای هیبرید:
در این رویکرد، ترنسفورمرها به همراه سایر معماریها (مانند CNN یا RNN) ترکیب میشوند تا ابتدا ویژگیهای محلی یا جهانی را خلاصه و فشرده کرده و سپس با استفاده از مکانیسم توجه، ارتباطات دوربرد را مدلسازی کنند. مثالهایی مانند Enformer و C.Origami، با ترکیب کانولوشن و ترنسفورمر، هم قدرت مدلسازی وابستگیهای دور را دارند و هم میتوانند دادههای چندبعدی مثل دادههای ساختار سهبعدی کروماتین را تحلیل کنند.
۲. مدلهای gLM خالص:
اینجا مدل صرفا با استفاده از ترنسفورمر یا معماریهای مشابه (بدون هیچ بخش ترکیبی) روی دادههای ژنومی پیشآموزش میبیند و سپس برای وظایف خاص (مثل پیشبینی نواحی تنظیمی یا جایگاه اتصال فاکتورهای رونویسی) بهینه میشود. مدلهایی مانند DNABERT، Nucleotide Transformer، GENA-LM و DNABERT-2 با استفاده از استراتژیهای توکنیزه کردن متفاوت (k-mer، BPE و…) و بهرهگیری از مجموعه دادههای بینگونهای (multi-species)، قابلیت یادگیری قواعد عمومی و اختصاصی ژنوم را دارند. مطالعات نشان دادهاند که هرچه اندازه مدل و تنوع دادههای آموزشی بیشتر باشد، عملکرد مدل نیز بهبود مییابد.
آینده مدلسازی ژنوم؛ فراتر از ترنسفورمر
هرچند ترنسفورمرها فعلا معماری غالب مدلهای زبانی ژنومیاند، اما ظهور SSMها و نسخههای منتخب آنها (مانند Mamba و HyenaDNA) نوید عصری را میدهد که هم دقت مدل بالا میماند و هم هزینه محاسباتی کاهش مییابد. این مدلها با الگوبرداری از موفقیتهای NLP و مدلسازی پروتئین، به تدریج برای دادههای DNA نیز بومیسازی میشوند و شاید به زودی جایگاه ترنسفورمر را به چالش بکشند.
مدلهای زبانی ژنومی، با تکیه بر معماری ترنسفورمر و نوآوریهای جدید، دریچهای نو به فهم زبان حیات گشودهاند. آنها میتوانند بدون نیاز به دادههای برچسبدار، ساختارها و قواعد پنهان ژنوم را کشف کنند، به زیستشناسان در کشف عناصر تنظیمی جدید کمک کنند و حتی پیشبینی رفتارهای پیچیده ژنوم را امکانپذیر نمایند. آینده این حوزه در گرو توسعه معماریهای کارآمدتر و مجموعه دادههای متنوعتر است. به نظر میرسد رمزگشایی کامل ژنوم، با کمک gLMها، بسیار نزدیکتر از همیشه باشد.
در صورت تمایل به درک کامل این مبحث، این مقاله توصیه میگردد.