کشف تعاملات ژنی با هوش مصنوعی: مدل GET چگونه با استفاده از داده‌های کروماتین رمزگشایی می‌کند؟

مقدمه

در دنیای زیست‌شناسی مولکولی و مهندسی ژنتیک، شناخت دقیق مکانیسم‌های تنظیم بیان ژن برای درک فرایندهای رشد، بیماری‌ها و رفتار سلولی حیاتی است. هر سلول در یک ارگانیسم پرسلولی، علی‌رغم داشتن ژنوم مشترک، مجموعه‌ای منحصربه‌فرد از پروتئین‌ها را بیان می‌کند که مسئول عملکرد و تنظیمات ژنی ویژه‌ی آن سلول هستند. این تنوع بیان ژن تا حد زیادی تحت تأثیر تغییرات اپی‌ژنتیکی قرار می‌گیرد که می‌تواند دسترسی کروماتین به فاکتورهای رونویسی را تحت کنترل خود درآورد.

کروماتین شکل فشرده‌ای از DNA است که سطح دسترسی به توالی‌های ژنی را تنظیم می‌کند. هرچه یک بخش خاص از DNA در کروماتین بازتر و قابل‌دسترس‌تر باشد، احتمال اتصال فاکتورهای رونویسی به آن قسمت بیشتر خواهد بود و در نتیجه، بیان ژن تحت تأثیر قرار می‌گیرد. اکنون، محققان در تلاش‌اند از هوش مصنوعی (AI) برای پیش‌بینی و درک این الگوهای دسترسی به کروماتین استفاده کنند. در این مقاله، به معرفی مدل جدیدی به نام GET (General Expression Transformer) می‌پردازیم که می‌تواند با استفاده از داده‌های فراوان کروماتین، الگوهای پیچیده‌ای از تعاملات ژنی را کشف کند و راه را برای پیشرفت‌های مهم در بیوانفورماتیک و پزشکی باز نماید.

چرا داده‌های کروماتین مهم هستند؟

  • تنظیم بیان ژن: کروماتین برای کنترل اینکه کدام ژن‌ها فعال یا خاموش باشند، نقش کلیدی دارد. وقتی بخش‌هایی از کروماتین باز و در دسترس باشند، فاکتورهای رونویسی به آن ناحیه متصل شده و ژن مربوطه را فعال می‌کنند.
  • تعیین سرنوشت سلولی: در مراحل مختلف رشد یا در حالت‌های بیماری، نوع تغییرات اپی‌ژنتیکی و به‌ویژه الگوی دسترسی کروماتین می‌تواند سرنوشت سلول را رقم بزند (مثلاً سلول عصبی، عضلانی یا گلبول قرمز).
  • کشف تارگت‌های درمانی: با نقشه‌برداری از مناطقی که در بیماری‌ها یا شرایط خاص دستخوش تغییر می‌شوند، می‌توان اهداف درمانی جدیدی را شناسایی نمود.

مدل‌های یادگیری ماشینی در پیش‌بینی بیان ژن

پیش از معرفی مدل GET، تلاش‌های فراوانی برای پیش‌بینی حالت‌های اپی‌ژنتیکی و رونویسی ژن‌ها توسط مدل‌های یادگیری ماشینی انجام شده بود. بیشتر این مدل‌ها سعی می‌کردند با تنظیم و آموزش مجدد (Fine-tuning) برای هر نوع سلول یا بافت، به پیش‌بینی‌های دقیق‌تری دست یابند. اما این رویکرد دو مشکل عمده داشت:

  1. تخصصی شدن بیش‌ازحد مدل برای هر سلول خاص: باعث می‌شد تا مدل نتواند الگوهای عمومی و مشترک را در سلول‌های مختلف کشف کند.
  2. نیاز به آموزش مجدد بی‌وقفه: برای هر حالت سلولی جدید یا هر شرایط بالینی خاص، به مدل جداگانه‌ای نیاز بود که فرایندی پرهزینه و زمان‌بر است.

پیدایش مدل‌های بنیادین (Foundation Models)

برای حل این چالش‌ها، مدل‌های بنیادین به وجود آمدند. این مدل‌ها از طریق آموزش روی مجموعه‌داده‌های بزرگ و متنوع، دانش پایه‌ای گسترده‌ای کسب می‌کنند و سپس می‌توان آن‌ها را برای کاربردهای تخصصی‌تر و در زمینه‌های مختلف به کار برد. در سال‌های اخیر، مدل‌هایی در حوزه بیان ژن توسعه یافته‌اند که ورودی آن‌ها پروفایل‌های بیان ژن بود؛ اما مشکلشان این بود که این مدل‌ها سطح تحلیل را تا حد “ژن” پایین می‌آوردند و رزولوشن توالی نوکلئوتیدی را به‌طور مستقیم مدنظر قرار نمی‌دادند.

مدل GET (General Expression Transformer)؛ یک تحول بزرگ در تحلیل کروماتین

مدل GET که توسط Fu و همکارانش توسعه یافته است، تفاوت اصلی‌اش با رویکردهای قبلی در این است که مستقیماً از داده‌های دسترسی کروماتین برای یادگیری استفاده می‌کند. این مدل روی بیش از ۲۰۰ نوع سلول بالغ و جنینی آموزش داده شده و قادر است یک «زبان عمومی» از الگوهای دسترسی کروماتین را بیاموزد.

ویژگی‌های کلیدی GET

  1. یادگیری یکپارچه: دیگر نیازی به ساخت مدل جداگانه برای هر نوع سلول یا بافت نیست؛ یک مدل واحد می‌تواند برای طیف گسترده‌ای از انواع سلول به‌کار رود.
  2. پیش‌بینی بیان ژن در سلول‌های جدید: GET می‌تواند حتی در انواع سلولی که هیچ داده آموزشی از آن‌ها ندیده است نیز الگوهای بیان ژن را با دقت مناسبی پیش‌بینی کند.
  3. کشف نواحی تنظیمی مهم: این مدل می‌تواند عناصر تنظیمی دوردست را که تأثیر بسزایی در بیان ژن دارند، شناسایی نماید؛ به‌ویژه عناصری که در فاصله دورتر از ژن هدف قرار دارند.

نقش کروماتین در فعال یا غیرفعال کردن ژن‌ها

گاهی اوقات، دسترسی محلی کروماتین نمی‌تواند به‌تنهایی بیان ژن را توجیه کند. برخی ژن‌ها حتی در حالت دسترسی کاملاً باز نیز ممکن است بیان نشوند و نیاز به تنظیمات پیچیده‌تر داشته باشند. این عوامل شامل:

  • فاکتورهای رونویسی بالادستی (Upstream Regulators) که در بخش‌های دورتر ژنوم فعال می‌شوند و سپس باعث خاموش یا روشن شدن ژن هدف می‌گردند.
  • کروماتین پایداراً باز یا پایداراً بسته که ممکن است برای ژن‌های مهم رشد و تکامل، نیازمند لایه‌های محکم‌تری از کنترل باشد.

با داشتن پروفایل کامل دسترسی کروماتین، GET می‌تواند:

  • هم نواحی نزدیک به ژن هدف را آنالیز کند (که تنظیمات مستقیم را بر عهده دارند)،
  • هم الگوی کلی دسترسی در سراسر ژنوم را بسنجد تا بتواند بیان ژن را در بافت یا شرایط خاصی با دقت بیشتر پیش‌بینی کند.

مثال کاربردی: بررسی بیان ژن‌های مرتبط با هموگلوبین جنینی

محققان از GET برای شناسایی عناصری که بیان چهار ژن مرتبط با هموگلوبین جنینی را در اریتروبلاست‌ها (سلول‌های پیش‌ساز گلبول قرمز) کنترل می‌کنند، استفاده کردند. افزایش سطح هموگلوبین جنینی، یک راهبرد درمانی بالقوه برای کم‌خونی داسی شکل است. نتایج نشان داد که GET بهتر از مدل‌های قبلی می‌تواند نواحی مؤثر بر تنظیم این ژن‌ها را شناسایی کند و حتی عناصری را که در فاصله دورتری از ژن هدف قرار دارند، با دقت خوبی تشخیص دهد.

کشف تعاملات پروتئین-پروتئین با کمک GET

مدل GET صرفاً به پیش‌بینی بیان ژن محدود نمی‌شود؛ بلکه می‌تواند در کشف تعاملات فاکتورهای رونویسی نیز به کار رود. فاکتورهای رونویسی با یکدیگر همکاری می‌کنند تا بیان ژن را بالا یا پایین ببرند. به‌عنوان مثال:

  • تعامل TFAP2A و ZFX: با استفاده از GET و سپس آنالیز ساختاری با AlphaFold، محققان متوجه شدند این دو فاکتور احتمالاً از نظر فیزیکی نیز با یکدیگر برهم‌کنش دارند. آزمایش‌های تکمیلی نشان دادند که واقعاً میان این دو پروتئین تعامل مستقیم وجود دارد.
  • تعامل PAX5 و گروهی از فاکتورهای گیرنده هسته‌ای: همچنین پیش‌بینی شد که جهش رایج در PAX5 می‌تواند این تعامل را تقویت کرده و خطر ابتلا به لوسمی حاد لنفوبلاستیک B را بالا ببرد.

چشم‌انداز آینده

  1. ترکیب با اطلاعات سه‌بعدی کروماتین: افزوده شدن لایه‌های اضافی نظیر ساختار سه‌بعدی کروماتین می‌تواند تصویری عمیق‌تر از نحوه‌ی اثرگذاری دوردست یک ناحیه بر ژن هدف ارائه دهد.
  2. تحلیل در سطح نوکلئوتید: اگر مدل GET در سطح تک‌تک نوکلئوتیدها آموزش ببیند، قادر خواهد بود اثر جهش‌های ژنتیکی را روی بیان ژن پیش‌بینی کند، حتی وقتی داده‌های تجربی کروماتین در دسترس نباشد.
  3. کاربرد در انواع سلول‌های سخت نمونه‌گیری: بسیاری از سلول‌های حیاتی بدن، مانند سلول‌های مغزی یا قلبی، به‌سختی از انسان نمونه‌برداری می‌شوند. پیش‌بینی‌های مبتنی بر مدل GET می‌تواند در این سلول‌ها، راهگشا باشد.

جمع‌بندی

مدل GET (General Expression Transformer) گامی مهم در حوزه‌ی تحلیل داده‌های اپی‌ژنتیکی و یادگیری ماشینی است. این مدل با بهره‌گیری از داده‌های گسترده دسترسی کروماتین، نه‌تنها بیان ژن را در انواع سلول‌های شناخته‌شده و ناشناخته پیش‌بینی می‌کند، بلکه می‌تواند تعاملات نوین فاکتورهای رونویسی را نیز آشکار سازد. توانایی آن در شناسایی عناصر تنظیمی دوردست و کشف برهم‌کنش‌های پروتئینی، راه را برای کشف داروها و درمان بیماری‌های ژنتیکی از جمله کم‌خونی داسی شکل و برخی سرطان‌ها هموار می‌کند.

اگرچه این مدل، ابزاری قدرتمند و جامع است، اما هنوز فرصت‌های زیادی برای ارتقا و شخصی‌سازی آن وجود دارد؛ از جمله ترکیب با داده‌های ساختار سه‌بعدی کروماتین و ردیابی دقیق در سطح نوکلئوتید. آنچه مسلم است، آینده بیوانفورماتیک و پزشکی شخصی با استفاده از چنین مدل‌های بنیادینی در حال شکل‌گیری است؛ مدل‌هایی که قادرند رمز و راز تنظیم ژن در سلول‌های مختلف را از طریق نشانه‌های اپی‌ژنتیکی آشکار کنند و مسیر تحقیقات و کاربردهای بالینی را متحول سازند.

مجله دایامگ

دریچه‌ای به علوم نوین با تمرکز تخصصی بر دنیای زیستی و پزشکی
مقالات مرتبط

مقابله با مقالات جعلی و Paper Mills: چگونه از پژوهش تقلبی جلوگیری کنیم؟

تقلب در پژوهش و انتشار مقالات جعلی در سال‌های اخیر به یکی…

9 بهمن 1403

مدل هوش مصنوعی ارزان و متن بازDeepSeek-R1 دانشمندان را به وجد آورده است

در دنیای هوش مصنوعی، مدل‌های زبانی بزرگ (LLM) به‌سرعت در حال پیشرفت‌اند…

8 بهمن 1403

دیدگاهتان را بنویسید