مقدمه
در دنیای زیستشناسی مولکولی و مهندسی ژنتیک، شناخت دقیق مکانیسمهای تنظیم بیان ژن برای درک فرایندهای رشد، بیماریها و رفتار سلولی حیاتی است. هر سلول در یک ارگانیسم پرسلولی، علیرغم داشتن ژنوم مشترک، مجموعهای منحصربهفرد از پروتئینها را بیان میکند که مسئول عملکرد و تنظیمات ژنی ویژهی آن سلول هستند. این تنوع بیان ژن تا حد زیادی تحت تأثیر تغییرات اپیژنتیکی قرار میگیرد که میتواند دسترسی کروماتین به فاکتورهای رونویسی را تحت کنترل خود درآورد.
کروماتین شکل فشردهای از DNA است که سطح دسترسی به توالیهای ژنی را تنظیم میکند. هرچه یک بخش خاص از DNA در کروماتین بازتر و قابلدسترستر باشد، احتمال اتصال فاکتورهای رونویسی به آن قسمت بیشتر خواهد بود و در نتیجه، بیان ژن تحت تأثیر قرار میگیرد. اکنون، محققان در تلاشاند از هوش مصنوعی (AI) برای پیشبینی و درک این الگوهای دسترسی به کروماتین استفاده کنند. در این مقاله، به معرفی مدل جدیدی به نام GET (General Expression Transformer) میپردازیم که میتواند با استفاده از دادههای فراوان کروماتین، الگوهای پیچیدهای از تعاملات ژنی را کشف کند و راه را برای پیشرفتهای مهم در بیوانفورماتیک و پزشکی باز نماید.
چرا دادههای کروماتین مهم هستند؟
- تنظیم بیان ژن: کروماتین برای کنترل اینکه کدام ژنها فعال یا خاموش باشند، نقش کلیدی دارد. وقتی بخشهایی از کروماتین باز و در دسترس باشند، فاکتورهای رونویسی به آن ناحیه متصل شده و ژن مربوطه را فعال میکنند.
- تعیین سرنوشت سلولی: در مراحل مختلف رشد یا در حالتهای بیماری، نوع تغییرات اپیژنتیکی و بهویژه الگوی دسترسی کروماتین میتواند سرنوشت سلول را رقم بزند (مثلاً سلول عصبی، عضلانی یا گلبول قرمز).
- کشف تارگتهای درمانی: با نقشهبرداری از مناطقی که در بیماریها یا شرایط خاص دستخوش تغییر میشوند، میتوان اهداف درمانی جدیدی را شناسایی نمود.
مدلهای یادگیری ماشینی در پیشبینی بیان ژن
پیش از معرفی مدل GET، تلاشهای فراوانی برای پیشبینی حالتهای اپیژنتیکی و رونویسی ژنها توسط مدلهای یادگیری ماشینی انجام شده بود. بیشتر این مدلها سعی میکردند با تنظیم و آموزش مجدد (Fine-tuning) برای هر نوع سلول یا بافت، به پیشبینیهای دقیقتری دست یابند. اما این رویکرد دو مشکل عمده داشت:
- تخصصی شدن بیشازحد مدل برای هر سلول خاص: باعث میشد تا مدل نتواند الگوهای عمومی و مشترک را در سلولهای مختلف کشف کند.
- نیاز به آموزش مجدد بیوقفه: برای هر حالت سلولی جدید یا هر شرایط بالینی خاص، به مدل جداگانهای نیاز بود که فرایندی پرهزینه و زمانبر است.
پیدایش مدلهای بنیادین (Foundation Models)
برای حل این چالشها، مدلهای بنیادین به وجود آمدند. این مدلها از طریق آموزش روی مجموعهدادههای بزرگ و متنوع، دانش پایهای گستردهای کسب میکنند و سپس میتوان آنها را برای کاربردهای تخصصیتر و در زمینههای مختلف به کار برد. در سالهای اخیر، مدلهایی در حوزه بیان ژن توسعه یافتهاند که ورودی آنها پروفایلهای بیان ژن بود؛ اما مشکلشان این بود که این مدلها سطح تحلیل را تا حد “ژن” پایین میآوردند و رزولوشن توالی نوکلئوتیدی را بهطور مستقیم مدنظر قرار نمیدادند.
مدل GET (General Expression Transformer)؛ یک تحول بزرگ در تحلیل کروماتین
مدل GET که توسط Fu و همکارانش توسعه یافته است، تفاوت اصلیاش با رویکردهای قبلی در این است که مستقیماً از دادههای دسترسی کروماتین برای یادگیری استفاده میکند. این مدل روی بیش از ۲۰۰ نوع سلول بالغ و جنینی آموزش داده شده و قادر است یک «زبان عمومی» از الگوهای دسترسی کروماتین را بیاموزد.
ویژگیهای کلیدی GET
- یادگیری یکپارچه: دیگر نیازی به ساخت مدل جداگانه برای هر نوع سلول یا بافت نیست؛ یک مدل واحد میتواند برای طیف گستردهای از انواع سلول بهکار رود.
- پیشبینی بیان ژن در سلولهای جدید: GET میتواند حتی در انواع سلولی که هیچ داده آموزشی از آنها ندیده است نیز الگوهای بیان ژن را با دقت مناسبی پیشبینی کند.
- کشف نواحی تنظیمی مهم: این مدل میتواند عناصر تنظیمی دوردست را که تأثیر بسزایی در بیان ژن دارند، شناسایی نماید؛ بهویژه عناصری که در فاصله دورتر از ژن هدف قرار دارند.
نقش کروماتین در فعال یا غیرفعال کردن ژنها
گاهی اوقات، دسترسی محلی کروماتین نمیتواند بهتنهایی بیان ژن را توجیه کند. برخی ژنها حتی در حالت دسترسی کاملاً باز نیز ممکن است بیان نشوند و نیاز به تنظیمات پیچیدهتر داشته باشند. این عوامل شامل:
- فاکتورهای رونویسی بالادستی (Upstream Regulators) که در بخشهای دورتر ژنوم فعال میشوند و سپس باعث خاموش یا روشن شدن ژن هدف میگردند.
- کروماتین پایداراً باز یا پایداراً بسته که ممکن است برای ژنهای مهم رشد و تکامل، نیازمند لایههای محکمتری از کنترل باشد.
با داشتن پروفایل کامل دسترسی کروماتین، GET میتواند:
- هم نواحی نزدیک به ژن هدف را آنالیز کند (که تنظیمات مستقیم را بر عهده دارند)،
- هم الگوی کلی دسترسی در سراسر ژنوم را بسنجد تا بتواند بیان ژن را در بافت یا شرایط خاصی با دقت بیشتر پیشبینی کند.
مثال کاربردی: بررسی بیان ژنهای مرتبط با هموگلوبین جنینی
محققان از GET برای شناسایی عناصری که بیان چهار ژن مرتبط با هموگلوبین جنینی را در اریتروبلاستها (سلولهای پیشساز گلبول قرمز) کنترل میکنند، استفاده کردند. افزایش سطح هموگلوبین جنینی، یک راهبرد درمانی بالقوه برای کمخونی داسی شکل است. نتایج نشان داد که GET بهتر از مدلهای قبلی میتواند نواحی مؤثر بر تنظیم این ژنها را شناسایی کند و حتی عناصری را که در فاصله دورتری از ژن هدف قرار دارند، با دقت خوبی تشخیص دهد.
کشف تعاملات پروتئین-پروتئین با کمک GET
مدل GET صرفاً به پیشبینی بیان ژن محدود نمیشود؛ بلکه میتواند در کشف تعاملات فاکتورهای رونویسی نیز به کار رود. فاکتورهای رونویسی با یکدیگر همکاری میکنند تا بیان ژن را بالا یا پایین ببرند. بهعنوان مثال:
- تعامل TFAP2A و ZFX: با استفاده از GET و سپس آنالیز ساختاری با AlphaFold، محققان متوجه شدند این دو فاکتور احتمالاً از نظر فیزیکی نیز با یکدیگر برهمکنش دارند. آزمایشهای تکمیلی نشان دادند که واقعاً میان این دو پروتئین تعامل مستقیم وجود دارد.
- تعامل PAX5 و گروهی از فاکتورهای گیرنده هستهای: همچنین پیشبینی شد که جهش رایج در PAX5 میتواند این تعامل را تقویت کرده و خطر ابتلا به لوسمی حاد لنفوبلاستیک B را بالا ببرد.
چشمانداز آینده
- ترکیب با اطلاعات سهبعدی کروماتین: افزوده شدن لایههای اضافی نظیر ساختار سهبعدی کروماتین میتواند تصویری عمیقتر از نحوهی اثرگذاری دوردست یک ناحیه بر ژن هدف ارائه دهد.
- تحلیل در سطح نوکلئوتید: اگر مدل GET در سطح تکتک نوکلئوتیدها آموزش ببیند، قادر خواهد بود اثر جهشهای ژنتیکی را روی بیان ژن پیشبینی کند، حتی وقتی دادههای تجربی کروماتین در دسترس نباشد.
- کاربرد در انواع سلولهای سخت نمونهگیری: بسیاری از سلولهای حیاتی بدن، مانند سلولهای مغزی یا قلبی، بهسختی از انسان نمونهبرداری میشوند. پیشبینیهای مبتنی بر مدل GET میتواند در این سلولها، راهگشا باشد.
جمعبندی
مدل GET (General Expression Transformer) گامی مهم در حوزهی تحلیل دادههای اپیژنتیکی و یادگیری ماشینی است. این مدل با بهرهگیری از دادههای گسترده دسترسی کروماتین، نهتنها بیان ژن را در انواع سلولهای شناختهشده و ناشناخته پیشبینی میکند، بلکه میتواند تعاملات نوین فاکتورهای رونویسی را نیز آشکار سازد. توانایی آن در شناسایی عناصر تنظیمی دوردست و کشف برهمکنشهای پروتئینی، راه را برای کشف داروها و درمان بیماریهای ژنتیکی از جمله کمخونی داسی شکل و برخی سرطانها هموار میکند.
اگرچه این مدل، ابزاری قدرتمند و جامع است، اما هنوز فرصتهای زیادی برای ارتقا و شخصیسازی آن وجود دارد؛ از جمله ترکیب با دادههای ساختار سهبعدی کروماتین و ردیابی دقیق در سطح نوکلئوتید. آنچه مسلم است، آینده بیوانفورماتیک و پزشکی شخصی با استفاده از چنین مدلهای بنیادینی در حال شکلگیری است؛ مدلهایی که قادرند رمز و راز تنظیم ژن در سلولهای مختلف را از طریق نشانههای اپیژنتیکی آشکار کنند و مسیر تحقیقات و کاربردهای بالینی را متحول سازند.