Wednesday, 19 Mar 2025

Sistem AI Baru yang Dikembangkan Harvard Membuka Kode Sumber Biologi

RisalahPos
24 Apr 2024 05:47
5 minutes reading

Oleh

Sebuah studi inovatif yang dilakukan oleh Yunha Hwang dan timnya telah mengembangkan gLM, sebuah sistem AI yang menerjemahkan bahasa genomik yang kompleks dari data mikroba yang ekstensif. Inovasi ini memungkinkan pemahaman yang lebih mendalam mengenai fungsi dan regulasi gen, sehingga mengarah pada penemuan baru dalam genomik. gLM memberikan contoh potensi AI dalam memajukan ilmu kehidupan dan mengatasi tantangan global. Kredit: SciTechDaily.com

Sistem Kecerdasan Buatan (AI), seperti ChatGTP, telah menggemparkan dunia. Tidak banyak yang bisa mereka lakukan, mulai dari merekomendasikan acara TV berikutnya yang menarik hingga membantu menavigasi lalu lintas. Namun, bisakah sistem AI mempelajari bahasa kehidupan dan membantu ahli biologi mengungkap terobosan menarik dalam sains?

Dalam sebuah studi baru yang diterbitkan di Komunikasi Alamtim peneliti interdisipliner yang dipimpin oleh Yunha Hwang, kandidat PhD di Departemen Biologi Organisme dan Evolusioner (OEB) di Harvard, telah memelopori sistem kecerdasan buatan (AI) yang mampu menguraikan bahasa genomik yang rumit.

Bahasa genom adalah kode sumber biologi. Ini menggambarkan fungsi biologis dan tata bahasa peraturan yang dikodekan dalam genom. Para peneliti bertanya apakah kita dapat mengembangkan mesin AI untuk “membaca” bahasa genom dan menjadi fasih dalam bahasa tersebut, memahami arti, atau fungsi dan peraturan gen? Tim memasukkan kumpulan data metagenomik mikroba, kumpulan data genom terbesar dan paling beragam yang tersedia, ke mesin untuk membuat Model Bahasa Genomic (gLM).

Tantangan Data Genomik

“Dalam biologi, kita memiliki kamus kata-kata yang dikenal dan peneliti bekerja berdasarkan kata-kata yang diketahui tersebut. Masalahnya adalah sebagian kecil dari kata-kata yang diketahui ini hanya berjumlah kurang dari satu persen dari rangkaian biologis,” kata Hwang, “kuantitas dan keragaman data genom meningkat pesat, namun manusia tidak mampu memproses data kompleks dalam jumlah besar.”

Model bahasa besar (LLM), seperti GPT4, mempelajari makna kata dengan memproses beragam data teks dalam jumlah besar yang memungkinkan pemahaman hubungan antar kata. Model bahasa genom (gLM) belajar dari data metagenomik yang sangat beragam, bersumber dari mikroba yang menghuni berbagai lingkungan termasuk laut, tanah, dan usus manusia. Dengan data ini, gLM belajar memahami “semantik” fungsional dan “sintaks” regulasi setiap gen dengan mempelajari hubungan antara gen dan konteks genomnya. gLM, seperti LLM, adalah model yang diawasi sendiri – artinya model ini mempelajari representasi gen yang bermakna hanya dari data dan tidak memerlukan label yang diberikan oleh manusia.

Mengungkap Hal yang Tidak Diketahui dalam Genomik

Para peneliti telah mengurutkan beberapa organisme yang paling umum dipelajari seperti manusia, E. coli, dan lalat buah. Namun, bahkan untuk genom yang paling banyak dipelajari, sebagian besar gen masih memiliki karakter yang buruk. “Kita telah belajar banyak di era revolusioner ‘omics’ ini, termasuk seberapa banyak yang tidak kita ketahui,” kata penulis senior Profesor Peter Girguis, juga di OEB di Harvard. “Kami bertanya, bagaimana kita bisa mendapatkan makna dari sesuatu tanpa bergantung pada kamus pepatah? Bagaimana kita bisa lebih memahami konten dan konteks genom?”

Studi ini menunjukkan bahwa gLM mempelajari fungsi enzimatik dan modul gen yang diatur bersama (disebut operon), dan memberikan konteks genom yang dapat memprediksi fungsi gen. Model ini juga mempelajari informasi taksonomi dan ketergantungan konteks fungsi gen. Yang mengejutkan, gLM tidak mengetahui enzim mana yang dilihatnya, atau dari bakteri mana urutan tersebut berasal. Namun, karena ia telah melihat banyak rangkaian dan memahami hubungan evolusioner antar rangkaian selama pelatihan, ia dapat memperoleh hubungan fungsional dan evolusioner antar rangkaian.

Potensi gLM dalam Biologi

“Seperti halnya kata-kata, gen dapat memiliki “makna” yang berbeda-beda, bergantung pada konteks di mana gen tersebut ditemukan. Sebaliknya, gen yang sangat terdiferensiasi dapat memiliki fungsi yang “sinonim”. gLM memungkinkan kerangka kerja yang lebih bernuansa untuk memahami fungsi gen. Hal ini berbeda dengan metode pemetaan satu-ke-satu dari urutan ke anotasi yang ada, yang tidak mewakili sifat bahasa genom yang dinamis dan bergantung pada konteks,” kata Hwang.

Hwang bekerja sama dengan rekan penulis Andre Cornman (seorang peneliti independen di pembelajaran mesin dan biologi), Sergey Ovchinnikov (mantan Rekan Terhormat John Harvard dan saat ini Asisten Profesor di DENGAN), dan Elizabeth Kellogg (Fakultas Asosiasi di Rumah Sakit Penelitian Anak St. Jude) untuk membentuk tim interdisipliner dengan latar belakang yang kuat di bidang mikrobiologi, genom, bioinformatika, ilmu protein, dan pembelajaran mesin.

“Di laboratorium, kita terjebak dalam proses langkah demi langkah dalam menemukan gen, membuat protein, memurnikannya, mengkarakterisasinya, dll. Jadi kita hanya menemukan apa yang sudah kita ketahui,” kata Girguis. Namun gLM memungkinkan ahli biologi untuk melihat konteks gen yang tidak diketahui dan perannya ketika gen tersebut sering ditemukan dalam kelompok gen yang serupa. Model tersebut dapat memberi tahu para peneliti bahwa kelompok gen ini bekerja sama untuk mencapai sesuatu, dan model tersebut dapat memberikan jawaban yang tidak muncul dalam “kamus”.

“Konteks genom berisi informasi penting untuk memahami sejarah evolusi dan lintasan evolusi berbagai protein dan gen,” kata Hwang. “Pada akhirnya, gLM mempelajari informasi kontekstual ini untuk membantu peneliti memahami fungsi gen yang sebelumnya tidak diketahui.”

“Metode anotasi fungsional tradisional biasanya berfokus pada satu protein pada satu waktu, mengabaikan interaksi antar protein. gLM mewakili kemajuan besar dengan mengintegrasikan konsep lingkungan gen dengan model bahasa, sehingga memberikan pandangan yang lebih komprehensif tentang interaksi protein,” kata Martin Steinegger (Asisten Profesor, Universitas Nasional Seoul), pakar bioinformatika dan pembelajaran mesin, yang tidak pernah terlibat dalam penelitian ini. terlibat dalam penelitian tersebut.

Dengan pemodelan bahasa genom, ahli biologi dapat menemukan pola genom baru dan mengungkap biologi baru. gLM merupakan tonggak penting dalam kolaborasi interdisipliner yang mendorong kemajuan dalam ilmu kehidupan.

“Dengan gLM kita bisa mendapatkan wawasan baru tentang genom yang beranotasi buruk,” kata Hwang. “gLM juga dapat memandu validasi fungsi eksperimental dan memungkinkan penemuan fungsi baru dan mekanisme biologis. Kami berharap gLM dapat mempercepat penemuan solusi bioteknologi baru untuk perubahan iklim dan bioekonomi.”

Referensi: “Model bahasa genom memprediksi koregulasi dan fungsi protein” oleh Yunha Hwang, Andre L. Cornman, Elizabeth H. Kellogg, Sergey Ovchinnikov, dan Peter R. Girguis, 3 April 2024, Komunikasi Alam.
DOI: 10.1038/s41467-024-46947-9



RisalahPos.com Network