GROVER, model bahasa besar baru yang dilatih pada DNA manusia oleh para peneliti di Pusat Bioteknologi Universitas Teknologi Dresden, dapat menguraikan informasi genomik yang kompleks dengan memperlakukan DNA sebagai bahasa. Alat inovatif ini berpotensi untuk merevolusi genomik dan mempercepat pengobatan yang dipersonalisasi.
DNA sangat penting bagi kehidupan, dan pengorganisasiannya telah menjadi tantangan ilmiah yang signifikan. GROVER, sebuah model yang dikembangkan oleh BIOTEC, menguraikan DNA seperti teks, yang menjanjikan kemajuan dalam genomik dan pengobatan yang dipersonalisasi.
DNA menyimpan informasi penting yang dibutuhkan untuk mempertahankan kehidupan. Menguraikan bagaimana informasi ini disimpan dan diatur telah menjadi salah satu tantangan ilmiah terbesar pada abad lalu. Kini, dengan GROVER, model bahasa besar baru yang dilatih pada DNA manusia, para peneliti dapat mencoba menguraikan informasi rumit yang tersembunyi dalam genom kita. Dikembangkan oleh tim di Pusat Bioteknologi (BIOTEC) Universitas Teknologi Dresden, GROVER memperlakukan DNA manusia sebagai teks, mempelajari aturan dan konteksnya untuk mengekstrak informasi fungsional tentang urutan DNA. Diterbitkan dalam Kecerdasan Mesin Alamalat inovatif ini memiliki potensi untuk merevolusi genomik dan mempercepat pengobatan yang dipersonalisasi.
Sejak penemuan heliks ganda, para ilmuwan telah berusaha memahami informasi yang dikodekan dalam DNA. 70 tahun kemudian, jelas bahwa informasi yang tersembunyi dalam DNA berlapis-lapis. Hanya 1-2% genom yang terdiri dari gen, urutan yang mengkode protein.
“DNA memiliki banyak fungsi selain mengkode protein. Beberapa sekuens mengatur gen, yang lain berfungsi sebagai struktur, dan sebagian besar sekuens berfungsi sebagai beberapa fungsi sekaligus. Saat ini, kita belum memahami makna sebagian besar DNA. Dalam hal memahami wilayah non-pengkodean DNA, tampaknya kita baru mulai menggali permukaannya. Di sinilah AI dan model bahasa yang besar dapat membantu,” kata Dr. Anna Poetsch, pemimpin kelompok penelitian di BIOTEC.
DNA sebagai Bahasa
Model bahasa yang besar, seperti GPT, telah mengubah pemahaman kita tentang bahasa. Dilatih secara eksklusif pada teks, model bahasa yang besar mengembangkan kemampuan untuk menggunakan bahasa dalam banyak konteks.
“DNA adalah kode kehidupan. Mengapa tidak memperlakukannya seperti bahasa?” kata Dr. Poetsch. Tim Poetsch melatih model bahasa yang besar pada genom manusia referensi. Alat yang dihasilkan bernama GROVER, atau “Genome Rules Obtained via Extracted Representations”, dapat digunakan untuk mengekstrak makna biologis dari DNA.
“GROVER mempelajari aturan-aturan DNA. Dalam hal bahasa, kita berbicara tentang tata bahasa, sintaksis, dan semantik. Bagi DNA, ini berarti mempelajari aturan-aturan yang mengatur urutan, urutan nukleotida dan urutan, serta makna dari urutan tersebut. Seperti model-model GPT yang mempelajari bahasa manusia, GROVER pada dasarnya telah mempelajari cara ‘berbicara’ dengan DNA,” jelas Dr. Melissa Sanabria, peneliti di balik proyek tersebut.
Tim menunjukkan bahwa GROVER tidak hanya dapat secara akurat memprediksi urutan DNA berikut tetapi juga dapat digunakan untuk mengekstrak informasi kontekstual yang memiliki makna biologis, misalnya, mengidentifikasi promotor gen atau tempat pengikatan protein pada DNA. GROVER juga mempelajari proses yang secara umum dianggap sebagai “epigenetik”, yaitu, proses pengaturan yang terjadi di atas DNA alih-alih dikodekan.
“Sangat menarik bahwa dengan melatih GROVER hanya dengan urutan DNA, tanpa anotasi fungsi apa pun, kami benar-benar dapat mengekstrak informasi tentang fungsi biologis. Bagi kami, ini menunjukkan bahwa fungsi tersebut, termasuk beberapa informasi epigenetik, juga dikodekan dalam urutan tersebut,” kata Dr. Sanabria.
Kamus DNA
“DNA menyerupai bahasa. DNA memiliki empat huruf yang membentuk urutan dan urutan tersebut memiliki makna. Namun, tidak seperti bahasa, DNA tidak memiliki kata-kata yang pasti,” kata Dr. Poetsch. DNA terdiri dari empat huruf (A, T, G, dan C) dan gen, tetapi tidak ada urutan yang telah ditentukan sebelumnya dengan panjang yang berbeda yang digabungkan untuk membentuk gen atau urutan bermakna lainnya.
Untuk melatih GROVER, tim tersebut harus terlebih dahulu membuat kamus DNA. Mereka menggunakan trik dari algoritma kompresi. “Langkah ini sangat penting dan membedakan model bahasa DNA kami dari upaya sebelumnya,” kata Dr. Poetsch.
“Kami menganalisis seluruh genom dan mencari kombinasi huruf yang paling sering muncul. Kami mulai dengan dua huruf dan meneliti DNA, berulang kali, untuk menyusunnya menjadi kombinasi beberapa huruf yang paling umum. Dengan cara ini, dalam sekitar 600 siklus, kami telah memecah DNA menjadi ‘kata-kata’ yang memungkinkan GROVER bekerja paling baik dalam memprediksi urutan berikutnya,” jelas Dr. Sanabria.
Janji AI dalam Genomik
GROVER berjanji untuk mengungkap berbagai lapisan kode genetik. DNA menyimpan informasi penting tentang apa yang menjadikan kita manusia, kecenderungan penyakit kita, dan respons kita terhadap pengobatan.
“Kami percaya bahwa memahami aturan DNA melalui model bahasa akan membantu kita mengungkap kedalaman makna biologis yang tersembunyi dalam DNA, memajukan genomik dan pengobatan yang dipersonalisasi,” kata Dr. Poetsch.
Referensi: “Model bahasa DNA GROVER mempelajari konteks urutan dalam genom manusia” oleh Melissa Sanabria, Jonas Hirsch, Pierre M. Joubert dan Anna R. Poetsch, 23 Juli 2024, Kecerdasan Mesin Alam.
DOI: 10.1038/s42256-024-00872-0