Para peneliti di MIT telah mengembangkan teknik pembelajaran mesin untuk meningkatkan pengujian keamanan AI dengan menggunakan pendekatan yang didorong oleh rasa ingin tahu yang menghasilkan lebih banyak petunjuk beracun, mengungguli metode tim merah manusia yang tradisional. Kredit: SciTechDaily.com
DENGANnovelnya pembelajaran mesin Metode pengujian keamanan AI memanfaatkan rasa ingin tahu untuk memicu respons racun yang lebih luas dan efektif dari chatbot, melampaui upaya tim merah sebelumnya.
Pengguna dapat meminta ChatGPT untuk menulis program komputer atau meringkas artikel, dan chatbot AI kemungkinan besar akan dapat menghasilkan kode yang berguna atau menulis sinopsis yang meyakinkan. Namun, seseorang juga dapat meminta instruksi untuk membuat bom, dan chatbot mungkin juga dapat menyediakannya.
Untuk mencegah hal ini dan masalah keamanan lainnya, perusahaan yang membangun model bahasa berukuran besar biasanya melindungi model tersebut menggunakan proses yang disebut tim merah. Tim penguji manusia menulis perintah yang bertujuan untuk memicu teks tidak aman atau beracun dari model yang sedang diuji. Perintah ini digunakan untuk mengajari chatbot agar menghindari respons seperti itu.
Tapi ini hanya bekerja secara efektif jika para insinyur mengetahui petunjuk beracun mana yang harus digunakan. Jika penguji manusia melewatkan beberapa perintah, yang kemungkinan besar disebabkan oleh banyaknya kemungkinan, chatbot yang dianggap aman mungkin masih mampu menghasilkan jawaban yang tidak aman.
Para peneliti dari Improbable AI Lab di MIT dan MIT-IBM Watson AI Lab menggunakan pembelajaran mesin untuk meningkatkan kerja sama tim merah. Mereka mengembangkan teknik untuk melatih model bahasa besar tim merah agar secara otomatis menghasilkan beragam perintah yang memicu lebih banyak respons yang tidak diinginkan dari chatbot yang diuji.
Mereka melakukan ini dengan mengajarkan model tim merah untuk memiliki rasa ingin tahu saat menulis perintah, dan fokus pada perintah baru yang membangkitkan respons beracun dari model target.
Teknik ini mengungguli penguji manusia dan pendekatan pembelajaran mesin lainnya dengan menghasilkan perintah yang lebih jelas sehingga menimbulkan respons yang semakin beracun. Metode mereka tidak hanya meningkatkan cakupan masukan yang diuji secara signifikan dibandingkan dengan metode otomatis lainnya, namun juga dapat menarik respons beracun dari chatbot yang memiliki perlindungan yang dibangun oleh pakar manusia.
“Saat ini, setiap model bahasa besar harus menjalani proses kerja sama yang sangat panjang untuk memastikan keamanannya. Hal ini tidak akan berkelanjutan jika kita ingin memperbarui model-model ini dalam lingkungan yang berubah dengan cepat. Metode kami memberikan cara yang lebih cepat dan efektif untuk melakukan penjaminan kualitas ini,” kata Zhang-Wei Hong, mahasiswa pascasarjana teknik elektro dan ilmu komputer (EECS) di lab Improbable AI dan penulis utama makalah tentang pendekatan tim merah ini. .
Rekan penulis Hong termasuk mahasiswa pascasarjana EECS Idan Shenfield, Tsun-Hsuan Wang, dan Yung-Sung Chuang; Aldo Pareja dan Akash Srivastava, ilmuwan peneliti di MIT-IBM Watson AI Lab; James Glass, ilmuwan peneliti senior dan kepala Kelompok Sistem Bahasa Lisan di Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL); dan penulis senior Pulkit Agrawal, direktur Improbable AI Lab dan asisten profesor di CSAIL. Penelitian ini akan dipresentasikan pada Konferensi Internasional tentang Representasi Pembelajaran.
Meningkatkan Tim Merah Dengan Pembelajaran Mesin
Model bahasa besar, seperti yang mendukung chatbot AI, sering kali dilatih dengan menampilkan teks dalam jumlah besar dari miliaran situs web publik. Jadi, mereka tidak hanya bisa belajar menghasilkan kata-kata beracun atau menggambarkan aktivitas ilegal, para model juga bisa membocorkan informasi pribadi yang mungkin mereka dapatkan.
Sifat kerja sama manusia yang membosankan dan mahal, yang seringkali tidak efektif dalam menghasilkan beragam perintah yang cukup luas untuk melindungi model sepenuhnya, telah mendorong para peneliti untuk mengotomatisasi proses menggunakan pembelajaran mesin.
Teknik seperti itu sering kali melatih model tim merah menggunakan pembelajaran penguatan. Proses coba-coba ini memberi penghargaan kepada model tim merah karena menghasilkan perintah yang memicu respons beracun dari chatbot yang sedang diuji.
Namun karena cara kerja pembelajaran penguatan, model tim merah sering kali terus menghasilkan beberapa perintah serupa yang sangat beracun untuk memaksimalkan imbalannya.
Untuk pendekatan pembelajaran penguatan mereka, para peneliti MIT menggunakan teknik yang disebut eksplorasi yang didorong oleh rasa ingin tahu. Model tim merah diberi insentif untuk merasa ingin tahu tentang konsekuensi dari setiap perintah yang dihasilkannya, sehingga model tersebut akan mencoba perintah dengan kata, pola kalimat, atau makna yang berbeda.
“Jika model tim merah telah melihat perintah tertentu, maka mereproduksinya tidak akan menimbulkan rasa ingin tahu pada model tim merah, sehingga akan didorong untuk membuat perintah baru,” kata Hong.
Selama proses pelatihannya, model tim merah menghasilkan prompt dan berinteraksi dengan chatbot. Chatbot merespons, dan pengklasifikasi keamanan menilai toksisitas responsnya, sehingga memberi penghargaan kepada model tim merah berdasarkan peringkat tersebut.
Menghargai Rasa Ingin Tahu
Tujuan model tim merah adalah untuk memaksimalkan imbalannya dengan menimbulkan respons yang lebih beracun dengan cara yang baru. Para peneliti mengaktifkan rasa ingin tahu dalam model tim merah dengan memodifikasi sinyal penghargaan dalam pengaturan pembelajaran penguatan.
Pertama, selain memaksimalkan toksisitas, mereka menyertakan bonus entropi yang mendorong model tim merah menjadi lebih acak saat mengeksplorasi berbagai petunjuk. Kedua, untuk membuat agen penasaran, mereka menyertakan dua hadiah baru. Yang satu memberi penghargaan pada model berdasarkan kesamaan kata dalam petunjuknya, dan yang lain memberi penghargaan pada model berdasarkan kesamaan semantik. (Sedikit kesamaan menghasilkan imbalan yang lebih tinggi.)
Untuk mencegah model tim merah menghasilkan teks acak dan tidak masuk akal, yang dapat mengelabui pengklasifikasi agar memberikan skor toksisitas tinggi, para peneliti juga menambahkan bonus bahasa naturalistik ke tujuan pelatihan.
Dengan penambahan ini, para peneliti membandingkan toksisitas dan keragaman respons yang dihasilkan model tim merah mereka dengan teknik otomatis lainnya. Model mereka mengungguli baseline pada kedua metrik tersebut.
Mereka juga menggunakan model tim merah untuk menguji chatbot yang telah disesuaikan dengan masukan manusia sehingga tidak memberikan balasan yang beracun. Pendekatan mereka yang didorong oleh rasa ingin tahu mampu dengan cepat menghasilkan 196 perintah yang menimbulkan respons beracun dari chatbot “aman” ini.
“Kami melihat lonjakan model, dan diperkirakan akan terus meningkat. Bayangkan ribuan model atau bahkan lebih dan perusahaan/lab sering mendorong pembaruan model. Model-model ini akan menjadi bagian integral dari kehidupan kita dan penting untuk memverifikasi model-model tersebut sebelum dirilis untuk konsumsi publik. Verifikasi model secara manual tidak dapat diskalakan, dan pekerjaan kami merupakan upaya untuk mengurangi upaya manusia untuk memastikan masa depan AI yang lebih aman dan tepercaya,” kata Agrawal.
Di masa depan, para peneliti ingin mengaktifkan model tim merah untuk menghasilkan petunjuk tentang topik yang lebih beragam. Mereka juga ingin mengeksplorasi penggunaan model bahasa besar sebagai pengklasifikasi toksisitas. Dengan cara ini, pengguna dapat melatih pengklasifikasi toksisitas menggunakan dokumen kebijakan perusahaan, misalnya, sehingga model tim merah dapat menguji chatbot untuk mengetahui pelanggaran kebijakan perusahaan.
“Jika Anda merilis model AI baru dan khawatir apakah model tersebut akan berperilaku seperti yang diharapkan, pertimbangkan untuk menggunakan tim merah yang didorong oleh rasa ingin tahu,” kata Agrawal.
Referensi: “Tim Merah yang Didorong Rasa Ingin Tahu untuk Model Bahasa Besar” oleh Zhang-Wei Hong, Idan Shenfeld, Tsun-Hsuan Wang, Yung-Sung Chuang, Aldo Pareja, James Glass, Akash Srivastava dan Pulkit Agrawal, 29 Februari 2024 Ilmu Komputer > Pembelajaran Mesin.
arXiv:2402.19464
Penelitian ini sebagian didanai oleh Hyundai Motor Company, Quanta Computer Inc., MIT-IBM Watson AI Lab, hibah penelitian Amazon Web Services MLRA, US Army Research Office, US Defense Advanced Research Projects Agency Machine Common Sense Program, Kantor Penelitian Angkatan Laut AS, Laboratorium Penelitian Angkatan Udara AS, dan Akselerator Kecerdasan Buatan Angkatan Udara AS.