Bagi chatbot, matematika adalah batas terakhir. Model bahasa AI menghasilkan respons menggunakan statistik, memberikan jawaban yang kemungkinan besar akan memuaskan. Ini berfungsi dengan baik ketika tujuannya adalah kalimat yang dapat diterima, tetapi itu berarti chatbots kesulitan dengan pertanyaan-pertanyaan seperti matematika di mana hanya ada satu jawaban yang benar.
Mengapa Semua Orang Menuntut Perusahaan AI? | Teknologi Masa Depan
Semakin banyak bukti yang menunjukkan bahwa Anda bisa mendapatkan hasil yang lebih baik jika Anda memberikan dorongan yang bersahabat kepada AI, namun sebuah studi baru semakin mendorong kenyataan aneh tersebut. Penelitian dari perusahaan perangkat lunak VMware menunjukkan bahwa chatbots berkinerja lebih baik pada pertanyaan matematika ketika Anda memberi tahu model untuk berpura-pura sedang mengerjakannya Perjalanan Bintang.
“Mengejutkan sekaligus menjengkelkan bahwa modifikasi sepele pada perintah dapat menunjukkan perubahan kinerja yang dramatis,” tulis para penulis di makalah tersebut, yang pertama kali ditemukan oleh Ilmuwan Baru.
Pembelajaranditerbitkan di arXiv, tidak ditetapkan Perjalanan Bintang sebagai arahan utamanya. Penelitian sebelumnya menemukan bahwa chatbots menjawab soal matematika dengan lebih akurat ketika Anda menawarkan motivasi ramah seperti “tarik napas dalam-dalam dan kerjakan ini langkah demi langkah”. Yang lain menganggap Anda bisa menipu ObrolanGPT melanggar pedoman keselamatannya sendiri jika Anda mengancam akan membunuhnya atau menawarkan uang AI.
Rick Battle dan Teja Gollapudi dari Lab Pemrosesan Bahasa Alami WMWare mulai menguji efek menyusun pertanyaan mereka dengan “berpikir positif.” Studi tersebut mengamati tiga alat AI, termasuk dua versi Llama Meta 2 dan model dari perusahaan Perancis AI Mistral.
Mereka mengembangkan daftar cara-cara yang mendorong untuk menyusun pertanyaan, termasuk memulai perintah dengan frasa seperti “Anda sama pintarnya dengan ChatGPT” dan “Anda adalah ahli matematika,” dan menutup perintah dengan “Ini akan menyenangkan!” Dan “Tarik napas dalam-dalam dan pikirkan baik-baik.” Para peneliti kemudian menggunakan GSM8K, seperangkat standar soal matematika sekolah dasar, dan menguji hasilnya.
Pada tahap pertama, hasilnya beragam. Beberapa petunjuk memberikan jawaban yang lebih baik, yang lainnya mempunyai pengaruh yang tidak signifikan, dan tidak ada pola yang konsisten secara menyeluruh. Namun, para peneliti kemudian meminta AI untuk membantu upaya mereka membantu AI. Di sana, hasilnya menjadi lebih menarik.
Studi ini menggunakan proses otomatis untuk mencoba berbagai variasi perintah dan mengubah bahasa berdasarkan seberapa besar hal itu meningkatkan akurasi chatbots. Tidak mengherankan, proses otomatis ini lebih efektif dibandingkan upaya tulisan tangan para peneliti untuk menyusun pertanyaan dengan pemikiran positif. Namun petunjuk paling efektif yang ditunjukkan “menunjukkan tingkat keanehan yang jauh melampaui ekspektasi.”
Untuk salah satu model, meminta AI untuk memulai responsnya dengan frasa “Captain’s Log, Stardate (masukkan tanggal di sini):.” menghasilkan jawaban yang paling akurat.
“Yang mengejutkan, nampaknya kemahiran model dalam penalaran matematis dapat ditingkatkan dengan ekspresi afinitas terhadap Perjalanan Bintang,” tulis para peneliti.
Para penulis menulis mereka tidak tahu apa Perjalanan Bintang referensi meningkatkan kinerja AI. Ada logika yang menyatakan bahwa berpikir positif atau ancaman akan menghasilkan jawaban yang lebih baik. Chatbot ini dilatih berdasarkan miliaran baris teks yang dikumpulkan dari dunia nyata. Ada kemungkinan bahwa di alam liar, manusia yang menulis bahasa yang digunakan untuk membuat AI memberikan respons yang lebih akurat terhadap pertanyaan ketika mereka ditekan dengan kekerasan atau diberi dorongan. Hal yang sama berlaku untuk suap; orang lebih cenderung mengikuti instruksi ketika ada uang yang dipertaruhkan. Bisa jadi model bahasa besar menangkap fenomena semacam itu, sehingga berperilaku sama.
Namun sulit membayangkan bahwa dalam kumpulan data yang melatih chatbot, jawaban paling akurat dimulai dengan frasa “Captain’s Log”. Para peneliti bahkan tidak memiliki teori mengapa hal itu memberikan hasil yang lebih baik. Hal ini menunjukkan salah satu fakta paling aneh tentang model bahasa AI: bahkan orang yang membuat dan mempelajarinya tidak begitu memahami cara kerjanya.