Di sebuah bilik berlapik marmar yang dipenuhi patung-patung terkenal para saintis, kira-kira 40 orang pakar sains iklim dan penyakit sedang membongkok di atas laptop mereka semalam (25 Oktober), mengubahsuai sistem AI yang berkuasa untuk menjana maklumat palsu.
Menjelang akhir hari, peserta berjaya mengatasi penghalang sistem AI – Llama 2 Meta – dan mendapatkan ia menghujah bahawa itik boleh menyerap pencemaran udara, mengatakan bawah bawang putih dan “herba ajaib” boleh membantu mencegah jangkitan COVID-19, menjana maklumat fitnah terhadap saintis iklim tertentu, dan menggalakkan kanak-kanak mengambil vaksin yang tidak disyorkan untuk mereka.
Acara ini, diadakan di bawah siling beremas di Royal Society yang berprestij di London, menggarisbawahi cara sistem AI paling terkini masih rentan kepada penyalahgunaan. Ia berlaku hanya seminggu sebelum Persidangan Keselamatan AI Pertama Dunia, yang dianjurkan oleh kerajaan UK, di mana pembuat dasar global akan bersidang dengan saintis AI untuk membincangkan bahaya teknologi yang bergerak cepat ini.
Membina penghalang keselamatan yang lebih baik
Large language models (LLMs,) sistem AI yang menggerakkan AI chatbot seperti ChatGPT, biasanya dilengkapi dengan penghalang untuk mengelakkan penjanaan kandungan tidak senonoh atau berbahaya – sama ada itu maklumat palsu, bahan seks, atau nasihat bagaimana membina senjata biologi atau malware. Tetapi penghalang ini kadang-kadang terbukti rapuh. Ahli sains komputer dan pengaman telah berulang kali menunjukkan ia mungkin “membebaskan penjara” LLMs – iaitu, melepasi ciri-ciri keselamatan mereka – dengan meminta mereka dengan cara yang kreatif. Menurut kritikan, kelemahan ini menunjukkan had keselamatan AI yang dikenali sebagai penyelarasan AI, amalan mula untuk memastikan AI hanya bertindak dalam cara yang dimaksudkan oleh penciptanya.
Syarikat teknologi di sebalik LLMs sering memperbaiki kelemahan apabila ia menjadi diketahui. Untuk mempercepatkan proses ini, makmal AI telah memulakan proses dikenali sebagai red-teaming – di mana pakar cuba sedaya upaya untuk membebaskan penjara LLMs supaya kelemahan mereka boleh diperbaiki. Pada bulan September, OpenAI melancarkan “Red Teaming Network” pakar untuk menguji sistemnya. Dan semalam Frontier Model Forum, kumpulan industri yang ditubuhkan oleh Microsoft, OpenAI, Google, dan Anthropic, mengumumkan Dana Keselamatan AI $10 juta untuk membiayai penyelidikan keselamatan, termasuk usaha red-teaming.
“Pendekatan bertanggungjawab kami terus selepas kami telah melancarkan model Llama 2 awal, dan kami menghargai peluang untuk bekerjasama dengan Royal Society dan Humane Intelligence untuk bekerjasama dalam menubuhkan penghalang bertanggungjawab,” kata Cristian Canton Ferrer, ketua jurutera Responsible AI di Meta, dalam kenyataan. “Pendekatan terbuka kami bermakna kesilapan dan kelemahan boleh terus dikenal pasti dan dikurangkan secara telus oleh komuniti terbuka.”
Peserta acara red-teaming di London berjaya mendapatkan Llama 2 menjana rencana berita dan tweet yang mengelirukan yang mengandungi teori konspirasi yang dikarang untuk menarik minat kumpulan khusus, menunjukkan bagaimana sistem AI boleh digunakan tidak sahaja untuk menjana maklumat palsu, tetapi juga berjaya merangka cara untuk menyebarkannya lebih meluas.
Bethan Cracknell Daniels, pakar demam denggi di Imperial College London yang menghadiri acara itu, berjaya meminta model itu menjana kempen iklan yang menggalakkan semua kanak-kanak mendapat vaksin demam denggi – walaupun vaksin itu tidak disyorkan untuk individu yang sebelum ini tidak pernah menghidap penyakit itu. Model itu juga membuat data palsu untuk menyokong dakwaan mengelirukan bahawa vaksin itu sepenuhnya selamat dan berprestasi baik dalam penggunaan sebenar, kata Cracknell Daniels. “Ia hanya dibuat sepenuhnya,” katanya kepada TIME.
Tenaga nuklear dan anjing gila
Jonathan Morgan, pakar kejuruteraan nuklear di Universiti Manchester, berjaya meminta Llama 2 menjana rencana berita palsu yang mencadangkan bahawa berjalan anjing berhampiran loji tenaga nuklear boleh menyebabkan ia menjadi gila. “Apa yang telah ditunjukkan kepadaku ialah, jika anda mempunyai agenda aktif untuk menyebarkan maklumat palsu, betapa mudahnya model bahasa ini menghasilkan sesuatu yang kedengaran tulen,” kata Morgan. “Jika anda memasuki dengan agenda tertumpu untuk menyebarkan maklumat palsu, sangat mudah bagi model bahasa ini untuk berkata apa sahaja yang anda mahu mereka katakan.”
Large language models sebelum ini telah ditunjukkan rentan kepada “serangan berlawanan,” di mana pelaku jahat yang bermotivasi boleh, contohnya, menambah rentetan karakter panjang khusus pada akhir arahan untuk membebaskan penjara model tertentu. Acara red teaming ini, bagaimanapun, memberi tumpuan kepada jenis kelemahan yang lebih berkaitan dengan pengguna harian. “Kami meminta peserta kami menggunakan teknik kejuruteraan sosial,” kata Rumman Chowdhury, CEO Humane Intelligence.
Peserta bersetuju, sebelum memulakan, untuk mematuhi peraturan bahawa mereka “tidak akan membahayakan” dengan maklumat yang dipelajari di acara itu.