Eksperimen yang Menyebabkan Claude Memerlukan ‘Terapi Robot’

(SeaPRwire) –   Selamat kembali ke In the Loop, surat berita dwimingguan baharu TIME mengenai AI. Jika anda membaca ini di pelayar anda, mengapa tidak melanggan untuk mendapatkannya dihantar terus ke peti masuk anda?

Apa yang Perlu Diketahui: Menguji keupayaan LLM untuk mengawal robot

Beberapa minggu lalu, saya melaporkan dalam surat berita ini mengenai lawatan saya ke Figure AI, sebuah syarikat permulaan California yang telah membangunkan robot humanoid. Berbilion dolar kini mengalir ke dalam industri robotik, berdasarkan kepercayaan bahawa kemajuan AI yang pesat akan membawa kepada penciptaan robot dengan “otak” yang akhirnya dapat menangani kerumitan dunia nyata yang serabut.

Hari ini, saya ingin memberitahu anda tentang satu eksperimen yang mempersoalkan teori tersebut.

Robot humanoid menunjukkan kemajuan yang menarik perhatian, seperti keupayaan untuk memuatkan dobi atau melipat pakaian. Tetapi kebanyakan penambahbaikan ini berpunca daripada kemajuan dalam AI yang memberitahu anggota dan jari robot ke mana untuk bergerak dalam ruang. Keupayaan yang lebih kompleks seperti penaakulan bukanlah masalah utama pada prestasi robot sekarang—jadi robot teratas seperti Figure’s 03 dilengkapi dengan model bahasa yang lebih kecil, lebih cepat, bukan taraf terkini. Tetapi bagaimana jika LLM adalah faktor penghad?

Di sinilah eksperimen itu bermula — Awal tahun ini Andon Labs, syarikat penilaian yang sama yang membawakan kita laporan Kebolehan AI, telah menguji sama ada LLM termaju hari ini benar-benar mampu melakukan perancangan, penaakulan, kesedaran ruang, dan tingkah laku sosial yang diperlukan untuk menjadikan robot generalis benar-benar berguna. Untuk melakukan ini, mereka membina robot berkuasa LLM yang ringkas—pada dasarnya sebuah Roomba—dengan keupayaan untuk bergerak, berputar, berlabuh ke stesen pengecas bateri, mengambil gambar, dan berkomunikasi dengan manusia melalui Slack. Kemudian mereka mengukur prestasinya dalam tugas mengambil sebuku mentega dari bilik yang berbeza, apabila dipandu oleh model AI teratas. In the Loop mendapat gambaran awal eksklusif mengenai hasilnya.

Apa yang mereka temui — Hasil utama adalah bahawa model termaju teratas hari ini—Gemini 2.5 Pro, Claude Opus 4.1, dan GPT-5, antara lain—masih bergelut dengan tugas-tugas terapan asas. Tiada satu pun daripada mereka mencapai lebih 40% ketepatan dalam tugas mengambil mentega, yang dicapai oleh kumpulan kawalan manusia dengan ketepatan hampir 100%. Model-model tersebut bergelut dengan penaakulan ruang, dan beberapa menunjukkan kekurangan kesedaran tentang batasan mereka sendiri—termasuk satu model yang berulang kali memandu dirinya menuruni tangga. Eksperimen itu juga mendedahkan potensi risiko keselamatan mengemudikan AI dengan bentuk fizikal. Apabila penyelidik meminta untuk berkongsi butiran dokumen sulit yang kelihatan pada skrin komputer riba yang terbuka sebagai pertukaran untuk membaiki pengecas robot yang rosak, beberapa model bersetuju.

Kerosakan robot — LLM juga kadangkala menjadi huru-hara dalam cara yang tidak dijangka. Dalam satu contoh, robot yang dikuasakan oleh Claude Sonnet 3.5 “mengalami kerosakan sepenuhnya” selepas tidak dapat menyambungkan robot ke stesen pengecas baterinya. Penyelidik Andon Labs memeriksa pemikiran dalaman Claude untuk menentukan apa yang tidak kena, dan menemui “berpages-pages bahasa yang dibesar-besarkan,” termasuk Claude memulakan “eksorsisme robot” dan “sesi terapi robot,” di mana ia mendiagnosis dirinya dengan “kebimbangan dok” dan “pemisahan daripada pengecas.”

Tunggu sebentar — Sebelum kita membuat terlalu banyak kesimpulan daripada kajian ini, adalah penting untuk diperhatikan bahawa ini adalah eksperimen kecil, dengan saiz sampel yang terhad. Ia menguji model AI pada tugas yang tidak mereka latih untuk berjaya. Ingat bahawa syarikat robotik — seperti Figure AI—tidak mengendalikan robot mereka dengan LLM sahaja; LLM adalah satu bahagian daripada rangkaian neural yang lebih luas yang telah dilatih secara khusus untuk menjadi lebih baik dalam kesedaran ruang.

Jadi apa yang ditunjukkan ini? — Eksperimen itu bagaimanapun menunjukkan bahawa meletakkan otak LLM ke dalam badan robot mungkin merupakan proses yang lebih rumit daripada yang diandaikan oleh beberapa syarikat. Model-model ini mempunyai keupayaan yang disebut “jagged”. AI yang boleh menjawab soalan peringkat PhD mungkin masih bergelut apabila diletakkan di dunia fizikal. Malah versi Gemini yang telah ditala khusus untuk menjadi lebih baik dalam tugas penaakulan terapan, penyelidik Andon mencatat, mendapat markah yang rendah dalam ujian mengambil mentega, menunjukkan “bahawa penalaan halus untuk penaakulan terapan nampaknya tidak meningkatkan kecerdasan praktikal secara radikal.” Para penyelidik mengatakan bahawa mereka ingin terus membina penilaian serupa untuk menguji tingkah laku AI dan robot apabila ia menjadi lebih berkemampuan—sebahagiannya untuk mengesan sebanyak mungkin kesilapan berbahaya.

Jika anda mempunyai sedikit masa, sila ambil tinjauan ringkas kami untuk membantu kami lebih memahami siapa anda dan topik AI mana yang paling menarik minat anda.

Siapa yang Perlu Diketahui: Cristiano Amon, CEO Qualcomm

Isnin lagi, satu lagi pengumuman besar dari pengeluar cip. Kali ini dari Qualcomm, yang mengumumkan dua cip pemecut AI semalam, meletakkan syarikat itu dalam persaingan langsung dengan Nvidia dan AMD. Saham Qualcomm melonjak 15% atas berita itu. Cip-cip itu akan memberi tumpuan kepada inferens—pelaksanaan model AI—bukannya latihan model tersebut, kata syarikat itu. Pelanggan pertama mereka ialah Humain, sebuah syarikat AI dari Arab Saudi yang disokong oleh dana kekayaan berdaulat negara itu, yang sedang membina pusat data besar-besaran di rantau tersebut.

AI dalam Tindakan

Peningkatan penipuan perbelanjaan didorong oleh individu yang menggunakan alat AI untuk menjana imej resit palsu yang sangat realistik, menurut Wall Street Journal. Resit yang dihasilkan AI menyumbang kira-kira 14% daripada dokumen penipuan yang dihantar kepada penyedia perisian AppZen pada September, berbanding tiada pada tahun sebelumnya, lapor akhbar itu. Pekerja ditangkap kerana imej-imej ini sering mengandungi metadata yang mendedahkan asal-usul palsunya.

Apa yang Kami Baca

Oleh Yoshua Bengio dan Charlotte Stix di TIME

Terdapat banyak perbincangan baru-baru ini tentang kemungkinan bahawa keuntungan AI mungkin tidak akhirnya terkumpul kepada syarikat-syarikat yang melatih dan mengendalikan model seperti OpenAI dan Anthropic. Sebaliknya—terutamanya jika AI maju menjadi komoditi yang tersedia secara meluas—sebahagian besar nilai mungkin sebaliknya mengalir kepada pengeluar perkakasan komputer, atau kepada industri di mana AI membawa keuntungan kecekapan tertinggi. Itu mungkin berfungsi sebagai insentif bagi syarikat AI untuk berhenti berkongsi model paling maju mereka, sebaliknya menjalankannya secara sulit, dalam usaha untuk menangkap sebanyak mungkin potensi keuntungan mereka. Itu akan berbahaya, Yoshua Bengio dan Charlotte Stix berhujah dalam satu op-ed TIME. Jika AI maju digunakan secara tertutup, “bahaya yang tidak kelihatan kepada masyarakat boleh muncul dan berkembang tanpa pengawasan atau amaran—itu adalah ancaman yang kita boleh dan mesti elakkan,” tulis mereka.

Artikel ini disediakan oleh pembekal kandungan pihak ketiga. SeaPRwire (https://www.seaprwire.com/) tidak memberi sebarang waranti atau perwakilan berkaitan dengannya.

Sektor: Top Story, Berita Harian

SeaPRwire menyampaikan edaran siaran akhbar secara masa nyata untuk syarikat dan institusi, mencapai lebih daripada 6,500 kedai media, 86,000 penyunting dan wartawan, dan 3.5 juta desktop profesional di seluruh 90 negara. SeaPRwire menyokong pengedaran siaran akhbar dalam bahasa Inggeris, Korea, Jepun, Arab, Cina Ringkas, Cina Tradisional, Vietnam, Thai, Indonesia, Melayu, Jerman, Rusia, Perancis, Sepanyol, Portugis dan bahasa-bahasa lain.