AI Sedang Belajar Melakukan Tugas Doktor, Peguam, dan Perunding

BRAZIL-HEALTH-VIRUS-DIAGNOSIS-ARTIFICIAL INTELLIGENCE

(SeaPRwire) –   Tugas-tugas tersebut menyerupai tugas yang diselesaikan oleh peguam, doktor, penganalisis kewangan dan perunding pengurusan untuk mencari nafkah. Satu tugas meminta diagnosis pesakit berumur enam tahun berdasarkan sembilan bukti multimedia; satu lagi meminta nasihat undang-undang mengenai harta pusaka seorang pemuzik; tugas ketiga meminta penilaian sebahagian daripada syarikat teknologi penjagaan kesihatan.

Mercor, yang mendakwa membekalkan “data pakar” kepada setiap syarikat AI terkemuka, mengatakan bahawa ia telah membelanjakan lebih daripada $500,000 untuk membangunkan 200 tugas yang menguji sama ada AI “boleh melakukan kerja pengetahuan dengan nilai ekonomi yang tinggi” merentasi undang-undang, perubatan, kewangan dan perundingan pengurusan. Hasilnya (APEX), yang diterbitkan pada hari Rabu, menyenaraikan bekas pengarah urusan global McKinsey, bekas dekan Harvard Business School, dan seorang profesor Harvard Law School, sebagai antara penulis bersamanya, yang menasihati tentang reka bentuk dan skop tugas dalam domain masing-masing, menurut Mercor. APEX “fokus untuk mendalami sesuatu,” kata Brendan Foody, CEO syarikat yang berusia 22 tahun. “Bagaimana kita boleh menjadi sangat komprehensif tentang apa maksudnya menjadi seorang perunding atau seorang jurubank atau seorang doktor atau peguam?”

Untuk mencipta tugas-tugas tersebut, Mercor mengikat kontrak profesional kolar putih yang bekas majikan mereka termasuk bank-bank terkemuka (Goldman Sachs, JPMorgan), firma perunding (McKinsey, Boston Consulting Group), firma guaman (Latham & Watkins) dan hospital (Mount Sinai). Mereka mempunyai purata 7.25 tahun pengalaman profesional, dan gaji mereka di Mercor adalah kompetitif dengan majikan mereka yang terdahulu dan sangat berprestij. Laman web Mercor mengiklankan kadar purata setiap jam sebanyak $81 setiap jam, mencecah lebih $200 setiap jam—bersamaan dengan gaji tahunan kira-kira $400,000—untuk “Pakar Domain Kanan,” yang memerlukan sekurang-kurangnya empat tahun pengalaman profesional untuk memohon.

“Sukar untuk membayangkan pekerjaan setiap jam yang lebih baik dari perspektif gaji,” kata Matt Seck, bekas penganalisis perbankan pelaburan di Bank of America, yang dikontrak oleh Mercor untuk menulis tugas kewangan yang serupa dengan yang termasuk dalam kertas kerja itu.

Penanda aras telah lama digunakan untuk menilai keupayaan AI, tetapi mengkuantifikasi secara langsung keupayaan model AI untuk melakukan kerja yang berguna dari segi ekonomi mewakili “anjakan paradigma,” kata Osvald Nitski, salah seorang penulis kertas kerja itu. Pada penanda aras Mercor, “mendapat 100% bermakna bahawa anda pada dasarnya akan mempunyai seorang penganalisis atau rakan sekutu di dalam kotak yang anda boleh pergi dan menghantar tugas kepadanya, dan kemudian mereka menyampaikannya mengikut keperluan rakan kongsi, atau MD, atau sesiapa sahaja yang akan menilai kerja orang itu,” kata Nitski.

Model-model tersebut belum sampai ke tahap itu, tetapi ia bertambah baik dengan pesat. GPT-4o OpenAI, yang dikeluarkan pada Mei 2024, memperoleh 35.9% pada penanda aras itu. GPT-5, yang dikeluarkan lebih setahun kemudian, mencapai 64.2%—skor tertinggi pada penanda aras itu. Mendapat 64.2% pada penanda aras tidak bermakna bahawa GPT-5 menyampaikan 64.2% daripada nilai seorang pekerja manusia—kerja yang tidak mencapai 100% “mungkin tidak berguna,” tulis penulis kertas kerja itu. GPT-5 hanya mendapat markah penuh dalam dua daripada 200 tugas—satu dalam undang-undang dan satu dalam perbankan pelaburan—yang “terutamanya melibatkan penaakulan asas, pengiraan mudah, dan banyak pencarian maklumat asas,” menurut Mercor.

Walaupun model mencapai 100% pada penanda aras Mercor, ia mungkin akan menjadi pengganti yang lemah untuk profesional manusia. Tugas-tugas dalam penanda aras Mercor memberi tumpuan kepada “penghantaran yang skopnya jelas,” seperti membuat diagnosis atau membina model kewangan, dan bukannya tugas yang lebih terbuka yang mungkin membenarkan pelbagai jawapan yang betul. Ini memerlukan penerangan tugas merangkumi banyak andaian yang diperlukan untuk memastikan output yang dikehendaki dinyatakan dengan baik. Output AI sepenuhnya berasaskan teks, bermakna penanda aras tidak menguji keupayaan AI untuk menggunakan komputer, seperti yang akan dilakukan oleh pekerja manusia. (Mercor mengatakan bahawa versi APEX akan datang akan menangani batasan ini.) Dan merangka gesaan yang panjang yang diperlukan untuk model menyelesaikan tugas “akan lebih membosankan daripada melakukannya sendiri,” kata Seck.

Namun, terdapat tanda-tanda bahawa model AI menjadi kompetitif dengan manusia. Satu lagi penanda aras, Khamis, 25 Sept., oleh OpenAI, menunjukkan bahawa penilai manusia pakar lebih menyukai kerja AI daripada kerja manusia 47.6% daripada masa pada 220 tugas termasuk mereka bentuk brosur jualan untuk hartanah dan menilai imej lesi kulit. OpenAI juga mendapati bahawa prestasi modelnya telah meningkat dengan ketara dalam masa yang singkat, lebih daripada dua kali ganda dalam “kadar kemenangan” mereka terhadap manusia antara Jun 2024 dan Sept. 2025.

Seiring dengan perkembangan keupayaan model, begitu juga dengan kerumitan tugas yang sedang diuji dan kemahiran manusia yang diperlukan untuk mencipta tugas yang cukup mencabar. Ujian terdahulu mengukur keupayaan yang agak abstrak pada soalan SAT dan GRE. Sebelum keluaran ChatGPT pada tahun 2022, sering kali mendapatkan data daripada perkhidmatan pekerja ramai, yang membayar pekerja beberapa dolar sejam. Menjelang 2023, pelajar Ph.D. telah diupah untuk mencipta soalan aneka pilihan yang mencabar dalam biologi, fizik dan kimia. Pada bulan September, xAI memberhentikan 500 pekerja data “generalis” sebagai sebahagian daripada “pengembangan dan pengutamaan” pekerja data “pakar” syarikat. Sudah tentu, pekerja data bergaji rendah menyumbang kepada pembangunan model AI, tetapi had atas kemahiran dan pampasan yang diperlukan untuk membangunkan penanda aras AI meningkat dengan pesat.

Mengukur secara langsung utiliti model AI pada tugas yang bernilai dari segi ekonomi adalah “sangat sukar untuk dicapai,” kata Nitski. Kriteria kejayaan dalam domain seperti kewangan dan perundingan lebih sukar untuk ditakrifkan berbanding, contohnya, dalam kejuruteraan perisian. Walaupun dengan kriteria yang sempurna, menandakan output AI pada skala besar adalah lebih sukar daripada dalam kejuruteraan perisian, di mana ujian automatik boleh menyemak sama ada sekeping kod berjalan dengan betul. Ini sebahagiannya menjelaskan mengapa ujian yang bertujuan untuk mengukur utiliti dunia sebenar model AI telah memberi tumpuan kepada kejuruteraan perisian sejak sekurang-kurangnya 2023, tetapi telah ketinggalan dalam domain kolar putih yang lain. Walau bagaimanapun, apabila AI telah bertambah baik, mereka telah membantu menyelesaikan masalah penggredan tugas yang kompleks. Kriteria kejayaan untuk tugas Mercor ditulis oleh pakar manusia, tetapi penandaan dilakukan oleh AI, yang Mercor katakan bersetuju dengan penggred manusia 89% daripada masa, membantu untuk meningkatkan skala penilaian.

Membangunkan penanda aras bukan hanya tentang mengetahui betapa bagusnya model. Dalam AI, seperti dalam perniagaan, “apa yang diukur akan dilakukan”—ujian yang baik sering kali mempercepatkan kemajuan AI pada ujian tersebut. “Ia akhirnya jenis data yang sama untuk penilaian dan latihan,” kata Foody. Menilai prestasi dalam permainan seperti Go adalah mudah; AI mengalahkan pemain master menjelang 2016. Pada tahun 2023, penanda aras mula menilai AI pada tugas dunia sebenar dalam kejuruteraan perisian. Dua tahun kemudian, statistik buruh untuk pengaturcara junior menjadi meragukan.

“AI mendapat Ph.D.nya,” kata Foody. “Sekarang ia mula memasuki pasaran kerja.”

Artikel ini disediakan oleh pembekal kandungan pihak ketiga. SeaPRwire (https://www.seaprwire.com/) tidak memberi sebarang waranti atau perwakilan berkaitan dengannya.

Sektor: Top Story, Berita Harian

SeaPRwire menyampaikan edaran siaran akhbar secara masa nyata untuk syarikat dan institusi, mencapai lebih daripada 6,500 kedai media, 86,000 penyunting dan wartawan, dan 3.5 juta desktop profesional di seluruh 90 negara. SeaPRwire menyokong pengedaran siaran akhbar dalam bahasa Inggeris, Korea, Jepun, Arab, Cina Ringkas, Cina Tradisional, Vietnam, Thai, Indonesia, Melayu, Jerman, Rusia, Perancis, Sepanyol, Portugis dan bahasa-bahasa lain. 

“`