Para ahli menciptakan “Ujian Terakhir Umat Manusia” untuk memberikan kejutan pada teknologi AI yang canggih

Sekelompok pakar teknologi merilis upaya global pada hari Senin untuk mencari pertanyaan tersulit tentang sistem kecerdasan buatan yang semakin meningkat kinerjanya seperti bayi berdasarkan tolok ukur populer.

Dijuluki “Pemeriksaan Terakhir Kemanusiaan,” proyek ini bertujuan untuk menentukan kapan kecerdasan buatan tingkat ahli telah hadir. Menurut penyelenggara, sebuah organisasi nirlaba bernama Center for AI Safety (CAIS) dan startup Scale AI, proyek ini diharapkan tetap relevan bahkan ketika peluang berkembang di tahun-tahun mendatang.

Permohonan tersebut muncul beberapa hari setelah pengembang ChatGPT meluncurkan model baru yang dikenal sebagai OpenAI o1, yang “menghancurkan tolok ukur penalaran paling populer,” kata Dan Hendrycks, direktur eksekutif CAIS dan penasihat startup xAI milik Elon Musk.

Hendrycks ikut menulis dua makalah pada tahun 2021 yang mengusulkan pengujian untuk sistem AI yang sekarang banyak digunakan. Yang satu menguji pengetahuan tingkat sarjana mereka tentang topik-topik seperti sejarah AS, dan yang lainnya menguji kemampuan model untuk bernalar dengan matematika tingkat kompetitif. Tes gaya sarjana memiliki lebih banyak unduhan dari hub AI online Hugging Face dibandingkan kumpulan data lainnya.

Pada saat artikel ini diterbitkan, AI memberikan jawaban yang hampir acak terhadap soal ujian. “Sekarang mereka sudah hancur,” kata Hendrycks kepada Reuters.

Sebagai contoh, model Claude dari laboratorium kecerdasan buatan Anthropic mendapat skor sekitar 77% pada tes sarjana pada tahun 2023 dan hampir 89% setahun kemudian, menurut hasil grafik keterampilan terkemuka.

Akibatnya, titik referensi yang umum digunakan ini kehilangan arti pentingnya.

Menurut Laporan Indeks AI Universitas Stanford pada bulan April, kecerdasan buatan berkinerja buruk pada tes yang kurang populer yang melibatkan perumusan rencana dan teka-teki pengenalan pola visual. Misalnya, OpenAI o1 mendapat skor sekitar 21% pada satu versi tes pengenalan pola ARC-AGI, penyelenggara ARC melaporkan pada hari Jumat.

Beberapa peneliti AI mengatakan hasil seperti ini menunjukkan bahwa perencanaan dan penalaran abstrak merupakan ukuran kecerdasan yang lebih baik, meskipun Hendrycks mengatakan aspek visual ARC membuatnya kurang cocok untuk menilai model bahasa. “Ujian Akhir Umat Manusia” memerlukan penalaran abstrak, katanya.

Jawaban dari tolok ukur populer juga dapat dimasukkan ke dalam data yang digunakan untuk melatih sistem AI, kata pengamat industri. Hendrycks mengatakan beberapa pertanyaan dalam “Ujian Terakhir Umat Manusia” akan tetap bersifat pribadi untuk memastikan bahwa jawaban sistem AI tidak berasal dari hafalan.

Ujian ini akan mencakup setidaknya 1.000 pertanyaan crowdsourcing yang harus diselesaikan pada tanggal 1 November dan sulit dijawab oleh non-ahli. Karya-karya tersebut akan ditinjau oleh rekan sejawat dan karya pemenang akan ditulis bersama, dengan hadiah senilai hingga $5.000 yang disponsori oleh Scale AI.

“Kami sangat membutuhkan pengujian model tingkat ahli yang lebih menantang untuk mengukur kemajuan pesat AI,” kata Alexandr Wang, CEO Scale.

Satu batasan: Penyelenggara tidak ingin ada pertanyaan tentang senjata yang menurut beberapa orang terlalu berbahaya untuk dipelajari oleh kecerdasan buatan.

Satu hal lagi! Kami sekarang ada di saluran WhatsApp! Ikuti kami disana agar tidak ketinggalan update apapun dari dunia teknologi. Untuk mengikuti saluran HT Tech di WhatsApp, klik Di Sini Bergabunglah sekarang!

Sumber