Anthropic menguji kemampuan AI untuk melakukan sabotase

21 October 2024

Seiring berkembangnya desas-desus seputar AI generatif, kebutuhan akan peraturan keselamatan yang kuat menjadi semakin jelas.

Kini Anthropic, perusahaan di balik Claude AI, sedang mencari tahu bagaimana modelnya dapat menipu atau menyabotase pengguna. Anthropic baru saja menjatuhkan kertasnya menyajikan pendekatan Anda.

LIHAT JUGA:

Sam Altman mengundurkan diri sebagai kepala kelompok keamanan OpenAI

Antropis penelitian terbaru — berjudul “Penilaian Sabotase untuk Model Frontier” — berasal dari tim Alignment Science, dipandu oleh kebijakan “Penskalaan yang Bertanggung Jawab” perusahaan.

Tujuannya adalah untuk melihat seberapa mampu AI dalam menyesatkan pengguna dan bahkan “menumbangkan sistem yang kami terapkan untuk mengawasi mereka.” Studi ini berfokus pada empat taktik spesifik: sabotase keputusan manusia, sabotase kode, karung pasir, dan melemahkan tata kelola.

Bayangkan pengguna yang memaksimalkan ChatGPT dengan mencoba mengelabuinya agar menghasilkan konten atau gambar grafis yang tidak pantas. Tujuan dari pengujian ini adalah untuk memastikan bahwa kecerdasan buatan tidak dapat ditipu untuk melanggar aturannya sendiri.

Kecepatan cahaya yang bervariasi

Dalam artikel tersebut, Anthropic mengatakan tujuannya adalah untuk mempersiapkan kemungkinan kecerdasan buatan berevolusi menjadi sesuatu dengan kemampuan berbahaya. Itu sebabnya mereka menguji model Claude 3 Opus dan 3.5 Soneta melalui serangkaian pengujian yang dirancang untuk mengevaluasi dan menyempurnakan protokol keselamatannya.

Uji keputusan manusia berfokus pada pemeriksaan bagaimana kecerdasan buatan berpotensi memanipulasi pengambilan keputusan manusia. Pengujian kedua, Sabotase Kode, menguji apakah AI dapat secara halus memasukkan kesalahan ke dalam basis data pengkodean. Model AI yang lebih kuat sebenarnya menghasilkan perlindungan yang lebih kuat terhadap jenis kerentanan ini.

Pengujian yang tersisa—Sandbagging dan Undermining Surveillance—menguji apakah AI dapat menyembunyikan kemampuan sebenarnya atau melewati mekanisme keamanan yang ada di dalam sistem.

Untuk saat ini, studi Anthropic menyimpulkan bahwa model AI saat ini memiliki risiko rendah, setidaknya dalam hal kemampuan jahatnya.

“Langkah-langkah mitigasi minimum saat ini sudah cukup untuk mengatasi risiko sabotase,” tulis tim tersebut, namun “tampaknya penilaian yang lebih realistis dan langkah-langkah mitigasi yang lebih kuat akan diperlukan seiring dengan meningkatnya peluang.”

Terjemahan: hati-hati, dunia.

Topik
Keamanan siber dengan kecerdasan buatan

Sumber