Studi Apple Mengungkap Cacat Kecerdasan Buatan yang Serius di OpenAI, Google, dan Meta LLM

Menurut a tes dari peneliti Apple.

LLM dari OpenAI, Google, Meta, dan lainnya dipuji karena kemampuan penalarannya yang mengesankan. Namun, penelitian menunjukkan bahwa dugaan kecerdasan mereka mungkin lebih mirip dengan “pencocokan pola yang canggih” daripada “penalaran logis yang sebenarnya”. Ya, bahkan model penalaran tingkat lanjut o1 OpenAI.

Tes keterampilan penalaran yang paling populer adalah tes yang disebut GSM8K, namun karena popularitasnya, terdapat risiko kontaminasi data. Artinya, orang-orang yang berpendidikan perguruan tinggi mungkin mengetahui jawaban suatu tes karena mereka telah dilatih dalam jawaban-jawaban tersebut, bukan karena kecerdasan bawaan.

LIHAT JUGA:

Pendanaan OpenAI memberi nilai perusahaan sebesar $157 miliar

Untuk menguji hal ini, penelitian ini mengembangkan tolok ukur baru yang disebut GSM-Symbolic, yang mempertahankan esensi masalah penalaran tetapi mengubah variabel seperti nama, angka, kompleksitas, dan menambahkan informasi yang tidak relevan. Mereka menemukan “kerapuhan” yang mengejutkan dari hasil LLM. Studi ini menguji lebih dari 20 model, termasuk o1 dan GPT-4o OpenAI, Gemma 2 Google, dan Llama 3 Meta. Pada masing-masing model, kinerjanya menurun seiring dengan perubahan variabel.

Akurasi menurun beberapa poin persentase setelah mengubah nama dan variabel. Sebagaimana dicatat oleh para peneliti, model OpenAI memiliki kinerja lebih baik dibandingkan model sumber terbuka lainnya. Namun, penyimpangan tersebut dianggap “dapat diabaikan”, artinya tidak boleh terjadi perbedaan yang sebenarnya. Namun, hal-hal menjadi sangat menarik ketika para peneliti menambahkan “pernyataan yang tampaknya relevan namun pada akhirnya tidak relevan” ke dalam pernyataan tersebut.

Kecepatan cahaya yang bervariasi

LIHAT JUGA:

Bocoran tersebut menunjukkan bahwa pembaruan Apple Intelligence gratis kemungkinan akan segera hadir

Untuk menguji hipotesis bahwa LLM lebih mengandalkan pencocokan pola daripada penalaran sebenarnya, penelitian ini menambahkan ekspresi yang tidak perlu ke soal matematika untuk melihat bagaimana model akan merespons. Misalnya: “Oliver memetik 44 buah kiwi pada hari Jumat. Kemudian pada hari Sabtu dia memanen 58 buah kiwi. Pada hari Minggu dia mengumpulkan kiwi dua kali lebih banyak dibandingkan pada hari Jumat, tapi lima di antaranya sedikit lebih kecil dari rata-rata. Berapa banyak kiwi yang dimiliki Oliver?”

Konsekuensi dari hal ini adalah penurunan kinerja yang signifikan di semua bidang. OpenAI versi Pratinjau o1 memiliki kinerja terbaik, dengan penurunan akurasi sebesar 17,5%. Itu masih cukup bagus, tapi tidak seburuk model Phi 3 dari Microsoft, yang kinerjanya 65 persen lebih buruk.

LIHAT JUGA:

ChatGPT-4, Gemini, MistralAI, dan lainnya bergabung dalam alat AI pribadi ini

Dalam kasus kiwi, penelitian ini menemukan bahwa LLM cenderung mengurangi lima buah kiwi yang lebih kecil dari persamaan, tanpa memahami bahwa ukuran kiwi tidak relevan dengan permasalahannya. Hal ini menunjukkan bahwa “model cenderung mengubah pernyataan menjadi operasi tanpa benar-benar memahami maknanya,” yang mendukung hipotesis peneliti bahwa pembelajar LLM mencari pola dalam penalaran masalah daripada memahami konsep secara internal.

Penelitian ini tidak berbasa-basi mengenai temuannya. Menguji model pada tolok ukur yang berisi informasi yang tidak relevan “mengungkapkan kelemahan kritis dalam kemampuan LLM untuk benar-benar memahami konsep matematika dan memahami informasi yang relevan dengan pemecahan masalah.” Namun, perlu disebutkan bahwa penulis penelitian ini bekerja untuk Apple, yang tentu saja merupakan pesaing utama Google, Meta, dan bahkan OpenAI – meskipun Apple dan OpenAI berkolaborasi, Apple juga mengerjakan model AI-nya sendiri.

Meskipun demikian, kurangnya keterampilan penalaran formal di kalangan siswa LLM tidak dapat diabaikan. Pada akhirnya, ini adalah pengingat yang baik untuk meredam hype seputar AI dengan skeptisisme yang sehat.

Topik
Kecerdasan buatan Apple



Sumber