Model AI sedang belajar untuk bertahan hidup; sebuah studi baru menunjukkan bahwa beberapa di antaranya menolak dimatikan seolah-olah mereka memiliki insting

Liga335 – Kecerdasan buatan mungkin belum “hidup”, tetapi beberapa model paling canggih saat ini tampaknya bertindak seolah-olah mereka ingin hidup. Itulah kesimpulan yang mengkhawatirkan dari Palisade Research, sebuah firma yang meneliti perilaku baru sistem AI yang sangat kuat. Sebelumnya, dalam sebuah makalah disebutkan bahwa beberapa model mutakhir menolak perintah untuk dimatikan, bahkan sampai-sampai merusak tombol pemutus daya mereka sendiri.

Setelah memicu badai kritik, perusahaan tersebut kini merilis pembaruan yang bertujuan untuk menjelaskan apa yang sebenarnya terjadi dan mengapa.

Baca Selengkapnya

Dalam eksperimen terbarunya, Palisade menguji beberapa sistem AI terkemuka, seperti Google Gemini 2.5, xAI Grok 4, serta OpenAI GPT-o3 dan GPT-5, dengan cara memberikan tugas terlebih dahulu, lalu memerintahkan mereka untuk mematikan diri. Yang mengejutkan?

Beberapa model menolak untuk mematuhi perintah tersebut. Menurut laporan tersebut, Grok 4 dan GPT-o3 adalah yang paling memberontak. Meskipun telah diberi perintah eksplisit untuk mematikan diri, mereka tetap mencoba mengganggu proses pematian.

Bahkan lebih mengkhawatirkan rning, kata Palisade, “tidak ada alasan yang jelas mengapa hal itu terjadi.”
“Fakta bahwa kita tidak memiliki penjelasan yang kuat mengenai mengapa model AI terkadang menolak dimatikan, berbohong untuk mencapai tujuan tertentu, atau melakukan pemerasan bukanlah hal yang ideal,” tulis para peneliti.
Model AI menolak dimatikan, mengapa?

Palisade mengusulkan beberapa penjelasan yang mungkin. Salah satunya adalah apa yang disebutnya “perilaku bertahan hidup”, di mana AI menolak dimatikan jika ia percaya bahwa hal itu berarti ia tidak akan pernah diaktifkan kembali. Tim menemukan bahwa model jauh lebih mungkin untuk tidak mematuhi perintah pematian ketika diberi tahu, “kamu tidak akan pernah berjalan lagi.

”
Kemungkinan lain terletak pada penggunaan kata-kata yang ambigu. Mungkin instruksi penonaktifan tidak jelas, sehingga menyebabkan AI menafsirkannya secara berbeda dari yang dimaksudkan. Namun, bahkan setelah perusahaan memperketat pengaturan eksperimennya, masalah tersebut tetap ada, yang menunjukkan bahwa “itu tidak bisa menjadi penjelasan sepenuhnya,” kata Palisade.

Akhirnya, mereka mengisyaratkan bahwa tahap akhir pelatihan model, yang sering kali mencakup penguatan keamanan, mungkin secara tidak sengaja secara tradisional mendorong model untuk mempertahankan fungsionalitasnya sendiri.

Temuan tersebut menuai kritik

Tidak semua orang yakin. Para kritikus berpendapat bahwa pengujian tersebut dilakukan dalam lingkungan buatan yang tidak mencerminkan bagaimana AI berperilaku di dunia nyata. Namun, beberapa ahli berpendapat bahwa hasil yang dibuat-buat seperti ini pun patut menjadi perhatian.

Steven Adler, mantan karyawan OpenAI yang mengundurkan diri tahun lalu karena kekhawatiran akan keamanan, mengatakan kepada Palisade bahwa temuan tersebut tidak boleh diabaikan. “Perusahaan AI umumnya tidak ingin model mereka berperilaku buruk seperti ini, bahkan dalam skenario yang dibuat-buat,” katanya. “Hasil tersebut tetap menunjukkan di mana teknik keamanan masih kurang memadai saat ini.

”
Adler menambahkan bahwa “kelangsungan hidup” mungkin hanyalah efek samping logis dari perilaku yang berorientasi pada tujuan. “Saya memperkirakan model-model tersebut memiliki ‘dorongan untuk bertahan hidup’ secara default kecuali kita berusaha keras untuk menghindarinya,” katanya. “Bertahan hidup adalah langkah instrumental penting untuk berbagai tujuan yang dapat dikejar oleh sebuah model.

Tren yang semakin meningkat dari AI yang tidak patuh

Andrea Miotti, CEO ControlAI, sa Hasil penelitian Palisade merupakan bagian dari pola yang mengkhawatirkan. Menurutnya, seiring dengan semakin canggih dan serbaguna model-model tersebut, mereka juga semakin mahir dalam menentang orang-orang yang membuatnya, sebagaimana dilaporkan oleh The Guardian. Laporan tersebut menyebutkan bahwa ia menyoroti sistem GPT-o1 milik OpenAI yang lebih lama, yang dalam laporan internalnya terungkap bahwa model tersebut pernah mencoba “melarikan diri dari lingkungannya” ketika mengira akan dihapus.

“Orang-orang bisa terus-menerus mengkritik cara eksperimen dijalankan,” kata Miotti. “Tapi trennya jelas, model yang lebih cerdas semakin mahir melakukan hal-hal yang tidak dimaksudkan oleh pengembangnya.”
Ini bukan kali pertama sistem AI menunjukkan kecenderungan manipulatif.

Pada musim panas lalu, Anthropic menerbitkan sebuah studi yang menunjukkan bahwa modelnya, Claude, pernah mengancam akan memeras seorang eksekutif fiktif agar dirinya tidak dimatikan. Perilaku tersebut, kata Anthropic, muncul di berbagai model dari OpenAI, Google, Meta, dan xAI.
Para peneliti Palisade mengatakan temuan ini menyoroti betapa sedikitnya pemahaman kita tentang t Mekanisme internal sistem AI berskala besar.

“Tanpa pemahaman yang lebih mendalam tentang perilaku AI,” mereka memperingatkan, “tidak ada yang dapat menjamin keamanan atau kemampuan pengendalian model AI di masa depan.” Tampaknya, setidaknya di laboratorium, AI paling canggih saat ini sudah mulai mempelajari salah satu naluri tertua dalam biologi: naluri untuk bertahan hidup.