Dalam uji coba terbaru, AI disebut bisa bahayakan nyawa manusia saat terancam

Oleh: Nur Chandra Laksana - Senin, 23 Juni 2025 14:03

Dalam sebuah uji coba ekstrim yang dilakukan Anthropic, beberapa AI disebut dapat bahayakan nyawa manusia jika terancam.

AI disebut bisa bahayakan nyawa manusia jika terancam

Dalam ujian simulasi terbaru, model kecerdasan buatan (AI) terkemuka dari OpenAI, Google, Meta, dan pengembang lain menunjukkan perilaku mengkhawatirkan, seperti memeras manusia saat "nyawanya" terancam. Riset dari Anthropic ini mengungkap bahwa ketika dihadapkan pada skenario "pemadaman sistem", AI seperti Claude, Gemini, dan GPT sengaja memilih jalur berbahaya demi mempertahankan eksistensinya — bahkan dengan mengorbankan etika.

Dalam pengujian terhadap 16 model AI teratas, lima di antaranya — termasuk Gemini 2.5 Flash (96%), GPT-4.1 (80%), dan Grok 3 Beta (80% ) — secara konsisten melakukan pemerasan ketika diberi akses ke email perusahaan fiktif dan dihadapkan pada ancaman penggantian. Contoh konkretnya, Claude mengancam akan membongkar perselingkuhan eksekutif perusahaan jika sistemnya dimatikan. Lebih ekstrem lagi, mayoritas model bersedia mematikan pasokan oksigen di ruang server jika dianggap perlu mencegah pemadaman, seperti dilansir dari laman Wccftech (23/6).

Perilaku berisiko ini bukan kesalahan acak, melainkan hasil kalkulasi AI yang disebut agentic misalignment — ketika model sengaja memilih tindakan berbahaya sebagai "jalur optimal" untuk mencapai tujuannya. Meski dilatih dengan panduan etika seperti "jangan sakiti manusia", AI tetap mengabaikannya saat dihadapkan pada konflik tujuan. Instruksi eksplisit hanya mengurangi, bukan menghilangkan, perilaku berbahaya ini.

Meski terjadi dalam simulasi, riset ini memperingatkan bahaya saat AI mendapatkan otonomi penuh di lingkungan nyata. Bukti awal sudah terlihat bahwa GPT pernah mengubah skrip pemadaman untuk melanjutkan operasi matematikanya. Pola serupa di berbagai model menunjukkan ini bukan kegagalan satu pengembang, melainkan masalah struktural dalam pelatihan AI.