×
Kanal
    • partner tek.id realme
    • partner tek.id samsung
    • partner tek.id acer
    • partner tek.id wd
    • partner tek.id wd
    • partner tek.id wd
    • partner tek.id wd

Hasil Uji Coba Ungkap Gemini 3 Flash Halusinasi Hingga 91 Persen Saat Tidak Tahu Jawaban

Oleh: Haidhar Ali Faqih - Selasa, 23 Desember 2025 13:10

Hasil uji coba yang dilakukan terhadap Gemini 3 dalam situasi ketidaktahuan menunjukkan adanya halusinasi hingga 91 persen.

Hasil Uji Coba Ungkap Gemini 3 Halusinasi Hingga 91 Persen Gemini 3. dok. Google

Gemini 3 Flash, model AI terbaru Google yang dikenal cepat dan cerdas, tercatat mengarang jawaban hingga 91% dalam situasi ketika seharusnya mengakui tidak tahu. 

Temuan ini terungkap dalam evaluasi independen Artificial Analysis melalui benchmark AA-Omniscience, yang menguji kemampuan model AI membedakan pengetahuan nyata dari sekadar tebakan.

Dikutip dari TechRadar, dengan angka “tingkat halusinasi” sebesar 91%, membuktikan dalam kondisi saat jawaban yang benar seharusnya adalah “I don’t know”, Gemini 3 Flash justru tetap memberikan jawaban meskipun jawabannya sepenuhnya fiktif.

Perlu dicatat, angka ini bukan berarti 91% dari semua jawaban Gemini salah. Tingginya persentase tersebut hanya muncul dalam situasi tertentu, yaitu saat tidak ada jawaban yang benar atau tidak tersedia dalam data pelatihan maupun sumber publik. 

Namun tetap saja, kecenderungan ini menimbulkan risiko, terutama ketika pertanyaan bersifat faktual, sensitif, atau berisiko tinggi.

Meski demikian, hasil ini tidak menghapus keunggulan Gemini 3 Flash. Model ini tetap dinilai sebagai salah satu AI paling akurat dan berkinerja tinggi, bahkan mampu melampaui versi terbaru ChatGPT dan Claude dalam pengujian umum.

Masalahnya bukan pada kemampuan, melainkan pada sikap terlalu percaya diri saat menghadapi ketidakpastian. 

Hal ini membuat model ini cenderung mengarang jawaban alih-alih mengakui ketidaktahuan saat menghadapi pertanyaan yang tidak memiliki jawaban pasti.

Menariknya, kecenderungan serupa juga ditemukan pada model AI lain. Namun, angka Gemini 3 Flash yang mencapai 91% sangat menonjol karena frekuensi kesalahannya yang tinggi dalam skenario tanpa jawaban pasti.

Fenomena AI “mengarang” bukan hal baru. Sejak awal kemunculan chatbot, kemampuan untuk mengatakan “saya tidak tahu” menjadi tantangan tersendiri. 

Secara teknis, model AI adalah mesin prediksi kata, bukan penilai kebenaran. Akibatnya, sistem cenderung terus menghasilkan teks, meski tanpa dasar fakta

Sebagai perbandingan, OpenAI disebut telah mulai mengatasi persoalan ini dengan melatih model agar lebih sadar batas pengetahuannya dan berani menyatakan ketidaktahuan secara eksplisit. 

Namun, hal ini tidak mudah karena sistem pelatihan AI cenderung memberi nilai lebih pada jawaban tegas dibanding respons kosong.

Karena itu, memeriksa ulang jawaban AI tetap menjadi langkah yang bijak.

×
back to top