Mono rasa stereo berkat machine learning

Salah satu kekurangan audio mono ada tidak adanya kesan perbedaan lokasi sumber suara. Nah, hal ini bisa diatasi dengan sistem audio 2,5D yang baru dikembangkan.

Mono rasa stereo berkat machine learning Source: NewAtlas

Sistem audio stereo memiliki keunggulan dari reproduksi suara yang menggunakan lebih dari satu saluran untuk mendapatkan suara yang lebih natural. Kemampuan ini pun makin ditunjang dengan adanya headphone yang dapat diatur untuk meningkatkan kualitas stereo tersebut. Keunggulan inilah yang tidak dimiliki oleh sistem audio mono.

Namun perbedaan kedua sistem audio tersebut tampaknya akan semakin kabur. Pasalnya dua orang peneliti bernama Rouhan Gao dan Kristen Grauman berhasil mengembangkan sistem baru yang mereka sebut 2.5 sound. Sistem ini akan membuat audio mono menjadi stereo dengan bantuan machine learning.


BACA JUGA

Face Recognition dapat deteksi kelainan genetik

Berbagi akun di Netflix akan lebih ketat karena teknologi ini

AI terbukti lebih ampuh deteksi kanker


Langkah pertama yang kedua peneliti itu lakukan adalah dengan membangun database rekaman binaural yang menggunakan lebih dari 2000 klip musik dan video. Rekaman tersebut akan mengambil suara dan gambar secara bersamaan. Perekam tersebut terdiri dari sepasang telinga palsu lengpkap dengan mikrofon di setiap saluran telinga untuk mengambil variasi arah suara. Sementara video diambil menggunakan kamera Go Pro.

Langkah selanjutnya adalah melatih machine learning untuk mempelajari arah suara. Algoritma yang digunakan akan melihat video untuk mendistorsi audio mono dan mensimulasikan arah suara. Triknya adalah dengan mengatur waktu keluaran suara dan perbedaan volume dari kiri dan kanan. Melakukan hal ini bukanlah perkara mudah.

“Kami menyebutnya dengan 2,5D visual sound—gambar video akan meningkatkan channel audio tunggal menjadi lebih memiliki ruang.” ujar kedua peneliti tersebut, sebagaimana dilaporkan NewAtlas (31/12)

Sejauh ini, sistem 2,5D sound masih memiliki beberapa kekurangan, seperti harus mengandalkan video, tidak mendukung suara yang obyeknya tidak tampak dalam video, dan tidak mengenali suara yang tidak ada dalam database yang sudah dibuat.

Kedua peneliti tersebut berencana untuk mengeksplorasi cara untuk menggabungkan lokalisasi dan gerak objek, serta memodelkan suara dari klip tertentu secara eksplisit.

Jangan baca sendiri, bagikan artikel ini: