OpenAI transkripsi lebih dari sejuta jam video YouTube untuk melatih GPT-4

Oleh: Lysti Rahma - Senin, 08 Apr 2024 17:37 WIB

OpenAI menghadapi kesulitan dalam mendapatkan data latihan berkualitas tinggi, sehingga mereka mengembangkan model transkripsi audio bernama Whisper.

Sebuah laporan dari The New York Times mengungkapkan berbagai upaya perusahaan besar di bidang kecerdasan buatan (AI) untuk memperluas akses data mereka. Salah satu sorotan utama adalah OpenAI yang disebut telah mentranskripsi lebih dari satu juta jam video YouTube untuk melatih model bahasa besar mereka, GPT-4.

Menurut laporan tersebut, OpenAI menghadapi kesulitan dalam mendapatkan data latihan berkualitas tinggi, sehingga mereka mengembangkan model transkripsi audio bernama Whisper untuk menyelesaikan masalah tersebut. Langkah ini kemudian diambil untuk mentranskripsi video YouTube sebagai sumber data. Meskipun diakui bahwa tindakan ini berpotensi melanggar hukum hak cipta, namun OpenAI meyakini bahwa hal tersebut merupakan penggunaan yang wajar.

Dikutip dari The Verge (8/4), presiden OpenAI, Greg Brockman, dilaporkan secara pribadi terlibat dalam pengumpulan video yang digunakan untuk melatih model mereka. Menanggapi hal ini, juru bicara OpenAI, Lindsay Held, menyatakan bahwa perusahaan tersebut menggunakan berbagai sumber data, termasuk data publik dan kemitraan untuk data non-publik, serta sedang mempertimbangkan untuk menghasilkan data sintetis sendiri.

Google, yang juga berada di bawah sorotan, mengklaim bahwa mereka telah melihat laporan tidak resmi tentang aktivitas OpenAI, sementara YouTube melarang scraping atau pengunduhan konten tanpa izin. Namun demikian, Google telah menggunakan transkripsi dari video YouTube untuk melatih model mereka sesuai dengan perjanjian dengan para pencipta konten di platform tersebut.

Selain itu, laporan tersebut juga menyoroti kesulitan yang dihadapi oleh Meta dalam mencari data latihan yang berkualitas. Meta disebut-sebut telah menjajaki penggunaan karya yang dilindungi hak cipta tanpa izin, seiring dengan berbagai alternatif lain seperti pembayaran lisensi buku atau bahkan akuisisi penerbit besar.