OpenAI transkripsi lebih dari sejuta jam video YouTube untuk melatih GPT-4

Oleh: Lysti Rahma - Senin, 08 April 2024 17:37

OpenAI menghadapi kesulitan dalam mendapatkan data latihan berkualitas tinggi, sehingga mereka mengembangkan model transkripsi audio bernama Whisper.

OpenAI transkripsi video YouTube untuk melatih GPT-4

Sebuah laporan dari The New York Times mengungkapkan berbagai upaya perusahaan besar di bidang kecerdasan buatan (AI) untuk memperluas akses data mereka. Salah satu sorotan utama adalah OpenAI yang disebut telah mentranskripsi lebih dari satu juta jam video YouTube untuk melatih model bahasa besar mereka, GPT-4.

Menurut laporan tersebut, OpenAI menghadapi kesulitan dalam mendapatkan data latihan berkualitas tinggi, sehingga mereka mengembangkan model transkripsi audio bernama Whisper untuk menyelesaikan masalah tersebut. Langkah ini kemudian diambil untuk mentranskripsi video YouTube sebagai sumber data. Meskipun diakui bahwa tindakan ini berpotensi melanggar hukum hak cipta, namun OpenAI meyakini bahwa hal tersebut merupakan penggunaan yang wajar.

Dikutip dari The Verge (8/4), presiden OpenAI, Greg Brockman, dilaporkan secara pribadi terlibat dalam pengumpulan video yang digunakan untuk melatih model mereka. Menanggapi hal ini, juru bicara OpenAI, Lindsay Held, menyatakan bahwa perusahaan tersebut menggunakan berbagai sumber data, termasuk data publik dan kemitraan untuk data non-publik, serta sedang mempertimbangkan untuk menghasilkan data sintetis sendiri.

Google, yang juga berada di bawah sorotan, mengklaim bahwa mereka telah melihat laporan tidak resmi tentang aktivitas OpenAI, sementara YouTube melarang scraping atau pengunduhan konten tanpa izin. Namun demikian, Google telah menggunakan transkripsi dari video YouTube untuk melatih model mereka sesuai dengan perjanjian dengan para pencipta konten di platform tersebut.