PixelPlayer Adalah AI yang Mampu Mengidentifikasi Suara Tiap-Tiap Instrumen Musik dari Sebuah Video

Kemampuan mendengar tiap-tiap individu pasti berbeda. Saat menonton suatu video konser misalnya, ada yang mampu berfokus pada suara bass-nya saja, tapi ada juga yang kesulitan sehingga suara semua instrumen terdengar membaur baginya. Batasan ini tidak berlaku buat mesin, seperti yang dibuktikan baru-baru ini oleh tim peneliti di MIT.

Para cendekiawan yang tergabung dalam Computer Science and Artificial Intelligence Laboratory (CSAIL) di MIT ini mengembangkan sistem kecerdasan buatan bernama PixelPlayer, yang mampu melihat video beberapa orang bermain musik, lalu mengisolasi dan memisahkan suara tiap-tiap instrumen. Semuanya dilakukan tanpa bantuan manusia.

Ambil contoh video duet pemain tuba dan terompet yang membawakan lagu tema Super Mario misalnya. Yang keren, saat video tersebut dilimpahkan ke PixelPlayer, tim peneliti dapat mengklik pada bagian sang pemain tuba untuk mendengarkan hanya suara dari instrumen tersebut, dan hal yang sama juga berlaku untuk sang pemain terompet.

MIT CSAIL PixelPlayer

Metode deep learning yang diterapkan mengacu pada tiga neural network yang telah dilatih menggunakan berbagai video dengan durasi total lebih dari 60 jam. Ketiga network itu punya tugas spesifik tersendiri: satu untuk mengamati aspek visual dari video, satu untuk audionya, dan satu lagi bertindak sebagai synthesizer yang mengasosiasikan bagian video tertentu dengan gelombang suara yang spesifik.

Sejauh ini PixelPlayer sudah bisa mengidentifikasi suara lebih dari 20 jenis instrumen musik yang umum dijumpai. Kalau bekal berlatihnya (data) lebih banyak, tentu yang dapat dikenali bisa lebih banyak lagi. Kendati demikian, yang sulit bagi sistemnya adalah membedakan jenis instrumen yang teramat spesifik, semisal alto sax dan tenor sax.

Lalu gunanya apa? Pertama, PixelPlayer bisa membantu mereka yang sedang belajar alat musik, yang kerap menonton video YouTube dan mengamati cara memainkan lagu-lagu favoritnya. Kedua, sistem ini juga dapat membantu produser untuk menyempurnakan karya musisi yang ditanganinya. Potensinya sangat luas kalau menurut tim pengembangnya.

Sumber: MIT News.