BRIN (Badan Riset dan Inovasi Nasional), KORIKA (Kolaborasi Riset & Inovasi Kecerdasan Artifisial), dan dua portfolio GDP Venture (Glair.ai & Datasaur.ai) bersama dengan AI Singapore (AISG) mengumumkan inisiatif proyek kolaboratif untuk mengembangkan Large Language Model (LLM) Bahasa Indonesia yang terbuka agar dapat dimanfaatkan secara luas oleh berbagai pihak.
“Model LLM yang ada saat ini sangat dipengaruhi oleh budaya barat, semakin kecil kemungkinan ChatGPT berperilaku seperti manusia di wilayah tersebut. ASEAN dalam perekonomian global punya peranan penting, tapi kita masih kurang terepresentasi,” ucap Head of Strategy, Partnerships & Growth AI Singapore Darius Liu dalam konferensi pers, Kamis (30/11).
AISG adalah pengembang SEA-LION (Southeast Asian Languages in One Network), sebuah open-source LLM yang dikembangkan untuk lebih memahami dan mewakili beragam konteks, bahasa, dan budaya di Asia Tenggara. AISG adalah program nasional yang didukung oleh National Research Foundation Singapura dan diselenggarakan oleh National University of Singapore.
SEA-LION dibangun di atas arsitektur MPT (Mosaic Pretained Transformers) yang kuat dan memiliki ukuran kosakata 256 ribu. Untuk tokenisasi, model ini menggunakan SEABPETokenizer, dirancang khusus untuk bahasa-bahasa di Asia Tenggara, sehingga memastikan performa model yang optimal.
LLM merupakan jenis model kecerdasan buatan yang dirancang untuk memahami dan menghasilkan bahasa manusia. Mereka dilatih menggunakan data teks dalam jumlah besar dan dapat melakukan berbagai tugas seperti menerjemahkan, meringkas, menjawab pertanyaan, dan bahkan menulis kode.
LLM yang ada saat ini (ChatGPT dari Open AI, Bard dari Google) menunjukkan bias yang kuat dalam hal nilai-nilai budaya, keyakinan politik dan sikap sosial. Hal ini disebabkan oleh data pelatihan, terutama yang diambil dari internet, seringkali condong pada pengaruh WEIRD (Western, Educated, Industrialized, Rich, Democratic).
Fenomena ini menyisakan kekosangan di pasar bahasa lain dan memusatkan keunggulan teknologi di antara negara-negara berbahasa Inggris. Berdasarkan data Statista pada Januari 2023, dominasi bahasa Inggris mencapai 58,8% untuk konten web, sedangkan bahasa Indonesia porsinya hanya 0,6%. Fakta ini menggarisbawahi perlunya penelitian dan pengembangan yang lebih luas untuk memenuhi kebutuhan bahasa Indonesia.
Diklaim, dibandingkan open source LLM milik negara barat, SEA-LION mampu menjawab seolah-olah berbicara dengan manusia karena penggunaan bahasanya tidak kaku. Ada beberapa konteks lokal pula yang tidak mampu dijawab oleh LLM, seperti ChatGPT. Sejak inisiatif SEA-LION dilakukan, LLM ini telah banyak melatih bahasa Indonesia dan Thai. Lalu disusul Bahasa Melayu dan Vietnam, bahasa dari negara lain masih perlu dilatih lagi.
Proyek kolaboratif
CTO GDP Venture/CEO & CTO GDP Labs On Lee menyampaikan, sejalan dengan visi AISG yang ingin menciptakan LLM khusus bahasa Indonesia yang dapat bermanfaat di Asia Tenggara. GDP Venture, melalui portofolionya Glair.ai dan Datasaur.ai, tengah menyesuaikan platform SEA-LION agar sesuai dengan konteks Indonesia demi menciptakan LLM bahasa Indonesia yang terbuka secara komprehensif.
“Inisiatif ini menjanjikan manfaat seperti pengurangan biaya operasional, peningkatan pendapatan dan produktivitas, serta kolaborasi manusia dan AI yang efektif, semuanya berkontribusi pada pertumbuhan ekonomi dan kemajuan teknologi di Indonesia dan Asia Tenggara,” kata On Lee.
Sementara itu, bagi BRIN, adopsi LLM bahasa Indonesia dapat meningkatkan kualitas dan efisiensi penelitian, meningkatkan aksesibilitas kepada publik, mendukung pengembangan teknologi, dan meningkatkan sumber daya manusia. Selain itu juga memberikan peluang dalam akuisisi pengetahuan baik yang bersifat saintifik maupun budaya lokal.
Datasaur.ai, Glair.ai, BRIN, dan AISG menargetkan pengembangan LLM ini pada akhirnya mendorong pembuatan platform AI, seperti ChatGPT. Pembedanya adalah tujuan penggunaannya yang bakal lebih dispesialisasikan sesuai target konsumen. “ChatGPT itu lebih ke general purpose, jadi sulit untuk bersaing langsung. Kita harus pintar-pintar bagaimana bisa memenuhi konsumer kita,” tambah On Lee.