Vivek Raghavan, salah satu pendiri Sarvam AIpercaya bahwa kunci untuk membuka potensi AI di India terletak pada pengembangan model yang dapat memahami dan berkomunikasi dalam berbagai bahasa daerah di negara tersebut melalui antarmuka suara.
“Orang India akan berinteraksi dengan AI generatif melalui suara dalam bahasa mereka sendiri,” Raghavan memberi tahu kami.
Inti dari pendekatan Sarvam adalah gagasan bahwa meskipun model bahasa seperti GPT-4o dan Gemini 1.5 menawarkan kemampuan yang mengesankan, sebagian besar kebutuhan orang dapat dicapai dengan model yang jauh lebih kecil dan lebih efisien yang disesuaikan untuk tugas dan konteks linguistik tertentu.
“Jika saya ingin melakukan sesuatu yang relevan jutaan kali sehari, saya tidak dapat menggunakan model-model besar tersebut. Model-model tersebut terlalu mahal dan tidak cukup akurat,” jelas Raghavan. “Untuk kasus penggunaan seperti dukungan pelanggan untuk perusahaan telekomunikasi, saya menginginkan model yang lebih kecil dan dibuat khusus yang mengungguli model-model yang lebih besar dalam tugas tersebut.”
Untuk tujuan ini, Sarvam baru saja mengumumkan Sarvam 2B, model sumber terbuka dengan 2 miliar parameter yang dilatih dari awal pada triliunan token data bahasa India, termasuk teks yang dihasilkan secara sintetis. Dengan ukuran yang hanya sebagian kecil dari model seperti GPT-4, dan dengan biaya yang lebih murah, Sarvam 2B menjanjikan kinerja yang unggul pada tugas-tugas bahasa India seperti penerjemahan, transliterasi, dan peringkasan. Dan itu dilakukan dalam waktu 10 menit Bahasa India.
Perusahaan tersebut juga meluncurkan “Sarvam Agents” — asisten AI multibahasa yang menggunakan suara yang dapat melakukan berbagai tindakan seperti memesan tiket atau menjadwalkan rapat melalui telepon, WhatsApp, atau antarmuka dalam aplikasi. Berapa biayanya? Hanya 1 rupee per menit.
Dalam demo yang kami lihat, agen AI suara yang digunakan pada saluran telepon pelanggan layanan kesehatan memulai dengan mengatakan: “Namaste, Sarvam Saathi tak pahunchne ke liye, dhanyavad. Aap ki kya madad kar sakti hoon? (Terima kasih telah menghubungi Sarvam. Apa yang dapat saya bantu?). Kemudian memulai percakapan lancar dalam bahasa Hinglish dengan pengguna yang memiliki masalah gigi. Bot tersebut mampu memahami bahkan ucapan-ucapan khas India. Tidak ada latensi. Jika pengguna menyela bot, bot tersebut menanganinya dengan sangat baik. Bot tersebut memahami semua pertanyaan, dan bahkan menjadwalkan janji temu bagi pengguna dengan dokter pada tanggal yang diinginkan.
Awal yang tidak konvensional
Jalan yang ditempuh Raghavan untuk mendirikan Sarvam tidak konvensional. Selama 15 tahun, ia bekerja sebagai relawan di proyek identitas digital Aadhaar yang besar di India. Pengalaman ini, katanya, memberinya dorongan untuk memanfaatkan teknologi demi dampak sosial. “Saya melihat masa depan di mana setiap anak bisa mendapatkan pendidikan berkualitas (melalui AI), yang sebelumnya tidak mungkin,” katanya, menggemakan pernyataan yang disampaikan oleh pengusaha & kapitalis ventura India-Amerika kepada TOI awal minggu ini.
Ia menemukan masalah AI dalam bahasa India lebih dari satu dekade lalu ketika Mahkamah Agung mencari cara untuk menerjemahkan putusan ke dalam bahasa daerah. Hal ini mendorongnya untuk memberi saran kepada inisiatif Bhashini milik pemerintah – platform penerjemahan bahasa berbasis AI milik India, yang diluncurkan sebagai bagian dari visi Digital India.
Keputusan untuk akhirnya membentuk perusahaan rintisan yang mencari laba, daripada terus berada di sektor publik atau nirlaba, didorong oleh kebutuhan akan kecepatan dan skala. “Kita perlu bergerak lebih cepat,” jelas Raghavan. “Ini adalah ruang di mana secara global, segala sesuatunya bergerak sangat cepat.”
Pendekatan Sarvam mencerminkan keyakinan Raghavan pada “AI yang berdaulat” — model yang disesuaikan untuk konteks India yang dapat diterapkan di tempat oleh perusahaan yang peduli dengan privasi data. Pendekatan ini juga bertujuan untuk memberi peneliti India alat untuk mendorong batasan AI bahasa.
Perusahaan tersebut membuka sumber model bahasa audio yang dibangun di atas model Llama sumber terbuka milik Meta. “Kami ingin ekosistem AI India mengalami kemajuan,” kata Raghavan.
Inovasi fundamental
Di balik layar, Sarvam telah memelopori teknik untuk mengurangi “pajak tokenizer” yang membuat representasi teks bahasa India menjadi tidak efisien dalam model standar. Dalam istilah AI dan ML, sebuah token dapat mewakili seluruh kata atau hanya satu karakter, bahasa India secara rutin menjadi mangsa efek negatif dari kategori kedua, karena jumlah token yang biasanya diperlukan untuk mewakili bahasa India jauh lebih tinggi daripada bahasa seperti bahasa Inggris. Itulah sebabnya metode untuk mengurangi pajak tokenizer dalam penggunaan bahasa India menjadi penting, kata Raghavan. Lebih sedikit token berarti model yang lebih kecil dan lebih efisien.
Perusahaan tersebut juga menggunakan pembuatan data sintetis sebagai cara untuk menambah kumpulan data dunia nyata yang terbatas untuk bahasa-bahasa India. “Kami telah membangun model untuk menghasilkan data dan kami menggunakan data tersebut untuk melatih model,” kata Raghavan. Model 2B Sarvam dilatih pada kluster yang disediakan oleh perusahaan India Yotta.
Ke depannya, Raghavan melihat peluang untuk menerapkan AI generatif ke domain yang kaya akan pengetahuan India seperti Ayurveda, di mana model dapat mensintesis informasi dari teks kuno menjadi korpus yang koheren dan dapat direferensikan.