Peneliti meta telah meluncurkan SeamlessM4T , model multibahasa dan multitugas perintis yang memfasilitasi terjemahan dan transkripsi tanpa hambatan baik dalam ucapan maupun teks. 

Internet, perangkat seluler, media sosial, dan platform komunikasi telah memasuki era di mana akses terhadap konten multibahasa telah mencapai tingkat yang belum pernah terjadi sebelumnya. SeamlessM4T bertujuan untuk mewujudkan visi komunikasi dan pemahaman yang lancar dalam berbagai bahasa.

Menawarkan serangkaian kemampuan yang mengesankan, SeamlessM4T mencakup:

  • Pengenalan ucapan otomatis untuk hampir 100 bahasa
  • Terjemahan ucapan-ke-teks mendukung hampir 100 bahasa input dan output
  • Terjemahan ucapan-ke-ucapan untuk hampir 100 bahasa masukan dan 35 bahasa keluaran (termasuk bahasa Inggris).
  • Terjemahan teks-ke-teks untuk hampir 100 bahasa
  • Terjemahan text-to-speech untuk hampir 100 bahasa masukan dan 35 bahasa keluaran (termasuk bahasa Inggris).

SeamlessM4T tersedia bagi para peneliti dan pengembang di bawah lisensi CC BY-NC 4.0 , yang mewujudkan etos sains terbuka.

Selain itu, metadata SeamlessAlign – kumpulan data terjemahan multimodal terbesar yang pernah dikompilasi, terdiri dari 270.000 jam penambangan ucapan dan penyelarasan teks – telah dirilis. Hal ini memfasilitasi pengumpulan data independen dan penelitian lebih lanjut dalam komunitas.

Pengembangan SeamlessM4T menjawab tantangan lama di bidang komunikasi multibahasa. Tidak seperti sistem sebelumnya, yang dibatasi oleh cakupan bahasa yang terbatas dan ketergantungan pada subsistem yang terpisah, SeamlessM4T menghadirkan model terpadu yang mampu menangani tugas terjemahan ucapan-ke-ucapan dan ucapan-ke-teks secara komprehensif. 

Meta telah mengembangkan inovasi sebelumnya – seperti No Language Left Behind (NLLB) dan Universal Speech Translator – untuk menciptakan model multibahasa terpadu ini. Dengan kinerjanya yang mengesankan pada bahasa dengan sumber daya rendah dan kinerja kuat secara konsisten pada bahasa dengan sumber daya tinggi, SeamlessM4T memiliki potensi untuk merevolusi komunikasi lintas bahasa.

Yang mendasari arsitektur model ini adalah model UnitY multitask, yang unggul dalam menghasilkan teks dan ucapan yang diterjemahkan.

UnitY mendukung berbagai tugas penerjemahan, termasuk pengenalan ucapan otomatis, terjemahan teks-ke-teks, dan terjemahan ucapan-ke-ucapan, semuanya dari satu model. Untuk melatih model serbaguna ini, Meta menggunakan teknik canggih seperti pembuat enkode teks dan ucapan, pembuat enkode yang diawasi sendiri, dan proses decoding yang canggih.