Stability AI telah memperkenalkan “Stable Audio,” model difusi laten yang dirancang untuk merevolusi generasi audio.

Terobosan ini menjanjikan lompatan maju bagi AI generatif dan menggabungkan metadata teks, durasi audio, dan pengondisian waktu mulai untuk menawarkan kontrol yang belum pernah ada sebelumnya terhadap konten dan panjang audio yang dihasilkan—bahkan memungkinkan pembuatan lagu lengkap.

Model difusi audio secara tradisional menghadapi keterbatasan yang signifikan dalam menghasilkan audio dengan durasi tetap, yang sering kali menghasilkan frasa musik yang tiba-tiba dan tidak lengkap. Hal ini terutama disebabkan oleh model yang dilatih pada potongan audio acak yang dipotong dari file yang lebih panjang dan kemudian dipaksa menjadi panjang yang telah ditentukan.

Audio Stabil secara efektif mengatasi tantangan bersejarah ini, memungkinkan pembuatan audio dengan panjang tertentu, hingga ukuran jendela pelatihan.

Salah satu fitur menonjol dari Stable Audio adalah penggunaan representasi audio laten yang banyak diturunkan sampelnya, sehingga menghasilkan waktu inferensi yang jauh lebih cepat dibandingkan dengan audio mentah. Melalui teknik pengambilan sampel difusi yang mutakhir, model Stable Audio andalan dapat menghasilkan audio stereo berdurasi 95 detik pada kecepatan sampel 44,1 kHz dalam waktu kurang dari satu detik dengan memanfaatkan kekuatan GPU NVIDIA A100.

Arsitektur inti Audio Stabil terdiri dari autoencoder variasional (VAE), encoder teks, dan model difusi terkondisi berbasis U-Net.

VAE memainkan peran penting dengan mengompresi audio stereo menjadi pengkodean laten yang tahan kebisingan dan lossy yang secara signifikan mempercepat proses pembuatan dan pelatihan. Pendekatan ini, berdasarkan arsitektur encoder dan decoder Descript Audio Codec , memfasilitasi pengkodean dan penguraian kode audio dengan panjang sewenang-wenang sambil memastikan keluaran dengan ketelitian tinggi.