Stability AI
继推出文字生成图像模型Stable Diffusion之後,Stability AI本周发表了文字生成音乐模型Stable Audio,跨入声音及音乐的领域。
Stability AI的创办人暨执行长是出生於约旦、之後移民至英国的Emad Mostaque,自牛津大学毕业後Mostaque曾替穆斯林社群打造伊斯兰AI,以协助人们认识伊斯兰教,之後则在英国多个对冲基金工作了十多年,一直到2020年才创立Stability AI,於2022年推出的首个AI模型即为Stable Diffusion 1.0。
迄今Stable Diffusion已历经多次改版,最新的版本为今年7月发表的Stable Diffusion XL(SDXL)1.0,期间Stability AI也陆续发表了多种模型,包括语言模型StableLM,开源聊天机器人StableVicuna,以及图像生成设计工具DreamStudio等。
Stable Audio则是由Stability AI内部的生成式声音研究实验室Harmonai所开发,利用由AudioSparx所提供的80万个声音档进行训练,涵盖音乐、音效、各种乐器,以及相对应的文字描述等,总长超过1.9万个小时。
Stable Audio与Stable Diffusion一样,都是基於扩散的生成模型,Stability AI指出,一般的声音扩散模型通常是在较长声音档案中随机裁剪的声音区块进行训练,可能导致所生成的音乐缺乏头尾,但Stable Audio架构同时基於文字,以及声音档案的持续及开始时间,而让该模型得以控制所生成声音的内容与长度。
此外,利用最新的扩散取样技术,Stable Audio模型在Nvidia A100 GPU上以44.1 kHz的取样速度,不到1秒就能渲染95秒的立体声。
Stable Audio同时提供免费与Pro付费版,前者每月可免费生成20次、最长20秒的声音或音乐,而若每月支付12美元,则可生成500次,最长90秒的音频。
目前坊间的文字生成音乐工具还有Google的MusicLM与Meta的音乐生成模型MusicGen。