字节跳动智创语音团队发布高保真、低延迟、高并发AI歌唱合成技术

字节跳动智能创作语音团队SAMI(Speech, Audio and Music Intelligence)近日上线一项高保真、低延迟、高并发歌唱合成技术。该技术在兼顾保真度和速度上实现了一定的突破:一方面,AI模型可以模拟人类独特的音色、技巧和情感,使得演唱效果媲美真人;同时,该模型可以提供超低延迟、高并发的歌唱合成服务,可以轻松适配C端业务场景。
语音合成作为人工智能的一个重要分支,已经被应用到大家日常生活的各个方面。它通过输入文字,经由人工智能的算法,合成像人类语音一样自然的音频。而相比于语音,歌唱需要额外的音高,时长信息,且音色也会更为多变。同基于深度学习的语音合成一样,歌唱合成的模型也由声学模型(acoustic model)和声码器(vocoder)两部分组成,这两部分都采用了完全并行的神经网络架构,从而可以在生成高保线倍实时的生成速度。通过上述两个模块的配合,对于给定的任意乐谱,都可由神经网络合成对应的歌唱音频;这些音频发音清晰,旋律和节奏准确,音高的衔接流畅,还会出现自然的真假声转换,做到媲美真人的效果。
声学模型首先从乐谱里得到三要素:歌词、音高、时长;然后通过文本处理前端将歌词转成拼音序列,使用编码器进行编码,得到歌词信息;另一方面,接着根据音符时长,预测每个拼音的时长,并据此将拼音与对应音符音高展开到帧级别,送入解码器生成Mel频谱。
得到频谱后,使用基于神经网络的声码器将其转换为音频波形。目前常见的商用歌声声码器解决方案主要有两种,一种是基于神经网络的串行架构,一种是基于传统数字信号处理的算法;前者可以生成相对自然的音频,但是速度较慢,而后者则相反。为了满足C端场景速度和保真度的双重需求,SAMI团队使用了基于神经网络的并行声码器,既能保证生成高保真的音频,又有极高的推理速度(GPU 200倍实时率),并且表现稳定,不会出现断音爆音等异常。声码器采用了生成对抗网络(generative adversarial network)的架构。其中,对于歌唱而言,旋律的准确性体现为基频(f0)的高低。为了让并行的生成器有稳定的基频,声码器额外增加了独立的“基频预测”模块,其预测的基频作为生成器的强化输入来实现稳定的基频生成。
音乐创作不仅要求创作者进行文字创作,还要谱写旋律,无形中提高了C端用户的创作门槛。对此,SAMI团队提出了“你填我唱”玩法,让歌曲创作的输入尽可能简化,从而让更多人体会音乐创作的乐趣。
用户只需要输入文字内容并选择音色,接着这些文字会和预置的旋律进行智能匹配,再使用歌唱合成技术,即可实现与旋律的完美融合,并通过合成音色演唱出来。
2021年夏天,一首“红伞伞白杆杆,吃完一起躺板板”让无数人的DNA动了起来。这首歌的旋律取自美国乡村民谣《哦,苏珊娜》,由斯蒂芬·福斯特于1847年创作;而为了提醒广大群众远离毒菌,“云南消防”将歌词改编融入原曲旋律重新演唱,让这首经典歌曲在174年后又火了一把。这种不改旋律,只改编歌词的玩法,大家在儿时起就已经非常熟悉。比如对“太阳当空照,花儿对我笑”这首歌的改编,就是结合了身边发生的一些现象,套用一首耳熟能详旋律,贴近生活又十分有趣。
歌唱合成技术的新突破表明人工智能正不断在语音、音乐领域发掘自己的应用场景。有了AI的助力,人人都可以自由自在地表达,让音乐在不同的时代被赋予新的意义,让用户以丰富的声音记录美好生活。
相关曲谱
- 第十九届中纪委全体会议(201710至今)
- 字节跳动智创语音团队发布高保真、低延迟、高并发AI歌唱合成技术
- 乡村振兴公益歌曲《一个都不落下》发布
- 10首必弹中国钢琴作品钢琴家王鲁和你聊聊中国音乐!
- 创新服务奏响兴安盟百年人寿再谱新曲
- 周杰伦新歌发布被网友调侃歌词接下来的歌名都已预想好
- 施坦威与中央音乐学院钢琴系合作协议签约暨授牌仪式成功举行
- 《2022年春节联欢晚会》在欢声笑语中展现新时代新征程上精气神!
- ChineseFootball的乐队被误伤男足输比赛一支叫
- ”一女子深夜欲跳水库自杀因为丈夫……!“我不想活了
- 歌词大全LRC歌词下载LRC动态歌
- 小毛驴7年后重返国家队阿根廷公布友谊赛名单
- Populele2智能尤克里里一面艺术一面科技
- 腾讯音乐人四周年:亿级播放量的歌曲如何炼成?
- 悠扬萨克斯工作室|萨克斯初学者从不会看谱到灵活转调
- “新歌唱灌南”2017全国首届原创歌曲大赛作品征集
- 我们长大了儿时的童谣却仍唱着“会干活的女孩嫁得好”
- 日本演员美魔女武田久美子给你带来成熟女性理想体型的简单练习
- 《e小调大提琴协奏曲》有多种弹法你知道多少种?
- 二次元、科幻等题材受玩家青睐《原神》《香肠派对》等5款游戏Tap

