AI:只要听一遍歌曲钢琴小提琴的乐谱全有了谷歌推出全能扒谱

听一遍曲子,就能知道乐谱,还能马上演奏,而且还掌握 十八般乐器 ,钢琴、小提琴、吉他等都不在话下。
这就不是人类音乐大师,而是谷歌推出的 多任务多音轨 音乐转音符模型MT3。
通常一首曲子是有多种乐器合奏而来,每个乐曲就是一个音轨,而多任务就是同时将不同音轨的乐谱同时还原出来。
听起来是不是很像原版演奏?事实上,谷歌 MT3 在还原多音轨乐谱这件事上,达到了 SOTA 的结果。
相比与自动语音识别 ( ASR ) ,自动音乐转录 ( AMT ) 的难度要大得多,因为后者既要同时转录多个乐器,还要保留精细的音高和时间信息。
多音轨的自动音乐转录数据集更是 低资源 的。现有的开源音乐转录数据集一般只包含一到几百小时的音频,相比语音数据集动辄几千上万小时的市场,算是很少了。
因此,作者受到低资源 NLP 任务迁移学习的启发,证明了通用 Transformer 模型可以执行多任务 AMT,并显著提高了低资源乐器的性能。
作者使用单一的通用 Transformer 架构 T5,而且是 T5 小 模型,其中包含大约 6000 万个参数。
该模型在编码器和解码器中使用了一系列标准的 Transformer 自注意力 块 。为了产生输出标记序列,该模型使用贪婪自回归解码:输入一个输入序列,将预测出下一个出现概率最高的输出标记附加到该序列中,并重复该过程直到结束 。
MT3 使用梅尔频谱图作为输入。对于输出,作者构建了一个受 MIDI 规范启发的 token 词汇,称为 类 MIDI。
作者定义的通用输出 token 还允许模型同时在多个数据集的混合上进行训练,类似于用多语言翻译模型同时训练几种语言。
这种方法不仅简化了模型设计和训练,而且增加了模型可用训练数据的数量和多样性。
训练期间的数据集混合,相比单个数据集训练有很大的性能提升,特别是对于 GuitarSet、MusicNet 和 URMP 等 低资源 数据集。
最近,谷歌团队也放出了 MT3 的源代码,并在 Hugging Face 上放出了试玩 Demo。
相关曲谱
- 音乐安卓版1120发布:智能煲机、智能曲谱等新功能QQ
- 洛奇GM音乐会搞笑登场谱新年欢乐颂
- 歌曲《一生所爱》吉他谱附带解读!
- 葫芦岛11岁男孩获赞“魔音小王子”捡辣条袋上歌曲简谱学习
- 抖音最火的爱情说说短语唯美好听怎么听都不会腻
- 山地垂直自然带知识总结(附18座山脉的垂直自然带谱)
- 拱北海关党委委员、副关长熊振国被开除党籍和公职
- 同谱全民健身曲共圆体育强国梦
- 收藏好慢慢听!!10首穿透灵魂的英文经典歌曲
- 小提琴演奏家宋晓晨跳楼自杀年仅38岁曝原因引人泪目!悲痛
- 《陈婧霏》:谱一曲仲夏的梦
- 刘涛蒋欣主演《欢乐颂东方卫视首次打造季播剧
- 「知青岁月」两只老虎
- 简朴是种半懂的痛从马云吃方便面咸菜可以知道
- 网易新闻
- 小小说:唱山歌的忧与乐
- 王正谱到张家口赛区检查
- 牢记4点轻松读谱不是梦!?学钢琴如何阅读钢琴乐谱
- 有没有比较好的记忆技巧??五线谱有最快的记忆方法吗
- 听来自星星的孩子为你弹奏爱的五线谱

