-CSDN乐谱数据集

流行类（作词：佚名作曲：佚名） 演唱：佚名2021-12-18 11:47

　　由高精度转谱系统转谱音频而成。转谱的 MIDI 文件包括音符的起始时间、力度和踏板信息。

　　，致力于大数据分析/数据科学/机器学习。所有数据都是通过迭代来收集的。 jsonl文件采用 ( ) 格式。学习音乐只需要

　　，所有这些都具有拍音，节拍，拍号和键签名注释。该存储库包含所有注释以及所有MIDI和MusicXML文件。要获取音频文件，请按照以下说明进行操作。。。。

　　（3。65Gb），没有之一。 MuseData 地址：也是需要自己爬，但是这里的数据是根据流派做好划分的，非常一目了然。 JSB Chorales 地址：。。。

　　首先做个小宣传。因为很多想做这一块的同行本科生们不是很清楚国内外的院校列表。有一位前辈在GitHub上整理了大部分的院校列表出来我也对这个列表做了一点贡献。点击查看

　　MuseScore的特点在于其有充分活跃的社区。这个软件和LilyPond都可以通过XML和MIDI进行数据传送所以在接口方面很灵活。

　　对Python3的支持很好也是目前为止最完善的一个Python库、武器库。包括音乐的乐谱显示、音乐合成、矩阵分析、语料库、符号表达等。

　　ABC格式是一种复杂而古早的模式很多早期的数据集使用了这种标注。ABC格式可以转化为music21或者被其他方法解析。

　　作者很久没有维护过了但是从快速上手来看是一个不错的Python库。Python 3版本已经给出。

　　主要用处就是将midi或ABC格式的文件转化为wav文件有多种合成方法可选十分方便好用。

　　特别有名的数据集音乐界的MNIST。ABC格式可以被上面一些库直接解析MIDI格式也可以转换。数据预处理的办法一般是shift到12个大调或者小调速度调整至120bpm。

　　非常完整的标注数据集值得一提的是可以从中提取和弦标注进行学习。

　　Google Magenta一直在用的钢琴演奏数据集。有文字标注版和音乐原版数据量极为庞大。

　　国际上最大的乐谱典藏数据库。其亮点在于录音和乐谱非常全也许可以用于图像识别领域。有些乐谱似乎是收费的。

　　也是需要自己爬但是这里的数据是根据流派做好划分的非常一目了然。

　　这是一个音乐分析用的数据集其亮点在于对流派、ID等数据的详尽标注。具体可以阅读readme。

　　非常非常完备的一个ABC格式的数据集虽然需要自己爬但是非常齐全。数据仍在不断增加中。

　　严格来说这不算是一个数据集但是很多人在论文中用过它比如MidiNet。最出彩的地方在于其和弦标注。我觉得应该是网络上和弦标注最为全面的一个数据集了。这个网站现代化、可交互非常值得看一看。

　　斯坦福的一个网站好像也不能直接下载但是数据整理得非常漂亮提供了MIDI、XML等多种格式收录了1420-1520年的复调音乐并且支持在线搜索和试听。

　　虽然数据很小只有800k但是这是我见过的第一个专用于鼓点的数据集。

　　本页为您整理汇总了各类可供机器学习研究使用的高质量数据集。欢迎您为本页列表推荐新的数据集您还可以在维基百科等其他地方找到类似的数据集一览表。

　　奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表原始未结构化的文本数据快去按图索骥下载数据自己研究吧

　　ASAP自动作文评分[Kaggle]在本次比赛中有8个作文集。每个作文都由一个单独提示所得回答所生成。所选作文长度为150到550个字不等。部分作文依赖于源信息而另其他则不是。所有论文都是由7年级到10年级的学生所写。所有的作文都由人工打分并采用双评分制。100MB

　　ASAP简答题评分[Kaggle]每个数据集都是由单个提示所得回答生成的。所选回答的平均长度为50个字。某些回答依赖于源信息而其他则不是。所有回答由10年级学生所写。所有回答均为人工打分并采用双评分制。35MB

　　企业信息分类企业在社交媒体上到底谈论了什么的工作。要求志愿者将企业陈述分类为信息关于公司或其活动的客观陈述对线；回复用户等或行动要求投票或要求用户点击链接等的信息。600KB

　　一个网络社区关于从维基百科中提取结构化信息并使得此信息在网络上可用的共同成果。17GB

　　家得宝公司产品搜索关联[Kaggle]包含家得宝公司网站的许多产品和客户搜索条款。挑战是预测搜索条目组合和产品的相关性分数。为了创建线c；家得宝公司将搜索/产品配对众包给多个评分者打分。65MB

　　Negra德国报纸文本的语法标注语料库。可供所有大学及非营利机构免费使用。需要签署协议并发送申请才能获得。

　　新闻文章/维基百科页面配对志愿者阅读一篇短文被问及最匹配的两篇维基百科文章是哪一篇。6MB

　　句子/概念对的正确性志愿者读关于两个概念的句子。例如“狗是一种动物”或者“船长可以和主人有同样的意思”然后他们被问到这个句子是否正确并将其1-5评级。700KB

　　人物语料库收集了作者文章风格和个性预测的实验。由145名学生的145篇荷兰语文章组成。获得需要申请

　　路透社语料库一个包含路透社新闻报道的数据集用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“路透社语录1”或RCV1它远远大于原来在文本分类中被广泛使用的著名的路透社21578数据集。该语料库数据需要通过签署协议和发送邮件获取。2。5GB

　　Twitter上关于新英格兰爱国者队“放气门”事件的舆情在2015年超级碗比赛前人们对被放了气的橄榄球以及爱国者队是否存在欺骗行为议论纷纷。该数据集提供了丑闻发生的这段时间里Twitter上的舆情以便评估公众对整个事件的感受。2MB

　　Twitter上关于自动驾驶汽车的舆情分析贡献者们阅读推文后将推文里对于自动驾驶的态度分为非常积极、较积极、中立、较消极和非常消极。如果推文与自动驾驶汽车无关他们也要标记出来。1MB

　　Twitter上对于美国各大航空公司的态度Kaggle数据集这是一个对于美国各大航空公司存在问题的情感分析任务。该数据集爬取了2015年2月的推文贡献者们将其分类为积极、消极和中立对于那些分类为消极态度的推文还会给出原因例如“飞机晚点”或“服务态度差”等。2。5MB

　　基于新闻标题的美国经济表现根据新闻标题头条和摘要对新闻和美国经济的相关性进行排序。5MB

　　维基百科的Wesbury Lab语料库2010年4月维基百科英文部分中所有文章的快照。网站详细描述了数据是如何被处理的——即去除所有链接和不相关的材料如导航文本等。语料库是未经标记的原始文本它被用于Stanford NLP。

　　雅虎研究院的数据集汇总Webscope还包含了使用了这些数据的论文列表