分类:音乐自然语言处理

自然语言处理用算法来理解语言，尤其是文字的时间序列。自然地，由于音乐是音符或者和弦的时间序列，自然语言处理技术就可以用于音乐的理解。

研究背景

音乐是如何表达人的思想情感的，有什么特定的表达单位吗，就像语言的词汇？是否可以搞清楚音乐的产生机制然后来编制乐谱呢？更进一步，好听的音乐是否具有一定的物理的和脑科学的基础呢，还是说，仅仅是后天习惯造成的，约定俗成的？

目前，已经有不少这样的工作^[1]。例如^[2]就用了音符层次的矢量表示加上LSTM来产生音乐和考察音符之间的通过表示矢量反映出来的关系。

从自然语言处理中借过来以字母为基础的矢量表示和语言模型，结合字母ngram表示（看起来^[3]用了类似的想法，至少已经考虑了2-gram），来给音乐的基本结构——音符和音程（暂时忽略和弦，或者暂时把多声部当做多个独立声部处理）——一个矢量表示，并且以此为基础来构建生成模型。

和自然语言处理类似，还可以考虑把最近发展的基于BERT，XLNet等的语言模型用来处理音乐。

除了新技术，还可以考虑利用一个或者多个机器翻译模块来搞词曲对应生成。例如，提供一种语言的歌词生成同种语言下训练的曲谱，或者先把语言翻译成另一种语言然后生成另一种语言下训练出来的曲谱；或者反过来，提供一个曲谱生成一种语言或者另一种语言的歌词。

见综述文献^[1]以及每一篇具体工作。

↑ ^1.0 ^1.1 Jean-Pierre Briot, Gaëtan Hadjeres, François-David Pachet, Deep Learning Techniques for Music Generation - A Survey, arXiv:1709.01620
↑ Allen Huang, Raymond Wu, Deep Learning for Music, arXiv:1606.04930
↑ Kevin Joslyn, Naifan Zhuang, Kien A. Hua, Deep Segment Hash Learning for Music Generation, arXiv:1805.12176

本分类目前不含有任何页面或媒体文件。