Big Physics - 用户贡献 [zh-cn]

分类:汉字结构地图和汉语字词的矢量表示

2019-08-16T14:53:01Z

Irishere：

[[分类:机器学习]]
[[分类:吴金闪]]
[[分类:汉字网络]]
[[分类:语言研究]]
[[分类:系统科学和网络科学]]

==背景==
把语言的词汇表示成为意义上有联系的矢量形式，而不是简单的one-hot矢量（一个词代表空间的一个维度）。是大量后续自然语言处理的基础，无论从概念上还是从矢量空间的维数这个技术难度上。

Word2vec算法[https://en.wikipedia.org/wiki/Word2vec word2vec]<ref name="word2vec"/><ref name="word2vec2"/>，基于一个字上下文经常在一起出现的其他字的频率，可以用来发现词之间的语义联系，并用于解决自然语言处理的问题。在语音语言上，词的内部结构通常没有丰富的意义，基本上就是表示一个读音。但是，汉字是特殊的，其内部结构很多时候表示了含义上的联系。例如，妈、妹、姐、姑、奶都有“女”字旁，而且它们这几个字确实和“女”有联系。这个工作<ref name="Cao"/>的研究者就注意到了这个联系，从而把汉字打开用更加基本的结构笔画来发现汉字的含以上的联系。

在英语词汇的适量表示上，也有类似的拆分或者说直接粗暴的以n-gram(subword)为表示对象的word2vec研究<ref name="subword1"/><ref name="subword2"/>。

这是这个工作的简短介绍<ref name="jaylin008"/>。实际上，这个工作在上面的思想上，走的更粗暴和极端——直接用笔画（被作者分成了五种）的n-gram来代表汉字——然后训练这些n-gram的矢量表示。当然，这个时候，真实的汉字的表示也就训练出来了——毕竟真实汉字不过就是这些笔画n-grams里面的一个。

此外，也有工作将汉字字形以图像形式编码，利用cnn卷积神经网络编码汉字图形特征，以之辅助词向量训练<ref name="glyph"/>。

==进一步研究==
进一步，自然可以来看，如果我们不按照笔画，而是按照我们已经建成的[[:分类:汉字网络|汉字网络]]的拆分方式——把一个字拆分成为直接联系的下一层结构——来训练，效果会怎样？

例如，首先，我们把原始的文本做一次转化，转化成每一个汉字都是下一级的子结构，例如照->火昭，但不是照->火口日刀，当然如果出现昭则做昭->日昭的替换。接着，在替换完成的文本上做以字为单位（或者以n-gram为单位）的word2vec完成矢量化。如果是以字为单位的，则文本中出现过的处于结构上最高层的字没有矢量表示（已经被拆掉了，在替换之后的文本中没有了），因此，还得想办法再一次得到这些最高层字的矢量（例如和para2vec一样保留整个para，也就是上层字和拆分以后的字都放到语料里面）。这个可以用简单矢量加法得到，或者用再一次运行针对这些字（相当于替换后文本中的词）的局部的word2vec。直接一次性替换到底的方式，以及这种类似para2vec的替换方式，以及其他的替换方式的效果，需要都做一下尝试。具体可以参考<ref name="components"/><ref name="characters"/>。

另外，我们的拆分比纯粹笔画拆分强的地方在于保留含义（和读音）联系；我们的拆分比部首或者部件拆分强的地方在于我们是意义和字源性拆分，还有理据性分数（专家打分和word2vec相似性两种理据性）。有了理据性分数，可以考虑仅仅拆分一部分字。有了字源性拆分，可以拆分到实际有联系的部件字上面去。在研究过程中，可以把理据性拆分和纯笔画、偏旁部首拆分比较一下。

补充：<ref name="WordSeg"/>对深度学习模型是否需要分词信息进行了研究，字词表示学习工作可将其结论作为参考。

==词向量算法==
在词语表示的研究上，word2vec模型之后，有几个较有代表性的工作：

'''- GloVe''': 利用词语共现矩阵学习词表示。[https://nlp.stanford.edu/projects/glove/ 链接]

'''- fasttext''': 以训练分类标签为目标，产生词向量的副产物，并集成了subword信息。[https://github.com/facebookresearch/fastText 链接]

'''- ELMo''': 基于双向语言模型（采用LSTM模型）学习contextualized word embedding，真正意义上实现了一词多表示。[https://allennlp.org/elmo 链接]

'''- BERT''': 基于双向语言模型（采用深层Transformer模型），将其隐层表示取出，可以得到更高效的contextualized embedding表示。[https://github.com/google-research/bert 链接]

除了和word2vec算法结合，也可以考虑把汉字拆分和这些算法结合。

==已开展工作==
梁诗尘等《基于分布式表示的汉字部件表义能力测量与应用》，已投稿到会议CCL 2019，并获接收。

该文从汉字部件入手，提出了融合部件的字词表示模型，模型在向量内部评测任务获得了一定提升，在汉字理据性测量任务上也与人工打分的相关系数呈现显著相关。基于该模型，进一步提出了部件表义能力的计算方法，对汉字部件的表义能力做了整体评估，结合部件的构字能力建立了现代汉字部件的等级体系。测量结果显示，现代汉字部件具有一定表义能力，但整体而言表义能力偏低。最后，将测量结果应用对对外汉语教学中，确立了适用于部件教学法的部件范围，并提出了对应的汉字教学顺序方案。

==参考文献==
<references>
<ref name="Cao">Shaosheng Cao, Wei Lu, Jun Zhou and Xiaolong Li, cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information, In Proceedings of AAAI 2018, http://www.statnlp.org/wp-content/uploads/papers/2018/cw2vec/cw2vec.pdf </ref>
<ref name="jaylin008">jaylin008, word2vec与cw2vec的数学原理, https://www.jianshu.com/p/f258d0c5c317 </ref>
<ref name="word2vec">T Mikolov, K Chen, G Corrado, J Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781. </ref>
<ref name="word2vec2">T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean, Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems, 3111-3119. </ref>
<ref name="components">Jinxing Yu, Xun Jian, Hao Xin, Yangqiu Song, Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components. EMNLP. http://www.aclweb.org/anthology/D17-1027 https://github.com/HKUST-KnowComp/JWE</ref>
<ref name="characters">Xinxiong Chen, Lei Xu, Zhiyuan Liu, Maosong Sun, Huanbo Luan, Joint Learning of Character and Word Embeddings. IJCAI. </ref>
<ref name="subword1">Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov, Enriching Word Vectors with Subword Information. </ref>
<ref name="subword2">Bojanowski, Piotr, et al. Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics 5 (2017): 135-146. http://aclweb.org/anthology/Q17-1010</ref>
<ref name="glyph">Su, Tzu-ray, and Hung-yi Lee. Learning Chinese Word Representations From Glyphs Of Characters. In Proceedings of EMNLP 2017. https://www.aclweb.org/anthology/D17-1025</ref>
<ref name="WordSeg">Meng, Yuxian et al. Is Word Segmentation Necessary for Deep Learning of Chinese Representations?, to appear on ACL 2019. </ref>
</references>

分类:汉字结构地图和汉语字词的矢量表示

2019-05-17T07:48:20Z

Irishere：/* 进一步研究 */

[[分类:机器学习]]
[[分类:吴金闪]]
[[分类:汉字网络]]
[[分类:语言研究]]
[[分类:系统科学和网络科学]]

==背景==
把语言的词汇表示成为意义上有联系的矢量形式，而不是简单的one-hot矢量（一个词代表空间的一个维度）。是大量后续自然语言处理的基础，无论从概念上还是从矢量空间的维数这个技术难度上。

Word2vec算法[https://en.wikipedia.org/wiki/Word2vec word2vec]<ref name="word2vec"/><ref name="word2vec2"/>，基于一个字上下文经常在一起出现的其他字的频率，可以用来发现词之间的语义联系，并用于解决自然语言处理的问题。在语音语言上，词的内部结构通常没有丰富的意义，基本上就是表示一个读音。但是，汉字是特殊的，其内部结构很多时候表示了含义上的联系。例如，妈、妹、姐、姑、奶都有“女”字旁，而且它们这几个字确实和“女”有联系。这个工作<ref name="Cao"/>的研究者就注意到了这个联系，从而把汉字打开用更加基本的结构笔画来发现汉字的含以上的联系。

在英语词汇的适量表示上，也有类似的拆分或者说直接粗暴的以n-gram(subword)为表示对象的word2vec研究<ref name="subword1"/><ref name="subword2"/>。

这是这个工作的简短介绍<ref name="jaylin008"/>。实际上，这个工作在上面的思想上，走的更粗暴和极端——直接用笔画（被作者分成了五种）的n-gram来代表汉字——然后训练这些n-gram的矢量表示。当然，这个时候，真实的汉字的表示也就训练出来了——毕竟真实汉字不过就是这些笔画n-grams里面的一个。

此外，也有工作将汉字字形以图像形式编码，利用cnn卷积神经网络编码汉字图形特征，以之辅助词向量训练<ref name="glyph"/>。

==进一步研究==
进一步，自然可以来看，如果我们不按照笔画，而是按照我们已经建成的[[:分类:汉字网络|汉字网络]]的拆分方式——把一个字拆分成为直接联系的下一层结构——来训练，效果会怎样？

例如，首先，我们把原始的文本做一次转化，转化成每一个汉字都是下一级的子结构，例如照->火昭，但不是照->火口日刀，当然如果出现昭则做昭->日昭的替换。接着，在替换完成的文本上做以字为单位（或者以n-gram为单位）的word2vec完成矢量化。如果是以字为单位的，则文本中出现过的处于结构上最高层的字没有矢量表示（已经被拆掉了，在替换之后的文本中没有了），因此，还得想办法再一次得到这些最高层字的矢量（例如和para2vec一样保留整个para，也就是上层字和拆分以后的字都放到语料里面）。这个可以用简单矢量加法得到，或者用再一次运行针对这些字（相当于替换后文本中的词）的局部的word2vec。具体可以参考<ref name="components"/><ref name="characters"/>.

另外，我们的拆分比纯粹笔画拆分强的地方在于保留含义（和读音）联系；我们的拆分比部首或者部件拆分强的地方在于我们是意义和字源性拆分，还有理据性分数（专家打分和word2vec相似性两种理据性）。有了理据性分数，可以考虑仅仅拆分一部分字。有了字源性拆分，可以拆分到实际有联系的部件字上面去。

补充：<ref name="WordSeg"/>对深度学习模型是否需要分词信息进行了研究，字词表示学习工作可将其结论作为参考。

==词向量算法==
在词语表示的研究上，word2vec模型之后，有几个较有代表性的工作：

'''- GloVe''': 利用词语共现矩阵学习词表示。[https://nlp.stanford.edu/projects/glove/ 链接]

'''- fasttext''': 以训练分类标签为目标，产生词向量的副产物，并集成了subword信息。[https://github.com/facebookresearch/fastText 链接]

'''- ELMo''': 基于双向语言模型（采用LSTM模型）学习contextualized word embedding，真正意义上实现了一词多表示。[https://allennlp.org/elmo 链接]

'''- BERT''': 基于双向语言模型（采用深层Transformer模型），将其隐层表示取出，可以得到更高效的contextualized embedding表示。[https://github.com/google-research/bert 链接]

除了和word2vec算法结合，也可以考虑把汉字拆分和这些算法结合。

==参考文献==
<references>
<ref name="Cao">Shaosheng Cao, Wei Lu, Jun Zhou and Xiaolong Li, cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information, In Proceedings of AAAI 2018, http://www.statnlp.org/wp-content/uploads/papers/2018/cw2vec/cw2vec.pdf </ref>
<ref name="jaylin008">jaylin008, word2vec与cw2vec的数学原理, https://www.jianshu.com/p/f258d0c5c317 </ref>
<ref name="word2vec">T Mikolov, K Chen, G Corrado, J Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781. </ref>
<ref name="word2vec2">T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean, Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems, 3111-3119. </ref>
<ref name="components">Jinxing Yu, Xun Jian, Hao Xin, Yangqiu Song, Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components. EMNLP. http://www.aclweb.org/anthology/D17-1027</ref>
<ref name="characters">Xinxiong Chen, Lei Xu, Zhiyuan Liu, Maosong Sun, Huanbo Luan, Joint Learning of Character and Word Embeddings. IJCAI. </ref>
<ref name="subword1">Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov, Enriching Word Vectors with Subword Information. </ref>
<ref name="subword2">Bojanowski, Piotr, et al. Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics 5 (2017): 135-146. http://aclweb.org/anthology/Q17-1010</ref>
<ref name="glyph">Su, Tzu-ray, and Hung-yi Lee. Learning Chinese Word Representations From Glyphs Of Characters. In Proceedings of EMNLP 2017. https://www.aclweb.org/anthology/D17-1025</ref>
<ref name="WordSeg">Meng, Yuxian et al. Is Word Segmentation Necessary for Deep Learning of Chinese Representations?, to appear on ACL 2019. </ref>
</references>

分类:汉字结构地图和汉语字词的矢量表示

2019-05-17T05:07:58Z

Irishere：/* 参考文献 */

[[分类:机器学习]]
[[分类:吴金闪]]
[[分类:汉字网络]]
[[分类:语言研究]]
[[分类:系统科学和网络科学]]

==背景==
把语言的词汇表示成为意义上有联系的矢量形式，而不是简单的one-hot矢量（一个词代表空间的一个维度）。是大量后续自然语言处理的基础，无论从概念上还是从矢量空间的维数这个技术难度上。

Word2vec算法[https://en.wikipedia.org/wiki/Word2vec word2vec]<ref name="word2vec"/><ref name="word2vec2"/>，基于一个字上下文经常在一起出现的其他字的频率，可以用来发现词之间的语义联系，并用于解决自然语言处理的问题。在语音语言上，词的内部结构通常没有丰富的意义，基本上就是表示一个读音。但是，汉字是特殊的，其内部结构很多时候表示了含义上的联系。例如，妈、妹、姐、姑、奶都有“女”字旁，而且它们这几个字确实和“女”有联系。这个工作<ref name="Cao"/>的研究者就注意到了这个联系，从而把汉字打开用更加基本的结构笔画来发现汉字的含以上的联系。

在英语词汇的适量表示上，也有类似的拆分或者说直接粗暴的以n-gram(subword)为表示对象的word2vec研究<ref name="subword1"/><ref name="subword2"/>。

这是这个工作的简短介绍<ref name="jaylin008"/>。实际上，这个工作在上面的思想上，走的更粗暴和极端——直接用笔画（被作者分成了五种）的n-gram来代表汉字——然后训练这些n-gram的矢量表示。当然，这个时候，真实的汉字的表示也就训练出来了——毕竟真实汉字不过就是这些笔画n-grams里面的一个。

此外，也有工作将汉字字形以图像形式编码，利用cnn卷积神经网络编码汉字图形特征，以之辅助词向量训练<ref name="glyph"/>。

==进一步研究==
进一步，自然可以来看，如果我们不按照笔画，而是按照我们已经建成的[[:分类:汉字网络|汉字网络]]的拆分方式——把一个字拆分成为直接联系的下一层结构——来训练，效果会怎样？

例如，首先，我们把原始的文本做一次转化，转化成每一个汉字都是下一级的子结构，例如照->火昭，但不是照->火口日刀，当然如果出现昭则做昭->日昭的替换。接着，在替换完成的文本上做以字为单位（或者以n-gram为单位）的word2vec完成矢量化。如果是以字为单位的，则文本中出现过的处于结构上最高层的字没有矢量表示（已经被拆掉了，在替换之后的文本中没有了），因此，还得想办法再一次得到这些最高层字的矢量（例如和para2vec一样保留整个para，也就是上层字和拆分以后的字都放到语料里面）。这个可以用简单矢量加法得到，或者用再一次运行针对这些字（相当于替换后文本中的词）的局部的word2vec。具体可以参考<ref name="components"/><ref name="characters"/>.

另外，我们的拆分比纯粹笔画拆分强的地方在于保留含义（和读音）联系；我们的拆分比部首或者部件拆分强的地方在于我们是意义和字源性拆分，还有理据性分数（专家打分和word2vec相似性两种理据性）。有了理据性分数，可以考虑仅仅拆分一部分字。有了字源性拆分，可以拆分到实际有联系的部件字上面去。

==词向量算法==
在词语表示的研究上，word2vec模型之后，有几个较有代表性的工作：

'''- GloVe''': 利用词语共现矩阵学习词表示。[https://nlp.stanford.edu/projects/glove/ 链接]

'''- fasttext''': 以训练分类标签为目标，产生词向量的副产物，并集成了subword信息。[https://github.com/facebookresearch/fastText 链接]

'''- ELMo''': 基于双向语言模型（采用LSTM模型）学习contextualized word embedding，真正意义上实现了一词多表示。[https://allennlp.org/elmo 链接]

'''- BERT''': 基于双向语言模型（采用深层Transformer模型），将其隐层表示取出，可以得到更高效的contextualized embedding表示。[https://github.com/google-research/bert 链接]

除了和word2vec算法结合，也可以考虑把汉字拆分和这些算法结合。

==参考文献==
<references>
<ref name="Cao">Shaosheng Cao, Wei Lu, Jun Zhou and Xiaolong Li, cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information, In Proceedings of AAAI 2018, http://www.statnlp.org/wp-content/uploads/papers/2018/cw2vec/cw2vec.pdf </ref>
<ref name="jaylin008">jaylin008, word2vec与cw2vec的数学原理, https://www.jianshu.com/p/f258d0c5c317 </ref>
<ref name="word2vec">T Mikolov, K Chen, G Corrado, J Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781. </ref>
<ref name="word2vec2">T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean, Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems, 3111-3119. </ref>
<ref name="components">Jinxing Yu, Xun Jian, Hao Xin, Yangqiu Song, Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components. EMNLP. http://www.aclweb.org/anthology/D17-1027</ref>
<ref name="characters">Xinxiong Chen, Lei Xu, Zhiyuan Liu, Maosong Sun, Huanbo Luan, Joint Learning of Character and Word Embeddings. IJCAI. </ref>
<ref name="subword1">Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov, Enriching Word Vectors with Subword Information. </ref>
<ref name="subword2">Bojanowski, Piotr, et al. Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics 5 (2017): 135-146. http://aclweb.org/anthology/Q17-1010</ref>
<ref name="glyph">Su, Tzu-ray, and Hung-yi Lee. Learning Chinese Word Representations From Glyphs Of Characters. In Proceedings of EMNLP 2017. https://www.aclweb.org/anthology/D17-1025</ref>
<ref name="WordSeg">Meng, Yuxian et al. Is Word Segmentation Necessary for Deep Learning of Chinese Representations?, to appear on ACL 2019. </ref>
</references>

分类:汉字结构地图和汉语字词的矢量表示

2019-05-17T05:07:36Z

Irishere：/* 参考文献 */

[[分类:机器学习]]
[[分类:吴金闪]]
[[分类:汉字网络]]
[[分类:语言研究]]
[[分类:系统科学和网络科学]]

==背景==
把语言的词汇表示成为意义上有联系的矢量形式，而不是简单的one-hot矢量（一个词代表空间的一个维度）。是大量后续自然语言处理的基础，无论从概念上还是从矢量空间的维数这个技术难度上。

Word2vec算法[https://en.wikipedia.org/wiki/Word2vec word2vec]<ref name="word2vec"/><ref name="word2vec2"/>，基于一个字上下文经常在一起出现的其他字的频率，可以用来发现词之间的语义联系，并用于解决自然语言处理的问题。在语音语言上，词的内部结构通常没有丰富的意义，基本上就是表示一个读音。但是，汉字是特殊的，其内部结构很多时候表示了含义上的联系。例如，妈、妹、姐、姑、奶都有“女”字旁，而且它们这几个字确实和“女”有联系。这个工作<ref name="Cao"/>的研究者就注意到了这个联系，从而把汉字打开用更加基本的结构笔画来发现汉字的含以上的联系。

在英语词汇的适量表示上，也有类似的拆分或者说直接粗暴的以n-gram(subword)为表示对象的word2vec研究<ref name="subword1"/><ref name="subword2"/>。

这是这个工作的简短介绍<ref name="jaylin008"/>。实际上，这个工作在上面的思想上，走的更粗暴和极端——直接用笔画（被作者分成了五种）的n-gram来代表汉字——然后训练这些n-gram的矢量表示。当然，这个时候，真实的汉字的表示也就训练出来了——毕竟真实汉字不过就是这些笔画n-grams里面的一个。

此外，也有工作将汉字字形以图像形式编码，利用cnn卷积神经网络编码汉字图形特征，以之辅助词向量训练<ref name="glyph"/>。

==进一步研究==
进一步，自然可以来看，如果我们不按照笔画，而是按照我们已经建成的[[:分类:汉字网络|汉字网络]]的拆分方式——把一个字拆分成为直接联系的下一层结构——来训练，效果会怎样？

例如，首先，我们把原始的文本做一次转化，转化成每一个汉字都是下一级的子结构，例如照->火昭，但不是照->火口日刀，当然如果出现昭则做昭->日昭的替换。接着，在替换完成的文本上做以字为单位（或者以n-gram为单位）的word2vec完成矢量化。如果是以字为单位的，则文本中出现过的处于结构上最高层的字没有矢量表示（已经被拆掉了，在替换之后的文本中没有了），因此，还得想办法再一次得到这些最高层字的矢量（例如和para2vec一样保留整个para，也就是上层字和拆分以后的字都放到语料里面）。这个可以用简单矢量加法得到，或者用再一次运行针对这些字（相当于替换后文本中的词）的局部的word2vec。具体可以参考<ref name="components"/><ref name="characters"/>.

另外，我们的拆分比纯粹笔画拆分强的地方在于保留含义（和读音）联系；我们的拆分比部首或者部件拆分强的地方在于我们是意义和字源性拆分，还有理据性分数（专家打分和word2vec相似性两种理据性）。有了理据性分数，可以考虑仅仅拆分一部分字。有了字源性拆分，可以拆分到实际有联系的部件字上面去。

==词向量算法==
在词语表示的研究上，word2vec模型之后，有几个较有代表性的工作：

'''- GloVe''': 利用词语共现矩阵学习词表示。[https://nlp.stanford.edu/projects/glove/ 链接]

'''- fasttext''': 以训练分类标签为目标，产生词向量的副产物，并集成了subword信息。[https://github.com/facebookresearch/fastText 链接]

'''- ELMo''': 基于双向语言模型（采用LSTM模型）学习contextualized word embedding，真正意义上实现了一词多表示。[https://allennlp.org/elmo 链接]

'''- BERT''': 基于双向语言模型（采用深层Transformer模型），将其隐层表示取出，可以得到更高效的contextualized embedding表示。[https://github.com/google-research/bert 链接]

除了和word2vec算法结合，也可以考虑把汉字拆分和这些算法结合。

==参考文献==
<references>
<ref name="Cao">Shaosheng Cao, Wei Lu, Jun Zhou and Xiaolong Li, cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information, In Proceedings of AAAI 2018, http://www.statnlp.org/wp-content/uploads/papers/2018/cw2vec/cw2vec.pdf </ref>
<ref name="jaylin008">jaylin008, word2vec与cw2vec的数学原理, https://www.jianshu.com/p/f258d0c5c317 </ref>
<ref name="word2vec">T Mikolov, K Chen, G Corrado, J Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781. </ref>
<ref name="word2vec2">T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean, Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems, 3111-3119. </ref>
<ref name="components">Jinxing Yu, Xun Jian, Hao Xin, Yangqiu Song, Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components. EMNLP. http://www.aclweb.org/anthology/D17-1027</ref>
<ref name="characters">Xinxiong Chen, Lei Xu, Zhiyuan Liu, Maosong Sun, Huanbo Luan, Joint Learning of Character and Word Embeddings. IJCAI. </ref>
<ref name="subword1">Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov, Enriching Word Vectors with Subword Information. </ref>
<ref name="subword2">Bojanowski, Piotr, et al. Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics 5 (2017): 135-146. http://aclweb.org/anthology/Q17-1010</ref>
<ref name="glyph">Su, Tzu-ray, and Hung-yi Lee. Learning Chinese Word Representations From Glyphs Of Characters. In Proceedings of EMNLP 2017. https://www.aclweb.org/anthology/D17-1025</ref>
<ref name="WordSeg">Meng, Yuxian et al. Is Word Segmentation Necessary for Deep Learning of Chinese Representations?, to appear on ACL 2019. </ref>

</references>

分类:汉字结构地图和汉语字词的矢量表示

2019-03-27T07:26:51Z

Irishere：/* 扩展研究 */

[[分类:机器学习]]
[[分类:吴金闪]]
[[分类:汉字网络]]
[[分类:语言研究]]
[[分类:系统科学和网络科学]]

==背景==
把语言的词汇表示成为意义上有联系的矢量形式，而不是简单的one-hot矢量（一个词代表空间的一个维度）。是大量后续自然语言处理的基础，无论从概念上还是从矢量空间的维数这个技术难度上。

Word2vec算法[https://en.wikipedia.org/wiki/Word2vec word2vec]<ref name="word2vec"/><ref name="word2vec2"/>，基于一个字上下文经常在一起出现的其他字的频率，可以用来发现词之间的语义联系，并用于解决自然语言处理的问题。在语音语言上，词的内部结构通常没有丰富的意义，基本上就是表示一个读音。但是，汉字是特殊的，其内部结构很多时候表示了含义上的联系。例如，妈、妹、姐、姑、奶都有“女”字旁，而且它们这几个字确实和“女”有联系。这个工作<ref name="Cao"/>的研究者就注意到了这个联系，从而把汉字打开用更加基本的结构笔画来发现汉字的含以上的联系。

在英语词汇的适量表示上，也有类似的拆分或者说直接粗暴的以n-gram(subword)为表示对象的word2vec研究<ref name="subword1"/><ref name="subword2"/>。

这是这个工作的简短介绍<ref name="jaylin008"/>。实际上，这个工作在上面的思想上，走的更粗暴和极端——直接用笔画（被作者分成了五种）的n-gram来代表汉字——然后训练这些n-gram的矢量表示。当然，这个时候，真实的汉字的表示也就训练出来了——毕竟真实汉字不过就是这些笔画n-grams里面的一个。

此外，也有工作将汉字字形以图像形式编码，利用cnn卷积神经网络编码汉字图形特征，以之辅助词向量训练<ref name="glyph"/>。

==进一步研究==
进一步，自然可以来看，如果我们不按照笔画，而是按照我们已经建成的[[:分类:汉字网络|汉字网络]]的拆分方式——把一个字拆分成为直接联系的下一层结构——来训练，效果会怎样？

例如，首先，我们把原始的文本做一次转化，转化成每一个汉字都是下一级的子结构，例如照->火昭，但不是照->火口日刀，当然如果出现昭则做昭->日昭的替换。接着，在替换完成的文本上做以字为单位（或者以n-gram为单位）的word2vec完成矢量化。如果是以字为单位的，则文本中出现过的处于结构上最高层的字没有矢量表示（已经被拆掉了，在替换之后的文本中没有了），因此，还得想办法再一次得到这些最高层字的矢量（例如和para2vec一样保留整个para，也就是上层字和拆分以后的字都放到语料里面）。这个可以用简单矢量加法得到，或者用再一次运行针对这些字（相当于替换后文本中的词）的局部的word2vec。具体可以参考<ref name="components"/><ref name="characters"/>.

另外，我们的拆分比纯粹笔画拆分强的地方在于保留含义（和读音）联系；我们的拆分比部首或者部件拆分强的地方在于我们是意义和字源性拆分，还有理据性分数（专家打分和word2vec相似性两种理据性）。有了理据性分数，可以考虑仅仅拆分一部分字。有了字源性拆分，可以拆分到实际有联系的部件字上面去。

==扩展研究==
在词语表示的研究上，word2vec模型之后，有几个较有代表性的工作：

'''- GloVe''': 利用词语共现矩阵学习词表示。[https://nlp.stanford.edu/projects/glove/ 链接]

'''- fasttext''': 以训练分类标签为目标，产生词向量的副产物，并集成了subword信息。[https://github.com/facebookresearch/fastText 链接]

'''- ELMo''': 基于双向语言模型（采用LSTM模型）学习contextualized word embedding，真正意义上实现了一词多表示。[https://allennlp.org/elmo 链接]

'''- BERT''': 基于双向语言模型（采用深层Transformer模型），将其隐层表示取出，可以得到更高效的contextualized embedding表示。[https://github.com/google-research/bert 链接]

==参考文献==
<references>
<ref name="Cao">Shaosheng Cao, Wei Lu, Jun Zhou and Xiaolong Li, cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information, In Proceedings of AAAI 2018, http://www.statnlp.org/wp-content/uploads/papers/2018/cw2vec/cw2vec.pdf </ref>
<ref name="jaylin008">jaylin008, word2vec与cw2vec的数学原理, https://www.jianshu.com/p/f258d0c5c317 </ref>
<ref name="word2vec">T Mikolov, K Chen, G Corrado, J Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781. </ref>
<ref name="word2vec2">T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean, Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems, 3111-3119. </ref>
<ref name="components">Jinxing Yu, Xun Jian, Hao Xin, Yangqiu Song, Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components. EMNLP. http://www.aclweb.org/anthology/D17-1027</ref>
<ref name="characters">Xinxiong Chen, Lei Xu, Zhiyuan Liu, Maosong Sun, Huanbo Luan, Joint Learning of Character and Word Embeddings. IJCAI. </ref>
<ref name="subword1">Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov, Enriching Word Vectors with Subword Information. </ref>
<ref name="subword2">Bojanowski, Piotr, et al. Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics 5 (2017): 135-146. http://aclweb.org/anthology/Q17-1010</ref>
<ref name="glyph">Su, Tzu-ray, and Hung-yi Lee. Learning Chinese Word Representations From Glyphs Of Characters. In Proceedings of EMNLP 2017. https://www.aclweb.org/anthology/D17-1025</ref>
</references>

分类:汉字结构地图和汉语字词的矢量表示

2019-03-27T07:26:19Z

Irishere：

[[分类:机器学习]]
[[分类:吴金闪]]
[[分类:汉字网络]]
[[分类:语言研究]]
[[分类:系统科学和网络科学]]

==背景==
把语言的词汇表示成为意义上有联系的矢量形式，而不是简单的one-hot矢量（一个词代表空间的一个维度）。是大量后续自然语言处理的基础，无论从概念上还是从矢量空间的维数这个技术难度上。

Word2vec算法[https://en.wikipedia.org/wiki/Word2vec word2vec]<ref name="word2vec"/><ref name="word2vec2"/>，基于一个字上下文经常在一起出现的其他字的频率，可以用来发现词之间的语义联系，并用于解决自然语言处理的问题。在语音语言上，词的内部结构通常没有丰富的意义，基本上就是表示一个读音。但是，汉字是特殊的，其内部结构很多时候表示了含义上的联系。例如，妈、妹、姐、姑、奶都有“女”字旁，而且它们这几个字确实和“女”有联系。这个工作<ref name="Cao"/>的研究者就注意到了这个联系，从而把汉字打开用更加基本的结构笔画来发现汉字的含以上的联系。

在英语词汇的适量表示上，也有类似的拆分或者说直接粗暴的以n-gram(subword)为表示对象的word2vec研究<ref name="subword1"/><ref name="subword2"/>。

这是这个工作的简短介绍<ref name="jaylin008"/>。实际上，这个工作在上面的思想上，走的更粗暴和极端——直接用笔画（被作者分成了五种）的n-gram来代表汉字——然后训练这些n-gram的矢量表示。当然，这个时候，真实的汉字的表示也就训练出来了——毕竟真实汉字不过就是这些笔画n-grams里面的一个。

此外，也有工作将汉字字形以图像形式编码，利用cnn卷积神经网络编码汉字图形特征，以之辅助词向量训练<ref name="glyph"/>。

==进一步研究==
进一步，自然可以来看，如果我们不按照笔画，而是按照我们已经建成的[[:分类:汉字网络|汉字网络]]的拆分方式——把一个字拆分成为直接联系的下一层结构——来训练，效果会怎样？

例如，首先，我们把原始的文本做一次转化，转化成每一个汉字都是下一级的子结构，例如照->火昭，但不是照->火口日刀，当然如果出现昭则做昭->日昭的替换。接着，在替换完成的文本上做以字为单位（或者以n-gram为单位）的word2vec完成矢量化。如果是以字为单位的，则文本中出现过的处于结构上最高层的字没有矢量表示（已经被拆掉了，在替换之后的文本中没有了），因此，还得想办法再一次得到这些最高层字的矢量（例如和para2vec一样保留整个para，也就是上层字和拆分以后的字都放到语料里面）。这个可以用简单矢量加法得到，或者用再一次运行针对这些字（相当于替换后文本中的词）的局部的word2vec。具体可以参考<ref name="components"/><ref name="characters"/>.

另外，我们的拆分比纯粹笔画拆分强的地方在于保留含义（和读音）联系；我们的拆分比部首或者部件拆分强的地方在于我们是意义和字源性拆分，还有理据性分数（专家打分和word2vec相似性两种理据性）。有了理据性分数，可以考虑仅仅拆分一部分字。有了字源性拆分，可以拆分到实际有联系的部件字上面去。

==扩展研究==
在词语表示的研究上，word2vec模型之后，有几个较有代表性的工作：
- GloVe: 利用词语共现矩阵学习词表示。[https://nlp.stanford.edu/projects/glove/ 链接]
- fasttext: 以训练分类标签为目标，产生词向量的副产物，并集成了subword信息。[https://github.com/facebookresearch/fastText 链接]
- ELMo: 基于双向语言模型（采用LSTM模型）学习contextualized word embedding，真正意义上实现了一词多表示。[https://allennlp.org/elmo 链接]
- BERT: 基于双向语言模型（采用深层Transformer模型），将其隐层表示取出，可以得到更高效的contextualized embedding表示。[https://github.com/google-research/bert 链接]

==参考文献==
<references>
<ref name="Cao">Shaosheng Cao, Wei Lu, Jun Zhou and Xiaolong Li, cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information, In Proceedings of AAAI 2018, http://www.statnlp.org/wp-content/uploads/papers/2018/cw2vec/cw2vec.pdf </ref>
<ref name="jaylin008">jaylin008, word2vec与cw2vec的数学原理, https://www.jianshu.com/p/f258d0c5c317 </ref>
<ref name="word2vec">T Mikolov, K Chen, G Corrado, J Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781. </ref>
<ref name="word2vec2">T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean, Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems, 3111-3119. </ref>
<ref name="components">Jinxing Yu, Xun Jian, Hao Xin, Yangqiu Song, Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components. EMNLP. http://www.aclweb.org/anthology/D17-1027</ref>
<ref name="characters">Xinxiong Chen, Lei Xu, Zhiyuan Liu, Maosong Sun, Huanbo Luan, Joint Learning of Character and Word Embeddings. IJCAI. </ref>
<ref name="subword1">Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov, Enriching Word Vectors with Subword Information. </ref>
<ref name="subword2">Bojanowski, Piotr, et al. Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics 5 (2017): 135-146. http://aclweb.org/anthology/Q17-1010</ref>
<ref name="glyph">Su, Tzu-ray, and Hung-yi Lee. Learning Chinese Word Representations From Glyphs Of Characters. In Proceedings of EMNLP 2017. https://www.aclweb.org/anthology/D17-1025</ref>
</references>

分类:机器学习尤其是自然语言处理学习材料

2019-03-23T13:05:40Z

Irishere：/* 书 */

[[分类:机器学习]]
[[分类:语言研究]]

这里整理了机器学习，尤其是其中的自然语言处理，的学习材料。

==课程==
# Chris Manning和Richard Socher的《Natural Language Processing with Deep Learning》课程，Stanford CS224N，http://onlinehub.stanford.edu/cs224
# YSDA Natural Language Processing course, 视频、作业程序 https://github.com/yandexdataschool/nlp_course
# Andrew Ng和Kian Katanforoosh的《Deep Learning》课程，Stanford CS230， http://onlinehub.stanford.edu/cs230
# Andrew Ng的系列课程，https://study.163.com/my#/smarts

==书==
# Ian Goodfellow and Yoshua Bengio and Aaron Courville 的《Deep Learning》教材, http://www.deeplearningbook.org，　中文版: https://github.com/exacity/deeplearningbook-chinese
# Yoav Goldberg 《Neural Network Methods for Natural Language Processing》教材, [https://github.com/shucunt/book/blob/master/2017%20-%20Neural%20Network%20Methods%20for%20Natural%20Language%20Processing.pdf 链接]
# Dan Jurafsky and James H. Martin 《Speech and Language Processing》 (3rd ed.) 教材, [https://web.stanford.edu/~jurafsky/slp3/ 链接]

==原始论文==
# T Mikolov, K Chen, G Corrado, J Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781.
# T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean, Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems, 3111-3119.

==科普和讲解==
# 吴军　《数学之美》
# 刘知远　《大数据智能》
# jaylin008, word2vec与cw2vec的数学原理, https://www.jianshu.com/p/f258d0c5c317

==平台和素材==
# 平台：http://hpc.systemsci.org （需要hpc.systemsci.org的linux用户账号，不对公众开放，仅供研究团队内部使用）
# 平台搭建：anaconda和jupyter　(https://www.anaconda.com/) , pytorch（https://pytorch.org/tutorials/）
# 素材：

分类:机器学习尤其是自然语言处理学习材料

2019-03-23T13:01:20Z

Irishere：/* 书 */

[[分类:机器学习]]
[[分类:语言研究]]

这里整理了机器学习，尤其是其中的自然语言处理，的学习材料。

==课程==
# Chris Manning和Richard Socher的《Natural Language Processing with Deep Learning》课程，Stanford CS224N，http://onlinehub.stanford.edu/cs224
# YSDA Natural Language Processing course, 视频、作业程序 https://github.com/yandexdataschool/nlp_course
# Andrew Ng和Kian Katanforoosh的《Deep Learning》课程，Stanford CS230， http://onlinehub.stanford.edu/cs230
# Andrew Ng的系列课程，https://study.163.com/my#/smarts

==书==
# Ian Goodfellow and Yoshua Bengio and Aaron Courville 的《Deep Learning》教材, http://www.deeplearningbook.org，　中文版: https://github.com/exacity/deeplearningbook-chinese
# Yoav Goldberg 的《Neural Network Methods for Natural Language Processing》教材, [https://github.com/shucunt/book/blob/master/2017%20-%20Neural%20Network%20Methods%20for%20Natural%20Language%20Processing.pdf 链接]

==原始论文==
# T Mikolov, K Chen, G Corrado, J Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781.
# T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean, Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems, 3111-3119.

==科普和讲解==
# 吴军　《数学之美》
# 刘知远　《大数据智能》
# jaylin008, word2vec与cw2vec的数学原理, https://www.jianshu.com/p/f258d0c5c317

==平台和素材==
# 平台：http://hpc.systemsci.org （需要hpc.systemsci.org的linux用户账号，不对公众开放，仅供研究团队内部使用）
# 平台搭建：anaconda和jupyter　(https://www.anaconda.com/) , pytorch（https://pytorch.org/tutorials/）
# 素材：

分类:汉字结构地图和汉语字词的矢量表示

2019-03-16T05:24:17Z

Irishere：/* 背景 */

分类:汉字结构地图和汉语字词的矢量表示

2019-03-16T05:23:59Z

Irishere：/* 背景 */

分类:汉字结构地图和汉语字词的矢量表示

2019-03-16T05:22:39Z

Irishere：/* 背景 */

分类:汉字结构地图和汉语字词的矢量表示

2019-03-16T05:22:14Z

Irishere：/* 背景 */

分类:汉字结构地图和汉语字词的矢量表示

2019-03-16T05:21:55Z

Irishere：/* 参考文献 */

分类:汉字结构地图和汉语字词的矢量表示

2019-03-16T05:20:56Z

Irishere：/* 参考文献 */

分类:汉字结构地图和汉语字词的矢量表示

2019-03-16T05:19:13Z

Irishere：/* 参考文献 */

分类:汉字结构地图和汉语字词的矢量表示

2019-03-16T05:18:45Z

Irishere：/* 参考文献 */

分类:汉字结构地图和汉语字词的矢量表示

2019-03-16T05:18:17Z

Irishere：/* 参考文献 */