分类:Cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information
Zeng, R., & Greenfield, P. M. ( 2015). Cultural evolution over the last 40 years in China: Using the Google Ngram Viewer to study implications of social and political change for cultural values. International Journal of Psychology, 50, 47– 55.
Abstract
Chinese people have held collectivistic values such as obligation, giving to other people, obedience and sacrifice of personal interests for thousands of years. In recent decades, China has undergone rapid economic development and urbanisation. This study investigates changing cultural values in China from 1970 to 2008 and the relationship of changing values to ecological shifts. The conceptual framework for the study was Greenfield's (2009) theory of social change and human development. Changing frequencies of contrasting Chinese words indexing individualistic or collectivistic values show that values shift along with ecological changes (urbanisation, economic development and enrollment in higher education), thereby adapting to current sociodemographic contexts. Words indexing adaptive individualistic values increased in frequency between 1970 and 2008. In contrast, words indexing less adaptive collectivistic values either decreased in frequency in this same period of time or else rose more slowly than words indexing contrasting individualistic values.
总结和评论
这篇文章选择了16个词(选择、竞争、义务、分配、获取、私家、付出、公家、自主、天赋、服从、刻苦、创新、公平、帮助、牺牲),从google ngram viewer得到这16个词的使用频率时间序列,进一步计算这些时间序列和经济指标的相关性,从而得到中国文化从“集体主义”到“个人主义”的转变。
进一步研究
进一步,自然可以来看,如果我们不按照笔画,而是按照我们已经建成的汉字网络的拆分方式——把一个字拆分成为直接联系的下一层结构——来训练,效果会怎样?
例如,首先,我们把原始的文本做一次转化,转化成每一个汉字都是下一级的子结构,例如照->火昭,但不是照->火口日刀,当然如果出现昭则做昭->日昭的替换。接着,在替换完成的文本上做以字为单位(或者以n-gram为单位)的word2vec完成矢量化。如果是以字为单位的,则文本中出现过的处于结构上最高层的字没有矢量表示(已经被拆掉了,在替换之后的文本中没有了),因此,还得想办法再一次得到这些最高层字的矢量。这个可以用简单矢量加法得到,或者用再一次运行针对这些字(相当于替换后文本中的词)的局部的word2vec。具体可以参考[1][2].
参考文献
引用错误:在<references>中以“Cao”名字定义的<ref>标签没有在先前的文字中使用。
引用错误:在<references>中以“jaylin008”名字定义的<ref>标签没有在先前的文字中使用。
引用错误:在<references>中以“word2vec”名字定义的<ref>标签没有在先前的文字中使用。
引用错误:在<references>中以“word2vec2”名字定义的<ref>标签没有在先前的文字中使用。
本分类目前不含有任何页面或媒体文件。