分类:矢量表示用于识别概念演化并用于计算历史学研究

来自Big Physics


研究背景

按照钱穆的说法,历史就是用搞得比较清楚可靠的历史素材来搞清楚历史上发生了什么从而来回答现代社会的问题。语言材料是很好的历史材料,而且是相对比较可靠和容易获得的历史材料。

概念需要通过语言来表达。概念的含义和语言形式可能是演化的。例如,同样的专有名词可能在不同的时期以及语言环境中表示不同的含义(例如不同文化和历史下对于科学的理解是不一样的),不同的专有名词可能表示相同的含义(例如,Newton's Second Law和Newton's Equation可能表示同样的东西)。

研究不同时期语言形式的演化已经可以揭示一些历史文化社会的问题。例如基于Google Ngram Viewer[1][2]的计算历史学研究就是如此[3] [4] [5] [6] [7]

Google Ngram Viewer提供的信息主要就是每一年在全世界的书里面,某个ngram出现的次数。实际上,这些ngram是否表达了相同的含义,不同的ngram之间表达的含义的联系,都没有考虑。当然,Google Ngram Viewer本身收集的材料中科技材料就偏多[8]。 最近出现了一个综合了多个语料来源的提供同样数据的平台History Playground[9]。不过,这个平台目前还不太完善。

现在,有了word2vec之后,实际上,相当于我们在ngram的基础上增加了相似性的维度:同样的ngram在含以上的区分,以及不同的ngram在含义上的联系。这样从目标词汇ngram开始,我们可以把这个词汇的不同含义区分来开做统计分析(这个由于没有google ngram的原文在google ngram上做不了。只能在自己的数据上做)。我们还可以把和目标词汇相似的词找出来合并起来做统计。甚至,我们还可以从目标词汇开始寻找紧密相关的其他词汇纳入统计分析。

那么,是不是结合这个新的维度的信息,我们可以做更有意思的研究呢?

研究问题举例

例如,我们可以通过选择中文“科学、数学、学科、权威、逻辑、可检验、可证伪、批判性思维、公理化”等词汇来看一看在不同的时期这些词汇本身的含义的演化,以及在不同的时期,哪些其他词汇和这些词汇最接近。通过这样的探索,我们有可能可以一定程度上度量历史上和当前的中国人的科学素养。例如,没准,我们还可以发现我们独特的“天人合一”、“易经”、“中医”等词汇和这些目标词汇的联系。如果我们能够做一个其他语言的对比研究,比如英语和日语,我们很有可能可以更加清楚地了解当前的科学素养,以及为什么当前的科学素养是这样的一个情况,甚至回答如何提高当前的科学素养的问题。

当然,其实从科学本身发展的角度来说,能够看一下前科学和科学的词汇之间的联系,也很有意思。例如炼金术和化学、算命(中国算命以及星座算命)和天文学之类的。

更一般地来说,我们也可以选择“女性、男性”为基本研究词汇,来看一看它们的含义的演化,以及和它们最紧密联系在一起的词汇的演化,甚至同样做一个不同语言不同国家地区的对比。实际上,这个研究已经有人做[10]。其中讨论了和女性和女性职业有关的词汇的历史演化,并且做了亚洲和西方国家的对比。

其他待研究的问题

分析方法

选择合适的词汇(和主要关心的问题),找出来在某地区某时间段的语料中和这些词汇最接近的其他词汇以及它们的出现频率和矢量表示。注意,这些矢量表示需要考虑到含义的归并(不同的词表示相同的意思)以及分化(相同的词表示不同的意思)的矢量表示。然后,做统计分析,做观察,回答主要关心的问题。

参考文献

  1. Jean-Baptiste Michel, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, Erez Lieberman Aiden, Quantitative Analysis of Culture Using Millions of Digitized Books, Science, 331(6014), 176-182(2011), DOI: 10.1126/science.1199644
  2. Steven Cherry The Cultural Treasures in Google Ngram:A database of words yields new findings for historians, linguists, and psychologists, https://spectrum.ieee.org/podcast/geek-life/profiles/the-cultural-treasures-in-google-ngram
  3. Chris Gratien and Daniel Pontillo, “Google Ngram: an Introduction for Historians,” HAZİNE, 11 January 2014, http://hazine.info/2014/01/11/google-ngram-for-historians/
  4. ELIZABETH WEINGARTEN, The Language Time Machine: Google’s Ngram Viewer gave us a new way to explore history, but has it led to any real discoveries? https://slate.com/technology/2013/09/google-ngram-viewer-a-language-time-machine.html
  5. Shai Ophir, Big data for the humanities using Google Ngrams: Discovering hidden patterns of conceptual trends. First Monday, Volume 21, Number 7 - 4 July 2016, https://firstmonday.org/ojs/index.php/fm/article/view/5567/5535, doi: http://dx.doi.org/10.5210/fm.v21i7.5567
  6. Mason SE, Kuntz CV, Mcgill CM, Oldsters and Ngrams: age stereotypes across time, Psychol Rep. 2015 Feb;116(1):324-9. doi: 10.2466/17.10.PR0.116k17w6.
  7. Zeng, R. and Greenfield, P. M. (2015), Cultural evolution over the last 40 years in China: Using the Google Ngram Viewer to study implications of social and political change for cultural values. Int J Psychol, 50: 47-55. doi:10.1002/ijop.12125
  8. Pechenick EA, Danforth CM, Dodds PS (2015) Characterizing the Google Books Corpus: Strong Limits to Inferences of Socio-Cultural and Linguistic Evolution. PLoS ONE 10(10): e0137041. https://doi.org/10.1371/journal.pone.0137041
  9. Thomas Lansdall-Welfare Nello Cristianini, History playground: A tool for discovering temporal trends in massive textual corpora, Digital Scholarship in the Humanities, fqy077, https://doi.org/10.1093/llc/fqy077
  10. Nikhil Garg, Londa Schiebinger, Dan Jurafsky, and James Zou, Word embeddings quantify 100 years of gender and ethnic stereotypes, PNAS April 17, 2018 115 (16) E3635-E3644; https://doi.org/10.1073/pnas.1720347115