分类:汉字网络和汉字的理解型学习

来自Big Physics
Jinshanw讨论 | 贡献2019年2月24日 (日) 13:09的版本


问题背景

汉字之间是相互联系的。汉字可以一个个字单独地学习,也可以想办法运用汉字的联系来学习。例如,学习“林”的时候,如果已经学习过“木”,则可以通过“林就是很多树木长在一起形成的”来学习“林”。例如,“涉”就是通过“徒步(脚趾头,止)”跨越“河流,三点水”的意思。那么,是不是大多数汉字都可以这样来学习呢?是不是这样的学习确实会提高学习效率呢?

我们汉字学习的研究工作[1] 就企图回答这几个问题。

汉字网络

首先,我们把每一个汉字根据其组成部分做一个直接的有意义的拆分。有意义的含义指的是读音上或者含以上,上层字和下层字之间能够建立联系。直接的意思就是,如果拆出来的下层字还可以再一次拆分,我们放在下一层来考虑它,在这一层把能够继续拆分的下层字当做一个整体来看。例如,

Learncost.png

通过这样的拆分,我们得到3500常用汉字的地图,

Fullmap.png,如果你愿意还可以下载pdf格式的汉字地图文件:FullmapBig.pdf

有了地图能够做什么?

地图实际上代表的是汉字和汉字之间的投入产出关系,把自己的形状含义和读音投入到更复杂的字之中去称为更复杂的字的形状含义和读音的一部分。

有了这个投入产出关系,汉字在语料库中的使用频率就是这个汉字的外生影响力。把这个影响力在汉字地图中——沿着汉字构成关系反向——做传播,就得到了汉字的综合影响力。一个复杂的汉字的使用频率的一部分可以传递到它的组成部分,也就是更简单的字上面,这样下面的汉字就会变得更重要。甚至当其自身的使用频率都不大的时候,这个传播得到的影响力,很可能也会比较大。同时,如果一个简单字参与了多个复杂字的构造,则每一个这样的复杂字都会把使用频率的一部分传到这个简单字上。这样这个简单字也会变成需要优先学习的字。并且,这个外生影响力,可以按照学习目的来概念,例如,针对儿童的语料来统计儿童使用汉字的频率,针对医学学科的汉字使用频率等等。

有了这个地图,我们还可以来研究汉字检测的问题。如果一个被试不认识“木”我们可以很大可能推断其不认识“林”,或者反过来认识“林”则推断很大的可能认识“木”。这样就可以通过自适应地检测少数的汉字来诊断被试对所有汉字的认识与否。

更多信息,请参阅[1]

汉字拆分资源

www.learnm.org

http://qxk.bnu.edu.cn/gjqxknew/jump/index

字频统计资源

按照汉语母语儿童口语、汉语母语儿童书面语(或者口语和书面语合起来)、汉语母语口语、汉语母语平衡语料;国外汉语学习者当地儿童口语、国外汉语学习者当地儿童书面语;国外汉语学习者当地口语、国外汉语学习者当地平衡语料,等不同方式来做字频统计。然后,在初学汉语的阶段依靠口语(对于儿童则采用儿童口语)的字频统计,在后续学习阶段采用平衡语料库的字频统计的方式来决定汉字学习顺序。

https://www.corpus4u.org/

现代汉语语料库 (通过检索可以得到每个字的频率) http://corpus.zhonghuayuwen.org/

Combined character frequency list of Classical and Modern Chinese 汉字单字字频总表 http://lingua.mtsu.edu/chinese-computing/statistics/char/list.php?Which=TO

Academia Sinica Balanced Corpus of Modern Chinese http://www.sinica.edu.tw/SinicaCorpus/

Peking University Modern Chinese Corpus http://ccl.pku.edu.cn/ccl_corpus/xiandaihanyu/

Xiamen University corpora (registration required but free) http://www.luweixmu.cn/home/html/Corpora/

Beijing Language and Culture University corpus http://202.112.195.8

Lancaster Corpus of Mandarin Chinese http://bowland-files.lancs.ac.uk/corplang/cgi-bin/conc.pl

Leeds Chinese corpus http://corpus.leeds.ac.uk/query-zh.html

PFR People's Daily corpus (01/1998) http://bowland-files.lancs.ac.uk/corplang/pdcorpus/pdcorpus.htm

PH corpus (Xinhua newswire data 1990-1991) http://bowland-files.lancs.ac.uk/corplang/phcorpus/phcorpus.htm

People's Daily 2000 corpus http://bowland-files.lancs.ac.uk/corplang/pdc2000/default.htm

Peking University Ancient Chinese Corpus http://ccl.pku.edu.cn/ccl_corpus/jsearch/index.jsp?dir=gudai

Sinica corpus of early Chinese http://www.sinica.edu.tw/Early_Mandarin/

Sheffield Corpus of Chinese for Diachronic Linguistic Study http://www.shef.ac.uk/scc/

参考文献

  1. 1.0 1.1 Xiaoyong yan, Ying Fan, Zengru Di, Shlomo Havlin, Jinshan Wu, Efficient learning strategy of Chinese characters based on network approach, PloS ONE, 8, e69745 (2013) DOI: 10.1371/journal.pone.0069745.

本分类目前不含有任何页面或媒体文件。