分类:英文单词网络

来自Big Physics
Jinshanw讨论 | 贡献2021年11月14日 (日) 19:27的版本
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)

写下来每一个英文和其他英文或者其他语言词汇的关系,强调字源上的联系,可以帮助英文单词学习促进对英文单词的理解的联系。或者说,我们所构建的是一个有字源基础的用于教和学的英文单词字形拆分网络

一方面,这个概念网络可以用于英文单词的教和学,用于学习顺序的计算和英文单词诊断性检测。另一方面,这个概念网络也可以用于教和学的研究,例如对比理解型学习和机械式学习的效果和脑活动。

这部分数据主要来自于Google 检索 "单词 Etymology"(其本身综合了多种资源,主要基于Oxford English Dictionary,The Oxford Dictionary of English Etymology), Wiktionary "单词" 词条, Online Etymology Dictionary https://www.etymonline.com "单词" 词条。注意这些数据之间有大量的重复性,另外,用google搜索,通常可以在第一页上同时看到来自于这几个资源的字源解释。

根据英文单词使用频率分布函数——按照使用频率从高到低的顺序,1000词占[math]\displaystyle{ 85\% }[/math],2000词占[math]\displaystyle{ 90\% }[/math],10000词占[math]\displaystyle{ 97\% }[/math],20000词占[math]\displaystyle{ 99\% }[/math],目前计划先解决20000单词的拆分和解释。

工作流程

  1. 数据准备:目前,google etymology数据正在下载至本地,wiktionary数据已经下载至本地,etymonline数据已经联系上作者可以提供本地本版也可以提供API。
  2. 做一个本地编辑环境:可以把这三项数据灌入wiki,然后修改,也可以编写一个程序把这三项数据同时呈现给编辑,由编辑确定最后的内容选择。
  3. 选择内容:编辑按照“有利于英文单词的理解型学习”的原则,选择呈现每个词的合适的中英文两个版本(中文版可以先不做,但是,其实单独处理英文版,也需要搞懂每一个字,因此,一起搞整体来说,成本更低)的含义、理据拆分和理据解释
    1. “有利于英文单词的理解型学习”的原则:把单词的联系搞清楚之后,可以更清楚地明白单词的含义和读音,因此帮助学习者建立起来字形、读音和含义三者之间的联系。下图就是这样的一个子系统的例子。
    2. 一个反面的例子是纯字源的不考虑学习的,例如从heah+weg=heahweg->highway来解释highway。这样的解释,尽管从字源上说可能是正确的,对于学习来说,远远赶不上high+way=highway的作用。因此,我们这里保留后者。只有当例如前者拆分出来的heah在很多其他单词中也表示high的含义,但是字形上却不是high而是更接近heah的时候,我们才会保留前者的拆分。同时,我们用“is originated from/refers to”等来把表示,也就是high is originated from heah。
    3. 具体每个字的含义、理据拆分和理据解释,见hijack等。
  4. 交叉审阅:多个编辑之间交叉审阅。

数据获取、内容选择、网络构建工作完成之后,做学习顺序和检测算法的计算分析和实验。

凡例

  1. 拆分关系,用“is composed of”(“拆分为”)。
  2. 简写(保留一部分),用“is simplified from”(“简写自”)。
  3. 字源演化关系,用“is originated from”(“来源于”)。
  4. 指代关系,用“means here as”(“在这里意思为”),或者“refers to”(“指的是”)。
  5. 单复数关系,用"is the plural of"(“复数形式为”),而且仅标注非标准复数形式。遇到就标注下来,否则,等着批量处理就可以。
  6. 动词形态,“is the ... form of”其中可以填入original, simple, past, present, perfect。相应的中文为“...为”,其中可以填入动词原形、动词第三人称单数、动词过去式、动词ing、动词过去分词。同样仅仅标注非标准形式。遇到就标注下来,否则,等着批量处理就可以。

子分类

本分类有以下7个子分类,共有7个子分类。

A

H

I

J