分类:聚类和控制词汇标注的比较

来自Big Physics


一方面,通过考虑引文网络和语义,可以对论文做聚类。一方面,有学科学会已经建立了控制词汇系统并对论文做了标注。我们想看看,第一,能不能把控制词汇标注扩散到没有标注的论文上去;第二,聚类结果和控制词汇标注的比较。

针对第一个问题,可以考虑用pLSA的思想,把[math]\displaystyle{ P\left(w|t\right) }[/math][math]\displaystyle{ P\left(t|d\right) }[/math]做一个迭代计算。其中[math]\displaystyle{ P\left(w|t\right) }[/math]的起点可以从已经建立的控制词汇标注体系统计得来。

针对第二个问题,首先,需要在某个层级上匹配好两套分类体系的类,计算出来这些分类体系的区别;接着,需要用某种指标来衡量哪一个聚类更好。例如,考虑Boyack等人提出的综述文献的参考文献的多样性——越多样聚类越差。

本分类目前不含有任何页面或媒体文件。