Big Physics - 用户贡献 [zh-cn]

分类:工作进展之焦奕霖

2023-06-01T07:26:35Z

Jyl：/* 核心工作：学术文献概念地图生成 */

[[分类:工作进展板]]

==核心工作：学术文献概念地图生成==
----
工作进展：
文本的概念与关系抽取: 目前已初步完成了管道式的关系抽取的模型。并将自己的初步结果与参考的模型的结果进行了对比，性能确实有所提升。目前这个工作还需要做的事如下：
# 再找一些近期的、性能较好的三元组提取模型进行结果对比
# 在其他数据集上再模型性能的进行比较
# 模型各个机制的消融分析
# 以上结果都有之后进行论文书写

分类:Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy

2023-03-25T11:29:31Z

Jyl：建立内容为“Category:文献讨论分类:AllenAI系列科学学文章分类:概念抽取和概念关系挖掘 Bowen Yu and Zhenyu Zhang and Xiaobo Shu and Tingw…”的新页面

[[Category:文献讨论]]
[[分类:AllenAI系列科学学文章]]
[[分类:概念抽取和概念关系挖掘]]

Bowen Yu and Zhenyu Zhang and Xiaobo Shu and Tingwen Liu Yubin Wang and Bin Wang and Sujian L. ECAI2020

== Abstract ==
Joint extraction of entities and relations aims to detect entity pairs along with their relations using a single model. Prior
work typically solves this task in the extract-then-classify or unified labeling manner. However, these methods either suffer from the re-
dundant entity pairs, or ignore the important inner structure in the process of extracting entities and relations. To address these limita-
tions, in this paper, we first decompose the joint extraction task into two interrelated subtasks, namely HE extraction and TER extraction.
The former subtask is to distinguish all head-entities that may be involved with target relations, and the latter is to identify correspond-
ing tail-entities and relations for each extracted head-entity. Next, these two subtasks are further deconstructed into several sequence la-
beling problems based on our proposed span-based tagging scheme, which are conveniently solved by a hierarchical boundary tagger and a multi-span decoding algorithm. Owing to the reasonable decomposition strategy, our model can fully capture the semantic interdependency between different steps, as well as reduce noise from irrelevant entity pairs. Experimental results show that our method outperforms
previous work by 5.2%, 5.9% and 21.5% (F1 score), achieving a new state-of-the-art on three public datasets.

== 总结和评论 ==
* 本文的将三元组提取分成了两步：第一步是确定头实体，第二步是确定尾实体和他们的关系。而在确定实体时，用两个序列：头序列和尾序列来确定实体位置——即判断每个词是否可能是实体头或实体尾。最后提取关系时利用确定的头实体和尾实体以及全局信息来进行。
* 整个文章的缺点比较明显：过于依赖头实体的结果。
* 本文是我看到的第一个使用这种先确定头实体，再确定尾实体和关系思路的文章，在这个文章基础上后续有很多工作对其进行了改进。

论文地址：https://ecai2020.eu/papers/615_paper.pdf

== 概念地图 ==

分类:Span-based Joint Entity and Relation Extraction withTransformer Pre-training

2023-03-25T11:10:39Z

Jyl：

[[Category:文献讨论]]
[[分类:AllenAI系列科学学文章]]
[[分类:概念抽取和概念关系挖掘]]

Markus Eberts and Adrian Ulges. ECAI 2020

== Abstract ==
We introduce SpERT, an attention model for span-based joint entity and relation extraction. Our key contribution is a light-
weight reasoning on BERT embeddings, which features entity recognition and filtering, as well as relation classification with a localized,
marker-free context representation. The model is trained using strong within-sentence negative samples, which are efficiently extracted in
a single BERT pass. These aspects facilitate a search over all spans in the sentence. In ablation studies, we demonstrate the benefits of pre-training, strong negative sampling and localized context. Our model outperforms prior work by up to 2.6% F1 score on several datasets for joint entity and relation extraction

== 研究问题 ==
关系提取和实体识别得联合模型

== 研究方法 ==
# 数据集：SciERC、ADE、CoNLL04
# 模型结构：
* NER：与传统的NER模型不同，本文利用最大池化得方式构建句中所有可能的span的嵌入，并对所有span进行识别。
* RE：将实体对儿中间的文本作为上下文嵌入，与实体信息concat到一起，来进行关系判断。

== 总结和评论 ==
span的方式可以有效解决实体重叠问题，可以参考；关系判断部分比较简单，文章中对判断关系的实体对还增加了约束：实体对之间需要有其他文本，不然就没有上下文信息。不过对所有span都进行关系判断会不会影响模型性能我个人持怀疑态度。

论文地址：https://ecai2020.eu/papers/1283_paper.pdf

代码地址：https://github.com/markus-eberts/spert

== 概念地图 ==

分类:Span-based Joint Entity and Relation Extraction withTransformer Pre-training

2023-03-25T11:09:51Z

Jyl：建立内容为“Category:文献讨论分类:AllenAI系列科学学文章分类:概念抽取和概念关系挖掘 Markus Eberts and Adrian Ulges. ECAI 2020 == Abst…”的新页面

[[Category:文献讨论]]
[[分类:AllenAI系列科学学文章]]
[[分类:概念抽取和概念关系挖掘]]

Markus Eberts and Adrian Ulges. ECAI 2020

== Abstract ==
We introduce SpERT, an attention model for span-based joint entity and relation extraction. Our key contribution is a light-
weight reasoning on BERT embeddings, which features entity recognition and filtering, as well as relation classification with a localized,
marker-free context representation. The model is trained using strong within-sentence negative samples, which are efficiently extracted in
a single BERT pass. These aspects facilitate a search over all spans in the sentence. In ablation studies, we demonstrate the benefits of pre-training, strong negative sampling and localized context. Our model outperforms prior work by up to 2.6% F1 score on several datasets for joint entity and relation extraction

== 研究问题 ==
# 关系提取和实体识别得联合模型

== 研究方法 ==
# 数据集：SciERC、ADE、CoNLL04
# 模型结构：
## NER：与传统的NER模型不同，本文利用最大池化得方式构建句中所有可能的span的嵌入，并对所有span进行识别。
## RE：将实体对儿中间的文本作为上下文嵌入，与实体信息concat到一起，来进行关系判断。

== 总结和评论 ==
span的方式可以有效解决实体重叠问题，可以参考；关系判断部分比较简单，文章中对判断关系的实体对还增加了约束：实体对之间需要有其他文本，不然就没有上下文信息。不过对所有span都进行关系判断会不会影响模型性能我个人持怀疑态度。

论文地址：https://ecai2020.eu/papers/1283_paper.pdf

代码地址：https://github.com/markus-eberts/spert

== 概念地图 ==

分类:Hybrid neural tagging model for open relation extraction

2023-03-24T08:51:56Z

Jyl：建立内容为“Category:文献讨论分类:AllenAI系列科学学文章分类:概念抽取和概念关系挖掘 Jia S , Shijia E , Ding L , et al. Hybrid neural…”的新页面

[[Category:文献讨论]]
[[分类:AllenAI系列科学学文章]]
[[分类:概念抽取和概念关系挖掘]]

Jia S , Shijia E , Ding L , et al. Hybrid neural tagging model for open relation extraction. Expert Systems with Applications, 2022

== Abstract ==
Open Relation Extraction (ORE) task remains a challenge to obtain a semantic representation by discovering arbitrary relations from the unstructured text. Conventional methods heavily depend on feature engineering or syntactic parsing, which are inefficient or error-cascading. Recently, leveraging supervised deep learning methods to address the ORE task is a promising way. However, there are two main challenges: (1) The lack of enough labeled corpus to support supervised training; (2) The exploration of specific neural architecture that adapts to the characteristics of open relation extracting. In this paper, we build a large-scale, high-quality training corpus in a fully automated way. And wedesign a tagging scheme to assist in transforming the ORE task into a sequence tagging processing. Furthermore, we propose a hybrid neural network model (HNN4ORT) for open relation tagging. The model employs the Ordered Neurons LSTM to encode potential syntactic information to capture the associations among the arguments and relations. It also emerges a novel Dual Aware Mechanism, including Local-aware Attention and Global-aware Convolution. The dual awarenesses complement each other. Takes the sentence-level semantics as a global perspective, and at the same time, the model implements salient local features to achieve sparse annotation. Experiment results on various testing sets show that our model achieves state-of-the-art performance compared toconventional methods or other neural models.

== 研究问题 ==
# 利用神经网络结构来解决开放关系抽取的问题
# 构建一个有效的开放关系提取的数据集

== 研究方法 ==
# 数据标注：句中有多个关系时，为每个关系单独进行标注
# 模型结构：GloVe词嵌入 + ON_LSTM + 局部词注意力 + CNN提取全局信息 + CRF
# 数据集构建：利用已有的三个开放关系抽取工具——OLLIE, Open IE-4, ClausIE对数据进行开放关系抽取，并筛选三个抽取工具都抽取的三元组，最后进行人工筛查。

== 研究结果 ==
性能上与已有的开放关系抽取工具得到了SOTA结果，并对模型各部分功能进行了消融分析。同时对模型判断错误的例子也进行了错误分析。

== 总结和评论 ==
* 利用序列标注方式解决开放关系提取的想法可以参考
* 目前看到的开放关系提取工作中性能最高的，但主要依赖于ON_LSTM的模型
* 数据集目前是非公开的，只公开了一个demo
论文地址：https://www.sciencedirect.com/science/article/pii/S0957417422003797?via%3Dihub
代码地址：https://github.com/TJUNLP/NSL4OIE

== 概念地图 ==

分类:2023年2月20日组会纪要

2023-02-23T06:23:08Z

Jyl：

[[分类:大物理组会纪要]]
[[分类:焦奕霖]]

时间：2023年2月20日周一

报告人：焦奕霖

题目：概念与关系提取工作进展

=报告目的=
介绍自己使用的概念与关系抽取模型、实验数据和实验结果

=主要内容=
先介绍了关系抽取的概念与主要问题，然后介绍了前人研究进展的两篇文献<ref name="HNN4ORT"/><ref name="RnnOIE"/>
以这两篇参考文献为基础，介绍了自己使用的概念抽取模型与关系抽取模型。其中概念抽取模型以Span_BERT文献为<ref name="Span_BERT"/>基础，关系抽取模型以<ref name="HNN4ORT"/><ref name="ON_LSTM"/>文献为基础，并介绍了复现的结果与实验数据

=讨论总结=
#首先明确了该工作的算法层面上没有创新价值，创新价值应该在任务层面，即学术文献的概念关系抽取是有意义且没有人做的，我们把这个任务给做了
#其次对报告中出现的逻辑错误进行了批评
#最后就数据问题进行了简单的讨论，并给出建议，在一些学术数据上进行实验

=下一步工作=
#关系提取方面的模型没有完全完成，把这个部分完成
#目前是概念提取和关系提取没有结合在一起，要完成结合在一起后的实验
#完成前两步之后在学术数据集上进行实验，观察结果

=参考文献=
<references>
<ref name="HNN4ORT"> Jia S , Shijia E , Ding L , et al. Hybrid neural tagging model for open relation extraction[J]. Expert Systems with Applications, 2022, 200:116951-. </ref>
<ref name="RnnOIE"> Stanovsky G , Michael J , Zettlemoyer L , et al. Supervised Open Information Extraction[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018. </ref>
<ref name="Span_BERT"> Eberts M , Ulges A . Span-based Joint Entity and Relation Extraction with Transformer Pre-training[J]. arXiv, 2019. </ref>
<ref name="ON_LSTM"> Shen Y , Tan S , Sordoni A , et al. Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks[J]. 2018. </ref>
</references>

分类:2023年2月20日组会纪要

2023-02-23T06:22:47Z

Jyl：

[[分类:大物理组会纪要]]
[[分类:焦奕霖]]

时间：2023年2月20日周一

报告人：焦奕霖

题目：概念与关系提取工作进展

=报告目的=
介绍自己使用的概念与关系抽取模型、实验数据和实验结果

=主要内容=
先介绍了关系抽取的概念与主要问题，然后介绍了前人研究进展的两篇文献<ref name="HNN4ORT"/><ref name="RnnOIE"/>
以这两篇参考文献为基础，介绍了自己使用的概念抽取模型与关系抽取模型。其中概念抽取模型以Span_BERT文献为<ref name="Span_BERT"/>。基础，关系抽取模型以<ref name="HNN4ORT"/><ref name="ON_LSTM"/>文献为基础，并介绍了复现的结果与实验数据

=讨论总结=
#首先明确了该工作的算法层面上没有创新价值，创新价值应该在任务层面，即学术文献的概念关系抽取是有意义且没有人做的，我们把这个任务给做了
#其次对报告中出现的逻辑错误进行了批评
#最后就数据问题进行了简单的讨论，并给出建议，在一些学术数据上进行实验

=下一步工作=
#关系提取方面的模型没有完全完成，把这个部分完成
#目前是概念提取和关系提取没有结合在一起，要完成结合在一起后的实验
#完成前两步之后在学术数据集上进行实验，观察结果

=参考文献=
<references>
<ref name="HNN4ORT"> Jia S , Shijia E , Ding L , et al. Hybrid neural tagging model for open relation extraction[J]. Expert Systems with Applications, 2022, 200:116951-. </ref>
<ref name="RnnOIE"> Stanovsky G , Michael J , Zettlemoyer L , et al. Supervised Open Information Extraction[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018. </ref>
<ref name="Span_BERT"> Eberts M , Ulges A . Span-based Joint Entity and Relation Extraction with Transformer Pre-training[J]. arXiv, 2019. </ref>
<ref name="ON_LSTM"> Shen Y , Tan S , Sordoni A , et al. Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks[J]. 2018. </ref>
</references>

分类:2023年2月20日组会纪要

2023-02-23T06:22:24Z

Jyl：

[[分类:大物理组会纪要]]
[[分类:焦奕霖]]

时间：2023年2月20日周一

报告人：焦奕霖

题目：概念与关系提取工作进展

=报告目的=
介绍自己使用的概念与关系抽取模型、实验数据和实验结果

=主要内容=
先介绍了关系抽取的概念与主要问题，然后介绍了前人研究进展的两篇文献<ref name="HNN4ORT"/><ref name="RnnOIE"/>。。
以这两篇参考文献为基础，介绍了自己使用的概念抽取模型与关系抽取模型。其中概念抽取模型以Span_BERT文献为<ref name="Span_BERT"/>。基础，关系抽取模型以<ref name="HNN4ORT"/><ref name="ON_LSTM"/>文献为基础，并介绍了复现的结果与实验数据

=讨论总结=
#首先明确了该工作的算法层面上没有创新价值，创新价值应该在任务层面，即学术文献的概念关系抽取是有意义且没有人做的，我们把这个任务给做了
#其次对报告中出现的逻辑错误进行了批评
#最后就数据问题进行了简单的讨论，并给出建议，在一些学术数据上进行实验

=下一步工作=
#关系提取方面的模型没有完全完成，把这个部分完成
#目前是概念提取和关系提取没有结合在一起，要完成结合在一起后的实验
#完成前两步之后在学术数据集上进行实验，观察结果

=参考文献=
<references>
<ref name="HNN4ORT"> Jia S , Shijia E , Ding L , et al. Hybrid neural tagging model for open relation extraction[J]. Expert Systems with Applications, 2022, 200:116951-. </ref>
<ref name="RnnOIE"> Stanovsky G , Michael J , Zettlemoyer L , et al. Supervised Open Information Extraction[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018. </ref>
<ref name="Span_BERT"> Eberts M , Ulges A . Span-based Joint Entity and Relation Extraction with Transformer Pre-training[J]. arXiv, 2019. </ref>
<ref name="ON_LSTM"> Shen Y , Tan S , Sordoni A , et al. Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks[J]. 2018. </ref>
</references>

分类:2023年2月20日组会纪要

2023-02-23T06:21:58Z

Jyl：

[[分类:大物理组会纪要]]
[[分类:焦奕霖]]

时间：2023年2月20日周一

报告人：焦奕霖

题目：概念与关系提取工作进展

=报告目的=
介绍自己使用的概念与关系抽取模型、实验数据和实验结果

=主要内容=
先介绍了关系抽取的概念与主要问题，然后介绍了前人研究进展的两篇文献<ref name="HNN4ORT"/><ref name="RnnOIE"/>。。
以这两篇参考文献为基础，介绍了自己使用的概念抽取模型与关系抽取模型。其中概念抽取模型以Span_BERT文献为<ref name="Span_BERT"/>。基础，关系抽取模型以<ref name="HNN4ORT"/><ref name="ON_LSTM"/>文献为基础，并介绍了复现的结果与实验数据

=讨论总结=
#首先明确了该工作的算法层面上没有创新价值，创新价值应该在任务层面，即学术文献的概念关系抽取是有意义且没有人做的，我们把这个任务给做了
#其次对报告中出现的逻辑错误进行了批评
#最后就数据问题进行了简单的讨论，并给出建议，在一些学术数据上进行实验

=下一步工作=
#关系提取方面的模型没有完全完成，把这个部分完成
#目前是概念提取和关系提取没有结合在一起，要完成结合在一起后的实验
#完成前两步之后在学术数据集上进行实验，观察结果

=参考文献=
<references>
<ref name="HNN4ORT"> Jia S , Shijia E , Ding L , et al. Hybrid neural tagging model for open relation extraction[J]. Expert Systems with Applications, 2022, 200:116951-. </ref>
<ref name="RnnOIE"> Stanovsky G , Michael J , Zettlemoyer L , et al. Supervised Open Information Extraction[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018. </ref>
<ref name="SpanBERT"> Eberts M , Ulges A . Span-based Joint Entity and Relation Extraction with Transformer Pre-training[J]. arXiv, 2019. </ref>
<ref name="ON_LSTM"> Shen Y , Tan S , Sordoni A , et al. Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks[J]. 2018. </ref>
</references>

分类:2023年2月20日组会纪要

2023-02-23T06:19:42Z

Jyl：

[[分类:大物理组会纪要]]
[[分类:焦奕霖]]

时间：2023年2月20日周一

报告人：焦奕霖

题目：概念与关系提取工作进展

=报告目的=
介绍自己使用的概念与关系抽取模型、实验数据和实验结果

=主要内容=
先介绍了关系抽取的概念与主要问题，然后介绍了前人研究进展的两篇文献。
以这两篇参考文献为基础，介绍了自己使用的概念抽取模型与关系抽取模型。其中概念抽取模型以AA文献为基础，关系抽取模型以BB文献为基础，并介绍了复现的结果与实验数据

=讨论总结=
#首先明确了该工作的算法层面上没有创新价值，创新价值应该在任务层面，即学术文献的概念关系抽取是有意义且没有人做的，我们把这个任务给做了
#其次对报告中出现的逻辑错误进行了批评
#最后就数据问题进行了简单的讨论，并给出建议，在一些学术数据上进行实验

=下一步工作=
#关系提取方面的模型没有完全完成，把这个部分完成
#目前是概念提取和关系提取没有结合在一起，要完成结合在一起后的实验
#完成前两步之后在学术数据集上进行实验，观察结果

=参考文献=
<references>
<ref name="HNN4ORT"> Jia S , Shijia E , Ding L , et al. Hybrid neural tagging model for open relation extraction[J]. Expert Systems with Applications, 2022, 200:116951-. </ref>
<ref name="RnnOIE"> Stanovsky G , Michael J , Zettlemoyer L , et al. Supervised Open Information Extraction[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018. </ref>
<ref name="SpanBERT"> Eberts M , Ulges A . Span-based Joint Entity and Relation Extraction with Transformer Pre-training[J]. arXiv, 2019. </ref>
</references>

分类:2023年2月20日组会纪要

2023-02-23T06:18:43Z

Jyl：

分类:2023年2月20日组会纪要

2023-02-23T06:15:40Z

Jyl：

分类:2023年2月20日组会纪要

2023-02-23T06:12:41Z

Jyl：

[[分类:大物理组会纪要]]
[[分类:焦奕霖]]

时间：2023年2月20日周一

报告人：焦奕霖

题目：概念与关系提取工作进展

=报告目的=
介绍自己使用的概念与关系抽取模型、实验数据和实验结果

=主要内容=
以两篇参考文献为基础，介绍了管道式的概念抽取模型与关系抽取模型。其中概念抽取模型以AA文献为基础，关系抽取模型以BB文献为基础，并介绍了复现的结果与实验数据

=讨论总结=
#首先明确了该工作的算法层面上没有创新价值，创新价值应该在任务层面，即学术文献的概念关系抽取是有意义且没有人做的，我们把这个任务给做了
#其次对报告中出现的逻辑错误进行了批评
#最后就数据问题进行了简单的讨论，并给出建议，在一些学术数据上进行实验

=下一步工作=
#关系提取方面的模型没有完全完成，把这个部分完成
#目前是概念提取和关系提取没有结合在一起，要完成结合在一起后的实验
#完成前两步之后在学术数据集上进行实验，观察结果

=参考文献=

分类:工作进展之焦奕霖

2023-02-23T06:11:58Z

Jyl：

[[分类:工作进展板]]

==核心工作：学术文献概念地图生成==
----
工作进展：
# 文本的概念与关系抽取
## 简单的概念与关系提取已完成，但二者的结合未完成，以及关系提取模型有可能进一步提升性能的模型也未完成
## 在学术文本数据上的实验未完成，甚至学术文本数据的标注工作也未完成
# 文档级概念地图生成算法
## 有算法的雏形但未实现
# 概念地图评价
## 有思路但还未开始进行
# 概念地图可视化
## 未开始进行

分类:2023年2月20日组会纪要

2023-02-23T06:08:43Z

Jyl：建立内容为“时间：2023年2月20日周一报告人：焦奕霖题目：概念与关系提取工作进展 =报告目的= 介绍自己使用的概念与关系抽取模…”的新页面

时间：2023年2月20日周一

报告人：焦奕霖

题目：概念与关系提取工作进展

=报告目的=
介绍自己使用的概念与关系抽取模型、实验数据和实验结果

=主要内容=
以两篇参考文献为基础，介绍了管道式的概念抽取模型与关系抽取模型。其中概念抽取模型以AA文献为基础，关系抽取模型以BB文献为基础，并介绍了复现的结果与实验数据

=讨论总结=
#首先明确了该工作的算法层面上没有创新价值，创新价值应该在任务层面，即学术文献的概念关系抽取是有意义且没有人做的，我们把这个任务给做了
#其次对报告中出现的逻辑错误进行了批评
#最后就数据问题进行了简单的讨论，并给出建议，在一些学术数据上进行实验

=下一步工作=
#关系提取方面的模型没有完全完成，把这个部分完成
#目前是概念提取和关系提取没有结合在一起，要完成结合在一起后的实验
#完成前两步之后在学术数据集上进行实验，观察结果

=参考文献=

分类:工作进展之焦奕霖

2023-02-23T05:22:45Z

Jyl：/* 核心工作：学术文献概念地图生成 */

==核心工作：学术文献概念地图生成==
----
工作进展：
# 文本的概念与关系抽取
## 简单的概念与关系提取已完成，但二者的结合未完成，以及关系提取模型有可能进一步提升性能的模型也未完成
## 在学术文本数据上的实验未完成，甚至学术文本数据的标注工作也未完成
# 文档级概念地图生成算法
## 有算法的雏形但未实现
# 概念地图评价
## 有思路但还未开始进行
# 概念地图可视化
## 未开始进行

分类:工作进展之焦奕霖

2023-02-23T05:22:30Z

Jyl：建立内容为“==核心工作：学术文献概念地图生成== ---- 工作进展： ::# 文本的概念与关系抽取 ::## 简单的概念与关系提取已完成，但二者…”的新页面

==核心工作：学术文献概念地图生成==
----
工作进展：
::# 文本的概念与关系抽取
::## 简单的概念与关系提取已完成，但二者的结合未完成，以及关系提取模型有可能进一步提升性能的模型也未完成
::## 在学术文本数据上的实验未完成，甚至学术文本数据的标注工作也未完成
::# 文档级概念地图生成算法
::## 有算法的雏形但未实现
::# 概念地图评价
::## 有思路但还未开始进行
::# 概念地图可视化
::## 未开始进行

分类:2021年下学期大物理第四次组会纪要

2021-03-20T10:59:35Z

Jyl：

[[分类:大物理组会纪要]]

时间：2021年3月18日（周四）第四次组会

-----------------------------------------
报告人：焦弈霖

题目：基于作者—引文网络的重要引用识别

主要内容：主要提出了基于作者—引文网络的重要引用识别的研究问题，并阐述其研究意义和拟进行到额研究方法，组会目的主要是想确认该问题是否可以进行研究，并如何进行研究

基于前人使用机器学习的方法来构建分类器，解决这类问题的思路基础上，考虑到分类器中选取的部分特征会受一些因素的影响，可能会导致在不同类别的文章或不同的处理方式下，得到不同的结果，从而使相关的科研工作无法进行比较，陷入“他说他的好，我说我的好”的情况。提出利用作者—引文网络来构建新的特征，并以此为标准，推广到不同类型的数据上去。

组会反馈：该问题的提出不是基于前人工作的不足进行改进和完善，而是采用一种“投机取巧”的方法，单纯的把前人工作有问题的地方全部剔除，并自己提出其他的解决方案。新的方案不止难以实施（作者合作网的构建问题），并且也无法保证结果会比前人的工作好，故不同意开展相关工作的研究，建议从其他角度来寻找新的研究问题

组会上给出了两种研究的思路，一是将问题着眼于优化这类工作的分类器的分类性能，在前人工作的基础上发现缺陷，之后再想办法如何解决这些缺陷；二是探讨之前说过的易受其他因素影响的指标在不同类型的数据上的表现，并找到将它们标准化的方法，从而使指标可以推广到不同类型的数据上去

下一步工作：阅读文献，寻找研究问题，保证可以说清：问题是什么、为什么研究这个问题、要怎么研究这个问题、为什么这么研究这个问题好、为什么必须用这个方法而不用其他的方法、初步预计的结果。

-----------------------------------------
报告人：邓招奇

题目：替代力指数应用于MAG数据集

主要内容：主要介绍了在MAG数据集上计算替代力指数，并从几个方面与其它指数展开类比。本次组会主要目的是借此总结前一阶段的工作，并寻找替代力指数工作本身可能的闪光点。

前面的工作，主要是在APS数据上计算替代力指数，APS数据集仅有56万条数据，引用关系网络不是很完备，虽然在其上可以较好的利用替代力指数筛选出Nobel获奖论文，但是却无法复现出参考文献的主要结果，Disruption指数与团队数量成反比。

MAG数据集是微软基于搜索建立的形式化的数据集，其包含了Journal，Patent，Repository，Conference，BookChapter，Book，Dataset，Other等类型的数据，截至2020-07-29的离线数据集，一共包含240913761条(2.4亿)数据。其中施引和被引全为0的数据127127788条(1.2亿)条，利用剩下被引和施引不全为0的113785973条数据来构建引用关系网络。

在引用关系网络之上，计算每条数据的被引数量，Disriuption指数，一阶替代力指数及其权重，另外MAG数据本身包含一个排序指数Rank。

首先，复现参考文献的结果，基本能得到被引数量与团队数量成正比，Disriuption指数，一阶替代力指数的权重，以及Rank与团队数量成反比。

接着，计算特殊数据，Nobel奖论文的各项指数，以及它们在整体数据中的百分位数，发现百分位数均值，在被引数量，一阶替代力指数的权重上均超过98%，而在Disruption指数上仅有70.97%，在Rank指数仅为46.14%。同时，在数据集中随机选取50万条数据，与Nobel奖论文一起绘制被引数量与各个指数的关系散点图，发现，相比Disruption指数和Rank指数，一阶替代力指数能够较好的筛选出Nobel奖论文。

之后，计算每个作者的学术生命，并从文章角度，计算属于文章的四种与作者相关的学术生命，也即第一作者的学术生命，所有作者的平均学术生命，所有作者的中位数学术生命，所有作者的最大学术生命，发现文章的四种学术生命，与被引数量成正比，而其它指数在学术生命的各个时期，表现出先下降，后上升的趋势。而如果从作者本身的角度，来计算各个指数的均值，发现指数均值与作者的学术生命，表现出，先下降，后平稳维持一段时期，最后上升的趋势。

组会反馈：整体来看，我们的替代力指数，在某些方面优于Disruption，并且可以通过参数进行灵活的调整。通过学术生命的结果，可以看到，这几种指数在衡量创新性上都有缺陷，因为按照常理，不可能年龄越大，创新性越强。参考文献的reduce操作是一种很自然的操作，特别是当数据的属性比较分散，无法体现相关性时，可以考虑进行聚团。虽然替代力指数可以筛选出Nobel奖论文，但是Nobel奖论文本身的被引数量已经非常高了。可以现在APS数据集上，计算二阶及以上的替代力指数，特别时当参数较大，无法求解矩阵逆时，可以用矩阵乘法来近似计算前几阶。参数$\gamma$需要给出一个标定的最优值，比如可以通过Nobel奖论文的最优百分位数均值来确定。

下一步工作：继续寻找，能够利用替代力指数发现一些发转的结果，比如，被引数量很大，但是替代力指数很小，或者被引数量很小，反而替代力指数较大，这类特殊数据的特点；看看能否发现一些定性的结果，比如替代力指数与数据的其它特性成某种关系。

分类:Identifying Meaningful Citations

2020-12-01T16:03:11Z

Jyl：/* 概念地图 */

[[Category:文献讨论]]
[[分类:AllenAI系列科学学文章]]
[[Category:引用骨架挖掘]]

Marco Valenzuela, Vu Ha and Oren Etzioni, Identifying Meaningful Citations, http://go.nature.com/2th2voa

== Abstract ==
We introduce the novel task of identifying important citations in scholarly literature, i.e., citations that indicate that the cited work is used or extended in the new effort. We believe this task is a crucial component in algorithms that detect and follow research topics and in methods that measure the quality of publications. We model this task as a supervised classification problem at two levels of detail: a coarse one with classes (important vs. non-important), and a more detailed one with four importance classes. We annotate a dataset of approximately 450 citations with this information, and release it publicly. We propose a supervised classification approach that addresses this task with a battery of features that range from citation counts to where the citation appears in the body of the paper, and show that, our approach achieves a precision of 65% for a recall of 90%.

== 总结和评论 ==

这篇文章用机器学习的算法来解决关键引文的问题：有一些引文是真正的工作基础，有一些仅仅是大背景或者勉强的引用，如何区分它们。

引文作为科学学中的一个重要指标，对文章质量评价、研究主题的确定、文献检索等问题的研究都有重要的作用。但目前基于引文的一系列的指标与算法都是在“一篇文章的所有参考文献的权重都相等”的前提下进行的，但事实并非如此。在文章中，作者邀请专家对自己标注的465条引用进行“该被引文献是否对施引文献有重要作用”进行判断并标注，结果显示仅有约14.6%的被引文献被专家认为是重要的参考文献。因此可以看到，对参考文献的分类对的以引文为基础的相关工作的改进和发展有重要的意义。

本文以ACL数据库中提取的465条引用关系为基础，邀请专家为它们进行人工标注形成实验所需的数据集，主要进行了三项工作：施引文献特征指标的构建与计算、通过分类确定重要参考文献、计算与比较各个指标对确定重要参考文献的贡献。

具体来说，该文章用监督学习的一种分类方法——支持向量机（简称SVM）将所有被引文献分为两大类(重要和非重要)，更进一步分为4个层次（相关、比较、使用、扩展）。考虑了包括直接引用与非显示引用（比如引用的算法名称、人名等）的数量特征、是否自引、相似性等12个特征指标，利用留一法（将每个数据个体当做测试集，其余数据当做训练集来构筑模型并最后对评价指标做期望，本文的评价指标为准确率和召回率）和SVM（基本模型是定义在特征空间上的间隔最大的线性分类器，具体原理还在看）综合考虑这12个指标对被引文献是否重要进行分类。最终得到的结果的准确率（模型认为有意义的引用中实际有意义的引用的比例）与召回率（所有有意义的引用被模型识别的比例）不仅远超过按照一定概率随机分配的结果，还可以在高召回率的前提下达到令人满意的准确率。

在得到整体的结果后，进而考虑单个单个因素的对重要文献识别的贡献。做法是单独考虑某一因素重复上述工作，发现每个指标的模型的在固定召回率下，准确率都高于随机分配的结果，从而证明每个指标都对重要文献识别有一定贡献。其中直接引用的数量是最有效的特征。

本文的创新点在于：解决了确定重要文献的问题并将其制作成了网页程序；提出了非显示引用的概念并给出了提取非显示引用的方法（虽然这部分作者自己说有改进的空间）。实际上，本文的工作与[[:Category:Measuring academic influence: Not all citations are equal|Measuring academic influence: Not all citations are equal]]类似，都是区分参考文献中的重要文献，区别在于数据集不同和考察指标不同。个人认为，这些特征指标几乎都只考虑语义方面的特征，如果可以加入引文网络的结构特征（比如根据参考文献之间是否有引用关系来增加权重），可能会得到更好的结果。

== 概念地图 ==
[[文件:Identifying Meaningful Citations文献.jpg |1200px]]

文件:Identifying Meaningful Citations文献.jpg

2020-12-01T15:51:50Z

Jyl：Identifying_Meaningful_Citations概念地图

Identifying_Meaningful_Citations概念地图

分类:Identifying Meaningful Citations

2020-12-01T09:13:27Z

Jyl：

分类:Identifying Meaningful Citations

2020-12-01T09:11:34Z

Jyl：/* 总结和评论 */

分类:基金机构影响力度量

2020-10-04T06:41:55Z

Jyl：

[[分类:科学学]]
[[分类:广义投入产出分析]]

以下的几个项目和基金机构的影响力和角色有关系，放在一起。具体研究方法上实际上依赖的是其他项目中发展起来的方法，尤其是间接联系和科学学多层网络的思想和方法。当然，随着研究的深入，也有可能可以提出我们目前的思想能够解决但是具体方法和框架不能解决的问题，这样还能反过来促进方法和框架的发展。

从我们科学学的两大核心理念——多层网络和投入产出分析——的角度来说，基金机构的角色就在于下面的这个关系网络：科学工作（论文、科学家、研究领域）促进科学技术（专利、产品）的发展，科学技术变成产品提高生活质量并在经济生产和消费中产生经济价值，经济系统把钱投入到基金机构，基金机构把钱投入到科学工作。当然，实际上，有可能会跳过其中的一些步骤，例如企业可以直接投入钱到基础研究或者技术开发中去。先不管这个跳步骤的事情。

那么，在这样一个关系网络中，哪些数据是现在比较容易获得并且可靠的呢？科学研究内部（论文引用、科学家写了哪些论文、论文的研究主题是什么）这个相对可靠。科学和技术的关系大概可以通过从专利文献识别研究论文，从研究论文识别专利找出来。科学技术转变成产品并且进入经济流通一定程度上可以通过专利授权和专利转化来计量不过目前没有集中的数据。经济到基金机构的投入应该很明确。经济通过企业研发进入到科学的，可能不是非常容易获得。基金机构到科学研究应该数据也可靠并且集中。例如NIH已经提供打包下载，NSFC也可以通过检索界面获得。

当然，作为一个案例，可以先对aps数据做研究。构造一个文章层面的引用网络，就可以做直接和间接影响力排序，并用于后续研究了。

这样一个数据整理起来就是这样一张投入产出表：

{| class="wikitable"
| || 基金机构<math>f</math>　|| 研究项目<math>pr</math> || 研究者<math>r</math> || 论文<math>pu</math> || 专利<math>pa</math> || 产品<math>prod</math> || 生产和消费者<math>mc</math>
|-
| 基金机构<math>f</math>　|| <math>X^{f}_{f}</math> || <math>X^{f}_{pr}</math> || <math>X^{f}_{r}</math> || <math>X^{f}_{pu}</math> || <math>X^{f}_{pa}</math> || <math>X^{f}_{prod}</math> || <math>X^{f}_{mc}</math>
|-
| 研究项目<math>pr</math>　|| <math>X^{pr}_{f}</math> || <math>X^{pr}_{pr}</math> || <math>X^{pr}_{r}</math> || <math>X^{pr}_{pu}</math> || <math>X^{pr}_{pa}</math> || <math>X^{pr}_{prod}</math> || <math>X^{pr}_{mc}</math>
|-
| ...　|| ... || ... || ... || ... || ... || ... ||...
|}
当然，其中的某些可以在实际研究中去掉，例如研究者可以放到研究项目里面去，甚至研究项目和论文也可以合并。其中有一些元素应该是零，例如从基金机构到生产消费者，基金机构本身的购买消费对经济和科学技术的影响可以忽略不计。还比如从科学研究项目到基金机构的贡献也可以大概忽略（当然，也存在基金机构由于支持了某个研究特别出色然后获得了更多的可以分配的经费的情况，这个时候，就不是零了）。还有，其中应该有一个单独的政府部门，不过，在这里可以认为已经把基金单位的作用和政府合并。更重要的，实际上，这里的每一个主体都可以分的更细，例如<math>f</math>可以分成不同的国家基金机构。如果愿意，还可以在上面的表格里面加上“科学概念”和“技术代码”。前者表示论文工作的主题和学科领域，后者表示专利所在的技术部门。

下面，我们问，理论上，有了这个投入产出表，我们能够做什么，以及按照目前能够获得的数据，能够做什么？注意，有了这个表格，就表示我们的分析方法和思路主要就是多层网络和广义投入产出。当然，如果某些问题的分析需要其他的分析方法，也是可以的。

==基金机构在科学和技术上的影响力的度量==
首先，可以看一看对于科学发展——具体到论文的发表领域的发展——来说，基金机构的支持发挥了多大作用。最简单的方法，就是统计这个基金机构支持下的项目，在一段时间内（可以是基金支持期间、之前几年、之后几年）所发表的论文数量和被引次数。这就是直接统计的方法。

其次，简单统计的思路也可以用于基金机构对技术发展的作用。例如，统计和对比一下基金支持的基础性研究的论文产生的专利的数量、应用性研究的论文产生的专利的数量、没有得到基金支持的论文产生的专利的数量。具体计算的时候是反过来通过专利文献找到论文并且识别这些论文是受到国内、国外还是没有基金支持的，如果收到属于基础研究还是应用性研究，还是说大部分时候专利引用的是其他的专利文献。类似的研究可见<ref name="NIH-Patent" /><ref name="Narin1995" /><ref name="Narin1997 /> <ref name="Verbeek2002" />。

如果考虑间接影响，则有以下不同的方式来运用[[:分类:广义投入产出分析]]<ref name="GeneralIO" />。

例如，在文章的层次，可以把基金机构当做一个外生投入部门，先得到一个基金机构的投入向量（向量的每一个元素例如可以是——如果有支持就是1，没有就是零）。然后研究这个外生投入向量在整个文章通过引用关系构成的投入产出网路上的传播。投入产出网络如何构建，传播如何计算，可以参考[[:分类:广义投入产出分析]]。

例如，还可以在领域的层次，可以把基金机构当做一个外生投入部门，先得到一个基金机构的投入向量（向量的每一个元素例如可以是——如果有支持就是用所支持的项目经费，没有就是零）。然后研究这个外生投入向量在整个领域通过领域之间的引用关系构成的投入产出网路上的传播。投入产出网络如何构建，传播如何计算，可以参考[[:分类:广义投入产出分析]]。

我们还可以把基金机构当做一个内生部门，直接来分析上面的整个投入产出矩阵，算出来上面各个主体之间的综合（包含直接和间接以后的）相互关系，以及各个主体的重要性。具体计算参考[[:分类:广义投入产出分析]]。

在具体计算上，考虑到数据的可获得性，在合适（也是无奈）的地方，可以把上面的表格截断，例如把产品、生产和消费者暂时去掉，甚至把研究者和研究项目也去掉，主要依靠论文之间、论文专利之间的扩散机制来讨论基金机构的影响力。如果开展一下不同时期和不同国家之间的对比，还应该是一个有意思的又有可能有实际参考价值研究。甚至，在初始阶段，我们可以仅仅考虑论文之间的扩散机制来讨论基金机构的影响力，把专利那部分也去掉。也就是说，基金机构在科学和在技术上的影响力，一定程度上，可以分开来研究。当然，实际上是分不开的，仅仅是说，由于从科学到技术之间的联系应该来说比科学之间的联系要稀疏，因此，当仅仅考虑科学影响力的时候，大约可以先去掉专利那部分。我们提到暂时去掉产品和消费者等部门也是同样的理由。

==热点追踪问题和基金机构行为或者政策之间的关联==
在[[:分类:热点追踪]]研究<ref name="Wei2013"/> <ref name="Li2017"/>中，我们发现科学家新发表的工作确实以更大的几率出现在目前已经发表了大量论文的领域中。这个几率和领域大小存在幂率关系。我们称这个幂率为热点追踪指数/程度。我们还发现，相比美国，中国的这个指数比较高，同时小领域的相对贡献率中国比较小，也就是主要集中在大领域里面。不是说大领域就不好，而是说这样的（相对于美国）太过集中地在大领域里面可能有一些政策上的原因。于是，我们想从不同的角度看一看这个有没有一些可能的原因。

其中一个可能的研究就是去看看，是不是，基金支持也存在类似的比较偏大领域的现象，而且是否相对于其他国家，也程度更高？还可以做一个这个程度的纵向对比，同时再把热点追踪程度的纵向发展趋势也画出来，看看是否有关联。

合作者还建议，是否可以考虑一下不同类型（例如不同地区，不同学科，不同性质的研究单位）的研究者，是否展现出来不同的热点追踪程度。没准也可以通过这个类型来了解更多的原因，同时对政策有一定的参考价值。

==高质量工作中基金机构的作用==
通过对热点追踪工作的研究，我们就能够注意到，中国所发表的文章大部分集中在大领域里面。于是，合作者就提出来这样一个问题：当考虑所有的中国学者发布的文章的时候，由于体量非常大，其中基金机构支持的比例有比较高，于是就显得基金机构的作用很大；是否可以考虑某种更加严格，于是也就相当于更有说服力的指标，例如考虑某种高质量论文？

简单来说，这个工作有非常直接的思路，甚至都不需要用多层网络和投入产出的思想和方法：定义某种重要性指标，然后看一看在这个指标线，中国论文有多少，其中基金机构支持的有多少。例如，取全球论文按照被引次数（可能要学科归一化）排名的<math>1\%</math>（<math>2\%</math>、<math>5\%</math>、<math>10\%</math>、<math>20\%</math>）来计算<ref name="NSB-chap5" />。可以在这些百分比的论文中计算各个国家“论文数量”的百分比，也可以是相对贡献率（也就是拿着绝对贡献量除以这个国家在整个领域的平均贡献量）。也可以把“论文数量”换成“被引次数”。还可以讨论引用中多少是来自于前<math>1\%</math>（<math>2\%</math>、<math>5\%</math>、<math>10\%</math>、<math>20\%</math>）的文章的。

这个基于文章被引次数百分比的计算可以换一个角度，统计给定国家的前百分之多少的文章里面，全部文章排引用序中处于前百分之几的有多少。这就是上面那个先对所有文章排序，然后计算各个国家在其中的百分比的计算的对偶计算。

{| class="wikitable"
| || 国家c的前5%　|| 国家c的前10%　 || 国家c的前15%　|| ... || 国家d的前5%　 || 国家d的前10%　|| 其他
|-
| 国家c的前5%　|| <math>X^{c5}_{c5}</math> || <math>X^{c5}_{c10}</math> || <math>X^{c5}_{c15}</math> || ... || <math>X^{c5}_{d5}</math> || <math>X^{c5}_{d10}</math> || ...
|-
| 国家c的前10%　|| <math>X^{c10}_{c5}</math> || <math>X^{c10}_{c10}</math> || <math>X^{c10}_{c15}</math> || ... || <math>X^{c10}_{d5}</math> || <math>X^{c10}_{d10}</math> || ...
|-
| ...　|| ... || ... || ... || ... || ... || ... ||...
|}

稍微复杂一点来说，可以把“全球论文按照被引次数”改成考虑间接影响的论文影响力指数，例如通过在论文引用网络上通过广义投入产出分析计算得到的影响力。

更复杂一点来说，我们回到第一项研究，直接在整个投入产出网上计算基金机构的影响力。

==基金机构的资助项目或者资助的论文出现在研究主题的早期还是晚期？==

在某个领域或者主题上，统计出来每篇文章和每个引用的时间序列，看基金支持的项目或者文章，出现在哪个时间点上(用论文或者引用的时间点来看，例如某主题的第三篇文章是某基金支持下发表的，第四次引用是给基金支持的文章的，第一篇文章发表的时间点上某基金立项的)。

==论文和申请书创新性、交叉性和是否受资助的关联分析==
目前我们正在发展论文和申请书的创新性和交叉性计量指标。有了基金支持和没有支持的数据，我们就可以来讨论这个创新性高的申请书是否更加容易得到支持，得到基金支持之后创新性是否更高的问题。

==学科领域之间相互关系、学科领域－专利部门之间相互关系的研究==
[[:分类:国家-学科的投入产出分析]]
对于决策者管理者来说，如果要支持目标学科领域或者目标专利部门的发展，如果有一个计算分析能够给出来和这个目标紧密相关的其他领域和部门，是有价值的。

==赚人品的其他扩大基金影响力的事情==
NIH 和 NSF 都提供基金支持数据的检索和下载。NSFC已经提供检索了。可以进一步提供下载。这样能够更好地方便研究者使用。

NIH开发了一个基金支持发表的文章和WoS库的对应，这个就更加方便研究者和基金申请者来使用这些数据。

同时，基金支持数据还可以用来做作者姓名识别和研究主题识别。这些数据的分享都会很大程度上促进科学计量学的研究，科学的传播和研究。

==数据==
直接用APS数据，或者其他学科的数据。当然，最好是wos或者scopus全部数据。另外，国家识别、基金资助数据如何得到也是一个问题。

==参考文献==
<references>
<ref name="NSB-chap5">美国National Science Board 做出的报告Science and Engineering Indicators (SEI)2016, https://www.nsf.gov/statistics/2016/nsb20161/#/report/chapter-5/outputs-of-s-e-research-publications-and-patents </ref>
<ref name="NIH-Patent">DANIELLE LI, PIERRE AZOULAY, BHAVEN N. SAMPAT, The applied value of public investments in biomedical research, SCIENCE 356 (6333), 78-81(2017).</ref>
<ref name="Narin1995">Narin F, Hamilton K S, Olivastro D. Linkage between agency-supported research and patented industrial technology[J]. Research Evaluation, 5(3):183-187(1995).</ref>
<ref name="Narin1997">Narin F, Hamilton K S, Olivastro D. The increasing linkage between U.S. technology and public science[J]. Research Policy, 26(3):317-330(1997).</ref>
<ref name="Verbeek2002">Verbeek A, Debackere K, Luwel M, et al. Linking science to technology:Using bibliographic references in patents to build linkage schemes[J]. Scientometrics, 54(3), 399-420(2002).</ref>
<ref name="Wei2013">Tian Wei, Menghui Li, Chensheng Wu, Xiao-Yong Yan, Ying Fan, Zengru Di & Jinshan Wu,　Do scientists trace hot topics?, Scientific Reports 3, Article number: 2207 (2013), doi:10.1038/srep02207 </ref>
<ref name="Li2017">Menghui Li, Liying Yang, Huina Zhang, Zhesi Shen, Chensheng Wu, Jinshan W, Do Mathematicians, Economists and Biomedical Scientists Trace Large Topics More Strongly Than Physicists?，Journal of Informetrics，10.1016/j.joi.2017.04.004 </ref>
<ref name="GeneralIO"> Zhesi Shen, Liying Yang, Jiansuo Pei, Menghui Li, Chensheng Wu, Jianzhang Bao, Tian Wei, Zengru Di, Ronald Rousseau, Jinshan Wu, Interrelations among scientific fields and their relative influences revealed by an input–output analysis, Journal of Informetrics 10, 82-97(2016). Doi:10.1016/j.joi.2015.11.002. </ref>
</references>