分类:ScispaCy: Fast and Robust Models for Biomedical Natural Language Processing

来自Big Physics


Mark Neumann, Daniel King, Iz Beltagy, Waleed Ammar. ScispaCy: Fast and Robust Models for Biomedical Natural Language Processing. BioNLP@ACL 2019

Abstract

Despite recent advances in natural language processing, many statistical models for processing text perform extremely poorly under domain shift. Processing biomedical and clinical text is a critically important application area of natural language processing, for which there are few robust, practical, publicly available models. This paper describes scispaCy, a new Python library and models for practical biomedical/scientific text processing, which heavily leverages the spaCy library. We detail the performance of two packages of models released in scispaCy and demonstrate their robustness on several tasks and datasets. Models and code are available at https://allenai.github.io/scispacy/.

总结和评论

这篇文章发展了一套用于科研论文的概念抽取和概念关系挖掘的scispaCy软件,其本身基于spaCy软件。

这套软件及其背后的方法,用于概念地图半自动构建也是可以的。

ScispaCy是作者开发的面向生物医学科学论文的自然语言处理软件,一个Python库。ScispaCy基于 spaCy,通过在生物医学科学论文语料库上进行训练, 得到新的、专业化的“模型”,从而在生物医药自然语言处理任务中达到更好的表现。也可以将ScispaCy看做是spaCy的扩展。文章主要贡献:

  • 发布了一个数据集:Universal Dependencies v1.0 for the GENIA Treebank
  • 在POS tagging, Dependency Parsing, Named Entity Recoognition等任务上进行基准测试并和主流工具进行了对比,结果显示ScispaCy具有相当好的表现
  • 提供了用于生物医学领域文本处理的快速、稳定、易用的“管道工具集”(pipelines),即ScispaCy

spaCy是一个基于Python语言的工业级的自然语言处理工具包。据其官方网站介绍,spaCy的特点是:

  • 易用(easy to install, simple and productive API)
  • 特别快(written from the ground up in carefully memory-managed Cython)
  • 无缝对接下游工具(TensorFlow, PyTorch, scikit-learn, Gensim, ...)

在ScispaCy从不同语料库上训练得到的几个模型中,en_core_sci_md和en_core_sci_lg两个模型提供了训练好的词向量数据。文章中并未介绍详细的训练过程。要了解这方面细节,需要看spaCy/ScispaCy的文档和源代码。

在生物医药文本处理领域已有很多工具,例如广泛使用的命名实体识别工具MetaMap和MetaMapLite。尽管如此,这些经典的自然语言处理工具,大都还没有用上诸如词向量表示和神经网络这样的技术。另一个问题则是如何更好输出NLP处理后的信息给下游(通常机器学习)任务。ScispaCy的目标就是解决这些问题。

spaCy/ScispaCy主要是作为自然语言处理或机器学习工作流中的“上游”工具。首先,可以直接利用ScispaCy来研究特定的问题,例如构建生物医药领域的概念地图。可以进一步去了解文章中使用和提到的几个生物医药语料库和数据集。此外,可以用ScispaCy的方法来训练其它学科领域的“模型”。

资源列表:

概念地图

本分类目前不含有任何页面或媒体文件。