分类:概念地图强化的问答系统和个性化聊天机器人

来自Big Physics


核心科学问题

基于规则(匹配、模糊匹配、word2vec匹配)和语言模型(双向LSTM、BERT)都可以训练出来基于文本的问答系统。所谓基于文本的问答系统就是答案是语料库中的一个文字片段。算法的任务就是找到最合适的片段。但是,大量的问题,可能并不能用已经收集好的语料库里面的片段来回答问题,这个时候,怎么办?

其中一个办法就是知识推理。可是自然语言的知识通常是不可推理的怎么办?可以依靠Ontology图、知识图谱、概念地图等。这里有两个问题:这些图从哪里来,能不能从语料库中产生出来,以及有了这些图如何和基于语料库的问答系统结合?

在这个项目中,我们企图回答这两个问题,尤其是后者,有了图怎么办的问题。

背景

为什么会对这个问题感兴趣?我希望能够做出来一个吴金闪的网上虚像,用来给学生上课和研究工作答疑、回答公众号和书籍的读者关于公众号帖子和书的问题、甚至陪有兴趣找吴金闪聊天的人瞎聊。当然,一个基于关键词匹配的系统,就可以大致满足要求:给读者展示那一段文字讨论了其问的问题、或者推荐某个问题的参考文献。但是,是不是可以走的更远,例如,拥有苏格拉底启发式问答功能,搞清楚到底学生哪里不会,等。

因此,我希望做出来的东西是一个基于吴金闪的个人语料(文章、书、公众号、公开课、微信甚至日常聊天记录)的,能够回答稍微深入一点的问题的聊天机器人。为了这个目的,我们不仅要有基于大语料库的词矢量,以及通用模型,还需要在通用模型的基础上结合吴金闪的个人语料,来得到个性化聊天机器人。

如果能够研究成功,就可以给每一个人做出来一个这样的网络虚像。

可能解决方案

首先,我们需要通用问答语料库来训练通用问答机器人和词矢量。接着,我们需要个性化语料库和人工或者算法产生从个性化语料库中产生的概念地图。然后,把概念地图通过随机行走变成拓展语料库。这个语料库包含大量的真实有效的推理性文本以及假的没用的概念之间的跳跃。最后,把拓展语料库和原始语料库结合(是否要区别对待还要尝试),来从通用问答系统训练出来个性化问答系统。

同样的idea直接用于word2vec

沿着这个思路,其实,我们可以拓展一下word2vec看看是否有更好的表示(如何检验还是一个问题):首先,把原始语料转化成网络,例如把m窗口的词都连在一起构成网络,然后对这个网络用node2vec随机行走,得到拓展语料;接着把原始语料和拓展语料结合,来做新的word2vec。可以尝试一下这个“折腾”的idea的效果,是否一定程度上保留了更长距离的词之间的联系,甚至推理。

可能的问题

中文通用问答语料库和通用问答系统的建设会是一个问题。实在不行,就先解决这个问题。

概念地图算法构建是一个问题,不过暂时先不管。其实,概念地图在这里就相当于一个原始语料库的长程连接的发现的作用。没准,只要语料库足够大,算法对长程连接保留的足够好,就可以不用这个中间产品了。我们先从人工构造的概念地图开始。

拓展语料库的产生算法也是一个问题,不过目前已经有不少这样的算法。

本分类目前不含有任何页面或媒体文件。