论文笔记:Machine Reading with Background Knowledge

作者:Ndapandula Nakashole,Ndapandula Nakashole
单位:CMU
索引:http://arxiv.org/abs/1612.05348

动机

  1. 许多machine reading的工作只基于被阅读的文本信息进行处理。但是许多文本是很难被单独理解的,理解它们往往需要背景知识的支持,因此本文利用背景知识来辅助语言理解。
  2. 通过人工方法来累积知识并不可靠。
  3. 多年的知识库研究积累了很多现实世界实体,其中蕴含大量的背景知识。

贡献

本文做了三点研究:

  1. Knowledge-Aware Machine Reading
  2. Prepositional Phrase Attachment
  3. Compound Noun Analysis

方法

本文提出了两个利用背景知识的句子层级的机器阅读方法。

利用背景知识消除基于介词的歧义

在英文中,介词提供了很强烈的信息(in, at, for -> where, when, why),但是这些介词同时也带来了明显的歧义。文章举了个例子:

She caught the butterfly with the spots.

Seh caught the butterfly with the net.

第一句话中的with修饰的是butterfly,而第二句话修饰的是caught,而要分辨出两者的区别需要知道背景知识:蝴蝶有斑点;网可以用来抓蝴蝶。第一个方法主要针对这一点,采用半监督的机器学习算法从标注和无标注数据中学习,最终超过了斯坦福词法标注器(Stanford syntatic parser)。

利用背景知识提取复合名词的关系

复合名词指的就是名词短语,可能由多个形容词和名词构成。这样的一个复合名词可能就蕴含了很多信息,比如“pro-choice Democratic gubernatorial candidate James Florio”。传统的基于词共现(co-occurrences)的方法存在一个弊端:复合名词内的词语表达方式很多遍,难以用共现来提取关系。因此第二个方法次用知识的方法从复合名词中准确地提取词的关系。