论文笔记：Machine Reading with Background Knowledge

作者：Ndapandula Nakashole，Ndapandula Nakashole
单位：CMU
索引：http://arxiv.org/abs/1612.05348

动机

许多machine reading的工作只基于被阅读的文本信息进行处理。但是许多文本是很难被单独理解的，理解它们往往需要背景知识的支持，因此本文利用背景知识来辅助语言理解。
通过人工方法来累积知识并不可靠。
多年的知识库研究积累了很多现实世界实体，其中蕴含大量的背景知识。

贡献

本文做了三点研究：

Knowledge-Aware Machine Reading
Prepositional Phrase Attachment
Compound Noun Analysis

方法

本文提出了两个利用背景知识的句子层级的机器阅读方法。

利用背景知识消除基于介词的歧义

在英文中，介词提供了很强烈的信息（in, at, for -> where, when, why），但是这些介词同时也带来了明显的歧义。文章举了个例子:

She caught the butterfly with the spots.

Seh caught the butterfly with the net.

第一句话中的with修饰的是butterfly，而第二句话修饰的是caught，而要分辨出两者的区别需要知道背景知识：蝴蝶有斑点；网可以用来抓蝴蝶。第一个方法主要针对这一点，采用半监督的机器学习算法从标注和无标注数据中学习，最终超过了斯坦福词法标注器(Stanford syntatic parser)。

利用背景知识提取复合名词的关系

复合名词指的就是名词短语，可能由多个形容词和名词构成。这样的一个复合名词可能就蕴含了很多信息，比如“pro-choice Democratic gubernatorial candidate James Florio”。传统的基于词共现(co-occurrences)的方法存在一个弊端：复合名词内的词语表达方式很多遍，难以用共现来提取关系。因此第二个方法次用知识的方法从复合名词中准确地提取词的关系。