作者:Ndapandula Nakashole,Ndapandula Nakashole
单位:CMU
索引:http://arxiv.org/abs/1612.05348
动机
- 许多machine reading的工作只基于被阅读的文本信息进行处理。但是许多文本是很难被单独理解的,理解它们往往需要背景知识的支持,因此本文利用背景知识来辅助语言理解。
- 通过人工方法来累积知识并不可靠。
- 多年的知识库研究积累了很多现实世界实体,其中蕴含大量的背景知识。
贡献
本文做了三点研究:
- Knowledge-Aware Machine Reading
- Prepositional Phrase Attachment
- Compound Noun Analysis
方法
本文提出了两个利用背景知识的句子层级的机器阅读方法。
利用背景知识消除基于介词的歧义
在英文中,介词提供了很强烈的信息(in, at, for -> where, when, why),但是这些介词同时也带来了明显的歧义。文章举了个例子:
She caught the butterfly with the spots.
Seh caught the butterfly with the net.
第一句话中的with修饰的是butterfly,而第二句话修饰的是caught,而要分辨出两者的区别需要知道背景知识:蝴蝶有斑点;网可以用来抓蝴蝶。第一个方法主要针对这一点,采用半监督的机器学习算法从标注和无标注数据中学习,最终超过了斯坦福词法标注器(Stanford syntatic parser)。
利用背景知识提取复合名词的关系
复合名词指的就是名词短语,可能由多个形容词和名词构成。这样的一个复合名词可能就蕴含了很多信息,比如“pro-choice Democratic gubernatorial candidate James Florio”。传统的基于词共现(co-occurrences)的方法存在一个弊端:复合名词内的词语表达方式很多遍,难以用共现来提取关系。因此第二个方法次用知识的方法从复合名词中准确地提取词的关系。