KnowledgeGraph – 实体消歧, 实体对齐

实体消歧与实体对齐有什么区别与联系是:

实体消歧(也称语义消歧)是专门用于解决同名实体产生歧义问题的技术。在实际的 语言环境中,经常会遇到某个实体名称对应于多个命名实体对象的问题, 需要通过实体消歧来明确名称指代的具体实体.

实体(Entity)是指客观存在并可相互区别的事物,包括具体的人、事、物、抽象的概念或联系,知识库中包含多种类别的实体。
实体对齐(Entity Alignment)也被称作实体匹配(Entity Matching),是指对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体。是指多个异构数据源和实体,多源数据源的融合。
实体消歧: 是用于解决同个实体名称在不同语句不同意义的问题。

实体消歧问题是当下比较热点的研究问题,国内外的大多熟研究从两个角度解决实体歧义造成的影响,分别是通过寻求更高质量的特征和引入外部资源辅助消解。

在特征选取方面,何正焱[2]利用DNN(深度神经网络)方法,提出了一种文档和实体的相似度为框架的消歧模型;姜丽丽[3]提出了一种基于带权图结构的框架来实现人物实体的消歧工作,并使用实体标签对每个人物实体进行标注;Bagga和Baldwin[4]将不同文档间上下文的相似度作为特征实现实体消歧的;R.Bekkerman和A.McCallum[5]则结合了社交网络的链接信息和聚类两种非监督的框架对社交网络中的人物实体进行消歧。

给定的文档集中所包含的被査询人的信息往往是非常有限的,因此网络公共资源经常被用来挖掘更多的信息以提高同名消歧质量。其中,中科院的韩先培[6]使用了在线知识库信息来辅助解决实体歧义的,D.Bollegara[7]通过来对Web搜索引擎中的同名人物实体进行消歧;R.Bunescu[8]尝试使用在线百科全书(Wikipedia)的部分锚文本信息来扩充文档集,从而完成信息检测和同名消歧的任务。这些方法能够非常出色的完成实体消歧的任务,但是由于其需要花费大量的时间进行在线信息采集,因此更适合于服务器端的应用。

现在阶段的实体消歧研究集中在通用文本上,而专利文本上的实体,又与通用文本中的实体有本质的区别。因此,本文需要充分利用专利文本及专利实体的特点,并在通用的实体消歧方法的基础上进行优化。

https://wenku.baidu.com/view/299fbb117e21af45b207a857.html

一种用于专利实体的实体消歧方法

http://blog.csdn.net/caiyuanyuan_bjtu/article/details/40710311

ACL主席Gertjan van Noord等欧洲NLP科学家近日编撰了一篇非常棒的报告,汇总了大量的实体识别与消歧,词义消歧数据集,工具集

https://wenku.baidu.com/view/71afa8aecaaedd3383c4d3f3.html

浅析电子商务商品归一化方法

https://my.oschina.net/u/856502/blog/534670

知识图谱——数据实体化的手段 刘知远


实体(Entity)是指客观存在并可相互区别的事物,包括具体的人、事、物、抽象的概念或联系,知识库中包含多种类别的实体。实体对齐(Entity Alignment)也被称作实体匹配(Entity Matching),是指对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体。随着中文网络百科的不断完善,可以从网络百科页面抽取出实体,并对不同来源的实体进行对齐,构建高质量的中文异构百科RDF知识库。百度百科与互动百科所包含的实体信息覆盖面广,更新及时,因此,如何从网络百科数据中抽取出实体信息并进行实体对齐,是构建中文RDF知识库的关键问题。实体对齐常用的方法是利用实体的属性信息判定不同源实体是否可进行对齐,由于网络百科数据属于用户原创内容(User Generated Content,UGC)类型,不同用户编辑的数据质量参差不齐,仅通过用户编辑的实体属性信息难以准确判定是否为同一实体。

可以采用多种方法结合的方式:即分层使用。第一步,先用一种方法对齐,设定上界和下界。达到上界的就是。低于下界的就不是。在下界和上界之间的就递进的采取下一种方法进一步判断。

参考论文中文异构百科知识库实体对齐

知识库实体对齐技术综述

基于网络语义标签的多源知识库实体对齐算法

中科院电子所专利: 面向知识图谱构建的细粒度中文属性对齐方法   旨在识别来自单一或多个数据源的属性之间存在的对应关系,例如,识别“生日”和“出生日期”之间的同义关系。

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据