基于多粒度语义块的实体属性和属性值提取方法

作者:张春霞;彭飞;郭钰;王树良;刘振岩 刊名: 上传者:高乐智

【摘要】本发明涉及一种基于多粒度语义块的实体属性和属性值提取方法,属于Web挖掘和信息抽取技术领域;包括如下步骤:构建语料集并进行自由文本提取;对语料进行分词、词性标注以及短语识别;对语料进行语义角色标注;对语料进行依存句法分析;对语料进行语义依存分析;提取基于词语、短语和语义角色三种粒度的候选实体、属性及其属性值三元组;利用经训练的分类器对候选实体、属性和属性值三元组进行正确和错误分类。对比现有技术,本发明通过从自由文本中自动提取词语、短语和语义角色三种粒度的实体、属性和属性值,提高了实体的属性和属性值提取的准确性和效率,在主题检测、信息检索、自动文摘、问答系统等领域具有广阔的应用前景。

全文阅读

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201611241946.2 (22)申请日 2016.12.29 (71)申请人 北京理工大学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 张春霞 彭飞 郭钰 王树良 刘振岩  (74)专利代理机构 北京理工正阳知识产权代理事务所(普通合伙) 11639 代理人 毛燕 (51)Int.Cl. G06F 17/3 0 (2006.01) G06F 17/27 (2006.01) (54)发明名称 基于多粒度语义块的实体属性和属性值提取方法 (57)摘要 本发明涉及一种基于多粒度语义块的实体属性和属性值提取方法,属于Web挖掘和信息抽取技术领域;包括如下步骤:构建语料集并进行自由文本提取;对语料进行分词、词性标注以及短语识别;对语料进行语义角色标注;对语料进行依存句法分析;对语料进行语义依存分析;提取基于词语、短语和语义角色三种粒度的候选实体、属性及其属性值三元组;利用经训练的分类器对候选实体、属性和属性值三元组进行正确和错误分类。对比现有技术,本发明通过从自由文本中自动提取词语、短语和语义角色三种粒度的实体、属性和属性值,提高了实体的属性和属性值提取的准确性和效率,在主题检测、信息检索、自动文摘、问答系统等领域具有广阔的应用前景。 权利要求书3页 说明书10页 附图2页 CN 106777275 A 2017.05.31 CN 106777275 A 1.一种基于多粒度语义块的实体属性和属性值提取方法,其特征在于:包括以下步骤:步骤1,构建实体的属性和属性值提取语料集; 步骤2,对属性和属性值提取语料集中自由文本的句子进行分词、词性标注和短语识别;步骤3,对属性和属性值提取语料集中自由文本的句子进行语义角色标注;步骤4,对属性和属性值提取语料集中自由文本的句子进行依存句法分析;步骤5,对属性和属性值提取抽取语料集中自由文本的句子进行语义依存分析; 步骤6:根据句子的分词、词性标注和语义角色标注结果,提取以语义角色为粒度的候选实体、属性和属性值,获取候选实体、属性和属性值三元组; 步骤7:根据句子的分词、词性标注、短语识别和依存句法分析结果,提取以短语为粒度的候选实体、属性和属性值,获取候选实体、属性和属性值三元组; 步骤8:根据句子的分词、词性标注和语义依存分析结果,提取以词语为粒度的候选实体、属性和属性值,获取候选实体、属性和属性值三元组; 步骤9:利用经训练的分类器对由步骤6~步骤8获取的候选实体、属性和属性值三元组进行正确和错误分类以得到最终的实体属性和属性值提取结果。 2.根据权利要求1所述的一种基于多粒度语义块的实体属性和属性值提取方法,其特征在于:所述步骤6通过以下过程实现: 对于句子中的动词x1,若字符串y1为动词x1的表示主体的语义角色,则将字符串y1识别为候选实体,然后通过以下过程识别属性和属性值: 第一,若字符串z1为动词x1的表示客体的语义角色,则将字符串z1识别为候选属性值,将动词x1识别为候选属性,即得到候选实体、属性和属性值三元组(y1,x1,z1); 第二,若字符串z1为动词x1的除了主体和客体以外的语义角色s,则将字符串z1识别为候选属性值,候选属性为动词x1和语义角色s的组合,即得到候选实体、属性和属性值三元组(y1,x1+s,z1);所述s可能为时间、地点、程度、频率、方式、原因、条件、方向、扩展、主题、谓语动词、受益人、持有者、被持有、并列参数或附加标记语义角色,x1+s

参考文献

引证文献

问答

我要提问