CN103617280B 一种中文事件信息挖掘方法和系统
申请日:2013.12.09
IPC分类号:G06F17/30
公开日:20170125
申请人:苏州大学
发明人:李培峰;周国栋;朱巧明;孔芳
一种中文事件信息挖掘方法和系统
数据挖掘领域。
如何解决事件挖掘成本高的问题。
一种中文事件信息挖掘方法和系统,该方法基于挖掘需求,定义事件样本模型,实例化事件样本模型,得到种子事件,该种子事件作为从原始文本中挖掘事件的依据。对原始文本进行预处理,得到候选模板集合;并对种子事件进行信息标注,基于标注信息对种子事件进行处理,得到种子模板集合。之后采用迭代方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对候选模板集合进行处理,得到挖掘事件锚集合,并依据该集合中每个挖掘事件锚和种子事件集合中任一种子事件锚的词汇语义相似度,获取挖掘事件锚对应的事件类型。
只需标注种子事件即可实现从原始文本中挖掘中文事件信息的目的,降低了挖掘成本。
申请号:CN201310664718.6
公开(公告)号:CN103617280B
申请日:2013.12.09
公开(公告)日:20170125
优先权:
同族:中国
同族引用文献:3
同族施引专利:22
申请人:苏州大学
申请人地址:215123 江苏省苏州市工业园区仁爱路199号
权利人:苏州大数据有限公司$苏州大数据交易服务有限公司$苏州大数据研究院有限公司
权利人地址:215000 江苏省苏州市姑苏区人民路3118号国发大厦北楼7楼
发明人:李培峰;周国栋;朱巧明;孔芳
代理机构:北京集佳知识产权代理有限公司
代理人:常亮
-
1.一种中文事件信息挖掘方法,其特征在于,包括:
对原始文本的每个文档中的句子进行分析、处理,得到原始文本的候选模板集合,所述候选模板集合包括至少一个候选模板,所述候选模板包括由所述句子的候选事件锚、所述句子的实体、所述候选事件锚到所述实体的句法路径和所述候选事件锚到所述实体的依存路径构成的四元组;
定义需要从所述原始文本中挖掘事件的X种事件样本模型,所述定义的事件样本模型包括事件类型、事件角色和事件角色对应实体的实体类型,不同事件样本模型的事件类型不同,所述X为不小于1的自然数;
对每种事件类型的事件样本模型依次进行实例化处理和信息标注处理,得到所述事件样本模型对应的携带有标注信息的种子事件,各事件样本模型对应的种子事件构成种子事件集合,所述标注信息包括种子事件锚、各个种子事件角色对应的实体及其实体类型;
依据相应的标注信息,对所述种子事件集合中的每个种子事件进行分析、处理,得到所述种子事件集合对应的种子模板集合,所述种子模板集合包括至少一个种子模板,所述种子模板包括由所述种子事件的种子事件锚、所述种子事件的实体、所述种子事件锚到所述实体的句法路径和所述种子事件锚到所述实体的依存路径构成的四元组;
基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合,所述挖掘事件锚集合包括至少一个挖掘事件锚;
依据所述挖掘事件锚集合中每个挖掘事件锚和所述种子事件集合中的任一种子事件锚的词汇语义相似度,获取所述挖掘事件锚所对应的事件类型。
7.一种中文事件信息挖掘系统,其特征在于,包括原始文本分析模块、定义模块、处理模块、种子事件分析模块、事件锚获取模块和事件类型获取模块,其中:
所述原始文本分析模块,用于对原始文本的每个文档中的句子进行分析、处理,得到原始文本的候选模板集合,所述候选模板集合包括至少一个候选模板,所述候选模板包括由所述句子的候选事件锚、所述句子的实体、所述候选事件锚到所述实体的句法路径和所述候选事件锚到所述实体的依存路径构成的四元组;
所述定义模块,用于定义需要从所述原始文本中挖掘事件的N种事件样本模型,所述定义的事件样本模型包括事件类型、事件角色和事件角色对应实体的实体类型,不同事件样本模型的事件类型不同,所述N为不小于1的自然数;
所述处理模块,用于对每种事件类型的事件样本模型依次进行实例化处理和信息标注处理,得到所述事件样本模型对应的携带有标注信息的种子事件,各事件样本模型对应的种子事件构成种子事件集合,所述标注信息包括种子事件锚、各个种子事件角色对应的实体及其实体类型;
所述种子事件分析模块,用于依据相应的标注信息,对所述种子事件集合中的每个种子事件进行分析、处理,得到所述种子事件集合对应的种子模板集合,所述种子模板集合包括至少一个种子模板,所述种子模板包括由所述种子事件的种子事件锚、所述种子事件的实体、所述种子事件锚到所述实体的句法路径和所述种子事件锚到所述实体的依存路径构成的四元组;
所述事件锚获取模块,用于基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合,所述挖掘事件锚集合包括至少一个挖掘事件锚;
所述事件类型获取模块,用于依据所述挖掘事件锚集合中每个挖掘事件锚和所述种子事件集合中的任一种子事件锚的词汇语义相似度,获取所述挖掘事件锚所对应的事件类型。

宝贵建议
15501385867
contact@hugoip.com
更新日志