CN104965821B      一种数据标注方法及装置

失效
未缴年费

申请日:2015.07.17

IPC分类号:G06F17/27

公开日:20180105

申请人:苏州大学张家港工业技术研究院

发明人:李正华;张民;陈文亮;巢佳媛

专利详情
PDF
发明名称

一种数据标注方法及装置

技术领域

句法分析技术领域

技术问题

目前的句法分析采用完全标注方式,其需要标注者仔细检查整棵依存句法树,操作非常复杂,导致标注过程枯燥而困难。更关键的是整棵依存句法树的标注者之间的一致性非常低,当同一句子由两位标注者给出了不同的句法树,第三个参与的标注者则需要对比两者的不同并决定最后的标注结果,因此完全标注方法若想保证标注结果准确度较高则需要耗费大量工作。

技术方案

一种数据标注方法及装置,通过已有的标注数据训练第一句法分析器,其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系;基于所述第一句法分析器自动分析当前待分析句子中未标注的词,从未标注的词中选取出最有歧义的词,对所选取出的最有歧义的词的依存关系进行人工标注,得到部分标注的待分析句子。即本发明实施提供的上述技术方案是一种基于部分标注的数据标注方法,其相对于现有完全标注方法来说降低工作量,并且发明人通过实验证明,对同等数量的待分析句子进行标注。

技术效果

在保证标注结果准确度的情况下,降低了标注工作量。

著录项目

申请号:CN201510422815.3

公开(公告)号:CN104965821B

申请日:2015.07.17

公开(公告)日:20180105

优先权:

同族:中国

同族引用文献:2

同族施引专利:7

相关人

申请人:苏州大学张家港工业技术研究院

申请人地址:215600 江苏省苏州市张家港市长泾路10号

权利人:苏州大学

权利人地址:215123 江苏省苏州市相城区济学路8号

发明人:李正华;张民;陈文亮;巢佳媛

代理机构:北京集佳知识产权代理有限公司

代理人:常亮

权利要求
    1.一种数据标注方法,其特征在于,所述方法包括: 通过已有的标注数据训练第一句法分析器,其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系; 基于所述第一句法分析器自动分析当前待分析句子中未标注的词,从所述未标注的词中选取出最有歧义的词,其中所述最有歧义的词,是指依存关系的标注难度大于同一所述待分析句子中其他词的依存关系的标注难度的词; 对所选取出的最有歧义的词的依存关系进行标注,得到部分标注的待分析句子,其中选取出的最有歧义的词添加至所述已有的标注数据中来训练第二句法分析器,所述第二句法分析器替换所述第一句法分析器,用于分析下一个待分析句子中未标注的词。 5.一种数据标注装置,其特征在于,所述装置包括: 训练单元,用于通过已有的标注数据训练第一句法分析器,其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系; 分析单元,用于基于所述第一句法分析器自动分析当前待分析句子中未标注的词,从所述未标注的词中选取出最有歧义的词,其中所述最有歧义的词,是指依存关系的标注难度大于同一所述待分析句子中其他词的依存关系的标注难度的词; 标注单元,用于对所选取出的最有歧义的词的依存关系进行标注,得到部分标注的待分析句子,其中选取出的最有歧义的词添加至所述已有的标注数据中来训练第二句法分析器,所述第二句法分析器替换所述第一句法分析器,用于分析下一个待分析句子中未标注的词。
法律信息概述
失效
未缴年费
2024.07.12
失效
2018.01.05
授权
2015.10.07
申请局首次公开
2015.07.17
授权