CN104965821B 一种数据标注方法及装置
申请日:2015.07.17
IPC分类号:G06F17/27
公开日:20180105
申请人:苏州大学张家港工业技术研究院
发明人:李正华;张民;陈文亮;巢佳媛
一种数据标注方法及装置
句法分析技术领域
目前的句法分析采用完全标注方式,其需要标注者仔细检查整棵依存句法树,操作非常复杂,导致标注过程枯燥而困难。更关键的是整棵依存句法树的标注者之间的一致性非常低,当同一句子由两位标注者给出了不同的句法树,第三个参与的标注者则需要对比两者的不同并决定最后的标注结果,因此完全标注方法若想保证标注结果准确度较高则需要耗费大量工作。
一种数据标注方法及装置,通过已有的标注数据训练第一句法分析器,其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系;基于所述第一句法分析器自动分析当前待分析句子中未标注的词,从未标注的词中选取出最有歧义的词,对所选取出的最有歧义的词的依存关系进行人工标注,得到部分标注的待分析句子。即本发明实施提供的上述技术方案是一种基于部分标注的数据标注方法,其相对于现有完全标注方法来说降低工作量,并且发明人通过实验证明,对同等数量的待分析句子进行标注。
在保证标注结果准确度的情况下,降低了标注工作量。
申请号:CN201510422815.3
公开(公告)号:CN104965821B
申请日:2015.07.17
公开(公告)日:20180105
优先权:
同族:中国
同族引用文献:2
同族施引专利:7
申请人:苏州大学张家港工业技术研究院
申请人地址:215600 江苏省苏州市张家港市长泾路10号
权利人:苏州大学
权利人地址:215123 江苏省苏州市相城区济学路8号
发明人:李正华;张民;陈文亮;巢佳媛
代理机构:北京集佳知识产权代理有限公司
代理人:常亮
-
1.一种数据标注方法,其特征在于,所述方法包括:
通过已有的标注数据训练第一句法分析器,其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系;
基于所述第一句法分析器自动分析当前待分析句子中未标注的词,从所述未标注的词中选取出最有歧义的词,其中所述最有歧义的词,是指依存关系的标注难度大于同一所述待分析句子中其他词的依存关系的标注难度的词;
对所选取出的最有歧义的词的依存关系进行标注,得到部分标注的待分析句子,其中选取出的最有歧义的词添加至所述已有的标注数据中来训练第二句法分析器,所述第二句法分析器替换所述第一句法分析器,用于分析下一个待分析句子中未标注的词。
5.一种数据标注装置,其特征在于,所述装置包括:
训练单元,用于通过已有的标注数据训练第一句法分析器,其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系;
分析单元,用于基于所述第一句法分析器自动分析当前待分析句子中未标注的词,从所述未标注的词中选取出最有歧义的词,其中所述最有歧义的词,是指依存关系的标注难度大于同一所述待分析句子中其他词的依存关系的标注难度的词;
标注单元,用于对所选取出的最有歧义的词的依存关系进行标注,得到部分标注的待分析句子,其中选取出的最有歧义的词添加至所述已有的标注数据中来训练第二句法分析器,所述第二句法分析器替换所述第一句法分析器,用于分析下一个待分析句子中未标注的词。

宝贵建议
15501385867
contact@hugoip.com
更新日志