创新工场两篇论文入选ACL2020 中文分词和词性标注新模型性能创新高
在词性标注中,歧义仍然是个老大难的问题。例如,对于“他要向全班同学报告书上的内容”中,“报告书”的正确的切分和标注应为“报告_VV/书_N”。但由于“报告书”本身也是一个常见词,一般的工具可能会将其标注为“报告书_NN”。 利用句法知识进行正确的词性标注 句法标注本身需要大量的时间和人力成本。在以往的标注工作中,使用外部自动工具获取句法知识是主流方法。在这种情况下,如果模型不能识别并正确处理带有杂音的句法知识,很可能会被不准确的句法知识误导,做出错误的预测。 例如,在句子“他马上功夫很好”中,“马”和“上”应该分开(正确的标注应为“马_NN/上_NN”)。但按照一般的句法知识,却可能得到不准确的切分及句法关系,如“马上”。 斯坦福大学的自动句法分析工具结果,分成了“马上” 针对这一问题,创新工场的论文提出了一个基于双通道注意力机制的分词及词性标注模型。 该模型将中文分词和词性标注视作联合任务,可一体化完成。模型分别对自动获取的上下文特征和句法知识加权,预测每个字的分词和词性标签,不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权,从而识别特定语境下不同上下文特征和句法知识的贡献。 这样一来,那些不准确的,对模型预测贡献小的上下文特征和句法知识就能被识别出来,并被分配小的权重,从而避免模型被这些有噪音的信息误导。 基于“双通道注意力机制”的分词及词性标注 即便在自动获取的句法知识不准确的时候,该模型仍能有效识别并利用这种知识。例如,将前文有歧义、句法知识不准确的句子(“他马上功夫很好”),输入该双通道注意力模型后,便得到了正确的分词和词性标注结果。 分词及词性标注实例 为了测试该模型的性能,论文在一般领域和跨领域分别进行了实验。 一般领域实验结果显示,该模型在5个数据集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表现(F值)均超过前人的工作,也大幅度超过了斯坦福大学的 CoreNLP 工具,和伯克利大学的句法分析器。 即使是在与CTB词性标注规范不同的UD数据集中,该模型依然能吸收不同标注带来的知识,并使用这种知识,得到更好的效果。 该模型在所有数据集上均超过了之前的工作
CTB5(CTB5是使用最多的中文分词和词性标注的数据集)结果 而在跨领域的实验中,和斯坦福大学的 CoreNLP 工具相比,该模型也有近10个百分点的提升。 跨领域分词实验(对话测试集)的结果 宋彦总结道,“从技术创新的角度,我们的贡献主要有两点。一是在现有技术的基础上,建立了一个一体化的模型框架,使用非监督方法构建词表,并把知识(信息)融入进来,使用更高层次的句法知识,来帮助词性标注,起到'他山之石,可以攻玉’的效果。二是主动吸收和分辨不同的外部知识(信息)。通过键-值记忆神经网络和双通道注意力机制,进行动态权重的分配,能够有效分辨知识,区分哪些是有效的,哪些是无效的。虽然这些知识是自动获取的、不准确的,但‘三个臭皮匠,顶个诸葛亮’,经过有效利用,总能凑出一些有用的信息。如何实现模型的主动吸收和分辨,就变得更加重要。” 一直以来,创新工场致力于衔接科技创新和行业赋能,做嫁接科研和产业应用的桥梁,为行业改造业务流程、提升业务效率。对中文分词技术的研究也是如此。 在宋彦看来,中文分词和词性标注是最底层的应用,对于接下来的应用和任务处理非常重要。例如对于文本分类、情感分析,文本摘要、机器翻译等,分词都是不可或缺的基本“元件”。 “在工业场景使用的时候,跨领域的模型能力是一个非常直接的诉求。”宋彦强调。 宋彦以搜索引擎的广告系统为例向TechWeb介绍,论文提及的新模型可以有效地实现广告在不同领域进行内容匹配的冷启动。“以现有模型,比方说在新闻领域学到的模型,如果碰到一个体育领域的广告,那么这个时候其中很多词会没办法正确切分出来。但是在使用我们的模型时候,在新领域进行广告内容推荐,可以讲新领域的知识和事先准备的关键词等,加入我们的模型,从而把目标文本中一些比较有效的关键词,通过更好的分词结果呈现出来,而这些关键词,可能会匹配到用户输入的一些词,或者说用户在特定的网页浏览背景下面他所碰到的一些内容。所以如果分词结果正确,就能够有效的把这两部分内的内容衔接,使得用户在搜索的时候,得到的广告内容跟搜索结果是匹配的。” 目前,这两篇论文的工具都已经开源。 分词工具: https://github.com/SVAIGBA/WMSeg 分词及词性标注工具: https://github.com/SVAIGBA/TwASP (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |