中文分词和词性标注：为拓展工业场景应用夯基—新闻

作者：郑金武来源：中国科学报发布时间：2020/7/9 23:10:31

选择字号：小中大

中文分词和词性标注：为拓展工业场景应用夯基

“部分居民生活水平”这样简单的中文短语，人类理解起来没有丝毫困难。但把这一短语交给机器，是理解成“部分/居民/生活/水平”，还是“部/分居/民生/活水/平”，却着实是个问题。

在7月5日-10日举行的自然语言处理（NLP）领域顶级学术会议 ACL 2020上，来自创新工场大湾区人工智能研究院的两篇入选论文，正是针对中文自然语言处理的类似问题，各自提出了“键-值记忆神经网络的中文分词模型”和“基于双通道注意力机制的分词及词性标注模型”，将外部知识（信息）创造性融入分词及词性标注模型，有效剔除了分词“噪音”误导，大幅度提升了分词及词性标注效果。

“中文的分词和词性标注是自然语言处理的基本任务，对于后续的应用和任务处理非常重要。”两篇论文的作者之一、创新工场大湾区人工智能研究院执行院长宋彦告诉《中国科学报》，对于文本分类、情感分析、文本摘要、机器翻译等，分词和词性标注是不可或缺的基本“元件”。

记忆神经网络刷新中文分词新高度

宋彦介绍，在工业场景中，对中文的分词和词性标注有非常直接的诉求，但当前没有比较好的一体化解决方案，而且中文分词普遍存在歧义和未登录词的难题。

中文分词目的是在中文语句的字序列中插入分隔符，将其切分为词。例如，“我喜欢音乐”，在机器中将被切分为“我/喜欢/音乐”。

然而，中文语言因其特殊性，在分词时面临着两个主要难点。一是歧义问题，一是未登录词问题。

“由于中文存在大量歧义，一般的分词工具在切分句子时可能会出错。”宋彦说。例如机器对前文“部分居民生活水平”的理解；再如“他从小学电脑”，正确的分词是“他/从小/学/电脑”，但在机器里会划分出“小学”这种歧义词。

未登录词指的是不在词表，或者是模型在训练的过程中没有遇见过的词，例如经济、医疗、科技等领域的专业术语或者社交媒体上的新词，或者是人名。“这类问题在跨领域分词任务中尤其明显。”宋彦表示。

在论文中，宋彦等人提出了“基于键-值记忆神经网络的中文分词模型”。该模型利用“n元组”提供的每个字的构词能力，通过加（降）权重实现特定语境下的歧义消解，并通过非监督方法构建词表，实现对特定领域的未标注文本的利用，进而提升对未登录词的识别。

在“部分居民生活水平”这句话中，该模型通过神经网络，学习哪些词对于最后完整表达句意的帮助更大，进而分配不同的权重。像“部分”、“居民”、“生活”、“水平”这些词都会被突出，但“分居”、“民生”这些词会被降权处理，从而预测出正确的结果。

为了检验该模型的分词效果，论文进行了严格的标准实验和跨领域实验。实验结果显示，该模型在5个数据集上均达了最好的成绩。

“双通道注意力机制”有效剔除“噪音”误导

宋彦指出，中文分词和词性标注是两个不同的任务。词性标注是在已经切分好的文本中，给每一个词标注其所属的词类，例如动词、名词、代词、形容词。词性标注对后续的句子理解有重要的作用。

在词性标注中，歧义仍然是个老大难的问题。在以往的标注工作中，使用外部自动工具获取句法知识是主流方法。在这种情况下，如果模型不能识别并正确处理带有“杂音”的句法知识，很可能会被不准确的句法知识误导，做出错误的预测。

针对这一问题，宋彦等人在论文中提出了一个“基于双通道注意力机制的分词及词性标注模型”。该模型将中文分词和词性标注视作联合任务，可一体化完成。

模型分别对自动获取的上下文特征和句法知识加权，预测每个字的分词和词性标签，不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权，从而识别特定语境下不同上下文特征和句法知识的贡献。

例如对“他马上功夫很好”这句话，该模型通过识别该句话的语境和上下文特征，对“马上”二字进行分开识别成“马/上”，而不是识别成“马上”。

“这样一来，那些不准确的、对模型预测贡献小的上下文特征和句法知识就能被识别出来，并被分配小的权重，从而避免模型被这些有‘噪音’的信息误导。”宋彦说。

该模型在5个数据集的表现也都超过前人的工作，得到了较好的效果。

推动中文分词和词性标注技术开源

据了解，中文分词在中国科研领域已经有几十年的历史。最初的中文分词是基于词典构建，词典的好坏会直接影响到最后分析的效果。如果某个新词在词典里没有，那么模型是死活都分不出来的。

“这意味着，词典和分词两件事情中间始终有一条鸿沟，尽管词典可以编撰得非常全面，但在分词的时候，因为每一句话都有上下文语境，往往会产生多种不同的切分方法，从而无法有效地在当前语境下对分词结构进行恰当的指导。”宋彦说。

从2003年开始，分词方法出现了新的突破。研究人员提出了打标签的方式，通过给每一个字打词首、词尾、词中的标签，不再需要构建词典，大幅度提升了未登录词的机器理解效果。

2014年左右，深度学习和神经网络开始被广泛应用到中文分词中，打标签的模型从之前的浅层学习变成了深度学习，但算法本质没有发生变化，所以提升作用并不太大。

近两年，学界开始研究怎么在打标签的过程中加入外部知识和信息。“我们的两篇文章就是沿着这个路径，用记忆神经网络的方式记录对分词结果有影响的n元组，并引入对词性标注有影响的句法知识，将分词结果和自动获得的知识衔接起来，既发挥了神经网络的优势，也把知识的优势用上，实现了分词技术上小而有效的改进和突破。”宋彦说。

宋彦表示，做此项研究的目的是主要为了拓展其工业场景的应用，正确的分词能够平衡应用开发的效率和性能，同时方便人工干预及（预）后处理。

而这也是创新工场人工智能工程院的努力方向之一。据悉，创新工场AI工程院成立于2016年，旨在衔接科技创新和行业赋能，做嫁接科研和产业应用的桥梁，为行业改造业务流程、提升业务效率。

AI工程院下设北京总部、南京研究院和大湾区研究院。在大湾区研究院，下设信息感知和理解实验室，专注于对自然语言处理（NLP）领域的研究。宋彦本人也有超过15年的NLP领域的科研经验。

目前，这两篇论文的分词和词性标注工具都已经开源，对应的代码和模型向公众开放，以方便学者提升相关领域科研效率和场景应用。

相关论文信息：https://www.aclweb.org/anthology/2020.acl-main.734/

https://www.aclweb.org/anthology/2020.acl-main.735/

编辑部推荐博文
国自然基金，这项优化让你的申请书更“吸睛”！科学网2026年1月十佳博文榜单公布！热带医学JCR 1区期刊，新的一年期待你的来稿北京理工大学吴锋院士团队获新进展从南京丰年虫到鸡胚卵黄颗粒的故事关注大学教师心理健康更多>>