|
多个最新中文数据集首次首次公开 |
2022语言与智能技术竞赛正式启动 |
|
3月30日,聚焦自然语言处理(NLP)领域的2022语言与智能技术竞赛(以下简称 NLP竞赛)正式启动报名。为便利参赛者,竞赛将联手“千言”数据集开源项目,发布中文领域首个搜索知识对话数据集、首个面向实际应用场景的中文大规模段落检索数据集等多个重磅数据集。
本次竞赛覆盖跨模态、知识驱动、可信学习等人工智能的前沿课题,发布四大全新任务:段落检索——让机器从大规模语料库中找出相关段落,评估机器的语义检索及排序的能力;知识对话——让系统具备利用搜索引擎知识进行开放域对话交互的能力,提升对话的丰富性与知识准确性;情感分析可解释性——让情感分析模型更可解释,从合理性、忠诚性等维度评测模型的可解释性,进而推动构建更加可解释的模型;视频语义理解——让机器对视频进行内容分析与理解。这四大任务不仅覆盖NLP的前沿领域,也反映了真实应用的需求,具有很高的学术和产业价值。
参赛选手将有机会结合技术前沿课题和实际应用场景,进行技术突破和评测挑战,获胜队伍将分享总额超过20万元的奖金。
在自然语言处理领域,中文数据集开源数量少且分散。为推动中文NLP数据和技术的发展,本届NLP 竞赛联手“千言”开源数据集项目,首次公开多个最新中文数据集:来源于实际应用场景的大规模段落检索数据集DuReader_Retrival、领域开放的搜索知识对话数据集DuSINC、情感分析可解释数据集DuExplain、大规模视频语义理解数据集DuVUnderstanding。这些数据集将在本次评测期间,免费开放给参赛选手进行技术研究和探索。
据介绍,NLP 竞赛赛况激烈。2021 年,NLP竞赛参赛队伍报名超过3500支,其中高校队伍占比约50%,覆盖了清华大学、北京大学、复旦大学、中国人民大学、慕尼黑工业大学、早稻田大学、爱丁堡大学等300多所国内外高校;企业队伍占比约20%,覆盖了互联网、通讯、金融、能源、航空航天等多个领域,不乏腾讯、华为、阿里巴巴、字节跳动、国家电网、中国移动等知名企业参与。去年累计收到有效提交结果1万多次。
即日起,“2022语言与智能技术竞赛官网”开通,选手可通过官网报名。
NLP竞赛由中国中文信息学会和中国计算机学会联合主办,百度公司、中国中文信息学会评测工作委员会和中国计算机学会自然语言处理专委会承办,已连续举办4届,已成为全球热门的中文NLP赛事之一。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。