|
|
记录3国18种语言,科学家欲改变AI模型忽视非洲语言现状 |
|
在人工智能(AI)时代,非洲有2000多种语言正在被忽视。例如,ChatGPT只能识别10%~20%的豪萨语句子,而豪萨语是尼日利亚9400万人使用的语言。由于缺乏训练数据,这些语言在大型语言模型(LLM)中代表性不足。现在,非洲各地的研究人员正在改变这一状况。
在尼日利亚北部卡诺市,一名店主在市场上出售豪萨语DVD。图片来源:Ben Curtis/AP Photo via Alamy
?
据《自然》报道,“非洲下一个声音”(African Next Voices)项目的研究人员录制了人们说不同非洲语言的音频,时长为9000小时,并将这些录音转化为数字化的语言数据集。本月他们发布了首批数据,这些数据来自迄今规模最大的针对多种非洲语言的AI语言数据集创建计划。
这些数据将开放获取,供开发者将其整合到LLM中,例如那些用于语音转文本或提供自动语言翻译的模型。
“看到它将为这些特定语言的建模带来改进,以及帮助整个致力于非洲语言的技术社区,我感到非常兴奋。”尼日利亚非营利组织“数据科学尼日利亚”(Data Science Nigeria)的首席技术官Ife Adebara说。
“本地语言在AI模型中的代表性不足,仍是推广最有前景的AI工具的一个关键挑战。”美国盖茨基金会的数字公共基础设施主管Sanjay Jain表示。盖茨基金会为这个项目提供了220万美元的资助。
“非洲下一个声音”项目涉及记录南非、肯尼亚和尼日利亚这3个国家的18种语言。这些录音随后由工作人员转录和翻译,并经审查和质量检查。
肯尼亚马塞诺大学的计算语言学家、该项目的肯尼亚负责人Lilian Wanzare介绍,研究人员向来自不同社区的人展示图片,并要求他们描述看到的内容。她说,重点是生成日常语言数据库。“我们正大力推动本地化数据集,因为其影响力在于捕捉人们在本地环境中的真实情况。” Wanzare解释说。
Jain表示,虽然每个国家的主要研究人员为其数据集选择了主题领域,但项目需要把重点放在关键的发展部门,例如卫生、农业和教育。
该项目的南非负责人、比勒陀利亚大学的计算机科学家Vukosi Marivate表示,他的团队正在与一个组织联盟合作,利用这些数据创建AI语言模型。他希望科技企业能够在此基础上对这些模型进行改进。
只要用户注明出处,该项目的成果将可商用。Jain表示,部分数据集已经可以获取,但其余所有18种语言的数据将于今年晚些时候发布。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。