“复旦·眸思”助力视障者“看见”世界—新闻

作者：江庆龄来源：复旦大学发布时间：2024/3/3 10:12:32

选择字号：小中大

“复旦·眸思”助力视障者“看见”世界

日前，基于多模态大模型“复旦·眸思”（MouSi），复旦大学自然语言处理实验室（FudanNLP）为视障者量身打造的“听见世界”APP上线，将成为视障人士的生活助手与智能管家。

“眸思”与复旦自然语言处理实验室开发的MOSS同音，但和基于文本的MOSS不同，它能够理解并识别图片内容，致力于成为视障者的一双“眸”。

团队从基于GPT3.5的文本模型转向围绕GPT4-v复现多模态大模型，对模型中的核心关键点开展研究，致力于提升单项任务的准确率和大模型的强化学习。在基于几亿张图片训练出的“眸思”大模型基础上，针对视障者提出的各类需求，团队使用上万张图片进行特殊样本训练，使“眸思”具备能够适配更多场景的能力。

据了解，基于“眸思”的“听见世界”APP针对视障者日常生活需求，设计了3种模式：街道行走模式，“眸思”可以细致扫描道路情况并提示潜在风险，陪伴视障者安全通行；自由问答模式，不论是博物馆、艺术馆，还是公园，“眸思”能够捕捉四周景象的每个细节，用声音构建丰富的生活场景。

预计今年3月，“听见世界”APP将完成第一轮测试，在我国一、二线城市和地区同步开启试点，根据算力部署情况进行推广。更多模式也正在开发中，比如阅读模式，服务盲人朋友点菜、读书等场景，解说模式，承担无障碍电影解说员的工作。

图片均来源于计算机科学技术学院

今年上半年，团队将结合AR升级APP内的定位精度细化至亚米级别；下半年，团队希望将“眸思”升级到基于视频的判断。复旦大学自然语言实验室教授张奇表示：“人工智能发展日新月异，科技应该要改变更多人的生活，希望‘眸思’能够帮助视障人士走出家门，让他们可以尝试更多工作，为人生书写更多可能。”

编辑部推荐博文
基金本子“瘦身提质”，配图不要踩这3种坑！祝贺！科学网2025年度十佳博文评选活动结果揭晓 Scilit年度回顾——2025我们为开放科学做了什么？抗阻训练预防糖尿病确实更有效投稿总被拒？5步精准锁定期刊，告别盲目投递！ 50年前走进大凉山的“熊猫一调” 更多>>