|
|
合合信息大模型“加速器”亮相2024世界人工智能大会 |
|
7月4日至7日,2024世界人工智能大会在上海开幕。合合信息在大会上展示了其大模型“加速器”解决方案。据了解,在大模型训练的上游阶段,“加速器”中的文档解析引擎将助力大模型突破在书籍、论文、研报等文档中的版面解析障碍,从源头为模型训练与应用输送纯净的“燃料”,助力大模型跑得更快;“加速器”还加载了行业领先的acge文本向量化模型,助力大模型解决“已读乱回”的“幻觉”问题。
合合信息展台。合合信息供图 ?
如果将大模型比喻为正在疾驰的科技列车,语料便是珍贵的“燃料”。对于中国的大模型企业而言,语料短缺问题更为严峻。当前大模型数据集主要为英文,中文语料占比较低;无线表、跨页表格、复杂公式等元素的处理仍是大模型语料处理中的另一个“拦路虎”。
文档解析技术是支撑大模型语料训练的关键技术之一,合合信息的文档解析引擎具备强大的“动能”,最快1.5秒可解析百页长文档中的文本、表格、图像等非结构化数据,也是当前市面上同类文档解析引擎中处理速度最快的产品之一;同时,引擎还具备优秀的文档“理解力”,可智能还原文档阅读顺序,加速了模型在预训练、开发、使用落地等多方面的流程。
金融报表、行业报告等高知识密度的文档中,表格的含义是最精华的数据指标。失之毫厘差之千里,一个单元格的理解问题,可能导致整个表格的识别结果产生误差,所以表格的还原准确率,直接影响着模型问答的效果。在现场,参观者可选择物理、医学、金融、社会学等多个知识领域的文档,向大模型提问专业问题,例如对特定表格内容的总结、关键要素的分析等。对比测试结果显示,加载了文档解析引擎的大模型,在回答问题的速度、准确度上更胜一筹。
在文档解析范畴中,针对图表类素材的识别、内容理解是多数大模型亟待解决的障碍,合合信息大模型“加速器”则打通了这一堵点——引擎能够深度“洞察”图表内容,对研报、论文等文档中的柱状图、折线图、饼图、雷达图等十余种常见图表进行“还原”,巧妙转化大模型能够理解的markdown格式,使数据和图表的价值潜能充分释放。
在文档解析引擎的帮助下,大模型可以直接获取图表原始的结构化数据,高效地学习理解商业研报和学术论文等专业文档中的论证逻辑,提升语言理解、数据处理、知识推理分析的效率和准确性,满足更高价值的金融和学术等应用场景的需要。
在实际应用场景中,图表的呈现形式多样。受美术排版、内容风格影响,部分图表除坐标系区间外,不会显示具体的节点数值,给大模型的“认知”工作带来了困扰。值得关注的是,合合信息文档解析引擎已经能够做到在图表不显示具体数值的情况下,仅依据坐标轴区间估算具体数值,实现了行业级突破。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。