万千气象看上海 | 上海人工智能实验室要做大模型技术的“度量衡” | 寻找中国经济新动能

通常来看,AI大模型在国内市场燃起的这把火,主要来自互联网大厂和科技创业公司两股力量,但实际上,还有一股力量来自能够连接产学研三界的研发机构,他们在这场前沿科技全球竞赛中的角色同样重要。

上海人工智能实验室正处于该行列中。该实验室是上海人工智能创新中心发起设立的新型研发机构,在2020年的世界人工智能大会上正式揭牌成立。

上海人工智能实验室的研究方向包含AI基础理论、AI开放平台、AI基础软件和基础硬件系统、AI应用、AI核心技术、AI伦理与政策等。除学术成果外,实验室已联合业界、学界发布多项技术产品,涉及大语言、多模态、城市实景三维等基础模型。

据界面新闻了解,目前该实验室已在大模型领域有了诸多技术进展。今年以来,上海人工智能实验室已发布书生·浦语2.0、新一代书生·视觉大模型、书生·天际2.0,其书生通用大模型体系全面迈向2.0时代。此外,由基础大模型衍生出的书生·浦语灵笔2.0和书生·浦语数学开始拓宽该领域技术的应用路径。

除了技术成果,上海人工智能实验室在大模型领域的另一突出价值,在于建立了大模型开源开放评测体系“司南”(OpenCompass2.0),包含评测榜单CompassRank、评测基准社区CompassHub、评测工具链体系CompassKit三个板块。

在大模型的混战中,行业曾出现大模型大肆刷榜、不同来源大模型评测榜单四起的乱象,外界一时对各大榜单的公信力产生质疑,陷入无从分辨大模型真实水平的困境。

界面新闻此前曾报道,有多位行业人士表示,未来更看好OpenCompass、FlagEval等具有一定学术背景的评测机构模式,并有头部大模型公司创业者以OpenCompass为准,评判各个大模型的性能表现。

对于如何看待大模型刷榜乱象,又如何有策略地构建评测榜单的技术公信力一事,该实验室相关负责人表示,评测是大模型技术进步的“度量衡”。如果一些大模型沉迷于刷榜、跑分,通过“题海战术”提高大模型评测成绩,对于模型性能的反映可能失真,影响模型研发团队的改进方向,“高分低能”伤害的是机构本身。

在具体做法上,OpenCompass的评测维度包括基础能力和综合能力两个层级,涵盖了语言、知识、理解、数学、代码、长文本、智能体等12个一级能力维度,综合设计了50余个二级能力维度。其能力维度设计具备可扩展性和增长性,同时可根据未来的大模型应用场景进行动态更新和迭代。

为了能向参与评测的机构提供更真实的大模型性能表现,OpenCompass借鉴了高考提前公布“考试大纲”而不公布考题的策略,在每一期榜单发布前,公开上一期的评测题目,既让参与评测的机构有方向可循,也避免了直接刷题情况的产生。

与此同时,OpenCompass在题目构建上也进行了前沿探索。研究人员在评测题目构建中投入了巨大的研发力度,使评测题集保持创新状态,尽量无法在互联网中搜索到原题。创新构造题目的策略和整套的系统,同样为大模型评测技术的核心环节之一。

此外,上海人工智能实验室相关负责人强调,CompassRank作为榜单的承载平台,将不受任何商业利益干扰,保持中立性。

为继续提升大模型评测榜单的公信力和扩大可评测范畴,目前,OpenCompass已与多家产业机构共同推出了多个垂直领域的评测基准和数据集,涉及法律、金融、医疗、网络安全等领域。OpenCompass还将通过司南大模型评测伙伴计划,与各行业头部企业机构一起,构建各类高质量的行业评测基准。

未经允许不得转载:中国新闻网 » 万千气象看上海 | 上海人工智能实验室要做大模型技术的“度量衡” | 寻找中国经济新动能