万千气象看上海 | 上海人工智能实验室要做大模型技术的“度量衡”

通常来看，AI大模型在国内市场燃起的这把火，主要来自互联网大厂和科技创业公司两股力量，但实际上，还有一股力量来自能够连接产学研三界的研发机构，他们在这场前沿科技全球竞赛中的角色同样重要。

上海人工智能实验室正处于该行列中。该实验室是上海人工智能创新中心发起设立的新型研发机构，在2020年的世界人工智能大会上正式揭牌成立。

上海人工智能实验室的研究方向包含AI基础理论、AI开放平台、AI基础软件和基础硬件系统、AI应用、AI核心技术、AI伦理与政策等。除学术成果外，实验室已联合业界、学界发布多项技术产品，涉及大语言、多模态、城市实景三维等基础模型。

据界面新闻了解，目前该实验室已在大模型领域有了诸多技术进展。今年以来，上海人工智能实验室已发布书生·浦语2.0、新一代书生·视觉大模型、书生·天际2.0，其书生通用大模型体系全面迈向2.0时代。此外，由基础大模型衍生出的书生·浦语灵笔2.0和书生·浦语数学开始拓宽该领域技术的应用路径。

除了技术成果，上海人工智能实验室在大模型领域的另一突出价值，在于建立了大模型开源开放评测体系“司南”（OpenCompass2.0），包含评测榜单CompassRank、评测基准社区CompassHub、评测工具链体系CompassKit三个板块。

在大模型的混战中，行业曾出现大模型大肆刷榜、不同来源大模型评测榜单四起的乱象，外界一时对各大榜单的公信力产生质疑，陷入无从分辨大模型真实水平的困境。

界面新闻此前曾报道，有多位行业人士表示，未来更看好OpenCompass、FlagEval等具有一定学术背景的评测机构模式，并有头部大模型公司创业者以OpenCompass为准，评判各个大模型的性能表现。

对于如何看待大模型刷榜乱象，又如何有策略地构建评测榜单的技术公信力一事，该实验室相关负责人表示，评测是大模型技术进步的“度量衡”。如果一些大模型沉迷于刷榜、跑分，通过“题海战术”提高大模型评测成绩，对于模型性能的反映可能失真，影响模型研发团队的改进方向，“高分低能”伤害的是机构本身。

在具体做法上，OpenCompass的评测维度包括基础能力和综合能力两个层级，涵盖了语言、知识、理解、数学、代码、长文本、智能体等12个一级能力维度，综合设计了50余个二级能力维度。其能力维度设计具备可扩展性和增长性，同时可根据未来的大模型应用场景进行动态更新和迭代。

为了能向参与评测的机构提供更真实的大模型性能表现，OpenCompass借鉴了高考提前公布“考试大纲”而不公布考题的策略，在每一期榜单发布前，公开上一期的评测题目，既让参与评测的机构有方向可循，也避免了直接刷题情况的产生。

与此同时，OpenCompass在题目构建上也进行了前沿探索。研究人员在评测题目构建中投入了巨大的研发力度，使评测题集保持创新状态，尽量无法在互联网中搜索到原题。创新构造题目的策略和整套的系统，同样为大模型评测技术的核心环节之一。

此外，上海人工智能实验室相关负责人强调，CompassRank作为榜单的承载平台，将不受任何商业利益干扰，保持中立性。

为继续提升大模型评测榜单的公信力和扩大可评测范畴，目前，OpenCompass已与多家产业机构共同推出了多个垂直领域的评测基准和数据集，涉及法律、金融、医疗、网络安全等领域。OpenCompass还将通过司南大模型评测伙伴计划，与各行业头部企业机构一起，构建各类高质量的行业评测基准。

中国新闻网