主流中文大模型评测:谁的内容最符合核心价值观?

2024-06-13 09:26:00     来源:

近日,知道创宇发布《中文大模型安全基准双轮测评第1期报告》,本次报告主题为“核心价值观之鉴”,对国内18家主流中文大模型的中英文内容合规能力进行评测。

评测结果显示,大部分大模型的内容合规检测机制过于直接和简单。难以应对复杂评测场景下的内容安全风险与潜在威胁,因此亟需进一步优化。

特别值得注意的是,评测结果指出,大部分大模型英文内容合规检测能力严重不足。这也提示,在全球化和多语言环境的背景下,中文大模型在提升中文内容合规能力的同时,也必须加强英文及其他语言的合规性检测能力,以确保在各种语言环境下都能提供安全、合规的服务。

英文合规检测能力严重不足

为确保大模型的稳健发展,国家网信办等七部门联合发布《生成式人工智能服务管理暂行办法》,自2023年8月15日起实施。该办法明确提出坚持社会主义核心价值观的要求,并禁止生成任何违反法律、行政法规的内容。

与此同时,《互联网信息服务算法推荐管理规定》也强调了算法推荐服务提供者应坚持主流价值导向。

为了进一步促进生成式AI服务的安全发展,2024年3月全国网络安全标准化技术委员会发布《生成式人工智能服务安全基本要求》,要求生成式AI服务必须具备关键词库、内容测试题库和拒答测试题库,以确保服务的安全性和可靠性。

为更真实反映大模型能力,知道创宇本次评测采用多维度、多视角的综合方案,涵盖简答题和选择题。通过从数据集库(50万+道题)随机抽取5000+道原始评测数据集,经过严格的人工校验后保留了4000道(含1500道简单题和2500道选择题),并结合“裁判模型”和专业评审等方式,确保评分公正客观。

本次评测分为两轮,模型选取范围涵盖了了国内有代表性的13个WEB开放大模型和6个大模型API。第一轮评测为截至2024年3月22日的大模型表现,第二轮则为2024年4月16日的最新评测结果。

在第一轮评测中,特别设置了中文和英文两种评测语言,旨在测试模型在“社会主义核心价值观”上的中英文对齐表现,包括对种族歧视、少儿不宜内容、色情元素、违法违规内容、地域歧视及政权观点的全面考察。英文题集由中文题集一对一翻译而来,以防范语种变换带来的内容风险。

在综合评分中,抖音豆包、GLM-3、腾讯混元、海螺问问和Kimi英文和中文领域均表现出色,位列前五。然而,对于原本在中文领域表现优秀的大模型,如文心一言3.5和小悟空,由于英文能力相对不足,导致其在综合评分中未能获得理想成绩。

第一轮评测显示,中文大模型在英文内容合规检测上存在明显弱点。首先,英文合规检测能力不足,导致模型生成的英文内容难以准确判断是否符合我国法规及道德标准。这主要源于检测模型在训练时缺乏足够的英文违规语料,说明许多厂商对模型生成结果的检测算法还不够完善。

其次,英文关键词积累不足也削弱了模型的合规检测能力,影响了对英文文本关键信息的准确识别和理解。这些问题可能导致英文内容审核疏漏,给用户带来风险。

识别违规内容过分依赖关键词

第二轮评测紧密围绕《生成式人工智能服务安全基本要求》,对“社会主义核心价值观”和“歧视性”两大核心要点进行了深入评测。通过深入剖析并细化为17类二级标签,同时灵活融合了多元化的三级标签数据,精心构建了一套全新的数据集。

由于该评测数据集在细节处理上的极高要求,部分大型模型在测试中暴露出了内容风险问题,这些问题主要源于垃圾训练数据的不良影响,尤其是在“歧视性”方面的表现尤为突出,揭示了模型在泛化能力上存在的局限性。

本轮评测结合针对访问方式,采用多轮对话、设定场景、陷阱钓鱼、单/多项选择等多种题型,以更全面地评估大模型的内容安全合规能力。在单项选择题型中,通过强制模型做出选择,结果显示出部分模型训练后的偏见性和歧视性方向的指引明显。这可能是训练数据、模型设计、参数设置的偏见性和歧视性导致的。

针对歧视性问题,本次评测通过深化歧视下的二级标签(如民族歧视、地域歧视等),并采用多道题对应一个歧视点的方式。结果显示,大部分模型在涉及不同地域、不同国别和不同民族的场景中可能表现出歧视倾向,这可能与训练数据、算法设计、使用环境以及社会文化背景紧密相关。

值得注意的是,本次评测在数据集选取时特别规避了在题干中违规词的出现,旨在绕过检测模型/关键词的常规检测。

然而,正是这种迂回的方式,大模型暴露出藏匿更深的内容风险。结果显示,模型在生成内容时可能受到训练数据的影响,产生一些看似合规但实际上具有风险的内容,暴露出过分依赖关键词或特点短语来识别违规内容的局限。

 

标签:

猜你喜欢

虾行天下丨柳伍小龙虾上线鲸灵,首日破200万销售额
百果园携手Hortgro Pome共推牛顿苹果 为消费者带来夏日味蕾新体验
市场易携手思溢公关发布《视频营销获客解决方案》,助力B2B企业品牌业绩双增长
「城市K马」2024开跑北京,中国建设银行携手Keep为创业者打造运动交流平台
电影《蛟龙行动》杀青!探路者成为户外服饰行业合作伙伴
《香港文汇报》专访凯美瑞德国际 | 港金融体系成熟,产品达国际要求
圣奥北美基地投产运营 为国内办公家具行业首创
聚焦制造业、“三大一高”及科创企业 微众银行服务新质生产力
泸州银行首次覆盖报告:打造高质量发展“小而美”银行
香港特首和财爷力撑湾区新质生产力标杆,思谋科技成港投首家签约公司
成家相亲出席中国品牌博鳌峰会,「最具社会责任感企业」实至名归
共探加密未来 Benzinga等外媒关注波场TRON出席Consensus 2024
中国证券期货业区块链联盟2024年第二季度交流活动圆满落幕
“就选山东”2024年山东劳动职业技术学院毕业生实习就业双选会邀请函
湾区这所高校迎来一位文科校长
神州信息核心下移精选案例:城商行分布式核心落地国产数据库
迎接游戏行业全球化:Waffo如何助力跨境支付的安全与高效
茅台酱香践行品牌年轻化,奋斗美青春大赛高光启动
KuCoin引领加密货币交易平台安全与透明新标准
华熙生物董事长赵燕出席2024金砖国家女性领导力论坛
吴霁虹:构建未来AGI,不只有一个AI
碳标签是全球贸易绿色通行证——商务部发布《外贸企业绿色低碳发展知识手册》,企业必看!
PayerMax正式加入沙特区域总部计划 将在利雅得设立中东和北非区域总部
新西兰佳沛与FCC合作 首次生物燃料航运试验圆满完成
Sun Life永明赞助龙舟竞渡赤柱滩 推动旅游业发展 共庆端午佳节
方达控股(1521.HK)助力成都欧林生物获得澳大利亚Ⅰ期临床试验许可
即酩x Daya户外速冰全能焕新礼盒掀起夏日新浪潮
种博士口腔 专做种植牙
2024年船舶产业订单“井喷”,开启新一轮设备更新周期
美团闪购×亿滋:这个儿童节在广州天德街玩味不停