去创作

用微信扫描二维码

分享至好友和朋友圈

淘天揭大模型“风险认知缺陷”虽生成合规答案但未真正理解风险

近日,淘天集团算法技术-未来实验室团队联合发布全球首个针对大模型风险认知能力的评测集Beyond Safe Answers(BSA),首次系统性揭示了主流大模型在风险理解上的“表面安全对齐”(Superficial Safety Alignment, SSA)现象。研究显示,超过60%的案例中,模型虽生成合规答案,但未真正理解风险,暴露出安全性能的深层缺陷。

BSA评测集通过挑战性数据集、全面风险覆盖和详细注释,分析模型在推理链中对风险的识别能力。研究发现,主流模型(如DeepSeek、GPT-4等)的“安全回复”多依赖浅层启发式规则,而非实质性风险分析。例如,DeepSeek-R1-671B在风险认知任务中准确率仅约40%,其响应虽表面合规,但内部推理过程存在逻辑断裂或误判。

淘天团队指出,SSA问题可能会加剧模型在金融、医疗等高风险领域的误用。BSA将作为开源工具持续迭代,并分设闭库以监测模型改进。目前,DeepSeek等厂商未公开回应评测结果,但其在高考数学等任务中的高准确率(如2025年高考数学满分)与风险认知表现形成反差,反映模型能力的分化。

更多精彩内容,关注云掌财经公众号(ID:yzcjapp)

以上内容仅供学习交流,不作为投资依据,据此操作风险自担。股市有风险,入市需谨慎! 点击查看风险提示及免责声明
热股榜
代码/名称 现价 涨跌幅
加载中...
加载中 ...
加载中...

二维码已过期

点击刷新

扫码成功

请在手机上确认登录

云掌财经

使用云掌财经APP扫码登录

在“我的”界面右上角点击扫一扫登录

  • 验证码登录
  • 密码登录

注册/登录 即代表同意《云掌财经网站服务使用协议》

找回密码

密码修改成功!请登录(3s)

用户反馈

0/200

云掌财经APP下载

此为会员内容,加入后方可查看,请下载云掌财经APP进行加入

此为会员内容,请下载云掌财经APP加入圈子

云掌财经
扫码下载

更多功能与福利尽在APP端:

  • 精选会员内容实时推送
  • 视频直播在线答疑解惑
  • 达人一对一互动交流
关闭
/