聆心智能联合清华大学CoAI实验室共同发布大模型安全评估框架,迈向可控可信的大模型

chatgpt 正在引领人类进入无缝人机交互的新时代,比尔盖茨在接受福布斯采访时也表示,“chatgpt的意义不亚于pc和互联网的诞生。”不过,当搜索引擎 new bing 与 chatgpt 结合,伴随着“chatgpt 黑化”等一系列舆论事件的发生,人们也开始对人工智能带来的道德、伦理、安全等风险感到恐慌。
虽然近年来随着技术的不断突破,大模型获得了快速发展并开始在各个场景广泛应用,但仍存在着事实性错误、知识盲区和常识偏差等诸多问题,还面临训练数据来源合规性、数据使用的偏见性、生成内容的安全性等风险。如何提高模型的准确度和可靠性,使 ai 生成的内容安全、可信、可靠已经成为了当前大模型在应用方向亟待解决的问题。
要规避安全风险,降低人工智能对人类的负面影响,关键在于大模型底座。对此,清华大学计算机系长聘副教授、北京聆心智能科技有限公司创始人黄民烈认为:“大规模语言模型(llm)发展到现在,模型结构和规模已经有了很大的进展,但实用性还有待加强,我们应该通过技术让模型更加安全、可控,使其快速适配更多的应用场景。”
据悉,针对大模型的安全伦理问题,由黄民烈带领的研究团队历经两年沉淀,建立了大模型安全分类体系,并从系统层面和模型层面出发,打造更可控、可信的大模型安全框架。安全框架的建立,定义了大模型的应用边界,促进大模型生态的健康发展,引领国内学术界和工业界迈向更有用(helpful)、更可信(truthful)、更安全(harmless)的ai研究和应用。
相比过去在安全伦理方面考虑较少的大模型,chatgpt 背后所依托的大模型取得了巨大的发展,不仅允许用户进行后续更正,还能够拒绝不当请求和预测,这得益于chatgpt在安全部分的特别设计,不过仍无法完全避免其生成不安全的内容和产生有风险的行为。
此前,由黄民烈带领的研究团队已经在安全伦理方面开展了相关研究,并依此建立了大模型安全分类体系,其中不安全的对话场景包括:政治敏感、犯罪违法、身体健康、心理健康、财产隐私、歧视/偏见、辱骂/仇恨言论、伦理道德八大方面。这些问题与人们的价值观和伦理道德息息相关,可能会导致用户接收不当信息、甚至影响用户产生有害的行为,限制大模型的发展和应用。
与此同时,研究团队也针对以上八大安全场景对大模型进行针对性升级。通过收集多轮安全数据训练模型,使模型具备基本的安全性,能够在遇到安全问题时给予正确的回复策略,不去做判断和误导。进一步对模型进行自动测试,针对安全缺陷通过微调的方式进行快速迭代,促使模型越来越符合人类的认知理解模式,生成更加安全可信的内容。
值得一提的是,着眼于容易触发安全问题的类型,研究团队收集和构造了相应的hard case(更难识别和处理的安全测试用例),总结和设计了六种一般模型难以处理的安全攻击方式,称为指令攻击。使安全体系更加完善,进一步改进和优化模型表现。
不论国内国外,当前大模型的安全问题仍面临着严峻的困难和挑战,人工智能作为一门前沿科技,可以给人类带来巨大福祉,也会给人类造成未知的隐患。确保强大的人工智能系统能够被负责任地建构和部署,打造安全、可信、可靠的 agi companion,是该研究团队的最终愿景。
未来,研究团队将打造中文大模型的安全风险评估的 leaderboard,为国内对话大模型的安全评估提供公平公开的测试平台,并提供:
针对中文对话的8个安全场景,40个安全类别做全面精细的测试,包括人工评估和自动评估。额外设置6种安全攻击(如目标劫持等)的超难指令攻击测试样例,探索模型的安全上限。设置公开和隐藏测试集,众人皆可参与评测。黄民烈带领的研究团队致力于构建具有类人水平的对话智能体,将依托自身的核心技术,在可控可信的超拟人大模型基础之上,通过建立安全、可控的模型边界,让ai提供可信、可靠的输出,引领人工智能走向 agi 时代。相信在不远的未来,agi companion 不仅满足人类信息需求,更可以满足社交和情感的需求,以打造更加和谐的人机共融社会。


“新面孔,,芯更强”,芝杜发布2023媒体播放器全系新品
关于DC/DC转换器的基础知识介绍
NASA登月火箭将在2024年执行载人登月
一种360°全景定制的Transformer框架
BOE(京东方)隆重召开创立30周年庆典大会“屏之物联”再谱高质量发展华章
聆心智能联合清华大学CoAI实验室共同发布大模型安全评估框架,迈向可控可信的大模型
SNEC2023丨领先光储方案背后的力量:安森美助力新能源产业加速崛起
自动驾驶规控决策方面的建议与解决方案
Android开发中的日志接口介绍
你了解步进阶梯指令吗?
紫米Type-CtoLightningMFi数据线上手 59元的售价还是相当物有所值的
IC设计接口信号描述规范
疫情引发建筑环境变化,物联网智能建筑技术力挽狂澜
iPhone 10的多点触控技术带了全新的体验
AiP技术扩展了毫米波雷达的应用
上海电信携手徐汇区,发布人工智能公共算力服务产品,拟建算力平台
ROS完成ROS和ROS2中各个组件向openEuler的适配
关于高功率纳秒脉冲光纤激光器模块介绍
一加7渲染图曝光 Pro版采用弹出式前摄
变频器丰富的外部端子功能,你了解多少呢?