可商用多语言聊天LLM开源,性能直逼GPT-4

sambanova 与 together 两家公司合作开源了可商用的 bloomchat,一个 1760 亿参数的多语言聊天大语言模型 (llm)。由 bloom (176b) 在助理式的对话数据集上进行指导调整,并支持多种语言的对话、问题回答和生成性答案。
根据介绍,bloomchat 是一个新的、开放的、多语言的聊天 llm。sambanova 和 together 使用 sambanova 独特的可重构数据流架构在 sambanova datascale 系统上训练了 bloomchat;其建立在 bigscience 组织的 bloom 之上,并在 openchatkit、dolly 2.0 和 oasst1 的 oig 上进行了微调。目前,bloom 已经是最大的多语言开放模型,在 46 种语言上进行了训练。
在针对英语、中文、法语、阿拉伯语、西班牙语、印度语这 6 种语言的评测中,gpt-4 的胜率为 54.75%,bloomchat 的胜率为 45.25%,稍弱于 gpt-4。但与其它 4 种主流的开源聊天 llm 相比,bloomchat 在 65.92% 的时间内表现更优。且在使用 bloomchat 进行跨语言 nlp 任务的初步研究中,bloomchat 在 wmt 翻译基准中的表现要优于其他 bloom 变体和主流开源聊天模型。
“我们确实想指出,与我们比较的这些模型中,有些并不适合多语言环境。但由于开源社区中没有替代品,所以才有了现在的比较。我们的研究结果表明,使用正确的技术,可以在开源 llm 之上构建以实现强大的多语言聊天功能。我们希望我们的研究结果和 bloomchat checkpoint 的发布能够为开源社区的持续讨论做出贡献,并激发 llm 领域的进一步发展。”
项目团队使用定性和定量措施来评估了 bloomchat 的多语言聊天能力以及跨语言任务能力。共做了 3 种不同场景的实验测评,评测了英语、中文、阿拉伯语、法语、西班牙语和印度语。
实验一:人类偏好排序
旨在将 bloomchat 模型在多种语言中的聊天能力与现有的开源模型以及选定的封闭源模型进行比较。使用了 “openassistant conversations” 附录 e 中的 22 个英文问题作为基准。首先让一些人类志愿者将这 22 个英文问题手动翻译成他们各自的母语;然后让另一组不同的志愿者,在匿名的前提下评价每个模型所给出的回答。
将 bloomchat 与 openassistant-30b、llama-adapter-v2-65b 和 bloomz (176b) 三种开源模型进行了比较:
51 名志愿者在所有模型和 6 种语言中共提交了 1158 次比较。如上图所示,bloomchat (65.92%) 明显优于其它几个开源模型。
与 gpt-4 相比:
实验二:模型质量评估
此实验旨在验证 bloomchat 生成的多种语言文本的质量。
81.8% 的回答被归类为 “正确” 或 “可接受但有轻微缺陷”。尽管只在英语数据集上进行了微调,但 bloomchat 在每种语言中都获得了超过 70% 的 “正确” 或 “可接受” 评级。
实验三:wmt 翻译任务
为了初步了解模型解决跨语言 nlp 任务的能力,评估了模型在 wmt 翻译任务上的翻译能力。
总体而言,bloomchat 在翻译任务中的表现明显优于其他 bloom 变体和开源聊天模型,但和 gpt-4 还有一定差距。
此外,bloomchat 团队也坦承了一些该模型的局限性:
bloomchat 有时可能会生成听起来合理但事实不正确或与主题无关的回复信息。
bloomchat 可能在单个回复中无意间切换语言,影响输出的连贯性和可理解性。
bloomchat 可能会产生重复的短语或句子,导致回复内容缺乏吸引力和有效信息。
bloomchat 在生成代码或解决复杂数学问题方面的性能可能会受到限制。
bloomchat 可能无意中生成含有不适当或有害内容的回复。


关于STM32必学的100多个知识点
ETHERCAT转ETHERCAT协议网关
荣耀V9改个名国外居然卖这么贵?
基于微波技术的固体废弃物处理系统
世界电气公司的排名情况
可商用多语言聊天LLM开源,性能直逼GPT-4
使用汇编语言实现多字节BCD码加法减法的详细介绍
三星“野兽模式”曝光 Galaxy S8性能或暴增
智慧公安全网舆情监控平台搭建情报分析系统开发
浅谈mqtt协议与ADW300无线计量仪表结合
可单独寻址LED呼啦圈的制作
70.39% 用户办理 “携号转网”遇到一定困难及阻碍
定时任务cron的教学
Dialog音频编解码器产品组合
美国研究团队在44公里的距离内实现了保真度大于90%的量子隐形传态
一起来看一下蓝牙版本到现在都经历了哪些变化
2017中国新能源汽车产业迎来转折期 技术和商业全面竞争
如何使用直接标定法准确测试相噪?
关于机械设备维持式防晃电接触器的提议
为满足智能电视应用 MIPS祭六核心处理器IP