【导读】mixtral 8x7b模型开源后,ai社区再次迎来一大波微调实践。来自nous research应用研究小组团队微调出新一代大模型nous-hermes 2 mixtral 8x7b,在主流基准测试中击败了mixtral instruct。
mixtral 8x7b开源模型的诞生,正如llama一样,为开源社区了带来曙光。
前段时间,mixtral刚刚发布了8x7b模型的论文。在基准测试结果中,其性能达到或超过 llama 2-70b和gpt-3.5。
甚至,mixtral在数学、代码生成和多语言理解任务方面表现亮眼。
最近,一个开源研究小组nous research推出了新一代旗舰大模型nous-hermes 2 mixtral 8x7b。
这是首个通过rlhf训练的模型,并在主流基准测试中超越mixtral instruct,成为最佳开源模型。
此外,nous research团队发布的sft和sft+dpo模型,以及dpo适配器将为用户提供更多选择。
在所有的基准测试中,nous-hermes 2 mixtral 8x7b模型也略不逊色。
目前,这些模型同样在hugging face上开源上线。
最佳开源模型诞生
据介绍,最新模型是在mixtral 8x7b moellm微调训练而来。
具体来说,nous-hermes 2 mixtral 8x7b是在1,000,000个条目进行了训练(主要是gpt-4生成的数据),以及整个ai领域开放数据集等其他高质量数据集。
研究人员同时还发布了sft only版本,以及sft+dpo版本。
模型演示
那么,nous research团队最新的模型能力有多强?
编写可视化数据代码完全是小菜一碟。
它还能写赛博朋克的迷幻诗。
可以执行反向翻译,从输入文本中创建提示信息。
基准测试
与mixtral基础模型相比,mixtral 8x7b上的nous-hermes 2在以下基准测试中取得了全面提升,也是mistralai首次击败旗舰型号mixtral finetune。
在gpt4all中,nous-hermes mixtral 8x7b(sft+dpo)拿下了75.7分,位列榜单第三。
在agieval的排行中,nous-hermes mixtral 8x7b(sft+dpo)拿下了46.05的成绩。
此外,在bigbench reasoning test中,nous-hermes 2 mixtral 8x7b(sft+dpo)霸榜第一。
背后团队
成立于2023年,nous research是一个在大模型领域发布开源研究而闻名的私人应用研究小组。
去年12月,这个研究团队成员曾发布了一款轻量的视觉语言模型——nous hermes 2 vision。
这个模型以希腊神使赫尔墨斯的名字命名。它通过用户上传的图像数据,通过自然语言提供详细的答案。
就在前几天,nous research宣布了一轮520万美元的种子融资,涉及了多位天使投资人。
到目前为止,nous research已经发布了40多个开源模型,包括hermes、yarn、capybara、puffin和obsidian系等系列。
mixtral模型,会将成为开源版gpt-4
继2023年年初llama发布之后,一系列羊驼家族瞬间爆发。年底,mixtral的开源moe发布,更是为开源年做了一个完美的收尾。
有网友表示,mixtral或将有实力将于今年接管gpt-4。
在chatbot arena排行榜上,mixtral成为(继gpt-4、claude和mistral medium之后)唯一能打的开源模型,也是仅有7b参数的最小模型,甚至比谷歌的gemini pro还要好!
而且它是开源的!任何人可以获取该模型,并将其部署到自己的设备,而且可以对其进行微调,可以随心所欲地使用它。
现在,在mixtral-7b上进行微调、部署的模型案例,也是非常的多。
比如,有网友用树莓派在本地跑起了phi-2、mistral和llava等模型。
还有人出了一款app,名为offline chat:private ai,能够在iphone上离线跑mistral 7b模型。
这样一来,模型生成的内容,可以保障安全和隐私。
还有人用直接偏好微调了mistral-7b模型。
具体来说,研究人员将使用一种类似rlhf的技术:直接偏好优化(dpo)对openhermes-2.5进行微调,从而创建neuralhermes-2.5。
为此,他们还引入了一个偏好数据集,描述dpo算法的工作原理,并将其应用到模型中。我们将看到它显著提高了openllm排行榜上基本模型的性能。
有网友进行的海底捞针实验中, mistral-7b-instruct-v0.2在80000 token情况下,召回率下降。
相信未来,mixtral模型会向羊驼家族一样,迎来大爆发。
干货:加湿器 CE 整改案例分享
物联网加持后煤炭时代 数字货舱一个会说话的箱子
机场综合监控系统的结构组成和方案应用
hdmi转dvi是双向的吗_hdmi转dvi显示器黑屏
AURIX™ TC3xx NVM是非易失性存储器学习笔记
最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发
测力传感器的工作流程
防水透气膜和隔汽膜的比较,它们之间有什么区别
中立格林发布新款传感器模块_应用于空气质量监测仪
智能手环在医用可穿戴设备市场的应用
基于单片机和红外遥控技术实现通用多址遥控系统的设计
我国为什么要发射自己的二氧化碳监测卫星
RC和RCD缓冲电路的工作方式、区别和优缺点?
现代化万能试验机的新特点和应用
tvs二极管选型与二极管电路分析
A-10战机GAU-8机炮有多强?酒瓶差不多的子弹将坦克打成筛子
Infineon IRS2982多种开关电源(SMPS)解决方案
瑞萨电子推出能处理多个摄像头图像数据的全新RZ/V2MA器件
薄壁件切削加工中几个方面的正确选择
iPhone8加入脸部识别和虹膜识别 苹果占高端机市场第一