为了开发高性能中文基础模型,填补中文基础模型百亿到千亿级预训练参数的空白,大数据系统计算技术国家工程实验室团队在人工智能项目伶荔(linly)框架下,推出了伶荔说系列中文语言大模型,目前包含中文基础模型和对话模型。
其中,中文基础模型以 llama 为底座,利用中文和中英平行增量预训练,将它在英文上强大语言能力迁移到中文上。更进一步,汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了 linly-chatflow 对话模型。
根据介绍,相比已有的中文开源模型,伶荔模型具有以下优势:
在 32*a100 gpu 上训练了不同量级和功能的中文模型,对模型充分训练并提供强大的 baseline。据知,33b 的 linly-chinese-llama 是目前最大的中文 llama 模型。
公开所有训练数据、代码、参数细节以及实验结果,确保项目的可复现性,用户可以选择合适的资源直接用于自己的流程中。
项目具有高兼容性和易用性,提供可用于 cuda 和 cpu 的量化推理框架,并支持 huggingface 格式。
目前公开可用的模型有:
linly-chinese-llama:中文基础模型,基于 llama 在高质量中文语料上增量训练强化中文语言能力,现已开放 7b、13b 和 33b 量级,65b 正在训练中。
linly-chatflow:中文对话模型,在 400 万指令数据集合上对中文基础模型指令精调,现已开放 7b、13b 对话模型。
linly-chatflow-int4 :chatflow 4-bit 量化版本,用于在 cpu 上部署模型推理。
进行中的项目:
linly-chinese-bloom:基于 bloom 中文增量训练的中文基础模型,包含 7b 和 175b 模型量级,可用于商业场景。
项目特点
linly 项目具有以下特点:
1. 大规模中文增量训练,利用翻译数据提速中文模型收敛
在训练数据方面,项目尽可能全面的收集了各类中文语料和指令数据。无监督训练使用了上亿条高质量的公开中文数据,包括新闻、百科、文学、科学文献等类型。和通常的无监督预训练不同,项目在训练初期加入了大量中英文平行语料,帮助模型将英文能力快速迁移到中文上。
在指令精调阶段,项目汇总了开源社区的指令数据资源,包括多轮对话、多语言指令、gpt4/chatgpt 问答、思维链数据等等,经过筛选后使用 500 万条数据进行指令精调得到 linly-chatflow 模型。训练使用的数据集也在项目里提供。
训练流程如图所示:
2. 全参数训练,覆盖多个模型量级
目前基于 llama 的中文模型通常使用 lora 方法进行训练,lora 冻结预训练的模型参数,通过往模型中加入额外的网络层,并只训练这些新增的网络层参数,来实现快速适配。虽然 lora 能够提升训练速度且降低设备要求,但性能上限低于全参数训练。为了使模型获得尽可能强的中文语言能力,该项目对所有参数量级都采用全参数训练,开销大约是 lora 的 3-5 倍。
伶荔语言模型利用 tencentpretrain 多模态预训练框架,集成 deepspeed zero3 以 fp16 流水线并行训练。目前已开放 7b、13b、33b 模型权重,65b 模型正在训练中。模型仍在持续迭代,将定期更新,损失收敛情况如图所示:
3. 可支持本地 cpu int4 推理、消费级 gpu 推理
大模型通常具有数百亿参数量,提高了使用门槛。为了让更多用户使用 linly-chatflow 模型,开发团队在项目中集成了高可用模型量化推理方案,支持 int4 量化 cpu 推理可以在手机或者笔记本电脑上使用,int8 量化使用 cuda 加速可以在消费级 gpu 推理 13b 模型。此外,项目中还集成了微服务部署,用户能够一键将模型部署成服务,方便二次开发。
未来工作
据透露,伶荔说系列模型目前仍处于欠拟合,正在持续训练中,未来 33b 和 65b 的版本或将带来更惊艳的性能。在另一方面,项目团队不仅公开了对话模型,还公开了中文基础模型和相应的训练代码与数据集,向社区提供了一套可复现的对话模型方案,目前也有团队基于其工作实现了金融、医学等领域的垂直领域对话模型。
在之后的工作,项目团队将继续对伶荔说系列模型进行改进,包括尝试人类反馈的强化学习(rlhf)、适用于中文的字词结合 tokenizer、更高效的 gpu int3/int4 量化推理方法等等。伶荔项目还将针对虚拟人、医疗以及智能体场景陆续推出伶荔系列大模型。
自制简易音频分配器教程
华新集团PCB厂战略 拓展全球车用印刷电路板市场
马斯克的脑机接口发展成什么样子了
新款旗舰手机中的存储器技术解析
广西移动助力将北部湾港防城港码头公司打造成智慧港口的标杆
“伶荔”(Linly) 开源大规模中文语言模型
苹果LG和Valve投资Emagin OLED微显示技术
基于S3C2410处理器目标板的Linux移植
华为新公开一项能够检测癫痫疾病的专利
鸿蒙系统首批名单 有哪些手机型号
欧盟通过电子产品统一接口协议,苹果公司只能乖乖就范
iphone5S又火,iphone7情何以堪
agv小车怎样实现定位
空调的自清洁功能真的实用吗
高低温试验箱与温度冲击试验箱生产工艺的区别-贝尔试验设备
苹果计划在本月推出AirPods Studio头戴式耳机
基于FPGA的PCI接口逻辑和其他用户逻辑的集成系统设计
lpc54102例程(两种方案代码详解)
批量制造电池总是出现单只问题的原因
MIXAMPProTR评测 更适合于个人桌面使用