10月31日阿里云正式发布了1000亿级参数大模型“通义千问2.0”。这2.0在10个权威评价中超过了gpt-3.5,正在快速追赶gpt-4。当天,通义千问app在各种手机应用市场正式上市,任何人都可以通过app直接体验最新模特能力。
在过去的6个月里,通义千问2.0与4月份推出的1.0版本相比,在复杂的命令理解、文学创作、通用数学、知识记忆、幻觉抵抗力等方面有了很大的提高。目前,通义千问的千托综合性能已经超过gpt-3.5,正在快速赶上gpt-4。
在mmlu、c-eval、gsm8k、humaneval、math等10个主要标准评价集中,通义千问2.0整体上领先meta的rama -2-70b,与openai的chat 3.5相比,是9胜1负。与gpt-4的战绩为4胜6负,差距进一步缩小。
汉语和英语的理解能力是大语言模型的基本技能。在英语作业中,mmlu的标准分数为82.5分,仅次于gpt-4,可以更好地理解和处理复杂的语言结构和概念。在汉语任务方面,通义千问2.0以明显优势在c-eval标准中获得最高分,这是因为模型在训练中学习了更多的汉语语言资料,进一步强化了对汉语的理解和表达能力。
在数学推理、代码理解等领域,通义千问2.0进步明显。在推理基准测试gsm8k中,通义千问排名第二,展示了强大的计算和逻辑推理能力;在humaneval测试中,通义千问得分紧跟gpt-4和gpt-3.5,该测试主要衡量大模型理解和执行代码片段的能力,这一能力是大模型应用于编程辅助、自动代码修复等场景的基础。
通义千问2.0在技术上优化了命令遵守、工具使用和精细化,以便更好地整合到下游应用程序脚本中。通义大模型官方网站提供多模态和插件功能,支持图片输入、文件解释等细分化工作。
与此同时,基于通义大学模型训练的8大行业模型队启动。他们分别通义灵码-智能编码助手、通义智文-ai阅读助手、通义听悟-工作学习ai助手、通义星尘-个性化角色创作平台、通义点金-智能投研助手、通义晓蜜-智能客服、通义仁心-个人专属健康助手、通义法睿-ai法律顾问。8个产业模型以目前最受欢迎的多个垂直剧本为对象,训练各领域的数据。用户可以在官方网站直接体验模型功能,开发者可以通过网页嵌入式、api/sdk调用等将模型功能整合到自己的大规模模型应用和服务中。
截至10月,阿里云已与60多个行业合作伙伴进行深度合作,推进通义钱文办公、文化旅游、电力、政务、医疗保险、交通、制造、金融、软件开发等领域的出台。
周靖人表示,阿里云近期将开放72b版本,此前阿里云先后开放了7b版本和14b版本,累计下载次数超过100万次。ali cloud持续支持各领域开发者在通义千问的开源模型基础上进行模型和应用创新。
森国科碳化硅MOSFET-KM040120R的优势
什么是工业瘦客户机?工业瘦客户机和厚客户机有什么区别?
人工智能从入门到进阶实战
2019年的苹果手机或将增加双向无线充电功能
800家001号店撬动新增长!11月卡萨帝场景套购占3成
阿里云发布通义千问2.0,性能超GPT-3.5
如何判断LED透明显示屏质量的好坏
预测性维护:从数据采集开始
液晶面板的组成与原理
34亿元!台积电再向ASML订购一批设备
华为荣耀8XMax体验评测 究竟怎么样
通用着重电气化战略 在快速增长的新汽车技术市场中立足
电阻丝的发热功率计算
大众是如何以逆市姿态在“寒冬”中的实现了突破的?
华为云数字化转型解决方案 助力制造业企业迈向智能化
小米mix2怎么样?价格太感人,小米mix2今日发售秒罄,有现货的话还抢什么iPhoneX
全自动排线压端穿壳机的项目案例
iPhoneXR2带壳渲染图曝光_颜值再升级更受追捧
华为EMUI5.0系统不卡顿真相:一般厂商做不出,小米就不一定了!
芯片制造与荷兰ASML EUV光刻机息息相关