当前位置: 首页>关注 >
全球聚焦:悟道·天鹰 Aquila + 天秤 FlagEval,打造大模型能力与评测标准双标杆
2023-06-27 18:11:49 来源:砍柴网
为推动大模型在产业落地和技术创新,智源研究院发布“开源商用许可语言大模型系列+开放评测平台” 2 大重磅成果,打造“大模型进化流水线”,持续迭代、持续开源开放。
悟道·天鹰(Aquila)开源商用许可语言大模型系列
(资料图)
悟道·天鹰(Aquila) 语言大模型是首个具备中英双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。
悟道·天鹰(Aquila)语言大模型在中英文高质量语料基础上从 0 开始训练,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。系列模型包括 Aquila基础模型(7B、33B),AquilaChat对话模型(7B、33B)以及 AquilaCode-7B “文本-代码”生成模型,后续将持续更新迭代并开源更新版本。
Aquila基础模型(7B、33B)在技术上继承了 GPT-3、LLaMA 等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer,升级了 BMTrain 并行训练方法,实现了比 Magtron+DeepSpeed ZeRO-2 将近8倍的训练效率。
AquilaChat 对话模型(7B、33B)支持流畅的文本对话及多种语言类生成任务,通过定义可扩展的特殊指令规范,实现 AquilaChat对其它模型和工具的调用,且易于扩展。例如,调用智源开源的 AltDiffusion 多语言文图生成模型,实现了流畅的文图生成能力。配合智源 InstructFace 多步可控文生图模型,轻松实现对人脸图像的多步可控编辑。
AquilaChat 训练过程中,实现了模型能力与指令微调数据的循环迭代,包括数据集的高效筛选与优化,充分挖掘基础模型的潜力。
图注:多轮对话
图注:高考作文生成
AquilaChat 支持可扩展的特殊指令规范,令用户可在AquilaChat中轻松实现多任务、工具的嵌入,如文图生成,下图示例为在对话中调用智源开源的多语言文图生成模型 AltDiffusion。
图注:文图生成
AquilaChat 具备强大的指令分解能力,配合智源InstructFace多步可控文生图模型,轻松实现对图片的多步可控编辑。
图注:多步可控人脸编辑
AquilaCode-7B “文本-代码”生成模型,基于 Aquila-7B 强大的基础模型能力,以小数据集、小参数量,实现高性能,是目前支持中英双语的、性能最好的开源代码模型,经过了高质量过滤、使用有合规开源许可的训练代码数据进行训练。
此外,AquilaCode-7B 分别在英伟达和国产芯片上完成了代码模型的训练,并通过对多种架构的代码+模型开源,推动芯片创新和百花齐放。
图注:文本-代码生成
天秤(FlagEval)大模型评测体系及开放平台
天秤(FlagEval)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。目前已推出语言大模型评测、多国语言文图大模型评测及文图生成评测等工具,并对各种语言基础模型、跨模态基础模型实现评测。后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象,包括自然语言处理(NLP)、计算机视觉(CV)、语音(Audio)及多模态(Multimodal)等四大评测场景和丰富的下游任务。
首期推出的 FlagEval 大语言模型评测体系,创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果,总计 600+ 评测维度,任务维度包括 22 个主观&客观评测数据集。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学与闽江学院共建的语义关系判断、多义词理解、修辞手法判断评测数据集。更多维度的评测数据集也在陆续集成中。
FlagEval 评测榜单目前涵盖了前面谈到的22 个主观和客观评测集,84433 道题目,细粒度刻画大模型的认知能力。基于“悟道 · 天鹰”Aquila 基础模型(7B)打造的 AquilaChat 对话模型,在 FlagEval 大语言模型评测榜单上,目前暂时在“主观+客观”的评测上领先其他同参数量级别的开源对话模型。
在我们当前的最新评测结果中,AquilaChat 以大约相当于其他模型 50% 的训练数据量(SFT 数据+预训练数据分别统计)达到了最优性能。但由于当前的英文数据仅训练了相当于Alpaca的40%,所以在英文的客观评测上还暂时落后于基于 LLaMA 进行指令微调的Alpaca。随着后续训练的进行,我们相信很快可以超越。
悟道·天鹰(Aquila)模型还在迭代进步的过程中,天秤(FlagEval)评测能力也在不断的扩充中, 因而此评测结果只是暂时的,新的评测结果还会不断更新。此外,FlagEval的评测体系方法及相关研究还需要继续深入,当前对模型能力的覆盖程度仍有很大的进步空间,智源也期待与多方合作,共同打造全面、科学的评测方法体系。
图注:在评测时,FlagEval 根据数据集的不同规模进行了自动化采样,总计采样 28041 条数据。
天秤(FlagEval)开放评测平台现已开放申请(flageval.baai.ac.cn),打造自动化评测与自适应评测机制,可辅助模型研发团队利用评测结果指导模型训练,同时支持英伟达、昇腾(鹏城云脑)、寒武纪、昆仑芯等多种芯片架构及 PyTorch、MindSpore 等多种深度学习框架。
作为“科技创新2030”旗舰项目重要课题,天秤(FlagEval)正与北京大学、北京航空航天大学、北京师范大学、北京邮电大学、闽江学院、南开大学、中国电子技术标准化研究院、中国科学院自动化研究所等合作单位共建(按首字母排序),定期发布权威评测榜单。
总的来说,智源此次发布的 2 大重磅成果仅仅是一个新的起点:
一方面,悟道 · 天鹰 Aquila 语言大模型将不断完善训练数据、优化训练方法、提升模型性能,在更优秀的基础模型基座上,培育枝繁叶茂的“模型树”,持续开源开放。
另一方面,天秤 FlagEval 大模型评测体系及开放平台将继续拓展“大模型认知能力”框架,集成丰富的数据集与评测指标,并探索与心理学、教育学、伦理学等社会学科的交叉研究,以期更加科学、全面地评价语言大模型。
「模型 + 评测」双轮驱动,加速大模型技术创新与产业落地。欢迎学界、产业界同仁提供建议。
关键词:
为你推荐
-
全球聚焦:悟道·天鹰 Aquila + 天秤 FlagEval,打造大模型能力与评测标准双标杆
-
最低28元/公斤!昆明人的榴莲盲盒可以尽情开了
-
天天速递!女子称有人冒充公公去幼儿园接娃:未得手,想想都后怕
-
跨境直播火热:海外观看人数增长186%,阿里国际站涌现工位直播 资讯推荐
-
中交建筑成功发行20亿元超短期融资券 利率2.17%-世界今热点
-
环球快消息!济宁市兖州区兴隆庄街道以问题为导向 精准提升政务公开工作水平
-
iQOO 11S新配色曝光 配备超强配置
-
新《超人》选角预计本周敲定 超人女友选角基本确定
-
昆明市第十五幼儿园开展“保育员技能比武活动” 保育工作精于心践于行 全球快消息
-
每日快报!德媒:大众汽车将在未来两周内削减ID.4及ID.7产量
-
港股异动 | 合景泰富集团(01813)涨超10%领涨内房股 机构预计全国商品房销售额仍能实现同比正增长 全球新视野
-
盒马上市若成真,曾经不看好新零售的人都会被打脸-速讯
-
乐歌股份6月27日快速上涨|重点聚焦
-
亿咖通科技美股跌11.54%
-
今日热讯:4-0曾横扫日本张本智和,WTT突尼斯站打进4强,卡尔伯格4-1男单夺冠
-
降息提振有限 深圳二手房交易氛围平淡 世界热讯
-
一个“迎亚运”画展背后的“斑斓世界”
-
双世宠妃百度云高清下载(双世宠妃百度云)|世界视点
-
宿迁公交301路(关于宿迁公交301路介绍)|热推荐
-
机构强烈推荐2只个股-更新中
推荐内容
- 全球聚焦:悟道·天鹰 Aquila + 天秤 FlagEva
- 最低28元/公斤!昆明人的榴莲盲盒可以尽情开了
- 天天速递!女子称有人冒充公公去幼儿园接娃:未得
- 跨境直播火热:海外观看人数增长186%,阿里国际站
- 中交建筑成功发行20亿元超短期融资券 利率2.17%-
- 环球快消息!济宁市兖州区兴隆庄街道以问题为导向
- iQOO 11S新配色曝光 配备超强配置
- 新《超人》选角预计本周敲定 超人女友选角基本确定
- 昆明市第十五幼儿园开展“保育员技能比武活动”
- 每日快报!德媒:大众汽车将在未来两周内削减ID.4
- 港股异动 | 合景泰富集团(01813)涨超10%领涨内
- 盒马上市若成真,曾经不看好新零售的人都会被打脸
- 乐歌股份6月27日快速上涨|重点聚焦
- 亿咖通科技美股跌11.54%
- 今日热讯:4-0曾横扫日本张本智和,WTT突尼斯站打
- 降息提振有限 深圳二手房交易氛围平淡 世界热讯
- 一个“迎亚运”画展背后的“斑斓世界”
- 双世宠妃百度云高清下载(双世宠妃百度云)|世界
- 宿迁公交301路(关于宿迁公交301路介绍)|热推荐
- 机构强烈推荐2只个股-更新中
- 王宝强新片首映 现场调侃要把“金扫帚奖”还回去
- 水利基金减免政策2023_水利基金
- 什琴斯尼:心悸发生时我感觉自己要死了 我非常接
- 依依股份:公司产品主要以出口为主 按销售区域看
- 一致魔芋拟2100万元出售全资子公司
- 注意!富邦股份将于7月12日召开股东大会
- 国际禁毒日丨毒贩在哪里,我们的战场就在哪里 焦
- ipod(touch 4) 全球短讯
- 长安马自达举办第五届粉丝盛典 推出“悦马臻享”
- 全球滚动:邛崃税务:在高质量推进制造强市建设中
- 天天信息:“6.26”国际禁毒日,惠济公安倡导辖区
- 全球创新资源奔流向“海”共创未来,百余项“国字
- 鹿晗2023πDAY演唱会·北京首站圆满结束 话题热
- 世界今头条!阎晓峰会见台泥集团董事长张安平一行
- 每日热议!出行注意安全!海口“双黄”预警信号生
- 广发银行武汉分行一天连领2张罚单 合计被罚370万
- 23浙江债30今日发布发行公告
- 商标的保护期限有几年-环球热文
- 有线路由器怎么安装和设置(有线路由器) 全球报道
- 毫无悬念!孙颖莎“KO”7位00后球员,断层式领先
油气
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
经济
-
中新网通辽10月18日电 (记者 张林虎)18日,记者从内蒙古自治区通辽市奈曼旗公安局获悉,国家一级保护动物--梅花鹿误入当地村民羊群,
-
中新网杭州10月18日电 (王题题 胡燕婕)云天收夏色,浅秋正渐浓。10月18日,浙江杭州市西湖游船有限公司推出的惠民多站点“西湖环湖游
-
中新网福州10月18日电 (记者 龙敏 王东明)福州市晋安区官方18日晚间通报,18日14时47分,晋安区岳峰镇化工路爱摩轮商业广场项目摩天
-
中新网兰州10月18日电 (闫姣 艾庆龙 吉翔)“红山白土头,黄河向西流。”不少人疑问,天下黄河向东流,为何甘肃永靖县这段黄河却向西
-
中新网北京10月18日电 《清华城市健康设施指数》18日在北京发布。报告成果显示,城市健康设施指数领先城市以中心城市和东部沿海城市