彩云科技发布DCFormer架构相较Transformer性能实现1.7

伴随着今年诺贝尔化学奖、物理奖双双花落与人工智能领域相关的科学家，AI再次成为全球瞩目的焦点。然而，自ChatGPT3.5发布以来引爆的新一波人工智能浪潮，虽然涌现出一系列融资额度超高、估值不断创纪录的明星企业，但在竞争最激烈的大模型领域，至今尚未有一家企业跑通商业化落地，关于人工智能的未来始终有一层阴影。究其原因，大模型对能源的过度依赖，成为制约各AI企业突破的重要瓶颈。

8个地球能源支撑一个AI未来人工智能耗能惊人

在近日国内人工智能公司彩云科技举办的一场媒体沟通会上，CEO袁行远向媒体展示了极端情况下，ChatGPTo1给出的2050年人工智能耗能量的答案。问题中，以全球网络都使用 ChatGPT作为访问入口为假设，测算预计到2050年ChatGPT每天消耗多少电力？ChatGPT o1给出的答案则是，“到2050年，全球人工智能的耗电量可能会达到目前地球发电能力的约8倍”。

这并不是危言耸听。人工智能对电力的极度依赖，已经成为业内共识。人工智能在预训练阶段及应用阶段都对电力有极大的消耗。以人工智能巨头Open AI旗下的GPT-4为例，据报道，其完成一次训练需要约三个月时间，使用大约25000块英伟达 A100 GPU。每块A100 GPU都拥有540亿个晶体管，功耗400瓦，每秒钟可以进行19.5万亿次单精度浮点数的运算，每次运算又涉及到许多个晶体管的开关。仅仅是这些 GPU，一次训练就用了2.4亿度电。

而后续用户在使用ChatGPT过程中，依然需要消耗大量电力。仍以ChatGPT为例，如果ChatGPT4每天响应用户的约2亿个请求，消耗超过50万千瓦时的电力，约是1.7万个美国家庭的日耗电量。庞大的电力消耗，使得各大AI巨头纷纷布局能源投资，亚马逊、谷歌、微软、Open AI等企业在今年都曝出投资核电的新闻。

摆脱能源依赖人工智能企业路在何方？

在增加对能源投资的同时，如何降本增效，减少对能源的依赖，成为各大AI企业纷纷发力的方向。

英伟达作为AI时代的最大受益者，是全球主要AI企业的芯片供应商。英伟达CEO黄仁勋在今年2月份的世界政府峰会上就曾表示，如果计算机的性能得不到提升，未来我们可能需要14个不同的行星、3个不同星系、4个太阳为我们的AI未来提供燃料。而英伟达的主要路线就是不断迭代，提升AI芯片的运算性能。在今年的年度电脑展（Computex）上，黄仁勋表示，在过去八年间，从“Pascal P100 GPU”到“Blackwell B100 GPU”，GPU的性能提高了1053倍。

但提升GPU性能并不是唯一出路，毕竟也不是所有玩家都能在GPU上砸下重金，要知道，购买一个1万个GPU的Blackwell系统大约需要8亿美元。改善模型架构，提升训练效率，就成为另一条出路。

2017年，谷歌在论文《Attentions Is All You Need》中首次提出Transformer架构，掀开了大语言模型训练的全新篇章。但Transformer架构具体如何运行，则仿若一个黑盒，并不为人所熟知，为Transformer开盒，提升模型架构性能就成为无数AI科学家研究的方向，但这方面的研究进展较慢，今年4月，谷歌最近一次更新了Transformer架构，提出了Mixture-of-Depths（MoD）方法，使得训练后采样过程中提速50%，这已经是近年来在模型架构优化上最为成功的案例了。

DCFormer架构创纪录性能实现1.7—2倍提升

然而，在今年的ICML（国际机器学习大会）上，一家来自中国的人工智能企业带来了最新的模型架构优化方案。

彩云科技，作为国内最早专注于语言大模型的企业，在2017年就已经开始做 NLP 和大模型方面的工作。在今年的ICML上，彩云科技的《Improving Transformers with Dynamically Composable Multi-Head Attention》提出了优化Transformer模型架构的全新方案，首次提出可动态组合的多头注意力（DCMHA），替换Transformer核心组件多头注意力模块（MHA），解除了MHA注意力头的查找选择回路和变换回路的固定绑定，让它们可以根据输入动态组合，从根本上提升了模型的表达能力。

在实践表现中，彩云科技团队基于DCFormer上打造的模型DCPythia-6.9B上，实现了在预训练困惑度和下游任务评估上都优于开源Pythia-12B。这意味着，DCFormer模型在性能上，实现了对Transformer模型1.7-2倍的性能提升。彩云科技的研究成果获得来自业内的关注和认可，在ICML会上，彩云科技投稿的三篇论文在全部9000多篇投稿论文均分仅4.25-6.33的情况下，获得了平均分7分的高分，并受邀参加在维也纳ICML演讲，向全世界的AI从业者讲解其全新大模型DCFormer。

“只有模型效率和智能度提升，才能实现真正的AGI。”彩云科技CEO袁行远表示，接下来，彩云科技将在一年之内把DCFormer的性能再改进一倍。“模型架构的性能提升，意味着在用同样的资源，可以实现成倍甚至是指数级效果的提升。我们在努力为人工智能的实现创造一条‘捷径’。”

彩云科技发布DCFormer架构 相较Transformer性能实现1.7—2倍提升

彩云科技发布DCFormer架构相较Transformer性能实现1.7—2倍提升