大模型效率狂飙：字节COMET技术开源，提速1.7倍

文章来源：放心AI网发布时间：2025-04-15 17:16:39

字节跳动旗下豆包大模型团队近日宣布，成功攻克混合专家模型（MoE）架构的关键瓶颈，并开源一项名为COMET的重大优化技术。该技术显著提升了大模型的训练效率，实现了高达1.7倍的效率提升，并有效降低了40%的训练成本。

图源备注:图片由AI生成，图片授权服务商Midjourney

据介绍，COMET技术已在字节跳动的万卡集群训练中得到实际应用，累计节省了数百万GPU小时的训练算力。与近期DeepSeek开源的DualPipe等MoE优化方案相比，COMET具有更强的兼容性和便捷性，能够像插件一样直接接入现有的MoE训练框架，支持业界主流大模型，无需对训练框架进行侵入式修改。

技术数据显示，引入COMET后，单个MoE层可实现1.96倍的加速，端到端平均效率提升1.71倍，且在不同并行策略、输入规模及硬件环境下均表现出稳定的性能。更值得关注的是，COMET还能够与DeepSeek的DualPipe方案联合使用，有望进一步大幅压缩模型训练成本。

这项技术的开源，无疑为大模型领域带来了新的突破，有望加速大模型的研发和应用。

论文地址:https://arxiv.org/pdf/2502.19811

开源地址:https://github.com/bytedance/flux?continueFlag=c1d74dd2912ab3909a1a27fe4f5cf519

上一篇: DeepSeekR2或于3月17日发布，将撼动ClaudeSonnet3.7的地位

根据X平台上的最新消息，DeepSeek下一代AI模型DeepSeek R2或将于3月17日正式发布。这一消息迅速引发业界关注，许多人认为这一新模型可能会对现有AI巨头，如Anthropic的Claude Sonnet3 7，构成强有力的挑战。据X用

下一篇: 00后用DeepSeek直播1天卖出3.3亿元

近日，在浙江杭州，随着 AI 工具 DeepSeek 的走红，越来越多的创业者开始借助其强大的功能来实现盈利。日前，关于一位00后主播在使用 DeepSeek 进行直播时，仅一天就成功销售了价值3 3亿元的商品，引起了广泛关注