文章来源:放心AI网发布时间:2025-04-14 17:20:15
在人工智能领域,大语言模型(LLM)正在不断进化,最近,卡内基梅隆大学(CMU)与 HuggingFace 的研究者们共同提出了一种名为 “元强化微调”(Meta Reinforcement Fine-Tuning,简称 MRT)的新方法。这一方法旨在优化大语言模型在测试时的计算效率,尤其是在解决复杂推理问题时,表现尤为突出。
研究表明,现有的大语言模型在推理过程中常常消耗过多的计算资源,而 MRT 的目标是让模型在给定的计算预算内,实现更高效的答案发现。该方法将大语言模型的输出分割成多个片段,以便在探索与利用之间取得平衡。通过对训练数据的细致学习,MRT 能够使模型在面对未知难题时,既能利用已知信息,又能够探索新的解题策略。
在研究中,CMU 团队的实验显示,使用 MRT 微调后,模型在多个推理基准测试上取得了显著提升。在与传统结果奖励强化学习(GRPO)的对比中,MRT 的准确率是其2到3倍,且在 token 使用效率上提升了1.5倍。这意味着,MRT 不仅能提高模型的推理能力,还能降低计算资源的消耗,从而在实际应用中更具优势。
此外,研究者们还提出了如何有效评估现有推理模型的有效性,为未来的研究奠定了基础。这一成果不仅展示了 MRT 的潜力,也为大语言模型在更多复杂应用场景中的应用指明了方向。
通过这样的创新,CMU 与 HuggingFace 的研究团队无疑在推动 AI 技术的前沿,赋予机器更强大的推理能力,为实现更智能的应用打下了坚实的基础。
项目地址:https://cohenqu.github.io/mrt.github.io/
相关攻略 更多
最新资讯 更多
CMU团队推出元强化微调:提升大语言模型推理能力的新范式
更新时间:2025-04-14
潞晨科技推全新开源视频模型Open-Sora2.0训练流程全开源
更新时间:2025-04-14
智谱AI宣布再获珠海5亿元融资
更新时间:2025-04-14
阿里巴巴推出AI旗舰应用“新夸克”全面升级为“AI超级框”
更新时间:2025-04-14
叫板Sora?潞晨科技开源视频大模型Open-Sora2.0,降本提速
更新时间:2025-04-14
Luma开源图像模型预训练技术IMM采样效率提高10倍
更新时间:2025-04-14
腾讯元宝与腾讯文档打通:支持一键上传和导出为腾讯文档
更新时间:2025-04-14
报道称MiniMax意向收购AI视频创业公司鹿影科技
更新时间:2025-04-14
英矽智能完成1.1亿美元E轮融资推动AI平台升级
更新时间:2025-04-14
英国首相计划利用AI替代部分公务员工作
更新时间:2025-04-14