文章来源:放心AI网发布时间:2025-04-12 14:12:18
近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成为业界首款在14B参数规模上实现强化学习效果的模型,显著提升了数学推理能力,成绩超过大多数32B级别模型。
与 DeepSeek-R1-14B 相比,Light-R1-14B-DS*在数学竞赛任务中表现突出:在 AIME24测试中提升4.3分,在 AIME25中更是提高10分。此外,在数学推理任务 GPQA 上,该模型取得61.7分 的优异成绩。
为实现这一突破,360智脑团队采用了两种创新训练方法。首先是 Curriculum SFT(渐进式监督微调),通过分阶段训练,让模型从简单数学问题逐步过渡到复杂问题,进一步增强逻辑推理能力。其次是 强化学习(RL),首次在14B级别推理模型上成功应用,不仅提升推理准确率,还确保其他技能基本无损。
此次发布不仅包括模型本身,还开源了 SFT数据、代码及技术报告,为业界提供了宝贵资源。这一成果标志着中小规模模型在强化学习领域的重大进展,或将推动AI推理能力的进一步普及与发展。
项目地址:https://github.com/Qihoo360/Light-R1
模型地址:https://huggingface.co/qihoo360/Light-R1-14B-DS
数据地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData
相关攻略 更多
360智脑团队成功复现Deepseek强化学习效果,发布开源模型Light-R1-14B-DS
OpenAI呼吁美国中央政府加强人工智能监管
巨人网络发布行业首个DeepSeek原生游戏玩法太空杀推出内鬼挑战
告别“无声视频”尴尬!字节AI音效生成模型SeedFoley上线即梦一键生成大片感音效
Anthropic、IBM和Meta的技术领导者警告称,人工智能将取代软件开发人员的工作
Sesame发布CSM模型:实时情感定制AI语音合成迈向新高度
OpenAIChatPlayground升级为PromptsPlayground更好测试、迭代提示词
AI助力房地产市场腾飞,预计2030年规模将达1803.45亿美元
最新资讯 更多
360智脑团队成功复现Deepseek强化学习效果,发布开源模型Light-R1-14B-DS
更新时间:2025-04-12
OpenAI呼吁美国中央政府加强人工智能监管
更新时间:2025-04-12
巨人网络发布行业首个DeepSeek原生游戏玩法太空杀推出内鬼挑战
更新时间:2025-04-12
告别“无声视频”尴尬!字节AI音效生成模型SeedFoley上线即梦一键生成大片感音效
更新时间:2025-04-12
Anthropic、IBM和Meta的技术领导者警告称,人工智能将取代软件开发人员的工作
更新时间:2025-04-12
Sesame发布CSM模型:实时情感定制AI语音合成迈向新高度
更新时间:2025-04-12
OpenAIChatPlayground升级为PromptsPlayground更好测试、迭代提示词
更新时间:2025-04-12
AI助力房地产市场腾飞,预计2030年规模将达1803.45亿美元
更新时间:2025-04-12
一男子因利用AI撰写色情小说被判刑十个月,非法获利超两万元
更新时间:2025-04-12
论文阅读噩梦终结!AI神器横空出世:arXiv论文一键变博客,科研效率火箭式飙升!
更新时间:2025-04-12