搜索
中关村商情网 首页 要闻热讯 财经证券 查看内容

谷歌DeepMind新突破:强化学习微调让AI决策更精准高效!

2025-5-20 21:12| 发布者: CZN| 查看: 29| 评论: 0|原作者: 小熊科技|来自: ITBEAR

在人工智能领域,一项新的突破性研究正引发广泛关注。谷歌DeepMind团队携手约翰·开普勒林茨大学的LIT AI实验室,共同探索如何通过强化学习微调(RLFT)技术,增强语言模型的决策制定能力。这一研究的核心在于,通过一系列精心设计的思维链训练,解决了模型在决策执行上的短板。

随着大数据技术的飞速发展,现代语言模型在处理文本信息方面展现出了惊人的能力,甚至能在复杂交互环境中基于知识做出决策。然而,一个显著的问题是,这些模型虽然能够推导出正确的策略,但在实际操作中却常常力不从心,难以将理论转化为实践。模型还倾向于选择短期高回报的选项,而小模型则因频率偏见而频繁重复常见动作,限制了其广泛应用。

针对这一问题,DeepMind团队提出了创新的解决方案——强化学习微调技术。该技术利用模型自生成的思维链作为训练信号,通过评估每个推理步骤对应的行动奖励,引导模型选择既逻辑自洽又有效的行动方案。这一方法不仅解决了模型推理与行动之间的脱节问题,还显著提升了模型的决策执行能力。

在实施过程中,模型会根据输入指令、历史行动及奖励信息,生成包含推理过程和动作的序列。通过蒙特卡洛基线评估和广义优势估计技术,模型能够不断优化其决策过程。若采取无效动作,系统将触发惩罚机制,确保模型在选择行动时更加谨慎。同时,奖励塑造技术的引入,既保证了输出的规范性,又为模型保留了足够的探索空间。

为了验证这一技术的有效性,研究团队进行了多项实验。在多臂老虎机模型中,2B参数模型在10臂测试中动作覆盖率提升了12个百分点,在20臂测试中频次偏见率从70%降至35%。在井字棋实验中,模型与随机对手对战时的胜率提升了5倍,对阵最优蒙特卡洛树搜索代理时的平均回报也实现了显著提升。27B大模型在生成正确推理方面的概率高达87%,而未经过微调的模型仅有21%能够执行最优动作。这些实验结果充分证明了强化学习微调技术在缩小推理与行动差距方面的卓越表现。


鲜花

握手

雷人

路过

鸡蛋

最新评论

返回顶部