Math - 搜索 News

新智元 on MSN3 天

编辑：LRS 【新智元导读】Google DeepMind的SCoRe方法通过在线多轮强化学习，显著提升了大型语言模型在没有外部输入的情况下的自我修正能力。该方法在MATH和HumanEval基准测试中，分别将自我修正性能提高了15.6%和 ...

3 天

Google DeepMind的研究人员发布了一种多轮在线强化学习（RL）方法 SCoRe，在完全使用自生成数据（entirely self-generated data）的情况下，显着提高了LLM的自我纠正能力。研究人员首先验证了有监督微调 ...

一些您可能无法访问的结果已被隐去。

今日热点