Math - 搜索 News

新智元 on MSN3 天

编辑：LRS 【新智元导读】Google DeepMind的SCoRe方法通过在线多轮强化学习，显著提升了大型语言模型在没有外部输入的情况下的自我修正能力。该方法在MATH和HumanEval基准测试中，分别将自我修正性能提高了15.6%和 ...

3 天

Google DeepMind的研究人员发布了一种多轮在线强化学习（RL）方法 SCoRe，在完全使用自生成数据（entirely self-generated data）的情况下，显着提高了LLM的自我纠正能力。研究人员首先验证了有监督微调 ...

OpenAI的o1系列一发布，传统数学评测基准都显得不够用了。 MATH-500，满血版o1模型直接拿下94.8分。更难的奥数邀请赛AIME 2024，o1也获得83.3%的准确率。

8 天

在人工智能快速发展的今天，数学能力的提升显得尤为重要。最近，北京大学与阿里巴巴团队联合推出的Omni-MATH评测基准，为大语言模型在奥林匹克数学竞赛中的应用奠定了新的标准。随着o1系列模型的面世，传统数学评测的界限被不断打破，尤其是针对高难度的数学问题，这一技术的引入将可能引发广泛关注和讨论。

来自MSN11 天

白小交发自凹非寺量子位 | 公众号 QbitAI 击败LIama3！Qwen2.5登上全球开源王座。而后者仅以五分之一的参数规模，就在多任务中超越LIama3 405B。各种任务表现也远超同类别的其他模型。

一些您可能无法访问的结果已被隐去。