Math - 搜索 News

8 天

在人工智能快速发展的今天，数学能力的提升显得尤为重要。最近，北京大学与阿里巴巴团队联合推出的Omni-MATH评测基准，为大语言模型在奥林匹克数学竞赛中的应用奠定了新的标准。随着o1系列模型的面世，传统数学评测的界限被不断打破，尤其是针对高难度的数学问题，这一技术的引入将可能引发广泛关注和讨论。

OpenAI的o1系列一发布，传统数学评测基准都显得不够用了。 MATH-500，满血版o1模型直接拿下94.8分。更难的奥数邀请赛AIME 2024，o1也获得83.3%的准确率。

3 天

【太平洋科技快讯】近日，谷歌对其人工智能模型Gemini 1.5进行了一系列升级，推出了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两个新版本。并且特别针对Gemini 1.5 ...

【新智元导读】Google DeepMind的SCoRe方法通过在线多轮强化学习，显著提升了大型语言模型在没有外部输入的情况下的自我修正能力。该方法在MATH和HumanEval基准测试中，分别将自我修正性能提高了15.6%和9.1%。

平台声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。

来自MSN11 天

白小交发自凹非寺量子位 | 公众号 QbitAI 击败LIama3！Qwen2.5登上全球开源王座。而后者仅以五分之一的参数规模，就在多任务中超越LIama3 405B。各种任务表现也远超同类别的其他模型。

新智元 on MSN3 天

编辑：LRS 【新智元导读】Google DeepMind的SCoRe方法通过在线多轮强化学习，显著提升了大型语言模型在没有外部输入的情况下的自我修正能力。该方法在MATH和HumanEval基准测试中，分别将自我修正性能提高了15.6%和 ...

来自MSN10 天

在人工智能领域，数学能力的突破一直是业界关注的焦点。近日，阿里云推出的新一代数学模型Qwen2-Math系列，以其卓越的数学推理和解题能力，在基准测试中超越了GPT-4、Claude等通用大型语言模型，成为数学AI模型的新霸主。 Qwen2-Math系列模型，包括1.5B、7B和72B三 ...

对国外开发者们来说，今天是一个特殊的“疯狂星期四”！周四还没来，就有开发者在社交媒体平台上翘首以盼；已经要睡觉的日本网友，半夜爬起来测试竞技场；甚至有人直呼今天是“疯狂星期四”！没错，一切都是因为，Qwen2.5开源了，而且一口气开源了100多个模型 ...

10 天

自从2023年8月开源以来，通义在全球开源大模型领域后来居上，成为开发者尤其是中国开发者的首选模型。性能上，通义大模型日拱一卒，逐步赶超美国最强开源模型Llama，多次登顶Hugging ...

1 天

两个数据最能体现通义作为中国开源大模型的影响力，一是模型下载量，根据通义官方数据，截至 2024 年 9 ...

头部财经-智能车 on MSN4 天

机器之心报道编辑：Panda To CoT or not to CoT？ OpenAI ο1 的诞生极大地提升了人们对 LLM 推理能力和思维链（CoT）的兴趣。一时之间，似乎思维链很快就会成为所有 LLM 的标配，但思维链并非万能，就连 ...

一些您可能无法访问的结果已被隐去。