搜索优化
Rewards
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按相关度排序
按时间排序
7 天
Transformer、RNN和SSM的相似性探究:揭示看似不相关的LLM架构之间的联系
本文深入探讨了Transformer、循环神经网络(RNN)和状态空间模型(SSM)之间的潜在联系。文章首先回顾了传统的掩码自注意力机制,然后引入了线性化注意力的概念,解释了其计算效率优势。接着探讨了注意力掩码的优化,引入了半可分离矩阵的概念,并阐述 ...
26 天
康奈尔与普林斯顿团队将Llama模型提炼为Mamba,性能不降推理更快
近日,来自康奈尔和普林斯顿等机构的研究人员成功将Llama模型提炼成了被称为Mamba的新模型,并且设计了新的推测解码算法,大大加速了模型的推理速度。这个研究成果不仅提升了模型的效率,同时也为AI模型的进一步优化提供了新的思路。
10 天
Transformer推理天花板被谷歌打破?DeepMind首席科学家亮出84页PPT,却遭 ...
随OpenAI爆火的CoT,已经引发了大佬间的激战!谷歌DeepMind首席科学家Denny Zhou拿出一篇ICLR ...
36氪
20 天
LIama 3+Mamba强强联手,蒸馏到线性RNN,推理速度提升1.6倍
把Llama 3蒸馏到Mamba,推理速度最高可提升1.6倍! 而且性能不减,甚至表现比原始模型还要优异。 这是来自Together AI的新作,通过蒸馏将Transformer和 ...
新浪网
1 个月
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
前段时间,Mamba 的出现打破了这一局面,它可以随上下文长度的增加实现线性扩展。随着 Mamba 的发布,这些状态空间模型 (SSM) 在中小型规模上已经 ...
来自MSN
5 个月
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
此外,本文还探索和研究了各种模态融合方案,以创建一个有效的多模态 Mamba。具体来说,本文采用 Mamba 语言模型作为 VLM 的基础模型,它已经显示 ...
14 天
「LLM」这个名字不好,Karpathy认为不准确、马斯克怒批太愚蠢
机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 也非常赞同,他表示:如果将 LLM 改为自回归 Transformers 或者其他名字的话,那 Mamba、Jamba、Samba ...
来自MSN
2 个月
从根本上改变语言模型!全新架构TTT超越Transformer和Mamba,长上下文中 ...
从2017年Google Brain团队推出Transformer架构逐步取代长短期记忆(LSTM)等“循环神经网络(RNN)模型”成为首选模型,到后来首个线性时间序列架构Mamba ...
3 天
Llama-4使用10万块GPU训练、更好开源,扎克伯格亲口确认!
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!全球最大社交平台Meta(Facebook、Instagram、WhatsApp等母 ...
雷锋网
8 天
英伟达 Jim Fan:复刻NLP的成功路,用通用模型开启具身智能的GPT-3时刻
赋予这只 Unitree Go1 的四足机器人能骑瑜伽球能力的,是英伟达十大项目之一Eureka的扩展研究——Dr. Eureka。它的特殊之处在于,它将虚拟世界中的训练成果直接转移到现实世界,无需微调,直接有效。
3 天
国产非Transformer大模型再升级!押注群体智能,落地五大硬件,性能 ...
智东西9月27日消息,国内AI大模型创企岩芯数智(RockAI,简称岩芯)昨日发布了自研的新一代非Transformer架构大模型,名为Yan1.3多模态大模型。该模型今年11月正式向开发者开源。
hypebeast.cn
11 天
率先近赏 Nike Kobe 5 Protro 最新配色「Year of the Mamba」
Nike Kobe 5 Protro 最新配色「Year of the Mamba」在上周末率先揭晓后,很快球鞋情报帐户 @knowing_kicks 就捎来了完整的清晰图辑。从中能看到更明显的 Eggplant/Black/Metallic ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈