您现在的位置是:欧亿 > 探索
谷歌扔出技术欧交易所app核弹 内存需求将崩塌?
欧亿2026-03-28 03:43:21【探索】2人已围观
简介欧亿钱包支持多种数字货币存储,包括比特币、以太坊等主流币种。下载APP后,您可轻松管理您的数字资产,安全又便捷!
全球AI算力竞赛出现重大技术拐点!谷歌
近日,扔出谷歌公布的技术将崩欧交易所app全新AI內存压缩技术“TurboQuant”,引发了业界的核弹极大关注。该技术宣称能在不牺牲模型精准度的内存前提下,将生成式AI推理阶段最吃资源的需求“键值缓存”(KV Cache)空间需求减少到原来的1/6,并让计算速度暴增8倍。谷歌
这一突破性的扔出技术,也引发了整个市场对于内存需求将断崖式下跌的技术将崩担忧,美光、核弹Sandisk、内存西部数据等存储相关美股纷纷大跌。需求欧交易所app

TurboQuant究竟是谷歌什么?
在LLM(大语言模型)推理过程中,为了处理长文本,扔出系统必须将过往对话信息存放在KV Cache中,技术将崩这如同AI的“随身笔记本”。随着对话长度增加,这本笔记本需要存储的信息会迅速挤爆AI GPU的高频宽內存(HBM),成为AI运行的最大瓶颈。
谷歌的TurboQuant技术的核心优势在于解决了传统内存压缩技术产生的“內存噪声”(Overhead)。该技术由两大关键部分组成:
PolarQuant(极坐标量化):传统向量以XYZ坐标标注,运算繁琐。谷歌改为采用“极坐标”逻辑,将复杂的方位简化为“半径”与“角度”。这好比将原本要标记“往东走3公里、再往北走4公里”的信息,简化为“以37度角走5公里”。这种几何结构的转换,大幅减少了数据处理的负荷。

QJL(Quantized Johnson-Lindenstrauss):这是一套极其精简的1bit数学校正机制。仅利用额外的1bit来精准修正压缩过程中的残余误差,让模型即使被压缩到仅剩3bit,在LongBench等多项基准测试中仍能达成“零精度损失”。

△在Llama-3.1-8B-Instruct模型上,TurboQuant 在LongBench基准测试中展现出强大的 KV 缓存压缩性能,优于各种压缩方法 (括号中标明了位宽)。
谷歌选择将这套足以成为核心竞争力的技术完全开源,不仅优化了Gemini等大型模型的检索效率,更为其他大模型减少对于内存依赖,加速端侧AI发展铺平道路。
根据实测,在英伟达(NVIDIA)H100加速器上,TurboQuant相比未压缩方案,性能最高提升了8倍,且无须重新训练模型即可直接挂载,堪称AI部署的降本增效的“神兵利器”。

△在NVIDIA H100加速器上,TurboQuant 在计算键值缓存中的注意力逻辑值方面表现出显著的性能提升,在各种位宽级别上均优于高度优化的JAX基线。

△TurboQuant 展现出强大的检索性能,在GloVe数据集 (d=200)上实现了相对于各种最先进的量化基线的最佳1@k 召回率。
Cloudflare首席执行官Matthew Prince等人将TurboQuant称为谷歌的“DeepSeek时刻”,认为其有望像DeepSeek一样,通过极高的效率收益大幅拉低AI的运行成本,同时在结果上保持竞争力。
内存需求会降低,还是会带来更大需求?
针对TurboQuant技术会引发了整个市场对于内存需求断崖式下跌的担忧,产业专家与研究机构也给出了截然不同的看法:
富国银行(Wells Fargo)分析师Andrew Rocha指出:“当context window(上下文窗口)越来越大,KV Cache的爆炸性成长原本是推升內存需求的保证。但TurboQuant正在直接攻击这条成本曲线,一旦被广泛采用,数据中心对內存容量的规格要求将被打上大问号。”
不过,知名投行摩根士丹利(Morgan Stanley)和研究机构Lynx Equity Strategies则给出了截然不同的观点,
摩根士丹利认为市场可能忽视了“效率提升带动总量增长”的经济规律。当AI计算所需的内存成本降低到原本的1/6,这将会使得原本因内存太贵而无法上线的AI应用(如长文本翻译、复杂代码生成)需求大规模爆发,反而会填补、甚至超越被压缩掉的内存缺口。
这就是杰文斯悖论(Jevon's paradox),即当技术进步提高了使用资源的效率(减少任何一种使用所需的数量),但成本降低导致需求增加,令资源消耗的速度不减反增。
摩根士丹利分析师约瑟夫·摩尔(Joseph Moore)及其团队在周四发布的投资者报告中指出: “有报道称谷歌的TurboQuant会导致内存使用量减少了到原来的1/6,但这忽略了他们仅仅指的是KV Cache,而不是整体内存使用量。
“值得注意的是,谷歌的 Gemini 3 和 2.5 Pro 模型都拥有 100 万个Token的上下文窗口,但谷歌曾透露,他们使用 Gemini 1.5 Pro 测试过高达 1000 万个Token的上下文窗口,并取得了非常好的结果,但由于推理成本较高,他们最终没有发布该模型,”摩尔说道。“因此,我们预计,随着此类创新以及其他技术的出现,成本将会降低,这项技术将被用于服务于更智能、计算密集型的产品。”
摩根士丹利进一步指出,TurboQuant主要优化的是“推理阶段”的缓存,并非“训练阶段”的模型权重。因此,对于支撑AI核心训练的HBM(高频宽內存)采购逻辑影响相对有限。
相比之下,TurboQuant对手机、笔记本电脑等终端设备的人工智能部署更具意义。由于移动设备的內存有限,这类高效压缩技术能让更强大的AI模型在手机端运行,这反而会刺激各类终端装置进行內存规格的全面换代。
Lynx Equity Strategies 的观点认为,虽然人工智能提供商需要创新来解决推理中随着Token上下文长度增加而出现的瓶颈问题,但由于供应限制,这在未来三到五年内并不会减少对内存和闪存的需求。
很赞哦!(78)
上一篇: 芯片+OS联合开发 国产下一代开源CPU昆明湖与如意操作系统启动
下一篇: 8亿估值,张雪峰「清仓」
相关文章
- PC与服务器市场芯痛加剧!英特尔AMD上调全系列CPU价格
- 小米大家电总经理单联瑜内部讲话:要扭转用户对我们产品质量差认知
- 福特CEO法利试驾中国皮卡:很有竞争力 但载重、拖拽能力不行
- 富临精工:公司新能源汽车增量及智控零部件、发动机零部件和磷酸铁锂业务正在全力以赴保证各项订单交付
- 沪上阿姨净利大增超52%,业绩快速增长怎么看?
- 雷军:过段时间给大家汇报小米在 AI 方面的最新进展,SU7 外观改动一定要非常小心
- 福特CEO法利试驾中国皮卡:很有竞争力 但载重、拖拽能力不行
- 热搜第一!姚晨官宣离婚:丈夫曾凭多部电影获最佳摄影奖
- 刘靖康回应大疆起诉:专利在影石产生 不畏惧任何专利诉讼
- 小米大家电总经理单联瑜内部讲话:要扭转用户对我们产品质量差认知
热门文章
站长推荐
友情链接
- 欧亿交易所官网-坚守标准打造规范使用平台
- 下载欧亿官网-安全认证开启交易平台
- 欧亿交易所-全球时区适配,交易顺畅无阻
- 欧亿钱包-随时随地开启交易之旅
- 欧亿-深度订单簿优化,交易价格精准匹配
- 欧亿官网下载-加密货币交易APP随时掌控
- 欧亿官网版下载-开启安全下载数字资产之旅
- 下载欧亿交易所-数字资产交易安全第一步
- 欧亿app下载-数字期货专业市场安全下载
- 欧亿app-安全便捷交易伙伴,开启数字资产之旅
- 欧亿app下载-数字期货专业市场安全下载
- 欧亿-手机电脑端同步,畅享全球交易网络
- 欧亿手机版下载-机构级区块链金融基础设施
- 欧亿下载官网-专业风控确保每笔交易安全
- 欧亿交易所下载-安全存储交易加密资产
- 欧亿-合规运营保障,用户权益全面守护
- 欧亿下载官网-专业风控确保每笔交易安全
- 欧亿-深度订单簿优化,交易价格精准匹配
- 欧亿-社区驱动型平台,引领金融科技新潮流





