全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2024-11-17_「付费」扩展测试时计算是万能的吗?Scaling What成为关键

您的位置:首页 >> 新闻 >> 行业资讯

扩展测试时计算是万能的吗?Scaling What成为关键 机器之心PRO · 会员通讯 Week 46---- 本周为您解读 ③个值得细品的AI & Robotics业内要事 ----1. 扩展测试时计算是万能的吗?Scaling What成为关键传统的 Scaling Laws 范式是否已经达到极限?新的 Scaling Laws 范式能否解决数据难题?只要扩展测试时计算,就能够实现通用人工智能吗?「LLM + 推理模型」是否能实现类人智能?LLM 真的具有推理能力吗?...2. 谁能进入下一轮?具身智能「练习生」的技术储备和商业路径有何异同?具身智能创企融资规模如何?明星「练习生」都有哪些头部资源支持?各家创企技术路径有何差异?「练习生」都有哪些技术储备?具身智能还差些什么?...3. Anthropic 深度访谈:当下的 Scaling Laws 局限不会改变 AI 的未来可期Scaling Law 受阻问题不大?Anthropic 怎么解决 LLM 推理发展减速问题?Claude 3.5 系列有什么不同?AI 明年的风险级别要到 ASL-3?AI 迟早能处理所有任务?最佳失败率和 AI 有什么关系?.... ...本期完整版通讯含 3 项专题解读 +26 项本周 AI & Robotics 赛道要事速递,其中技术方面 9项,国内方面 9 项,国外方面 8 项。本期通讯总计 23535字,可免费试读至 9%消耗99微信豆即可兑换完整本期解读(约合人民币9.9元) 要事解读① 扩展测试时计算是万能的吗?Scaling What成为关键日期:11 月 10 日 事件:近日,外媒 The Information 的一篇报道引发了关于「模型 Scaling Laws 范式是否已经达到极限」的争议。OpenAI o1 模型的推出将 Scaling Laws 范式从预训练带向了推理层,模型推理层的开发和规模增长成为 AI 大模型玩家们新一轮「竞赛」的重点。涉及复杂计算和决策,缓慢逻辑思考的「System 2」思维成为主导。 传统的模型 Scaling Laws 范式已经达到极限了吗? 1、近日,The Information 的一篇报道内容引发了争议。报道表示,由于高质量文本和其他数据的供应量减少的原因,GPT 系列模型性能的提升正在放缓。OpenAI 计划发布的新一代模型 Orion 相比于 GPT-3 和 GPT-4 两款模型之间的飞跃,模型质量的提升要小得多。[1] ① 据此前 The Verge 的报道,Orion 模型是 OpenAI 计划在今年 12 月之前推出的下一代模型,与 GPT 系列模型不同的是,Orion 主要面向企业客户,计划首先向密切合作的公司提供 Orion 模型的访问权限;[2] ② The Information 报道表示,OpenAI 目前只完成了 Orion 训练过程的 20%,在智能和完成任务和回答问题的能力方面已经与 GPT-4 不相上下。而 Orion 模型相比于该公司发布的最新两款旗舰模型 GPT-3 和 GPT-4 之间的飞跃,质量的提升要小得多。由此,引发了关于大模型 Scaling Laws 进入边际效应递减阶段甚至达到极限的一系列争议。 2、传统的模型 Scaling Laws 来自 OpenAI 的论文《Scaling Laws for Neural Language Models》,强调了模型大小与性能之间的正相关性,即通过在预训练中使用更多的数据和算力来实现模型性能的提升。在 o1 模型推出后,模型的 Scaling Laws 范式从预训练阶段转向后训练即推理阶段,通过更多的强化学习(训练时计算)和更多的思考时间(测试时计算)来持续提高 o1 的性能。o1 在响应用户之前会先产生一个很长的内部思维链,完善自己的思维过程,尝试不同的策略,并认识到自己的错误。[3] [4] 3、对于传统的模型 Scaling Laws 范式是否已经达到极限,业内有着不同的观点。 ① OpenAI 的 CEO Sam Altman 认为,目前尚未达到传统 Scaling Laws 的极限。OpenAI 成立了一个基础团队来研究应对模型的 Scaling Laws 将持续到什么时候。但 Altman 此前也曾在公开场合多次提到,后续模型能力提升可能是渐进式而非跳跃式的。 ② 心理学家 Gary Marcus 和数据科学家 Yam Peleg 则认为传统的 Scaling Laws 已经进入边际效应递减阶段。 ③ OpenAI 的 Adam GPT 则认为,「大模型的 Scaling Laws 和推理时间的优化是两个可以互相增益的维度。」The Information 报道文章的作者同样也表达了类似的看法,「更确切地说,未来似乎是 LLM 与推理模型相结合,推理能力更强,效果更好。」[5] ④ 前 OpenAI 首席科学家 Ilya Sutskever 更加专注「Scaling What」,Scaling Laws 的对象才是关键,重要的是「扩大正确的规模」。Ilya 认为,「大模型的 scaling 只是一种假设,还远不是 law,将采用不同的方式来扩展大模型性能。」据路透社报道,Ilya 的创业公司 SSI 正在尝试一种与 OpenAI 不同的 Scaling 方法。[6] 通过扩展「测试时计算」能否真正解决问题? 1、o1 的推出将传统的 Scaling Laws 范式带向了「Post-Training Scaling Law」,关注点逐渐转向推理层的 Scaling 。o1 在训练时间和测试时推理中应用了「让我们一步一步思考」的思路链 (CoT) 范式,「思考」时间越长,模型就能解决更复杂的问题。 ① 相比于使用 CoT 扩展训练时间,o1 证明了扩展测试时更为重要。据 o1 的技术博客,在 AIME 任务上,准确率和测试时计算呈对数线性关系。简单来说,随着计算指数增加,准确率也会线性上升。 2、「测试时计算(Test-Time Compute)」和「测试时训练(Test-Time Training)」是近期业内关注的两项重点技术。「测试时计算」来自谷歌 DeepMind 和 UC 伯克利的研究者在 2024 年 8 月发布的论文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》,该论文探究了如何通过增加测试时的计算量来提高大型语言模型(LLMs)的性能。[7] ① 研究者基于现有的 RL self-play + MCTS 的方法开发了类似算法,并通过投入额外计算资源改进 LLM 的响应分布和对验证器(verifier)进行搜索的方式分析了 Scaling 模型 Test-Time Compute 对推理能力的影响。 ② 该工作在一定程度上证实了用测试时计算来改进模型输出的可行性。在简单和中等难度的问题上,甚至在困难的问题上(取决于预训练和推理工作负载的特定条件),额外的测试时计算通常比预训练更能提升模型能力。但在最具挑战性的问题上,Scaling 测试时计算的好处则非常少,通过额外的预训练计算来取得进展更为有效。 3、近期,MIT 的一篇论文《The Surprising Effectiveness of Test-Time Training for Abstract Reasoning》指出了在推理阶段提升模型性能的另一技术「测试时训练」。该论文研究了测试时训练在提高语言模型(LMs)在抽象和推理语料库(ARC)任务上的性能方面的有效性。[8]

上一篇:2025-02-10_vue实现预览编辑ppt、word、pdf、excel、等功能的解决方案(内网-前端) 下一篇:2025-06-28_浏览器插件之《跳过第三方链接的提示中转页》——你们讨厌这样的页面吗?

TAG标签:

14
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价