栏目分类

热点资讯

toupaizipai

奇米色 o1措施性能无上限！姚班马腾宇等数学证明：推理token够多，就能守护即兴问题

发布日期：2024-09-19 19:35 点击次数：156

OpenAI 用 o1 开启推理算力 Scaling Law奇米色，能走多远？

数学证明来了：莫得上限。

斯隆奖得主马腾宇以及 Google Brain 推理团队创建者 Denny Zhou 联手证明，惟有念念维链裕如长，Transformer 就不错守护任何问题！

黑丝写真

通过数学措施，他们证明了 Transformer 有才智模拟即兴多项式大小的数字电路，论文已入选 ICLR 2024。

用网友的话来说，CoT 的集成放松了 Transformer 与图灵机之间的差距，为 Transformer 终了图灵完备提供了可能。

这意味着，神经收集表面上不错高效守护复杂问题。

再说得直白些的话：Compute is all you need！

CoT 让 Transformer 启动更高效

领先需要证据的是，"不错守护任何问题"是一个泛泛化的表述，严格来说，论文的中枢论断是念念维链（CoT）粗略权臣进步 Transformer 的抒发才智。

作家领先通过表面分析，提议关于固定深度、多项式宽度、常数精度的 Transformer 模子，要是不使用 CoT，其抒发才智将受限于 AC0 问题类别。（AC0 是一类不错在并行运筹帷幄中高效守护的问题，但不包括需要复杂序列化运筹帷幄的问题。）

在固定指数位的情况下，固定深度、对数精度的 Transformer 模子即使引入了正确的舍入操作，其抒发才智也仅限于 TC0 问题类别。

但当引入 CoT 时，固定深度、常数精度的 Transformer 模子就粗略守护任何由大小为 T 的布尔电路守护的问题。

这标明 CoT 权臣推广了模子的抒发才智，使其粗略处理更复杂的问题。

为了考据表面分析，论文在四个中枢问题上进行了实验，琢磨了基础（base）、CoT 和教唆（hint）三种不同的历练建筑：

模运算（Modular Addition）：并行运筹帷幄问题，论文展示了 CoT 奈何提高模子在这个问题上的准确性；

置换群组合（Permutation Composition）：需要序列化运筹帷幄的问题，论文证明了 CoT 在守护这类问题上的有用性；

迭代泛泛（Iterated Squaring）：典型的序列化运筹帷幄问题，论文展示了 CoT 奈何使模子粗略有用地守护这类问题；

电路值问题（Circuit Value Problem）：这是一个 P 皆备问题，论文证明了即使是在模子深度较低的情况下，CoT 也能使模子粗略守护这类问题。

领先在可并行的模运算问题上，输入是多少个模 7 的数，输出是它们的模 7 和。

实验终止标明，总计建筑下的 Transformer 都粗略学习模加；但在较长序列（如 n=16）上，CoT 的上风愈加光显。

这证据即使是可并行问题，CoT 也能带来一定的遵守进步。

在内在串行的置换群复合任务上，输入是 S_5 置换群中的多少个置换，输出是它们的复合终止。

终止，CoT 提高了低深度模子的准确性——

不使用 CoT 的 Transformer 即使深度较大也难以学习该任务（准确率约 20%），而使用 CoT 后即使是 1 层 Transformer 也能玩忽学习（准确率 100%）。

关于迭代泛泛任务，输入是一个质数 p、一个整数 r 和多少个" ^2 "标记，输出是 r^ ( 2^k ) mod p。

实验终止与置换群复合任务相似：不使用 CoT 时奇米色。即使 16 层 Transformer 也难以学习；而使用 CoT 后。1 层 Transformer 就能竣工求解。

这再次考据了表面分析，即迭代泛泛是内在串行的，需要 CoT 来提供必要的运筹帷幄才智。

临了的电路值问题，输入是一个立地布尔电路的形色，输出是电路的最终输出值。

实验终止标明，在基准建筑下，4 层 Transformer 的准确率约为 50%，8 层约为 90%，16 层接近 100%；

而使用 CoT 后，1 层 Transformer 就能达到接近 100% 的准确率。

这考据了表面终止，即 CoT 赋予了 Transformer 即兴电路的模拟才智，使其粗略守护电路值问题这一 P 皆备问题。

CoT+Transformer 模拟门电路

除了上述实验，作家还对以下论断进行了表面证明：

关于即兴一个不错用多项式大小的布尔电路运筹帷幄的函数，都存在一个仅有常数层数的 Transformer，不错通过裕如多步数的念念维链（CoT）来模拟电路的运筹帷幄进程，从而运筹帷幄出这个函数。

证明的念念路是先将布尔电路视为一系列逻辑门的组合，然后愚弄 Transformer 中的位置编码为每个逻辑门过甚情景分拨一个独有的默示，进而通过逐步运筹帷幄来模拟通盘电路的实施进程。

这个证明的关节，在于愚弄 CoT 来逐步模拟电路中每个门的运筹帷幄。

具体而言，关于一个有 T ( n ) 个门的电路，作家绸缪了一个 4T ( n ) 个 token 的输入序列。

这个序列包含了电路的完整形色，每个门用 4 个连气儿的 token 默示：门类型、两个输初学的索引和现时门的索引，并用输入序列中的第一个 token 引导了电路的输入值。

然后，作家构造了一个常数深度的 Transformer，这个 Transformer 的镶嵌维度只需要 O ( log n ) ，就足以对 T ( n ) 个门进行编码。

在第一层，Transformer 读取输入序列，并将电路的形色信息存储到其位置镶嵌中。

接下来是关节的 CoT 门径。Transformer 逐步生成 4T ( n ) 个 token 的念念维链，每 4 个 token 对应电路中的一个门。

关于第 i 个门，Transformer 实施以下操作：

愚弄属眼光机制获取两个输初学的运筹帷幄终止：要是输初学是电路的输入，不错径直从输入序列中读取；要是输初学是前边运筹帷幄过的中间终止，则不错从念念维链的对应位置读取。

证据门的类型（与、或、非等），用前馈收集运筹帷幄现时门的输出。

将现时门的输出写回到念念维链中，当作后续门的输入。

通过这一进程，Transformer 逐步模拟了电路中每一个门的运筹帷幄，并将中间终止存储在念念维链中。在生成完通盘念念维链后，临了一个门的输出就对应了电路的最终输出。

也即是说，通过将电路"伸开"为一个长度为 O ( T ( n ) ) 的念念维链，即使固有深度很浅，Transformer 也不错逐步实施电路中的运筹帷幄。

在此基础上，作家进一步证明，具有 O ( T ( n ) ) 长度 CoT 的常数深度 Transformer，不错模拟即兴 T ( n ) 大小的电路，因此其运筹帷幄才智等价于多项式大小电路。

表面买通了，本色可行吗？

粗略模拟电路的运筹帷幄进程，意味着 CoT+Transformer 粗略守护可运筹帷幄问题。

同期，这也证据惟有有裕如的 CoT 念念考时刻，大模子不需要推广尺寸也能守护复杂问题。

有专科东说念主士用一篇长文解释了 CoT 和图灵完备性之间的关系：

要是莫得 CoT，Transformer 仅限于实施 AC0 复杂度类中的可并行任务；

CoT 推理从根底上蜕变了这一时势，它使 Transformer 粗略通过中间推理 token 处理串行运筹帷幄，从而加多运筹帷幄深度并允许模子模拟 AC0 之外的更深端倪的电路。

这一跳动将 Transformer 带入了 P/poly 限度，即多项式大小电路不错守护的问题类型。

表面上，惟有有裕如的 CoT 门径，Transformer 就不错模拟多项式大小电路不错实施的任何运筹帷幄，从而放松了 Transformer 与图灵机之间的差距。

但本色终止仍然存在，举例有限的荆棘文窗口和运筹帷幄资源。要充分愚弄这一后劲，需要仔细的模子绸缪和优化。

还有东说念主把这项终止和 OpenAI 的"草莓"，也即是爆火的超强模子 o1 研究到了一皆——

草莓雷同亦然念念考的时刻越长，准确性越高，按照这个念念路，惟有有好的模子，就能守护东说念主类面对的一系列周折。

致使有东说念主默示，要是这项询查是的确，那么 AGI 就也曾在到来的路上了……

不外也有东说念主觉得，这仅仅一个表面性的终止，距离本色应用还存在很大差距。

即使抛开表面与本色条目的不同，时刻和资本问题即是一个弥留的终止成分。

而况实验的一个假定是模子权重被正确建筑，但本色模子的历练很难达到这一进程。

还有东说念主指出，这种模拟门电路运算，并不是大模子本色学习和使命的形式。

换言之，奈何将本色问题用布尔电路默示，是 Transformer 从能守护运算问题到粗略守护本色问题的一个关节。

但执行中，诸如"奈何诊治癌症"这么的问题，很难以电路的体式去形色。

诚然距离本色应用还有一系列问题要守护，但这项询查至少揭开了 CoT 的重大后劲。

作家简介

本论文一共有四名作家，全部都是华东说念主。

按签字规章，第一位作家为清华姚班学友李志远，是马腾宇已毕业的博士生，现为芝加哥丰田时间学院（TTIC）的终生诠释助理诠释。

第二位作家是Hong Liu，亦然马腾宇的博士生，当今在读，本科就读于清华，曾获取颠倒奖学金及优秀毕业生荣誉。

第三位是 Google Brain 推理团队创建者Denny Zhou，中科院博士，2017 年加入 Google 前在微软担任了 11 年的高档询查员。

临了是 2021 年斯隆奖得主、斯坦福大学助理诠释马腾宇，他是姚班学友、陈丹琦的同班同学。

论文地址：

https://arxiv.org/abs/2402.12875

参考邻接：

[ 1 ] https://x.com/denny_zhou/status/1835761801453306089

[ 2 ] https://www.reddit.com/r/singularity/comments/1fiemv4/denny_zhou_founded_lead_reasoning_team_at_google/奇米色

上一篇：反差 telegram 许多动物断肢后能再生, 为什么东说念主类却不行?
下一篇：奇米色本赛季英超争顶奏遵守名次：科纳特87.5%居首，范迪克76%次席