发布日期:2025-07-14 15:15点击次数:
波束搜索比拔萃法性能更好,但在更简单的问题上以及大推理时计算预算时却表现不佳。为了解决这个问题,我们开发了一个称为多样化验证器树搜索 (DVTS,Diverse Verifier Tree Search) 的改进算法,旨在最大限度地提高大 时的多样性。
DVTS 的工作方式与波束搜索类似,改进点如下:
对于给定的 和 ,将初始波束集合扩展为 个独立子树。
对于每个子树,选择 PRM 分最高的中间步骤。
从第 (2) 步中选择的节点生成 个新的中间步骤,并选择其中 PRM 分数最高的。
重复第 (3) 步,直到遇到 EOS 词元或达到最大树深。
以下是将 DVTS 应用于 Llama 1B 的结果:
如你所见,DVTS 提供了波束搜索的补充策略:在 较小时,波束搜索能更有效地找到正确解;但在 较大时,DVTS 所带来的候选多样性开始发挥作用,并获得了更好的表现。
我们还可以从下图中看到,DVTS 增强了大 时简单 / 中等问题的性能,而波束搜索在各难度等级的小 时效果最好: