Highlights
-
数据:使用 DeepSeek-Coder-V2 合成自然语言思维链标注数据,结合 Lean 证明器标注的中间状态信息,将模型的形式化证明能力与自然语言推理对齐,同时满足程序验证的要求。 -
训练:以 Lean 证明器的验证结果直接作为奖励信号,使用 GRPO 算法对模型进行强化学习训练。 -
蒙特卡洛树搜索:引入 RMaxTS 算法,激励探索行为以解决证明搜索中的奖励稀疏问题,增强模型灵活生成多样化证明的能力。 -
实验结果:在高中水平的 miniF2F 和大学本科水平的 ProofNet 基准测试中取得了新的 SOTA,显著超越了所有现有模型。
论文地址:https://arxiv.org/abs/2408.08152 模型下载:https://huggingface.co/deepseek-ai GitHub 主页:https://github.com/deepseek-ai/DeepSeek-Prover-V1.5
模型训练
-
预训练
-
有监督微调
-
强化学习
三阶段模型权重均已开源。
蒙特卡洛树搜索
此外,DeepSeek-Prover-V1.5 结合了一种新的蒙特卡洛树搜索算法——RMaxTS,建立了内在奖励机制以引导搜索流程中生成的证明产生多样化的 tactic state,利用 Lean 证明器的反馈来帮助减少冗余生成,提高采样效率。
模型表现
更多方法细节和分析实验见论文,阅读原文即可获取。
About Future
来源:https://mp.weixin.qq.com/s/O4aC9dvJC30sfSQyYgbcow
本文地址:https://www.163264.com/9377