Exploring scalable reasoning in diffusion-based large language models using advanced reinforcement learning techniques.
更新时间:2025-04-22 15:02:19
本文介绍了如何利用强化学习(RL)方法扩展扩散大语言模型(dLLM)的推理能力。通过两阶段的训练过程,我们首先在高质量的推理数据集上进行Masked SFT,然后引入改进的RL算法diffu-GRPO,旨在提升dLLM的推理表现。
在第一阶段,我们使用SFT(监督微调)算法,在s1k数据集上进行训练,s1k包含1000个高质量推理问题。这些推理问题展示了详细的逐步问题解决过程,包括验证中间结果和在遇到错误时进行回溯。在第二阶段,使用基于策略梯度的RL算法diffu-GRPO来优化dLLMs,通过创新的对数概率估计方法,解决dLLM的迭代生成问题。
该技术的定价信息未在公开文献中提供,建议根据实际应用需求与开发团队沟通获取定价细节。
该项目由开发团队在其官方网站上提供支持。
目前未提供公开的联系邮箱,建议通过官方网站获取更多信息。
社交媒体:Twitter:@dllm_reasoning,Instagram:@dllm_research