News
时间:2025-10-13
近日,沐曦PDE-AI Solution团队与香港科技大学合作,在两大人工智能顶级会议NeurIPS2025与EMNLP 2025上发表重要研究成果,涵盖大语言模型(LLM)的多样化解码与高效训练优化方向,展现了中国企业在AI基础研究领域的持续创新力。
为什么现有多样化解码方法效果有限?研究团队通过实验指出了两大关键问题:
SemDiD 的核心思路是直接在语义嵌入空间引导解码过程,而非在 token 层面做文章。它通过正交方向引导、动态组间排斥、去偏概率评估三大机制,同时保证回答质量与语义多样性,整体架构如图 1 所示。
研究团队在 9 个基准任务(涵盖推理、问答、机器翻译)和 3 种 RLHF 算法(Iterative-RLHF、GRPO、RLOO)上验证了 SemDiD 的效果,对比了温度采样、算术采样、多样化束搜索等主流方法。
1. Best-of-N 任务:覆盖度提升 1.4%-5.2%
Best-of-N 的核心指标是「覆盖度」(测试集中至少有一个正确回答的样本比例)和「准确率」(通过投票 / LLM-Judge 选出正确回答的比例)。结果显示:
2. RLHF 任务:训练收敛加速 15%,准确率提升 2.1%
在 RLHF 训练中,多样化的候选能提供更丰富的奖励信号,避免策略坍缩。实验显示:
现有领域级数据采样方法难以平衡领域内一致性与动态影响评估,导致训练效率低下:
DIDS 的核心思路是从 “训练影响” 出发定义领域,并动态评估领域对下游任务的实际价值,最终实现资源向高价值领域倾斜。其整体流程分为 “领域重划分”“领域影响评估”“采样比例更新” 三步(图 2),形成闭环优化。
研究团队在 Llama-3.1-8B/70B、Mixtral-7B 等模型上,基于 Tulu-3(93.9 万样本)和 OpenHermes-2.5 数据集,在 9 个下游任务(涵盖推理、数学、指令跟随、生物医学问答等)上验证了 DIDS 的效果,对比了均匀采样、Random、Doremi、Velocitune、Doge、DGA 等主流基线。