沐曦联合香港科技大学登上AI顶会新闻中心

企业新闻

News

新闻中心

沐曦联合香港科技大学登上AI顶会

时间：2025-10-13

近日，沐曦PDE-AI Solution团队与香港科技大学合作，在两大人工智能顶级会议NeurIPS2025与EMNLP 2025上发表重要研究成果，涵盖大语言模型（LLM）的多样化解码与高效训练优化方向，展现了中国企业在AI基础研究领域的持续创新力。

顶会背景：AI研究的全球高地

关于NeurIPS

定位与声誉：人工智能和机器学习领域的“天花板”级会议，与ICML并列为全球最顶尖的两大会议。被工业界（如Google, Meta, OpenAI等）视为技术风向标。NeurIPS的论文录用，是全球学术界与工业界评估机构与个人在人工智能基础研究领域核心竞争力的黄金标准，是通往全球顶尖AI研究机构的关键履历。
特点：非常注重论文的理论深度、算法创新和基础性贡献。涵盖深度学习、强化学习、概率模型、计算机视觉、人工智能伦理等广泛而核心的机器学习方向。
难度：历年录用率极低（通常在20%-25%左右），2025年投稿数20000+，竞争极为激烈。

关于EMNLP

定位与声誉：自然语言处理领域的世界顶级会议之一，由国际计算语言学协会（ACL）主办， NLP领域的三大顶会之一。在EMNLP上发表论文，是展现研究机构在自然语言处理领域具备世界级创新与应用能力的权威证明，已成为全球头部科技公司及实验室争相吸纳高端人才的重要依据。
特点：侧重于具有坚实实证基础的自然语言处理研究，强调通过实验和数据分析来验证新方法、新模型的有效性。覆盖机器翻译、文本生成、信息抽取、情感分析、大语言模型等热门方向。
难度：作为NLP领域的旗舰会议，EMNLP吸引了全球顶尖高校和科技公司的投稿，2025年投稿数接近10000，历年录用率极低（通常在15%-20%左右）。

Semantic-guided Diverse Decoding for Large Language Model (NeurIPS 2025）

论文链接：https://arxiv.org/pdf/2506.23601

摘要

在大语言模型（LLM）的实际应用中，生成多样且有意义的回答始终是关键需求 —— 无论是 Best-of-N 策略中通过多候选提升小模型性能，还是 RLHF 训练中通过多样本优化奖励信号，亦或是数据合成时构建丰富训练集，都需要模型跳出换词不换义的局限。
然而，当前主流的解码方法如温度采样、多样化束搜索等，大多只能实现表层词汇的多样性，生成的回答看似不同，核心语义却高度重合。这一痛点严重制约了大模型在复杂任务中的潜力。
香港科技大学联合沐曦研究团队提出了SemDiD（Semantic-guided Diverse Decoding）—— 一种直接在语义嵌入空间操作的解码算法，通过三大核心机制实现质量与多样性的平衡，在 Best-of-N 和 RLHF 任务中均实现显著性能提升。

核心痛点：现有解码方法的语义多样性陷阱

为什么现有多样化解码方法效果有限？研究团队通过实验指出了两大关键问题：

多样性停留在词汇层面：温度采样通过调整概率分布增加随机性，多样化束搜索通过 n-gram 惩罚避免重复，但这些方法均未触及语义层面。例如，对于如何解决数学应用题的问题，模型可能生成先算 A 再算 B和先计算 A 然后计算 B这类表层差异，而非不同解题思路。

概率评估的固有偏见：传统方法用 token 概率衡量回答质量，但存在严重的位置偏差和长度偏差 —— 序列越靠后的 token 因上下文更确定，概率往往更高；句子中远离标点的 token 也会获得更高置信度。这导致长回答被过度高估，短回答被不公平扣分，质量评估失真。

SemDiD：三大机制实现语义级多样化解码

SemDiD 的核心思路是直接在语义嵌入空间引导解码过程，而非在 token 层面做文章。它通过正交方向引导、动态组间排斥、去偏概率评估三大机制，同时保证回答质量与语义多样性，整体架构如图 1 所示。

图 1 SemDiD机制

实验：在 Best-of-N 和 RLHF 中全面领先

研究团队在 9 个基准任务（涵盖推理、问答、机器翻译）和 3 种 RLHF 算法（Iterative-RLHF、GRPO、RLOO）上验证了 SemDiD 的效果，对比了温度采样、算术采样、多样化束搜索等主流方法。

1. Best-of-N 任务：覆盖度提升 1.4%-5.2%

Best-of-N 的核心指标是「覆盖度」（测试集中至少有一个正确回答的样本比例）和「准确率」（通过投票 / LLM-Judge 选出正确回答的比例）。结果显示：

在推理任务中，SemDiD 用 25 个样本实现 82.4%（ARC-Challenge）、85.6%（BBH）、98.1%（GSM8K）的覆盖度，较最佳基线提升 1.8%-4.3%。
在问答任务中，MMLU-Pro + 的覆盖度提升最为显著，达 5.2%（25 个样本时 82.63% vs 77.43%）。
即使是小嵌入模型（0.5B 参数），SemDiD 的语义聚类效果也优于基于 n-gram 的聚类，25 个样本时覆盖度达 95%，远超概率选择的 92%。

2. RLHF 任务：训练收敛加速 15%，准确率提升 2.1%

在 RLHF 训练中，多样化的候选能提供更丰富的奖励信号，避免策略坍缩。实验显示：

在 TLDR 摘要任务中，SemDiD 使 GRPO 算法的 win rate（GPT-o1-mini 评估）达 73.4%，较最佳基线提升 3.2%。
在 GSM8K 数学推理任务中，SemDiD 帮助 Iterative-RLHF、GRPO、RLOO 的准确率分别达 85.5%、88.2%、82.4%，最高提升 2.1%。
更重要的是，SemDiD 使 RLHF 训练收敛速度加快 15%—— 在 60 次 rollout 时就能达到其他方法 100 次 rollout 的性能，大幅降低训练成本。

Domain Impact-aware Data Sampling for Large Language Model Training (EMNLP 2025）

论文链接：https://arxiv.org/pdf/2504.13227

摘要

在大语言模型（LLM）训练中，数据选择始终是决定效率与性能的关键 —— 海量多领域训练数据（如代码、学术论文、网页文本）中，不同领域对下游任务的贡献差异巨大，且这种贡献会随训练过程动态变化。传统静态采样策略（如均匀采样、固定比例混合）要么浪费算力在低效数据上，要么无法适应训练动态，导致模型性能难以最大化。
香港科技大学联合沐曦的研究团队提出DIDS（Domain Impact-aware Data Sampling）—— 一种基于领域影响的动态数据采样框架。它通过梯度聚类重划分领域、FIM 引导评估领域影响、结合学习轨迹动态调整采样比例三大核心步骤，在仅使用 10% 训练数据的情况下，实现平均 3.4% 的性能提升，同时保持训练效率与基线相当。

核心痛点：传统领域采样策略的两大局限

现有领域级数据采样方法难以平衡领域内一致性与动态影响评估，导致训练效率低下：

领域划分缺乏训练相关性：传统方法要么按数据源（如 “代码数据”“数学数据”）划分领域，要么用 BERT 语义聚类，但这些方式无法保证同一领域内的数据对模型训练有相似影响。例如，数学证明与编程实现虽属不同数据源，却因共享逻辑推理特性，对模型参数更新的模式高度相似；反之，同一数据源的网页文本也可能因内容差异触发完全不同的梯度变化。
领域影响评估失真且静态：现有方法要么依赖计算昂贵的网格搜索（如 MM1），无法适应训练过程中领域重要性的动态变化；要么仅通过梯度相似度衡量领域影响（如 DGA、Doge），却忽略了参数更新对模型下游任务预测行为的实际影响。例如，梯度相似的两个领域，可能对模型在数学推理任务上的输出分布改变程度完全不同。

DIDS：三步实现动态领域采样优化

DIDS 的核心思路是从 “训练影响” 出发定义领域，并动态评估领域对下游任务的实际价值，最终实现资源向高价值领域倾斜。其整体流程分为 “领域重划分”“领域影响评估”“采样比例更新” 三步（图 2），形成闭环优化。

图 2 DIDS机制

实验：10% 数据实现 3.4%性能提升，多场景验证有效性

研究团队在 Llama-3.1-8B/70B、Mixtral-7B 等模型上，基于 Tulu-3（93.9 万样本）和 OpenHermes-2.5 数据集，在 9 个下游任务（涵盖推理、数学、指令跟随、生物医学问答等）上验证了 DIDS 的效果，对比了均匀采样、Random、Doremi、Velocitune、Doge、DGA 等主流基线。

多任务优化：DIDS 仅用 10 万样本（约 10% 全量数据），平均得分 62.3，不仅超过所有基线（如最强基线 Doge 得 60.2），还超越了全量数据训练的模型（61.2）。其中数学推理任务提升最显著，Minerva-MathQA 从 17.8 提升至 20.5（+2.7），TruthfulQA 从 37.2 提升至 43.0（+5.8）。
单任务优化：DIDS 平均得分 63.7，较第二好的 DGA（61.6）提升 2.1，在知识密集型任务上优势明显 ——IFEval（指令跟随）从 53.2 提升至 57.5（+4.3），TruthfulQA 从 38.5 提升至 44.8（+6.3）。

内容检索