资深算法研究员-后训练

NIO (Shanghai, 中国) Follow 3天前发布

Premium Full-time

立刻申请

资深算法研究员-后训练

上海

社招

全职

数字技术 - 算法

本科及以上

7-10 年

职位描述

- 负责大模型后训练的算法研发，包括SFT、GRPO、RLVR、多目标强化学习等，持续提升销售垂类模型的效果、稳定性与泛化能力，探索并提出超越SFT+RL的新型post-training paradigm；- 负责构建后训练的整体数据闭环，包括指令数据、偏好数据、拒答/安全数据、复杂推理数据、Agent 轨迹数据、领域数据、评测数据等；- 负责 Agent、RAG、工具调用、多模态检索增强等链路的模型能力优化，提升模型在复杂任务中的精准率，构建出一套“可自进化”的Agentic系统；- 跟踪大模型后训练、Alignment、RLHF/RLAIF、Agent RL、多模态后训练、Reward Hacking、防幻觉、安全对齐等前沿方向，沉淀出核心方法论、技术文档和最佳实践，推动团队技术的升级迭代。

职位要求

- 计算机、人工智能、数学等相关专业，硕士及以上优先，有3年以上大模型后训练的相关实践经验；- 具备良好的 Data Sense 与 Evaluation Sense，能够基于数据分析与实验设计驱动模型优化；- 扎实的编程能力，精通PyTorch、DeepSpeed、Megatron、verl、LLaMA-Factory、vLLM 等训练/推理框架者优先；- 具备较强的工程实现能力，能够独立完成算法实验、训练任务、效果分析和迭代优化；- 具备较强的问题定义、技术规划、跨团队协作和项目推进能力；- 有顶会论文、高Star Github开源项目、百亿/千亿参数模型训练、分布式训练、RLHF 全流程经验者优先。

投递

立刻申请

保存招聘