创建提醒
向我发送相似的招聘

资深算法研究员-后训练

Premium Full-time
资深算法研究员-后训练
上海
社招
全职
数字技术 - 算法
本科及以上
7-10 年
职位描述
- 负责大模型后训练的算法研发,包括SFT、GRPO、RLVR、多目标强化学习等,持续提升销售垂类模型的效果、稳定性与泛化能力,探索并提出超越SFT+RL的新型post-training paradigm;- 负责构建后训练的整体数据闭环,包括指令数据、偏好数据、拒答/安全数据、复杂推理数据、Agent 轨迹数据、领域数据、评测数据等;- 负责 Agent、RAG、工具调用、多模态检索增强等链路的模型能力优化,提升模型在复杂任务中的精准率,构建出一套“可自进化”的Agentic系统;- 跟踪大模型后训练、Alignment、RLHF/RLAIF、Agent RL、多模态后训练、Reward Hacking、防幻觉、安全对齐等前沿方向,沉淀出核心方法论、技术文档和最佳实践,推动团队技术的升级迭代。
职位要求
- 计算机、人工智能、数学等相关专业,硕士及以上优先,有3年以上大模型后训练的相关实践经验;- 具备良好的 Data Sense 与 Evaluation Sense,能够基于数据分析与实验设计驱动模型优化 ;- 扎实的编程能力,精通PyTorch、DeepSpeed、Megatron、verl、LLaMA-Factory、vLLM 等训练/推理框架者优先 ;- 具备较强的工程实现能力,能够独立完成算法实验、训练任务、效果分析和迭代优化;- 具备较强的问题定义、技术规划、跨团队协作和项目推进能力;- 有顶会论文、高Star Github开源项目、百亿/千亿参数模型训练、分布式训练、RLHF 全流程经验者优先。
投递