Create Alert
Email me similar jobs

【26届校招】大语言模型数据算法工程师

Premium Full-time
【26届校招】大语言模型数据算法工程师深圳、上海正式智能制造 / 工业互联网 / 工业自动化 - 研发智能机器人板块职位描述我们正在寻找对大语言模型(Large Language Model,LLM)充满热情的数据算法工程师,加入我们的核心AI团队。你将主要负责LLM高质量与大规模数据的采集与处理,并参与从LLM预训练、微调、推理优化到多场景应用落地的全流程工作,推动LLM技术在对话系统、内容生成、知识推理、具身智能等领域的创新工作职责1. 主导LLM数据的采集和处理,搭建高效的数据处理 Pipeline,实现从海量原始数据到可直接驱动模型训练的高质量数据的转化。2. 打造并优化数据平台的核心模块(包括处理、标注、对齐、存储与可视化),确保数据的可追溯性与可验证性。3. 参与大模型从预训练到后训练的全链路流程,深入分析模型对数据的敏感点,通过数据迭代持续提升模型能力。4. 紧跟全球前沿技术动态,研究并引入最新的数据集与标准,将优秀的开源经验转化为团队的核心优势,持续扩展数据版图。职位要求1. 计算机、人工智能、自动化等相关专业硕士及以上学历。2. 具备处理和构建LLM数据集的实际经验,熟悉LLM领域常用数据集(如DCLM、Fineweb等),掌握常用的数据处理与清洗方法。3. 熟悉Transformer、GPT系列、LLaMA、GLM等主流模型架构,深入理解训练数据在模型训练中的作用与影响。4. 熟练掌握Python编程语言,熟练使用PyTorch深度学习框架,具备扎实的工程能力与良好的代码习惯。5. 思维开放,善于沟通,能够与算法、硬件及系统团队高效协作,最大化数据的业务价值。加分项1. 参与或主导过LLM预训练或后训练阶段的实际项目,熟悉从数据处理到模型迭代的完整链路。2. 具备大规模数据处理框架(如datatrove)的实际经验,处理过Trillion级别以上的数据集。3. 具备使用大模型进行大规模数据合成的相关经验。投递