数据合成算法工程师
职位描述
1.数据合成算法研发◦负责设计并实现图像、视频、文本、语音、3D点云等多模态数据合成算法;◦研发高质量数据生成技术,包括数据扩增、风格迁移、图像生成、文本生成等;◦探索AIGC(如文生图、文生视频、3D资产生成)在训练数据合成中的应用。2.前沿领域数据支撑◦具身智能方向:支撑机器人、自动驾驶、虚拟Agent等场景的数据清洗与合成,包括视觉-语言-动作(VLA)数据、机械臂操作序列、仿真环境数据等;◦科学智能方向:支撑AI for Science场景的结构化数据处理,如分子性质预测、基因序列、科学文献等多模态科学数据的清洗与质量评估;◦智能体(Agent)方向:支撑多模态Agent的训练数据构建,包括多轮对话交互、工具调用、任务规划、长程推理等数据的设计与合成。3.数据质量与评估◦构建数据质量自动评估与筛选算法◦研究合成数据的分布优化与多样性提升方法◦设计数据有效性验证方案4.数据处理与工程化◦设计高效的数据处理流水线,支持大规模训练数据的快速构建◦优化数据合成算法性能,提升数据生成效率◦参与数据闭环系统建设,实现数据驱动的模型迭代5.前沿技术探索◦跟踪具身智能、科学智能、Agent等领域的最新研究成果◦探索合成数据(Synthetic Data)在前沿模型训练中的最佳实践
职位要求
学历要求:•熟练掌握Python/C++,熟悉PyTorch/TensorFlow等深度学习框架•具备数据处理与分析能力,熟悉NumPy、Pandas等工具素质要求:•良好的问题分析与解决能力,能够独立开展算法研发工作•较强的学习能力和自驱力,对新技术有好奇心•具备良好的团队协作与跨方向沟通能力•有顶会论文、开源项目经验者优先加分项(满足其一):•有Diffusion Model、GAN、VAE等生成模型的研究或工程经验•有具身智能相关经验(机器人数据、仿真环境、VLA模型等)•有科学智能相关经验(分子设计、蛋白结构、科学文献处理等)•有Agent相关经验(对话系统、工具学习、ReAct/CoT等推理框架)•熟悉数据扩增技术(如albumentations、torchvision transforms)•了解主动学习、半监督学习、小样本学习
职位信息
投递