Create Alert
Email me similar jobs

深度学习平台研发工程师

Premium Full-time
深度学习平台研发工程师
广州
全职
通用智能板块
职位描述
建设高效的深度学习基础服务,保障大规模训练稳定,为各类模型研发提供技术支撑,优化计算效率,支持算法团队业务需求落地【主要职责】:1. 负责深度学习平台的系统架构设计和研发工作,提供端到端的模型交付能力2. 集成云原生能力,负责模型研发、训练、推理等相关功能,提升平台资源利用率和计算效率3. 负责大模型训练/推理的监控、排障和容错4. 持续运营,改进平台性能、易用性和稳定性,优化用户体验【基本资格】:5. 计算机科学,工程或相关领域的学士学位6. 熟悉Linux开发环境,掌握Golang/Python等语言,具备良好的代码规范意识和文档编写能力7. 熟悉云原生相关技术,如kubernetes、kubeflow、volcano等,具备二次开发经验8. 熟悉微服务、数据库、分布式系统、缓存技术、消息队列等相关技术9. 强大的解决问题能力,热爱技术,有较强的自我驱动学习能力,持续关注前沿技术发展【期望资格】:10. 相关领域的硕士学位11. 深入理解深度学习理论,熟悉主流训练推理框架Pytorch/Deepspeed/Megatron/Triton/Vllm,故障定位和性能调优方向有相关项目经验12. 参与过AI Infra相关项目,熟悉FlashAttantion、DLRover、Pytorch Elastic等社区项目13. 具备大规模GPU集群的研发和实践经验,了解通用GPU架构、GPU虚拟化、RDMA高速网络和分布式存储技术
职位要求
--
投递