Create Alert
Email me similar jobs

系统研发工程师(云原生方向)

Premium Full-time Java AI Python
系统研发工程师(云原生方向)
上海、北京
社招
全职
互联网 / 电子 / 网游
职位描述
- 参与建设和维护 AI Infra 相关的平台系统,包括但不限于 CMDB(配置管理数据库)、流程引擎、工单系统、故障流转系统、业务资源平台、底层资产平台等;- 负责平台系统的架构设计、核心模块研发、性能优化与可扩展性改造,提升系统稳定性与工程效率;- 打通资源编排、调度平台与 CMDB/工单/流程系统的数据链路,构建覆盖资源生命周期的自动化管理能力;- 支撑 AI 训练/推理/大模型平台对底层资源的自动化获取、管控与治理能力,服务于模型全生命周期管理;- 设计和实现高可用、模块化、服务化的系统组件,保障在大规模机器和多业务环境下的可扩展性;- 与算法平台、调度系统、SRE 运维团队协同,对接跨团队需求,推动平台系统落地与演进;- 编写高质量文档、推动平台规范制定,提升系统可运维性、可观测性、可复用性。
职位要求
- 本科及以上学历,计算机、软件工程等相关专业,3 年以上平台系统研发经验;- 熟练掌握 Go / Java / Python 等主流语言中的一到两种,具备良好的系统设计与编码能力;- 熟悉微服务架构、RPC 框架、消息中间件(Kafka/RabbitMQ)、数据库(MySQL/Redis/ClickHouse)等组件;- 熟悉至少一类平台系统的设计与实现,如:CMDB、流程引擎、DevOps 工单系统、故障治理平台、资源编排系统等;- 有一定的系统架构经验,了解分布式系统设计理念,掌握常见系统调优思路;- 较强的沟通协作能力和技术驱动意识,能跨团队对接多角色需求(产品、算法、运维等)。加分项:- 有建设大规模 CMDB、资产管理系统、工单平台或流程引擎的实际经验;- 熟悉 K8s、AI 训练平台(如 Kubeflow、Volcano、NVIDIA Base Command Platform)等 AI Infra 生态;- 熟悉 GPU/CPU 异构资源管理、算力调度策略,有算法平台或资源池对接经验;- 有基础设施平台灰度发布、故障治理、可观测性系统建设经验;- 有开源社区贡献、主导过中大型平台系统设计或重构经验者优先。
投递
Similar jobs