分布式计算与存储软件工程师
职位描述
职位描述1. 负责小鹏汽车“扶摇”AI平台数据处理相关的软件开发工作,包括数据加载工具(XDataLoader)和数据集管理平台(XDataset),提供统一的数据加载、转换、缓存与预取能力;目标解决大规模数据加载过程中出现的性能瓶颈、数据一致性、系统稳定性等问题,服务AI大模型的训练和推理;2. 开发并维护高性能 DataLoader SDK,支持自定义采样、并行读取、缓存预取与数据增强等功能,优化多线程/进程流水线,降低I/O与预处理延迟,简化算法团队接入并提升加载效率;3. 搭建通用Dataset管理系统,实现多源异构数据(图片、视频、点云、传感器等)的统一接入、解析与格式化;4. 协同算法团队及其他技术团队,深入理解业务需求,快速响应并落地实现。
职位要求
1. 计算机 / 软件工程硕士或同等经验,3年及以上大规模数据处理经验;有大规模模型训练与推理场景支持经验者优先;2. 精通 Python,具备扎实软件工程基础,良好编程规范和代码质量意识;3. 有以下至少一项实际项目经验;两项及以上者优先: a. 大规模数据加载机制(如 PyTorch DataLoader、NVIDIA DALI、TensorFlow Dataset、Hugging Face Datasets) b. Parquet/ORC 等列式存储格式及相关生态(如Petastorm),能设计高效的分区、压缩与向量化读取流程,优化批量数据访问性能。 c. Linux文件系统与网络I/O,能针对NFS、对象存储等场景进行性能调优;有云存储系统(如阿里云OSS、CPFS、火山引擎vePFS)相关经验。4. 具备关系型数据库(MySQL/PostgreSQL)与NoSQL(Redis/MongoDB等)相关经验,了解元数据与缓存管理;5. 具备大规模分布式数据处理、性能优化与问题排查经验,能定位并高效解决复杂的性能问题;熟悉Apache Ray、Kubeflow/Airflow、Prometheus等开源项目者优先;6. 具有良好的跨团队沟通能力和协作精神,责任心强,善于主动推进问题解决。加分项1. (Big Plus) 对自动驾驶领域有一定了解,且对该行业怀有热情;2. 熟练掌握 Golang/Java/C++中任一;3. 熟悉以下任何技术: a. 分布式系统原理及云原生技术(容器、Kubernetes、微服务架构); b. AI 基础设施或模型训练/推理流程(GPU 调度、模型服务框架、集群管理); c. 数据仓库体系 (Hadoop、Hive、Spark、Flink)。
投递