Create Alert
Email me similar jobs

数据管线高级工程师

Premium Full-time Java AI Apache Python Kubernetes
数据管线高级工程师GuangzhouFull-timeInternet / Electronics / GamesResponsibilities1. 负责数据闭环核心链路的设计与建设,开发数据清洗、标注质检、数据挖掘等工具链,支撑算法团队快速定位模型错误案例,驱动模型迭代优化;2. 负责生产研发流程的数据支持,如日志埋点、车联网数据、内部与外部数据的采集、数据同步、数据清洗与标准化、数据模型设计、离线数据处理、实时数据处理、数据服务化、数据可视化等;支持自动驾驶、智能座舱、海外数据采集、机器人数据采集等业务的开展;3. 负责数据采集、清洗、转换全链路的性能优化,解决大规模数据传输、内存管理、I/O 等瓶颈问题,搭建高吞吐、低延迟的分布式数据处理系统;4. 负责搭建数据从采集到入湖到训练的数据管理平台,实现数据版本控制、血缘追踪、元数据管理与快速检索能力,支撑多团队统一数据接入与协作;5. 协同大模型团队及其他技术团队,深入理解业务需求,快速响应并落地实现。职位要求1. 计算机、软件工程、人工智能等相关专业,本科及以上学历,5 年以上大规模数据处理或数据平台开发经验;2. 熟练掌握 Python / Go / Java 中至少一门语言,具备扎实的软件工程基础,良好的编程规范与代码质量意识;3. 有以下至少两项实际项目经验: - a. 大规模数据管道 / ETL 系统设计与开发,有数据清洗、转换、入库全链路经验; - b. 分布式消息队列(Kafka / Pulsar / RabbitMQ)的生产级应用,熟悉流式数据处理范式; - c. 分布式数据湖系统(如 Apache Iceberg),熟悉 Iceberg 表格式、分区演进、快照隔离等特性,有实际性能调优与落地经验; - d. 列式存储格式(如Lance)及相关查询引擎,有实际应用于大模型训练的经验4. 具备关系型数据库(MySQL / PostgreSQL)与 NoSQL(Redis / MongoDB)的实际使用与优化经验,理解元数据管理与缓存策略;5. 具备大规模分布式系统性能优化与问题排查经验,能快速定位并解决复杂的性能瓶颈;有 Kubernetes / Docker 容器化部署经验;6. 良好的跨团队沟通能力与协作精神,责任心强,善于主动推进问题解决。加分项1. (Big Plus) 熟悉具身智能行业数据闭环相关流程;2. 对自动驾驶行业有一定了解,对数据闭环、数据飞轮有认知,对该领域怀有热情;3. 有 AI 基础设施或模型训练流程相关经验(如数据加载、特征工程、模型评测数据准备);4. 熟悉数据湖 / 数据仓库体系,有数据版本管理与血缘追踪的实际落地经验;5. 有 GitHub 开源贡献或技术博客,持续关注大数据 / AI 基础设施领域技术动态。Qualifications--Apply