创建提醒
向我发送相似的招聘

大模型量化算法研究与评测体系工程师 / 研究员

Premium Remote Friendly Full-time CUDA PyTorch AI
大模型量化算法研究与评测体系工程师 / 研究员南京全职互联网 / 电子 / 网游职位描述主要负责面向自研芯片的大模型量化算法研究、工程实现与量化精度评估体系建设,支撑 LLM、VLM 及多模态大模型在低比特、高性能场景下的部署与持续迭代。1.负责面向自研 AI 芯片的大模型量化算法研究与开发,包括但不限于 Weight-only 量化、Activation 量化、KV Cache 量化、混合精度量化、低比特量化、无标定 / 少标定量化等方向; 2.结合芯片计算特性、数据格式、访存结构和算子支持能力,设计适配硬件的量化方案,提升大模型在自研芯片上的推理效率与精度保持能力; 3.负责 LLM、VLM 及音视频多模态模型的量化精度评估体系建设,包括评测指标设计、评测集构建、评测流程自动化、误差分析与精度回归分析等; 4.搭建大模型量化评测框架,支持不同模型、不同量化算法、不同 bit-width、不同硬件后端之间的系统化对比评测; 5.负责量化算法在大模型推理链路中的落地验证,包括模型加载、算子替换、图优化、端到端性能分析、精度损失定位与优化; 6.构建面向业务场景的大模型量化评测体系,支持对话、代码、数学推理、视觉理解、多模态生成、音视频理解等任务的量化效果评估; 7.建设大规模快速分布式评测能力,支持大量模型版本、量化配置和芯片后端的自动化评测、结果管理与可视化分析; 8.参与量化评测平台研发,支持量化实验管理、评测任务调度、结果可视化、精度榜单发布和异常样本分析; 9.跟踪 GPTQ、AWQ、SmoothQuant、HQQ、QuaRot、SpinQuant、MXFP/FP8/INT4 等前沿量化算法和低精度计算技术,并结合自研芯片特点进行改进和创新。 职位要求任职要求1.研究生及以上学历,计算机、电子信息、人工智能、自动化、数学等相关专业优先; 2.熟悉大模型基本结构与推理流程,了解 Transformer、Attention、MLP、KV Cache、Norm、Embedding 等核心模块; 3.熟悉大模型量化相关技术,包括 INT8、INT4、FP8、Weight-only 量化、PTQ、QAT、GPTQ、AWQ、SmoothQuant 等方法中的一种或多种; 4.具备较强的 PyTorch 编程能力,熟悉模型加载、前向推理、算子替换、模型精度评估和实验自动化流程; 5.熟悉大模型评测方法,了解通用评测集、业务评测集、多模态评测集的构建与使用方式; 6.具备良好的实验分析能力,能够定位量化后精度下降的原因,并从算法、数据、算子或硬件适配角度提出优化方案; 7.有大模型部署、推理加速、模型压缩、量化算法、AI 芯片适配、评测平台建设等相关实习或项目经验者优先; 8.代码能力强,具备良好的工程实现能力,能够独立完成算法原型、实验框架和评测工具开发; 9.具备良好的论文阅读、问题抽象和技术文档撰写能力。 加分项1.有 GPTQ、AWQ、HQQ、SmoothQuant、QuaRot、SpinQuant、AutoRound 等量化算法复现或改进经验; 2.熟悉 vLLM、TensorRT-LLM、llama.cpp、transformers、AutoGPTQ、GPTQModel、llm-compressor 等推理或量化框架; 3.熟悉 CUDA / Triton / 自定义算子开发,或有 NPU、GPU、AI 加速器适配经验; 4.熟悉分布式评测、模型榜单系统、可视化评测平台、实验管理平台建设; 5.有 LLM / VLM / 多模态模型量化、部署、评测相关项目经验。投递
相似的工作