大模型量化算法研究与评测体系工程师 / 研究员

后摩智能科技有限公司 HOUMO.AI (Nanjing, 中国) Follow 30天前发布

Premium Remote Friendly Full-time CUDA PyTorch AI

大模型量化算法研究与评测体系工程师 / 研究员南京全职互联网 / 电子 / 网游职位描述主要负责面向自研芯片的大模型量化算法研究、工程实现与量化精度评估体系建设，支撑 LLM、VLM 及多模态大模型在低比特、高性能场景下的部署与持续迭代。1.负责面向自研 AI 芯片的大模型量化算法研究与开发，包括但不限于 Weight-only 量化、Activation 量化、KV Cache 量化、混合精度量化、低比特量化、无标定 / 少标定量化等方向； 2.结合芯片计算特性、数据格式、访存结构和算子支持能力，设计适配硬件的量化方案，提升大模型在自研芯片上的推理效率与精度保持能力； 3.负责 LLM、VLM 及音视频多模态模型的量化精度评估体系建设，包括评测指标设计、评测集构建、评测流程自动化、误差分析与精度回归分析等； 4.搭建大模型量化评测框架，支持不同模型、不同量化算法、不同 bit-width、不同硬件后端之间的系统化对比评测； 5.负责量化算法在大模型推理链路中的落地验证，包括模型加载、算子替换、图优化、端到端性能分析、精度损失定位与优化； 6.构建面向业务场景的大模型量化评测体系，支持对话、代码、数学推理、视觉理解、多模态生成、音视频理解等任务的量化效果评估； 7.建设大规模快速分布式评测能力，支持大量模型版本、量化配置和芯片后端的自动化评测、结果管理与可视化分析； 8.参与量化评测平台研发，支持量化实验管理、评测任务调度、结果可视化、精度榜单发布和异常样本分析； 9.跟踪 GPTQ、AWQ、SmoothQuant、HQQ、QuaRot、SpinQuant、MXFP/FP8/INT4 等前沿量化算法和低精度计算技术，并结合自研芯片特点进行改进和创新。职位要求任职要求1.研究生及以上学历，计算机、电子信息、人工智能、自动化、数学等相关专业优先； 2.熟悉大模型基本结构与推理流程，了解 Transformer、Attention、MLP、KV Cache、Norm、Embedding 等核心模块； 3.熟悉大模型量化相关技术，包括 INT8、INT4、FP8、Weight-only 量化、PTQ、QAT、GPTQ、AWQ、SmoothQuant 等方法中的一种或多种； 4.具备较强的 PyTorch 编程能力，熟悉模型加载、前向推理、算子替换、模型精度评估和实验自动化流程； 5.熟悉大模型评测方法，了解通用评测集、业务评测集、多模态评测集的构建与使用方式； 6.具备良好的实验分析能力，能够定位量化后精度下降的原因，并从算法、数据、算子或硬件适配角度提出优化方案； 7.有大模型部署、推理加速、模型压缩、量化算法、AI 芯片适配、评测平台建设等相关实习或项目经验者优先； 8.代码能力强，具备良好的工程实现能力，能够独立完成算法原型、实验框架和评测工具开发； 9.具备良好的论文阅读、问题抽象和技术文档撰写能力。加分项1.有 GPTQ、AWQ、HQQ、SmoothQuant、QuaRot、SpinQuant、AutoRound 等量化算法复现或改进经验； 2.熟悉 vLLM、TensorRT-LLM、llama.cpp、transformers、AutoGPTQ、GPTQModel、llm-compressor 等推理或量化框架； 3.熟悉 CUDA / Triton / 自定义算子开发，或有 NPU、GPU、AI 加速器适配经验； 4.熟悉分布式评测、模型榜单系统、可视化评测平台、实验管理平台建设； 5.有 LLM / VLM / 多模态模型量化、部署、评测相关项目经验。投递

立刻申请

保存招聘