Hao Zhang / 张昊
把大模型做得更轻、更快,也更能落地。
我目前在南开大学计算机学院攻读计算机技术硕士,持续关注模型压缩、大模型推理优化与高效部署, 重点方向包括动态稀疏、KV Cache 联合压缩、MoE 量化与推理加速。
Research Focus
我在做什么
大模型解码优化
围绕解码阶段访存瓶颈,研究输入驱动动态稀疏、KV Cache 联合压缩以及端到端吞吐优化。
模型压缩与量化
关注 FP8、INT8、W4A16 等量化方案,以及 MoE 场景下的自动量化、精度控制与部署路径。
系统与高性能实现
使用 Triton、PyTorch、vLLM、SGLang 等框架,将算法方案落到可复用的推理内核和工具链。
Selected Work
代表成果
Unveiling Super Experts in Mixture-of-Experts Large Language Models
ICLR 2026(CCF-A)第三作者,主要负责 MoE 大模型实验实现、Super Expert 相关消融设计以及多 benchmark 性能评测。
美团 M2CA 团队
参与 LLM_plat 的 FP8 Block 自动量化与部署支持,推进 LongCat / FlashCat 系列模型高效量化落地,并开发可复用 MoE 量化工具链。
从算法到系统的闭环验证
在 Triton Kernel、量化转换链路和长上下文推理场景中持续做端到端验证,关注的不只是方法有效,还包括是否真正可部署。
Projects
重点项目
2025.08 - 2026.04
大语言模型解码阶段 KV Cache 联合压缩优化研究
硕士毕设,提出 JSQKV 联合压缩方法,面向长上下文解码阶段的 KV Cache 存储与访存瓶颈。
- 设计差分稀疏、双窗口在线执行、Hadamard 稳定化量化与 Sparse-Quant 数据格式。
- 在 Meta-Llama-3-8B 上,70% KV 稀疏 + 2-bit 配置下,Batch Size = 4 时吞吐较 Dense 基线提升约 44.2%。
KV Cache Long Context Sparse-Quant
2023.11 - 2025.06
基于输入特征动态稀疏的大模型解码推理优化研究
围绕解码阶段线性层权重访存瓶颈,提出 AIDCS 输入驱动动态稀疏方案,并完成高性能 Triton Kernel 落地。
- 在总体稀疏度达到 50% 时精度损失控制在 1% 以内。
- 以 Llama2-7B 为例,Batch Size = 1 时端到端解码加速达到 1.8 倍。
Dynamic Sparsity Triton Decoding
2022.11 - 2024.06
面向 Transformer 类智能模型的高能效计算架构研究
参与 166 工程项目,从硬件感知剪枝、混合比特量化到国产 FPGA 加速电路设计,探索模型与系统联合优化。
- 模型存储空间压缩至全精度网络的 1/6,平均量化位宽不高于 8 bit。
- 推进 Softmax 与乘累加等关键电路优化,提升低精度推理效率与资源利用率。
Hardware-Aware FPGA Quantization
Education
教育背景
南开大学
计算机技术硕士,计算机学院
2023.09 - 至今|保送|前 10%中国矿业大学
电子信息科学与技术学士
2019.09 - 2023.06|校级优秀毕业生|前 3% Recognition
荣誉与技能
- 本科阶段获三次校级优秀学生、校级一等奖学金、华为智能基座奖学金、上海能源奖学金。
- 研究生阶段获新生奖学金、公能奖学金,并获得昇腾 AI 创新/算子挑战赛等奖项。
- 熟悉 Python、C++、CUDA、Triton,熟悉 PyTorch、ONNX、llama.cpp、vLLM、SGLang 等框架。
Contact
