Hao Zhang / 张昊

把大模型做得更轻、更快,也更能落地。

我目前在南开大学计算机学院攻读计算机技术硕士,持续关注模型压缩、大模型推理优化与高效部署, 重点方向包括动态稀疏、KV Cache 联合压缩、MoE 量化与推理加速。

ICLR 2026 MoE 方向论文,第三作者
30% - 40% 实习期间 FP8 Block 推理吞吐提升
1.8x Triton 稀疏 Kernel 端到端解码加速
44.2% JSQKV 在典型配置下的吞吐提升
Research Focus

我在做什么

大模型解码优化

围绕解码阶段访存瓶颈,研究输入驱动动态稀疏、KV Cache 联合压缩以及端到端吞吐优化。

模型压缩与量化

关注 FP8、INT8、W4A16 等量化方案,以及 MoE 场景下的自动量化、精度控制与部署路径。

系统与高性能实现

使用 Triton、PyTorch、vLLM、SGLang 等框架,将算法方案落到可复用的推理内核和工具链。

Selected Work

代表成果

学术成果

Unveiling Super Experts in Mixture-of-Experts Large Language Models

ICLR 2026(CCF-A)第三作者,主要负责 MoE 大模型实验实现、Super Expert 相关消融设计以及多 benchmark 性能评测。

实习经历

美团 M2CA 团队

参与 LLM_plat 的 FP8 Block 自动量化与部署支持,推进 LongCat / FlashCat 系列模型高效量化落地,并开发可复用 MoE 量化工具链。

工程结果

从算法到系统的闭环验证

在 Triton Kernel、量化转换链路和长上下文推理场景中持续做端到端验证,关注的不只是方法有效,还包括是否真正可部署。

Projects

重点项目

2025.08 - 2026.04

大语言模型解码阶段 KV Cache 联合压缩优化研究

硕士毕设,提出 JSQKV 联合压缩方法,面向长上下文解码阶段的 KV Cache 存储与访存瓶颈。

  • 设计差分稀疏、双窗口在线执行、Hadamard 稳定化量化与 Sparse-Quant 数据格式。
  • 在 Meta-Llama-3-8B 上,70% KV 稀疏 + 2-bit 配置下,Batch Size = 4 时吞吐较 Dense 基线提升约 44.2%。
KV Cache Long Context Sparse-Quant
2023.11 - 2025.06

基于输入特征动态稀疏的大模型解码推理优化研究

围绕解码阶段线性层权重访存瓶颈,提出 AIDCS 输入驱动动态稀疏方案,并完成高性能 Triton Kernel 落地。

  • 在总体稀疏度达到 50% 时精度损失控制在 1% 以内。
  • 以 Llama2-7B 为例,Batch Size = 1 时端到端解码加速达到 1.8 倍。
Dynamic Sparsity Triton Decoding
2022.11 - 2024.06

面向 Transformer 类智能模型的高能效计算架构研究

参与 166 工程项目,从硬件感知剪枝、混合比特量化到国产 FPGA 加速电路设计,探索模型与系统联合优化。

  • 模型存储空间压缩至全精度网络的 1/6,平均量化位宽不高于 8 bit。
  • 推进 Softmax 与乘累加等关键电路优化,提升低精度推理效率与资源利用率。
Hardware-Aware FPGA Quantization
Education

教育背景

南开大学

计算机技术硕士,计算机学院

2023.09 - 至今|保送|前 10%

中国矿业大学

电子信息科学与技术学士

2019.09 - 2023.06|校级优秀毕业生|前 3%
Recognition

荣誉与技能

  • 本科阶段获三次校级优秀学生、校级一等奖学金、华为智能基座奖学金、上海能源奖学金。
  • 研究生阶段获新生奖学金、公能奖学金,并获得昇腾 AI 创新/算子挑战赛等奖项。
  • 熟悉 Python、C++、CUDA、Triton,熟悉 PyTorch、ONNX、llama.cpp、vLLM、SGLang 等框架。
Contact

保持联系