Hao Zhang / 张昊

把大模型做得更轻、更快，也更能落地。

我目前在南开大学计算机学院攻读计算机技术硕士，持续关注模型压缩、大模型推理优化与高效部署，重点方向包括动态稀疏、KV Cache 联合压缩、MoE 量化与推理加速。

下载简历邮件联系 GitHub

ICLR 2026 MoE 方向论文，第三作者

30% - 40% 实习期间 FP8 Block 推理吞吐提升

1.8x Triton 稀疏 Kernel 端到端解码加速

44.2% JSQKV 在典型配置下的吞吐提升

Research Focus

我在做什么

大模型解码优化

围绕解码阶段访存瓶颈，研究输入驱动动态稀疏、KV Cache 联合压缩以及端到端吞吐优化。

模型压缩与量化

关注 FP8、INT8、W4A16 等量化方案，以及 MoE 场景下的自动量化、精度控制与部署路径。

系统与高性能实现

使用 Triton、PyTorch、vLLM、SGLang 等框架，将算法方案落到可复用的推理内核和工具链。

Selected Work

代表成果

学术成果

Unveiling Super Experts in Mixture-of-Experts Large Language Models

ICLR 2026（CCF-A）第三作者，主要负责 MoE 大模型实验实现、Super Expert 相关消融设计以及多 benchmark 性能评测。

实习经历

美团 M2CA 团队

参与 LLM_plat 的 FP8 Block 自动量化与部署支持，推进 LongCat / FlashCat 系列模型高效量化落地，并开发可复用 MoE 量化工具链。

工程结果

从算法到系统的闭环验证

在 Triton Kernel、量化转换链路和长上下文推理场景中持续做端到端验证，关注的不只是方法有效，还包括是否真正可部署。

Projects

重点项目

2025.08 - 2026.04

大语言模型解码阶段 KV Cache 联合压缩优化研究

硕士毕设，提出 JSQKV 联合压缩方法，面向长上下文解码阶段的 KV Cache 存储与访存瓶颈。

设计差分稀疏、双窗口在线执行、Hadamard 稳定化量化与 Sparse-Quant 数据格式。
在 Meta-Llama-3-8B 上，70% KV 稀疏 + 2-bit 配置下，Batch Size = 4 时吞吐较 Dense 基线提升约 44.2%。

KV Cache Long Context Sparse-Quant

2023.11 - 2025.06

基于输入特征动态稀疏的大模型解码推理优化研究

围绕解码阶段线性层权重访存瓶颈，提出 AIDCS 输入驱动动态稀疏方案，并完成高性能 Triton Kernel 落地。

在总体稀疏度达到 50% 时精度损失控制在 1% 以内。
以 Llama2-7B 为例，Batch Size = 1 时端到端解码加速达到 1.8 倍。

Dynamic Sparsity Triton Decoding

2022.11 - 2024.06

面向 Transformer 类智能模型的高能效计算架构研究

参与 166 工程项目，从硬件感知剪枝、混合比特量化到国产 FPGA 加速电路设计，探索模型与系统联合优化。

模型存储空间压缩至全精度网络的 1/6，平均量化位宽不高于 8 bit。
推进 Softmax 与乘累加等关键电路优化，提升低精度推理效率与资源利用率。

Hardware-Aware FPGA Quantization

Education

教育背景

南开大学

计算机技术硕士，计算机学院

2023.09 - 至今｜保送｜前 10%

中国矿业大学

电子信息科学与技术学士

2019.09 - 2023.06｜校级优秀毕业生｜前 3%

Recognition

荣誉与技能

本科阶段获三次校级优秀学生、校级一等奖学金、华为智能基座奖学金、上海能源奖学金。
研究生阶段获新生奖学金、公能奖学金，并获得昇腾 AI 创新/算子挑战赛等奖项。
熟悉 Python、C++、CUDA、Triton，熟悉 PyTorch、ONNX、llama.cpp、vLLM、SGLang 等框架。

Contact

保持联系

2120230710@mail.nankai.edu.cn github.com/Haozon 天津，中国

张昊 / Hao Zhang