英伟达发布TensorRT

2024-02-03 09:24:14 · 百科

9月10日音讯,英伟英伟达 9 日 宣告推出名为 TensorRT-LLM的英伟深度优化的开源库,能够在 Hopper 等 AI GPU 上加速一切大言语模型的英伟推理功能。

据悉,英伟英伟达现在现已和开源社区协作,英伟使用 SmoothQuant、英伟FlashAttention 和 fMHA 等尖端技术,英伟完成 AI 内核来优化其 GPU,英伟能够加速 GPT-3(175 B),英伟Llama Falcom(180 B)和 Bloom 模型。英伟

TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度计划,答应作业独立于其他使命进入和退出 GPU。英伟该计划答应同一 GPU 在处理大型核算密集型恳求时,英伟动态处理多个较小的英伟查询,进步 GPU 的英伟处理功能,能够让 H100 的吞吐量加速 2 倍。

在功能测验中,英伟达以 A100 为根底,对比了 H100 以及启用 TensorRT-LLM 的 H100,在 GPT-J 6B 推理中,H100 推理功能比 A100 提高 4 倍,而启用 TensorRT-LLM 的 H100 功能是 A100 的 8 倍。

在 Llama 2 中,H100 推理功能是 A100 的 2.6 倍;而启用 TensorRT-LLM 的 H100 功能是 A100 的 4.6 倍。