TensorRT-LLM

2025年 8月 5日
NVIDIA 从云到边缘加速 OpenAI gpt-oss 模型部署,在 NVIDIA GB200 NVL72 上实现 150 万 TPS 推理
自 2016 年推出 NVIDIA DGX 以来,NVIDIA 与 OpenAI 便开始共同推动 AI 技术的边界。
1 MIN READ

2025年 7月 27日
NVIDIA TensorRT-LLM 支持腾讯混元最新大语言模型 Hunyuan-A13B 推理加速
腾讯混元 (Hunyuan) 最新大语言模型 Hunyuan-A13B 今日发布,NVIDIA TensorRT-LLM 作为全球领先的…
1 MIN READ

2025年 7月 7日
LLM 推理基准测试:使用 TensorRT-LLM 进行性能调优
这是大语言模型延迟 – 吞吐量基准测试系列的第三篇博文,旨在指导开发者如何使用 TensorRT-LLM 对 LLM 推理进行基准测试。
3 MIN READ

2025年 6月 26日
在魔搭社区使用 NVIDIA TensorRT-LLM PyTorch 新架构优化 Qwen3 系列模型推理
摘要: TensorRT-LLM 采用 PyTorch 全新架构进一步优化模型部署流程,提升开发者使用体验。
2 MIN READ

2025年 6月 25日
如何使用 NVIDIA NeMo 技能简化复杂的 LLM 工作流程
改进 LLM 的典型方法涉及多个阶段:合成数据生成 (SDG) 、通过监督式微调 (SFT) 或强化学习 (RL) 进行模型训练以及模型评估。
4 MIN READ

2025年 6月 24日
隆重推出 NVFP4,实现高效准确的低精度推理
为了充分利用 AI,优化至关重要。当开发者考虑优化用于推理的 AI 模型时,通常会想到量化、蒸馏和剪枝等模型压缩技术。毫无疑问,
4 MIN READ

2025年 6月 11日
使用 NVIDIA Triton 和 TensorRT-LLM 部署 TTS 应用的最佳实践
Text-to-Speech (TTS) 是智能语音技术的核心组成部分。随着大模型时代的到来,TTS 模型的参数量和计算量持续增长,
2 MIN READ

2025年 5月 22日
Blackwell 借助 Meta 的 Llama 4 Maverick 突破 1000 TPS/ 用户门槛
NVIDIA 的大语言模型 (LLM) 推理速度创下了世界纪录。在包含 400 亿参数的 Llama 4 Maverick 模型 (…
3 MIN READ

2025年 5月 2日
借助 NVIDIA 在生产应用中集成和部署 Tongyi Qwen3 模型
阿里巴巴近期发布了其开源的混合推理大语言模型(LLM)通义千问 Qwen3,此次 Qwen3 开源模型系列包含两款混合专家模型 (MoE)…
3 MIN READ

2025年 4月 24日
使用 NVIDIA NIM 对游戏进行代理式 LLM 和 VLM 推理基准测试
这是 LLM 基准测试系列的第一篇文章,介绍了在使用 NVIDIA NIM 部署 Meta Llama 3 模型时,
2 MIN READ

2025年 4月 5日
NVIDIA 加速推理 Meta Llama 4 Scout 与 Maverick 模型
最新一代热门 Llama AI 模型现已支持 Llama 4 Scout 和 Llama 4 Maverick。
2 MIN READ

2025年 4月 2日
LLM 基准测试:基本概念
在过去几年中,作为广泛的 AI 革命的一部分, 生成式 AI 和 大语言模型 (LLMs) 越来越受欢迎。
4 MIN READ

2025年 4月 2日
NVIDIA Blackwell 在 MLPerf Inference v5.0 中实现巨大的性能飞跃
在不断增长的模型大小、实时延迟要求以及最近的 AI 推理的推动下, 大语言模型 (LLM) 推理的计算需求正在快速增长。与此同时,
3 MIN READ

2025年 3月 20日
借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能
微软与 NVIDIA 合作,宣布在其 Azure AI Foundry 平台上实现 Meta Llama 系列模型的变革性性能提升。
1 MIN READ

2025年 3月 18日
NVIDIA Blackwell 实现世界纪录的 DeepSeek-R1 推理性能
NVIDIA 在 NVIDIA GTC 2025 上宣布了创下世界纪录的 DeepSeek-R1 推理性能 。 搭载 8 个 NVIDIA…
5 MIN READ

2025年 2月 28日
聚焦:NAVER Place 利用 NVIDIA TensorRT-LLM 优化 SLM 基础的垂直服务
NAVER 是一家韩国热门搜索引擎公司,提供 Naver Place ,这是一项基于地理的服务,可提供有关韩国数百万家企业和兴趣点的详细信息。
4 MIN READ