优化 NVIDIA GPU 上 LLM 推理的性价比,使用 Amazon SageMaker 与 N
提升NVIDIA GPU上LLM推理的性价比:Amazon SageMaker与NVIDIA NIM微服务的集成
作者:James Park Eliuth Triana Jiahong Liu Kshitiz Gupta Harish Tummalacherla Nikhil Kulkarni Qing Lan 和 Saurabh Trikande日期:2024年3月18日发布于:Amazon SageMaker和人工智能
核心要点
在本文中,我们探讨了如何通过Amazon SageMaker与NVIDIA NIM微服务的集成,来优化大规模语言模型LLM在NVIDIA GPU上的推理性能和成本。NIM微服务提供了强大的工具以简化和加速LLM的部署,让开发者能够更轻松地实现自然语言处理NLP功能。
NIM微服务现已与Amazon SageMaker集成,使得用户能够快速部署最先进的LLM,并针对NVIDIA GPU的特性优化模型性能与成本。借助NVIDIA TensorRT、TensorRTLLM和Triton推理服务器,用户可以在几分钟内完成LLM的部署,而非几天。
NVIDIA NIM介绍
NIM提供了一系列优化的推理引擎,支持多种流行的模型,具体如下:
模型介绍Llama 2提供7B 13B 70B参数的模型Mistral7BInstruct特别适合指令型任务Mixtral8x7B适用于多种类型输入的模型NVIDIA Nemotron3 22B定制化高性能应用所需的模型Code Llama 70B专注于代码生成和理解的模型NIM为这些模型提供了预构建的NVIDIA TensorRT引擎,以最大限度地提升在特定NVIDIA GPU上的性能与利用率。即使你的模型不在NVIDIA的精选模型列表中,NIM也提供了诸如模型仓库生成器等实用工具,支持使用简单的YAML文件创建TensorRTLLM加速的引擎和NIM格式模型目录。
高级托管技术
NIM不仅可以创建优化的LLM以供推理使用,还提供了诸如在飞行中批处理的优化调度技术。这种技术能够将LLM的整体文本生成过程分解为多个迭代,从而提升计算实例和GPU的使用效率。
在SageMaker上部署NIM
通过与SageMaker的集成,NIM使得在Amazon平台上托管LLM变得更加高效和经济。使用NIM时,开发者能够利用SageMaker的诸多功能,比如实例数量扩展、蓝绿部署和工作负载评估如影子测试,并借助AWS CloudWatch实现卓越的可观测性和监控。
结论
通过使用NIM部署优化的LLM,用户可以享受出色的性能与成本效益。这使得LLM的部署变得简单且高效。未来,NIM还将支持参数高效的微调PEFT方法,如LoRA和Ptuning,同时将支持Triton推理服务器、TensorRTLLM和vLLM后端。
我们鼓励大家深入了解NVIDIA微服务及其在SageMaker中的部署方法,享受这些技术带来的诸多优势。NIM作为付费产品,已在AWS Marketplace中上市。
不久之后,我们将发布有关在SageMaker上使用NIM的详细指南。
作者简介
James Park 是亚马逊云服务的解决方案架构师,专注于设计、构建和部署AWS的技术解决方案,并特别关注人工智能及机器学习。他喜欢探索新文化和新体验,并保持关注最新的技术趋势。可以在LinkedIn上找到他。

Saurabh Trikande 是Amazon SageMaker推理的高级产品经理。他致力于与客户合作,推动机器学习的普及,关注复杂机器学习应用的部署、多租户模型、成本优化等挑战。闲暇时,他喜欢远足、学习创新技术、关注TechCrunch,并与家人共度时光。
Qing Lan 是AWS的软件开发工程师,参与多个高性能机器学习推理解决方案的开发。凭借深入的基础设施优化和深度学习加速知识,Qing的团队成功推出了亚马逊广告的首个十亿参数模型。
Nikhil Kulkarni 是AWS机器学习团队的软件开发人员,专注于提升云上机器学习工作负载的性能。他是AWS深度学习容器的共同创作者,热衷于分布式深度学习系统。闲暇时,他喜欢阅读、弹吉他和制作比萨。
Harish Tummalacherla 是SageMaker深度学习性能团队的软件工程师,专注于提升大规模语言模型的服务效率。闲暇时,他喜欢跑步、骑自行车和滑雪登山。
猎豹每天免费1小时加速Eliuth Triana Isaza 是NVIDIA的开发者关系经理,专注于推动亚马逊的AI MLOps、DevOps和技术专家掌握NVIDIA计算堆栈,以加速和优化生成AI基础模型。
Jiahong Liu 是NVIDIA云服务提供商团队的解决方案架构师,帮助客户采用机器学习及AI解决方案。
Kshitiz Gupta 是NVIDIA的解决方案架构师,教授客户关于GPU AI技术,并协助加速其机器学习应用。
1Password收购Trelica以增强对影子IT的检测 媒体
1Password收购Trelica,增强其访问管理能力关键要点1Password收购网络安全初创公司Trelica,以加强其扩展访问管理平台。Trelica专注于识别未经IT批准的影子IT应用,提供监测和管理工具。该收购将促进1Password的网络安全服务,提升单点登录、访问控制和IT管理自动化...