2023年9月 29日,由阿里云、NVIDIA联合主办,阿里云天池平台承办的“NVIDIA TensorRT Hackathon 2023生成式 AI模型优化赛”圆满落幕。该赛事自2020年以来,已成功举办三届,本届赛事于今年 7月启动,吸引了来自全国729支开发者团队报名参赛,其中共有 40支团队晋级复赛,最终 26支团队于决赛中脱颖而出,分获冠军/亚军/季军及优胜奖,展现出了卓越的技术实力。
解锁 TensorRT-LLM挖掘生成式 AI新需求
今年的NVIDIA TensorRT Hackathon着重提升选手开发 TensorRT应用的能力。
在过去的一年里,生成式 AI迎来了爆发式增长。计算机能够批量生成大量图像和文本,有的甚至能够媲美专业创作者的作品。这为未来生成式 AI模型的发展铺平了道路,令人充满期待。正因如此,NVIDIA TensorRT Hackathon 2023选择生成式 AI模型作为比赛的主题,以激发选手的创新潜力。
今年的比赛设置了初赛和复赛两组赛题——初赛阶段,选手需要利用 TensorRT加速带有 ControlNet的 Stable Diffusion pipeline,以优化后的运行时间和出图质量作为主要排名依据;复赛为开放赛题,选手可自由选择公开的 Transformer模型,并利用 TensorRT或 NVIDIA TensorRT-LLM进行模型推理优化。
NVIDIA TensorRT™作为 GPU上的 AI推理加速库,一直以来都备受业界认可与青睐。本次比赛的背后是 NVIDIA TensorRT开发团队对产品不断进行改进和优化的结果。通过让更多模型能够顺利通过 ONNX自动解析得到加速,并对常见模型结构进行深度优化,极大地提高了 TensorRT的可用性和性能。这意味着大部分模型无需经过繁琐的手工优化,就能够在 TensorRT上有出色的性能表现。
TensorRT-LLM是 NVIDIA即将推出用于大语言模型推理的工具,目前已于官网开放试用。作为此次复赛推荐使用的开发工具之一,TensorRT-LLM包含 TensorRT深度学习编译器,并且带有经过优化的 CUDA kernel、前处理和后处理步骤,以及多 GPU/多节点通信,可以在 NVIDIA GPU上提供出类拔萃的性能。它通过一个开源的模块化 Python应用 API提高易用性和可扩展性,使开发人员能够尝试新的 LLM,提供最顶尖的性能和快速自定义功能,且不需要开发人员具备深厚的 C++或 CUDA知识。
作为本次大赛的主办方之一,阿里云天池平台为参赛选手提供了卓越的云上技术支持,在阿里云GPU云服务器中内置 NVIDIA A10 Tensor Core GPU,参赛者通过云上实例进行开发和训练优化模型,体验云开发时代的AI工程化魅力。同时,由NVIDIA 30名工程师组成导师团队,为晋级复赛的 40支队伍提供一对一辅导陪赛,助力选手获得佳绩。
从实践到迭代脑力与创造力的集中比拼
本次比赛中涌现出大量优秀的开发者。在获奖的 26支团队中,有不少团队选择借助 TensorRT-LLM对通义千问-7B进行模型推理优化。
通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的 70亿参数规模的模型,基于 Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。在 Qwen-7B的基础上,还使用对齐机制打造了基于大语言模型的 AI助手 Qwen-7B-Chat。
获得此次比赛一等奖的“无声优化者(着)”团队,选择使用 TensorRT-LLM完成对 Qwen-7B-Chat实现推理加速。在开发过程中,克服了 Hugging Face转 Tensor-LLM、首次运行报显存分配错误、模型 logits无法对齐等挑战与困难,最终在优化效果上,吞吐量最高提升了4.57倍,生成速度最高提升了5.56倍。
而获得此次赛事二等奖的“NaN-emm”团队,在复赛阶段,则选择使用 TensorRT-LLM实现 RPTQ量化。RPTQ是一种新颖的基于重排序的量化方法,同时量化了权重与中间结果(W8A8),加速了计算。从最开始不熟悉任何 LLM模型,到后续逐步学习和了解相关技术,“NaN-emm”团队启用了GEMM plugin,GPT Attention plugin,完成了 VIT、Q-Former、Vicuna-7B模型的转化,最终通过 40个测试数据,基于 Torch框架推理耗时 145秒,而经过 TensorRT-LLM优化的推理引擎耗时为 115秒。
本次大赛还涌现了一批优秀的开发者,本届参赛选手邓顺子不仅率领队伍获得了一等奖,还收获了本次比赛唯一的特别贡献奖。他表示,2022年的 Hackathon比赛是他首次接触 TensorRT,这使他对模型推理加速产生了浓厚的兴趣。尽管当时未能进入复赛,但那次经历让他深感自身技能的不足。在上一次比赛中,他目睹了顶尖选手使用 FasterTransformer在比赛中取得领先地位,这一经历让他对 AI技术有了更深入的理解和追求。随后,他积极做 TensorRT上的模型开发,特别是对 ChatGLM/Bloom等新兴模型进行了优化,感受到了 TensorRT的强大。
今年,他再次参加了 TensorRT Hackathon 2023,利用 TensorRT-LLM成功优化了 QWen大模型,实现了自己的梦想。他感谢主办方给予的机会,团队的支持,以及所有参赛者的努力,他期待未来能与大家一起为 AI技术的发展创造更多奇迹。
人工智能应用场景创新日新月异,AI模型的开发与部署也需要注入新的动能。在此次赛事中,选手们基于 TensorRT挖掘出更多的潜能和功能需求。未来,阿里云和NVIDIA还将持续为开发者和技术爱好者提供展示技能和创意的平台,天池平台将与更多优秀的开发者一同推进 TensorRT的发展,让 AI在 GPU上更容易、更高效地部署。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
近日,杭州熙凰科技集团有限公司成为阿里云产品生态合作伙伴。未来,熙凰集团将携手云计算与科技智能的力量,共同建设影响世界的数字化企业服务产品和解决方案,为全球企业带来持续成功的客户价值。
阿里云成为国内首个加入大模型开源行列的大型科技企业。就在昨天,阿里云公开表态,把自家的通义千问大模型开源。阿里云把通用70亿参数模型,包括Qwen-7B和对话模型Qwen-7B-Chat这两款大模型产品给开源了。
6月1日,2023阿里云峰会·粤港澳大湾区在广州举行,会上阿里云正式推出《云卓越架构白皮书》,为企业用云管云解决方案和产品化落地提供指引,助力企业构建更加安全、高效、稳定的云架构。本书由阿里云架构师团队、产品团队、全球交付团队等众多团队基于过去多年服务企业的经验总结共同撰写,从安全合规、稳定性、成本
5月17日,2023阿里云峰会·常州站上,阿里云正式发布第八代企业级计算实例g8a以及性能增强性实例g8ae。两款实例搭载第四代AMDEPYC处理器,标配阿里云eRDMA大规模加速能力,网络延时低至8微秒。其中,g8a综合性价比平均提升15%以上,g8ae算力最高提升55%,在AI推理与训练、深度学
Manus撕开一道真相
文/八真来源/节点财经具身智能赛道,谁最有可能拔得A股资本市场的头筹?答案大概率是诞生刚刚两年,由华为"天才少年"、B站百万粉丝科技UP主稚晖君(彭志辉)创立的智元机器人。近期,从事新材料研发与生产的上纬新材(688585.SH)丢出重磅炸弹,宣布智元机器人及相关主体将通过收购其至少63.62%的股
文/道哥大举裁员、清空账号、国内IP无法访问——曾被誉为“中国AIAgent希望之星”的Manus,在估值飙至5亿美元的高光时刻“闪离”中国市场。近日,Manus“裁员、出走”的消息在媒体端大量发酵。消息称,Manus公司总部将由中国迁至新加坡,其国内团队也将大幅裁撤——原有120人规模团队除40余
四个月前邀请码炒至10万元,如今官网变灰、社交账号清空,这家AI新贵的闪电迁移折射中国科技企业出海潮涌。7月11日,打开Manus官网的用户发现一则突兀提示:“Manus在你所在的地区不可用”。而就在不久前,这个位置还显示着“Manus中文版本正在开发中”的乐观声明。同时,Manus官方微博和小红书
文/十界来源/节点财经一场围绕算力自主的竞赛,正在科创板上演。近日,国产全功能GPU厂商摩尔线程递交科创板招股书,拟募资约80亿人民币,成为今年上半年科创板拟募资规模最大的冲刺者,也打响了“国产英伟达”上市的第一枪。据招股书显示,摩尔线程自2020年成立以来,主营全功能GPU芯片的研发与销售,以自主
“AI大模型六小虎”百川智能危机重重。这是前搜狗CEO王小川创办的AI公司。昨天就爆出新闻,百川智能的联合创始人离职,这是王小川入局AI的第一道大坎。接下的成败非常关键:(1)拿下河北(2)学习科大讯飞百川智能离职高端概览:(1)2025年7月10日,百川智能技术联合创始人谢剑将离职。他是百川只能的
百度AI团队今日正式推出PaddleOCR3.1版本,以突破性的多语言组合识别(MultilingualCompositionPerception,MCP)技术为核心,彻底重构复杂文档处理边界。此次升级标志着OCR领域首次实现对同一文档内任意混合语言文本的精准识别,为全球化企业、跨境业务及多元文化场
“宇树已形成硬件、算法、场景联动的业务飞轮,自研率超95%的技术壁垒让其成为全球机器人赛道不可忽视的中国力量。”首程资本管理合伙人朱方文在追加投资时如是评价。7月7日,据每日经济新闻从宇树科技投资方处获悉,国内人形机器人领军企业宇树科技(UnitreeRobotics)已明确计划于科创板IPO,预计
推理与多模态的终极融合,将彻底终结用户在不同模型间切换的烦恼。7月7日,OpenAI正式确认将在今年夏季推出新一代人工智能模型GPT-5。这一突破性产品将整合现有的多个强大模型,特别是融合专注推理能力的“O系列”与具备多模态功能的“GPT系列”,为用户提供前所未有的统一体验。OpenAI开发者体验负