不止于大模型英特尔CPU引领智算新高度

2024-04-01 15:51 来源：互联网我来投稿撤稿纠错

在算力新时代，从通用计算到智算，CPU可以做更多，价值也更加凸显。

作为一种基于人工智能（AI）技术的计算方式，其含义既包含了AI，还包含了对高性能算力的要求。

拥抱大模型不容易

ChatGPT的横空出世拉开了AI大模型的新时代，而近期的文生视频模型SORA又让业界为之激动不已。据了解，Sora所需token（文本处理最小单位）数量相较于文本及图片模型的推理呈数量级增长。经中信证券简单估算，对于一个60帧的视频（约6至8秒），Sora要生成至少约120万个token，这是相当大的计算量。

科技爆炸的背后需要算力膨胀来匹配，大型AI模型的兴起带来了对智能计算能力的积极需求，于是，我们看到业界在算力基础设施方面进行积极布局，芯片需求得到极大释放，但是现实却有点不尽如人意。

网上信息显示，以OpenAI在GPT-3模型为例，该模型拥有1750亿个参数，需要庞大算力，训练成本高达1650万美元。使用GPT-3开发的ChatGPT在推论方面的成本更高，每月烧掉4千万美元。这不仅大大增加了企业成本，对地球资源、环境可持续发展性也可能产生影响。

被广泛应用于人工智能的训练、推理、科学计算等领域的GPU似乎成为顶流，并且愈发呈现出“一卡难求”的趋势。但是对于实际的企业AI落地应用而言，真的无法低成本拥抱大模型了吗？业务场景的需求对AI算力要求几何？如何挖掘现有算力潜能？

俗话说，“自古华山一条道”，但是对于算力芯片却不是，特别是对于大语言模型（以下简称：LLM）推理，CPU在某些场景下其实更适合。

为什么选择CPU？

相比GPU，CPU此前在LLM的热度表现并不算高，业界往往认为CPU在AI时代已经“过时”。

但事实并非如此。

大模型通常都分为训练和推理两个阶段，在训练环节需要处理海量数据，因此对算力性能要求较高；但推理阶段不仅几乎贯穿业务全流程，对算力的要求也没有那么高，随着CPU性能的提升，在部分场景下用CPU来完成AI推理工作对企业来说是更加适合的选择。

一方面，CPU资源更容易获取，也不需要导入异构硬件平台，额外进行相关人才的储备，更容易实现广泛部署；另外，充分利用现有IT设施有助于TCO（总体拥有成本）优化，以用更低的成本实现更优的性能表现。

其次，通过分布式的解决方案，能够有效解决CPU计算速度的问题。CPU甚至可以支持几百GB的内存，能够轻松应付甚至70B的LLM ，而且CPU的特性是通用和灵活，以及在软件兼容性方面的多年积累，在承载和部署人工智能应用工作负载方面更具优势。

这就是CPU的破局，选择CPU进行LLM探索逐渐成为企业的新选择。

近年来，随着大模型的迅速发展，光学字符识别（OCR）技术已成为LLM的重要入口。亚信科技就在自家OCR-AIRPA方案中采用了CPU作为硬件平台，实现了从FP32到INT8/BF16的量化，从而在可接受的精度损失下，增加吞吐量并加速推理。将人工成本降至原来的1/5到1/9，效率还提升了约5-10倍。

深耕医疗行业多年，已帮助多家三甲医院推进信息化和数字化建设的卫宁健康就选择与英特尔合作，通过软硬适配、优化模型算法等手段，成功在CPU（第五代至强® 可扩展处理器）上提升了面向医疗垂直领域的大模型WiNGPT的性能，让基于它的AI应用的交付、部署和应用更为高效便捷，能在任何一家已使用卫宁WiNEX系统的医院迅速上岗。

第五代至强® 可扩展处理器每个内核均具备AI加速功能，无需添加独立加速器，即可处理要求严苛的端到端AI工作负载。英特尔® 高级矩阵扩展（英特尔® AMX）为矩阵运算的加速提供了强大支持，可支持BFloat16和INT8两种数据类型，完全有能力处理要求严苛的AI工作负载。

相比同样内置AMX的第四代至强® 可扩展处理器，得益于自身在微架构和整体性能上的提升，五代® 至强的推理性能提升高达42%。

目前，LLM更多是云端部署，但是由于涉及隐私安全，本地部署LLM的需求也越发强烈。针对会议摘要、文章总结等离线场景，百亿参数的LLM就可以完全胜任，CPU的性能就可以运行，成本优势更加明显，还能降低部署成本。

更强通用计算，兼顾AI加速

当然，AI不是只有大模型，英特尔® 至强® 可扩展处理器除了持续在CPU加速AI这条路上深耕，也一直在持续挖掘CPU在通用计算领域的价值。

与前一代产品相比，第五代英特尔® 至强® 可扩展处理器有高达1.84倍的平均性能提升，可在进行通用计算时将整体性能提升高达21%，并在一系列客户工作负载中将每瓦性能提升高达36%。

例如制造领域在高度精细且较为耗时的瑕疵检测环节，部分企业就复用了既有的CPU平台，构建了横跨“云-边-端”的AI 缺陷检测方案。为了达到更好的应用效果，在使用计算机视觉方案之外，还可以融入深度学习和机器学习的技术，构建三者混合模式的方案。

星环科技则基于第五代至强® 可扩展处理器推出了Transwarp Hippo 分布式向量数据库解决方案，实现了约2倍的代际性能提升，可有效满足大模型时代海量、高维向量的存储和计算需求。

数据作为AI三驾马车之一，其重要性自然不言而喻。除了可用作向量数据库这一种，对于处理数据时候可能涉及的逻辑运算、内存操作，第五代英特尔® 至强® 可扩展处理器也可以提供充足的支持。它可以将压缩/解压缩和数据传输等资源密集型任务从CPU内核卸载至内置的英特尔® 数据分析引擎，释放数据分析和数据库运行的时钟周期，以提高每秒事物处理量，用户可以在每台服务器上扩展容量或运行更多应用。

结合第五代英特尔® 至强® 可扩展处理器更快的内存和更大的三级缓存，英特尔® 存内分析加速器（英特尔® IAA）和英特尔® 数据流加速器（英特尔® DSA）能够在提高查询吞吐量的同时，进行数据复制和转换操作，从而实现内存数据库、大数据分析和数据仓库的性能提升。

AI对隐私计算的需求也在增加，英特尔® 可信域扩展（英特尔® TDX）提供虚拟机（VM）层面的隔离和保密性，从而增强隐私性和对数据的管理。在基于英特尔® TDX的机密虚拟机中，客户机操作系统和虚拟机应用被隔离开来，而不会被云端主机、虚拟机管理程序和平台的其他虚拟机访问。

此外，英特尔还在软件创新方面持续发力，以确保现有的人工智能框架和应用能够充分发挥硬件潜力，从而加速行业的发展。

英特尔提供了完善的人工智能软件生态方案和工具链，不仅持续为主流开源框架PyTorch、TensorFlow等贡献力量，还提供了多种针对英特尔平台的优化插件，如IPEX（Intel® Extension for PyTorch）、ITEX（Intel® Extension for TensorFlow）等，以及xFT（xFasterTransformer）、OpenVINO™ 工具套件等多种优化工具。这些技术可极大地提升AI性能，包括LLM、文字生成图片Stable Diffusion等，未来的热门方向——文字生成视频，同样能够从中受益。

IPEX配合PyTorch，支持PyTorch框架下90%的主流模型，其中深度优化模型有50个以上。客户只要通过简单几步即可完成BF16混合精度转换，模型即可在保持精度的同时在CPU上高效部署。

结语

多年来，英特尔一直不遗余力地进行软硬件创新，为了迎合人工智能时代对算力的渴求，不断推陈出新，提供更加强大、更加先进的CPU处理器和其他硬件方案。

CPU运行LLM并不是“痴人说梦”，因为CPU在进化一直在进行，得益于硬件级创新和借助软件充分挖掘硬件性能，英特尔为AI时代的算力基础设施提供了新的选择机会。

我想客户和市场也是乐见其成的，毕竟这是一个双赢的结果。市场不希望单一的选择，而是多样化的选择。这就像x86的发展一样，开放带来产业的繁荣。

在生成式AI和LLM狂奔的同时，CPU也在与时俱进，让自己适配客户需求和选择。依托软硬件和生态协同，CPU正在迎来新的高光时刻，推动人工智能行业迈向新的高度，展现出无限的潜力与可能性。

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

阿里云支撑！云计算首次超越卫星成为奥运转播主要方式

北京时间7月27日凌晨，巴黎奥运会即将开幕。今年，云上转播将正式超越卫星转播，成为奥运赛事走向全球数十亿观众的主要转播方式。巴黎奥运会预计11000小时的赛事直播画面，将通过阿里云向全球分发。这将是1964年奥运会开始卫星电视转播以来，又一次重大技术进步。据介绍，OBSLiveCloud将成为202
国际奥委会主席巴赫：阿里AI技术将巴黎奥运转播带到新高度

7月26日，巴黎奥运会开幕在即，国际奥委会主席巴赫在国际转播中心举行的活动中表示，2024巴黎奥运会展现了奥运转播的未来，广泛应用的阿里AI技术正在将巴黎奥运转播带到新的高度。（国际奥委会主席巴赫）在巴黎奥运会上，云计算将替代卫星成为奥运赛事直播的主要方式。超过三分之二奥运直播信号将通过阿里云支撑的

标签：

ai技术

阿里云
中国AI公司可以不走寻常路

大模型落地呼声越来越大，但是以什么方式落地依然有争议。国内如此，国外亦然。不同的思想对应着不同的方法论。一部分AI企业忙着更新通用大模型打榜，做一些视频生成工具之类的热门产物，巨头多数属于此类。另一部分则在专注行业大模型或是平台，例如国外的Glean和国内的第四范式，后者最近还发布了AI数字人视频合

标签：

ai智能
人手一个的AI是如何诞生的

2023年是AI大语言模型爆发的一年，以OpenAI推出的GPT大模型为起始，整个行业开始从“推理式AI”向“生成式AI”迈进。据MarketDataForecast预测，全球AI市场规模将从2023年的1502亿美元增长到2030年的13452亿美元，年复合增长率高达36.8%。在此背景下，国内如
百川智能，摘下“大模型皇冠上的明珠”？

随着AI产业化和产业AI化成为业界共识，大模型的“新赛季”来了。2024年是国产大模型全面商业化的元年，各地人工智能产业发展的政策密集出台。同时，在2024世界人工智能大会（WAIC2024）上，各大AI厂商纷纷表示要让大模型落地应用场景。不过，对于大模型商业化的路线，科技巨头和大模型初创公司之间存

标签：

大模型
最后一公里不解决，大模型开闭源都一文不值

对所有大模型而言，其真正考验如同科大讯飞创始人刘庆峰所说，在最后一公里的应用和商业化落地上。作者|Cindy编辑|杨铭恐怕谁也不会想到，百模大战进入商业化下半场，围绕大模型大规模、旷日持久的战争，竟是开源和闭源路线的交锋。最近，在2024世界人工智能大会（WAIC）上，刘庆峰、李彦宏、王坚、朱啸虎、

标签：

大模型

晋升业内新宠儿，MoE模型给了AI行业两条关键出路

MoE模型火爆的背后：全新的AI解题思路

标签：

ai智能
谷歌之后，OpenAI也要给新闻网站付费了？

从新闻网站与搜索引擎的十几年较量历史中总结，大模型公司向内容方付“版权费”或是一个必然的结果。
从“+AI”到“AI+”，时代进入“Next Level”

“创新的速度比创新本身更重要。”埃隆·马斯克曾这样说到。近日，由马斯克所掌舵的特斯拉，在2024年世界人工智能大会上正式推出了第二代Optimus（擎天柱）人形机器人，距离第一代面世，仅过去9个月。加速升级的人形机器人不负所望，成了今年WAIC大会（世界人工智能大会）的一大看点。除此以外，今年的WA

标签：

ai智能
OpenAI这个盘，阿里云们能接得住吗？

降价，抢客……国产大模型跑起来了

标签：

阿里云

ai智能

加载更多

不止于大模型英特尔CPU引领智算新高度

相关文章

阿里云支撑！云计算首次超越卫星成为奥运转播主要方式

国际奥委会主席巴赫：阿里AI技术将巴黎奥运转播带到新高度

中国AI公司可以不走寻常路

人手一个的AI是如何诞生的

百川智能，摘下“大模型皇冠上的明珠”？

最后一公里不解决，大模型开闭源都一文不值

晋升业内新宠儿，MoE模型给了AI行业两条关键出路

谷歌之后，OpenAI也要给新闻网站付费了？

从“+AI”到“AI+”，时代进入“Next Level”

OpenAI这个盘，阿里云们能接得住吗？

热门排行

编辑推荐

不止于大模型 英特尔CPU引领智算新高度

相关文章

热门排行

编辑推荐

不止于大模型英特尔CPU引领智算新高度