CPU上跑AI？从推荐系统的演进看CPU的崛起

2024-04-16 14:13 来源：互联网我来投稿撤稿纠错

在信息和数据极度繁荣的当下，人工智能正在通过各种方式影响着人类生活。其中，AI推荐系统作为互联网时代最关键的伴生技术之一，正在帮助人类梳理着各种纷繁杂乱的信息，让资源实现更精准的调配，让一切变得井然有序。

推荐系统：数字营销的重要引擎

当你到一座旅游城市，不知道当地有什么美食时，AI推荐系统在手机上的本地生活平台会为你列出当地所有美食；

当你在线上购物，不知道时下有哪些新款式衣服时，AI推荐系统在电商平台上又会为你列出应季又适合你的衣服。

对于企业而言，AI推荐系统更为重要，在浩渺的商业世界里，AI推荐系统就像一条秩序链，通过这条秩序链，数以千万计的企业得以找到分布在全球各地最需要他们产品的用户。

上海市人工智能行业协会秘书长钟俊浩指出：“随着人工智能技术的迅速发展及软硬件进步，我们正步入一个AI技术广泛应用并深刻影响各行各业的新时代，与此同时，如今电商、个性化广告等诸多商业场景背后都在以AI推荐系统作为依托，AI推荐系统已经是人工智能技术在商业领域最为成熟的应用之一。”

数字营销就是使用了AI推荐系统的一个主要场景，作为国内领先的商业数字营销平台，阿里妈妈就在用AI推荐系统为企业提供全链路的营销解决方案。

阿里妈妈的使命是“让天下没有难做的营销”，通过自研的数字营销平台，阿里妈妈每年都在为各行各业的商家和品牌解决一系列营销和广告投放问题，通过精准营销帮助商家将产品推广到最需要他们的消费者面前，从而帮助企业实现他们应有的价值。

为了将海量商品与消费者进行更加精准的匹配，阿里妈妈的AI推荐算法和模型在过往几年里一直在不断升级迭代，与此同时，日益复杂的AI模型也使得AI推荐系统对硬件算力的需求越来越高。

“线上购物已经很普遍，实际上，每次用户在线上浏览商品都会涉及百亿量级的浮点运算”，阿里妈妈软件工程师刘征宇解释称。

由此带来的是日益增长的算力需求和有限算力供给之间的矛盾，这一矛盾也成了像阿里妈妈这样基于人工智能技术开展数字营销业务的企业的一大痛点。

要解决这一痛点，最直接的方法就是增加AI算力、优化AI算法。尤其是AI算力的提升，是数字营销业务不断升级迭代最重要的保障。

是挑战也是机遇，最适合的才是最好的

大模型的出现，让GPU呼声越来越高，似乎GPU在一夜之间成了人工智能技术在算力上的唯一选择。

其实不然，在数字营销这样实际商业应用场景中，GPU不仅不是唯一选择，甚至也可能不是最优解。

实际上，人工智能技术对于算力的强需求主要来自于AI训练和AI推理两方面。而要想将人工智能技术转化为各行各业的生产力，帮助各行各业提升生产效率，最关键的是AI推理。

钟俊浩也做过解析：“在大模型深入产业的这一年里，越来越多行业开始关注AI推理，而如何将CPU发挥到极致，加速AI推理，并推动其产业落地就成了关键问题。”

某些硬件厂商对于推荐系统、语音识别、图像识别、基因测序这样传统的AI应用，在CPU上已经做了大量的优化。特别是在执行AI推理任务时，经过优化的大模型在CPU上已经可以实现高效执行。

英特尔数据中心和人工智能集团至强生态赋能事业部（中国）总经理李亚东就指出：“当模型很大，涉及到需要跨异构平台计算时，使用CPU速度反而更快，效率也更高。”

2023年12月，英特尔在国内正式发布了第五代至强® 可扩展处理器，它从多方面提升了硬件算力，包括频率，功耗，LLC缓存，内存带宽和延迟都有明显的改进。

最关键的是它内置的英特尔® 高级矩阵扩展（英特尔® AMX技术），特别针对深度学习模型最常见的矩阵乘法运算优化，支持BF16（训练/推理）和INT8（推理）等常见数据类型。

英特尔® AMX位于每个CPU内核上并靠近系统内存，可减少数据传输延迟、提高数据传输带宽，并且同步降低实际使用上的复杂性。

实际上，在目前AI推荐系统面临的硬件算力挑战中，CPU已经成了解决AI推理计算需求的核心算力。

据刘征宇透露：“阿里妈妈在选择以第五代英特尔® 至强® 可扩展处理器作为算力平台，使用英特尔® AMX和AVX-512优化后，针对广告推荐模型，性能相比第四代至强® 可扩展处理器有了明显提升，在满足SLA的前提下，吞吐量提升（达）1.52倍。”

基于此，阿里妈妈通过不断提升算力和优化算法，使得整个营销链条更加丝滑，也更加智能高效。

除了硬件创新，英特尔在软件方面也在持续发力，以确保现有的AI框架和应用能够充分发挥出硬件潜力。

英特尔不仅持续为主流开源框架PyTorch、TensorFlow等贡献力量，还提供了多种针对CPU平台的优化插件，如IPEX（Intel® Extension for PyTorch）、ITEX（Intel® Extension for TensorFlow）等，同时提供了诸如xFT（xFasterTransformer）、OpenVINO™ 工具套件等多种优化工具。

“最适合的，才是最好的，我们现在最需要的不是无限高的算力，而是拥有足够算力的超能战士。”刘征宇进一步解释称。

同样， CPU平台广泛部署、易于获取，便于应用和优化，能兼顾通用计算又能做推理加速，且不用为此导入异构带来的各种复杂性，自然就会收获高效的应用表现、落地速度和更强的成本竞争力。

以阿里妈妈所在的数字营销应用场景为例，无论是矩阵乘法这样计算密集型的AI运算，还是数据查询这样访存密集型的AI运算，都离不开CPU的参与。

即便是在CPU-GPU协同应用场景中，GPU这样协处理器的算力发挥作用，也非常依赖CPU的处理速度。

用CPU加速AI落地，未来可期，大有可为

如果说2023年是大模型技术爆发的一年，那么，2024年就是大模型深入产业应用的关键年。不论是大模型还是传统的AI技术，要想得到落地，做到“快、好、省”才是关键。

CPU能确保整个系统的稳定运行、各组件的高效通信协作，并最终推进任务的顺利执行。

除了热门的AI推理和训练，一条AI流水线中还包括数据预处理、后处理等可能需要CPU通用处理能力的环节。在这些环节中，CPU具备的通用性和灵活性，能够适应各种不同的计算场景，适应广泛的应用需求。

第五代至强® 可扩展处理器充分考虑到这些需求，内置了诸如英特尔® 数据流加速器（英特尔® DSA）来主攻数据存储与传输；英特尔® 存内分析加速器（英特尔® IAA）来针对数据库和数据分析加速；英特尔® 数据保护与压缩加速技术（英特尔® QAT）来加速数据压缩、对称和非对称数据加密解密，提高CPU效率和整体系统性能。

李亚东还指出：“从企业长远发展来看，CPU在稳定性、安全性等方面的表现值得信赖，这对于保护企业数据和客户隐私至关重要。第五代至强® 可扩展处理器内置的英特尔® SGX和TDX，可以为企业分别提供更强、更易用的应用隔离能力和虚拟机层面的隔离和保密性，为现有应用提供了一条更简便的向可信执行环境迁移的路径。”

未来英特尔数据中心产品组合，预计可以覆盖通用计算与AI加速，实现从数据预处理、到模型训练与优化，再到部署与推理的AI“全管线”加速。

CPU不仅是老伙伴，还是新变量，随着新一代CPU在各方面性能的不断提升，CPU也正在成为为千行万业企业智能化转型提供源源不断动力的心脏。

正如钟俊浩所说：“持续创新和进化的CPU，在全新技术周期下，成为一代又一代科学家留给新时代最好的礼物。”

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

弈动 Dynamic·数智跃迁博弈无界｜2025TechWorld智慧安全大会在京召开

在数字化与智能化深度交织的时代浪潮中，安全的边界不断延展，技术的演进正引领产业迈向新一轮变革。10月24日，以“弈动Dynamic·数智跃迁博弈无界”为主题的2025TechWorld智慧安全大会在北京盛大召开。来自国家部委、院士学者、高校科研机构和企业的权威专家与业界精英齐聚北京，共议AI安全、数

标签：

弈动
瓯江论道：AI赋能绿色发展

2025年10月25日，2025世界青年科学家峰会之人工智能（AI）融合创新发展论坛在浙江温州成功举办。本次论坛由国际院士科创中心主办，中国投资协会能源投资专业委员会、温港院士科创中心承办，中国电工技术学会、中科先进技术温州研究院与温州市电力工程学会提供支持，以“瓯江论道-AI赋能绿色发展”为主题，

标签：

ai技术
AI云“分野”：阿里云们“卖铲”，火山引擎奇袭“MaaS”

AI云“分野”：阿里云们“卖铲”，火山引擎奇袭“MaaS”

标签：

阿里巴巴
未来5年，中国AI的“大洗牌”和“内循环”

我觉得我们AI的目标是：从芯片设计到软件生态，全链路自主开发，建立可控的世界级AI体系。所以这是俺对未来5年中国AI圈的展望和判断。(1)2026年，英伟达造车、国产开车26年国产芯片会在推理和垂直场景上发力。以DeepSeek为代表，大多数AI大模型会以软件弥补硬件不足，所以训练和推理分开，训练就
H20芯片开卖即叫停，英伟达如何解围？

文/道哥在深陷“后门”风波、接受网信办问询之后，英伟达的“特供版”H20芯片，又有了新消息。近日，美国科技媒体《TheInformation》援引知情人士消息称，英伟达已悄然向其关键供应商——包括负责封装的安靠科技、供应高带宽内存的三星电子、以及承担后端处理的富士康发出指令，要求暂停所有与H20AI

标签：

英伟达
真正的「国产英伟达」来了

文/二风来源/节点财经一场关于“中国芯”的IPO审议，正把投资者们的目光锁定在上交所。根据上交所发布的公告，上市审核委员会已定于9月26日审议摩尔线程的科创板首发申请。作为中国半导体自主化浪潮中最受瞩目的“考生”之一，包括其创始人显赫的英伟达背景、高达80亿元人民币的募资雄心，以及在国产GPU领域取

标签：

英伟达

AI视频生成赛道“分野”：小厂重产品，大厂重生态

AI视频生成赛道“分野”：小厂重产品，大厂重生态

标签：

腾讯

阿里巴巴

快手
数据库进入“内存自由”时代！阿里云PolarDB发布全球首个CXL数据库服务器

技术的进步永无止境，继创下TPC-C性能&性价比双冠之后，阿里云PolarDB云原生数据库再度实现关键突破。9月24日杭州云栖大会上，阿里云宣布推出全球首款基于CXL（ComputeExpressLink）2.0Switch技术的PolarDB数据库专用服务器。在原有RDMA网络的基础上，Polar
为AI时代云服务器量身定制阿里云操作系统Alinux 4重磅发布

2025年9月24日，在杭州举办的云栖大会上，阿里云正式发布全新一代服务器操作系统AlibabaCloudLinux4（简称Alinux4）。Alinux4基于Linux6.6内核打造，是首个全面遵循龙蜥社区“开源生态合作倡议”规范的商业发行版。它不仅兼容主流开源社区生态，更针对阿里云最新9代ECS
阿里云重磅发布AI安全护栏五项安全能力护航AI安全

9月24日，杭州云栖大会技术主论坛上，阿里云重磅发布AI安全护栏，提供五项核心安全能力，护航AI安全。一方面为客户提供融入AIAgent开发全链路的原生安全防护，另一方面持续用AI赋能安全产品智能化升级，打造Agentic-SOC安全运营，提升安全威胁检测和响应效率。在过去的一年，AIAgent正在