1. 创业头条
  2. 前沿领域
  3. AI智能
  4. 正文

晋升业内新宠儿,MoE模型给了AI行业两条关键出路

 2024-07-15 09:51  来源:A5专栏  我来投稿 撤稿纠错

  阿里云优惠券 先领券再下单

文 | 智能相对论

作者 | 陈泊丞

今年以来,MoE模型成了AI行业的新宠儿。

一方面,越来越多的厂商在自家的闭源模型上采用了MoE架构。在海外,OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型都采用了MoE架构。

而在国内,昆仑万维推出的天工3.0、浪潮信息发布的源2.0-M32、通义千问团队发布的Qwen1.5-MoE-A2.7B、MiniMax全量发布的abab6、幻方量化旗下的DeepSeek发布的DeepSeek-MoE 16B等等也都属于MoE模型。

另一方面,在MoE模型被广泛应用的同时,也有部分厂商争先开源了自家的MoE模型。前不久,昆仑万维宣布开源2千亿参数的Skywork-MoE。而在此之前,浪潮信息的源2.0-M32、DeepSeek的DeepSeek-MoE 16B等,也都纷纷开源。

为什么MoE模型如此火爆,备受各大厂商的青睐?在开源的背后,MoE模型又是以什么样的优势使各大主流厂商成为其拥趸,试图作为改变AI行业的利器?

MoE模型火爆的背后: 全新的AI解题思路

客观来说,MoE模型的具体工作原理更接近中国的一句古语“术业有专攻”,通过把任务分门别类,然后分给多个特定的“专家”进行解决。

它的工作流程大致如此,首先数据会被分割为多个区块(token),然后通过门控网络技术(Gating Network)再把每组数据分配到特定的专家模型(Experts)进行处理,也就是让专业的人处理专业的事,最终汇总所有专家的处理结果,根据关联性加权输出答案。

当然,这只是一个大致的思路,关于门控网络的位置、模型、专家数量、以及MoE与Transformer架构的具体结合方案,各家方案都不尽相同,也逐渐成为各家竞争的方向——谁的算法更优,便能在这个流程上拉开MoE模型之间的差距。

像浪潮信息就提出了基于注意力机制的门控网络(Attention Router),这种算法结构的亮点在于可以通过局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),率先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,从而更好地匹配专家模型,保证了专家之间协同处理数据的水平,促使模型精度得以提升。

基于注意力机制的门控网络(Attention Router)

抛开目前各家厂商在算法结构上的创新与优化不谈,MoE模型这种工作思路本身所带来的性能提升就非常显著——通过细粒度的数据分割和专家匹配,从而实现了更高的专家专业化和知识覆盖。

这使得MoE模型在处理处理复杂任务时能够更准确地捕捉和利用相关知识,提高了模型的性能和适用范围。因此,「智能相对论」尝试了去体验天工3.0加持的AI搜索,就发现对于用户较为笼统的问题,AI居然可以快速的完成拆解,并给出多个项目参数的详细对比,属实是强大。

天工AI搜索提问“对比一下小米su7和特斯拉model3”所得出的结果

由此我们可以看到,AI在对比两款车型的过程中,巧妙地将这一问题拆解成了续航里程、动力性能、外观设计、内饰设计、智能化与自动驾驶、市场表现与用户口碑、价格等多个项目,分别处理得出较为完整且专业的答案。

这便是“术业有专攻”的优势——MoE模型之所以受到越来越多厂商的关注,首要的关键就在于其所带来的全新解决问题的思路促使模型的性能得到了较为显著的提高。特别是伴随着行业复杂问题的涌现,这一优势将使得MoE模型得到更广泛的应用。

各大厂商争先开源MoE模型: 解决AI算力荒的另一条路径

开源的意义在于让MoE模型更好的普及。那么,对于市场而言,为什么要选择MoE模型?

抛开性能来说,MoE模型更突出的一点优势则在于算力效率的提升。

DeepSeek-MoE 16B在保持与7B参数规模模型相当的性能的同时,只需要大约40%的计算量。而37亿参数的源2.0-M32在取得与700亿参数LLaMA3相当性能水平的同时,所消耗的算力也仅为LLaMA3的1/19。

也就意味着,同样的智能水平,MoE模型可以用更少的计算量和内存需求来实现。这得益于MoE模型在应用中并非要完全激活所有专家网络,而只需要激活部分专家网络就可以解决相关问题,很好避免了过去“杀鸡用牛刀”的尴尬局面。

举个例子,尽管DeepSeek-MoE 16B的总参数量为16.4B,但每次推理只激活约2.8B的参数。与此同时,它的部署成本较低,可以在单卡40G GPU上进行部署,这使得它在实际应用中更加轻量化、灵活且经济。

在当前算力资源越来越紧张的“算力荒”局面下,MoE模型的出现和应用可以说为行业提供了一个较为现实且理想的解决方案。

更值得一提的是,MoE模型还可以轻松扩展到成百上千个专家,使得模型容量极大增加,同时也允许在大型分布式系统上进行并行计算。由于各个专家只负责一部分数据处理,因此在保持模型性能的同时,又能显著降低了单个节点的内存和计算需求。

如此一来,AI能力的普惠便有了非常可行的路径。这样的特性再加上厂商开源,将促使更多中小企业不需要重复投入大模型研发以及花费过多算力资源的情况下便能接入AI大模型,获取相关的AI能力,促进技术普及和行业创新。

当然,在这个过程中,MoE模型厂商们在为市场提供开源技术的同时,也有机会吸引更多企业转化成为付费用户,进而走通商业化路径。毕竟,MoE模型的优势摆在眼前,接下来或许将有更多的企业斗都会尝试新的架构来拓展AI能力,越早开源越能吸引更多市场主体接触并参与其中。

但是,开源最关键的优势还是在于MoE模型对当前算力问题的解决。或许,随着MoE模型被越来越多的企业所接受并应用,行业在获得相应AI能力的同时也不必困顿于算力资源紧张的问题了。

写在最后

MoE大模型作为当前人工智能领域的技术热点,其独特的架构和卓越的性能为人工智能的发展带来了新的机遇。不管是应用还是开源,随着技术的不断进步和应用场景的不断拓展,MoE大模型有望在更多领域发挥巨大的潜力。

MoE模型的本质在于为AI行业的发展提供了两条思路,一是解决应用上的性能问题,让AI有了更强大的解题思路。二是解决算力上的欠缺问题,让AI有了更全面的发展空间。由此来看MoE模型能成为行业各大厂商的宠儿,也是水到渠成的事情。

*本文图片均来源于网络

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关标签
ai智能

相关文章

  • Figma股价热情仅存1天,AI焦虑成关键隐忧?

    文/道哥美国设计软件公司Figma近期在纽约证券交易所挂牌上市,首日即上演“狂飙”行情——发行价定每股33美元,开盘报价85美元,较发行价翻倍。首日收报115.50美元,较发行价大涨约250%,市值飙升至近670亿美元,创下近30年来同等规模美股IPO的最大单日涨幅纪录。然而,随着短线资金获利了结,

    标签:
    ai智能
  • AI「带飞」腾讯业绩

    文/一灯来源/节点财经在当前无人敢缺席的AI军备竞赛中,巨头们一面为巨额的资本支出焦虑,一面又向市场勾勒着未来的宏伟蓝图。在各家动辄千亿级投入的背景下,市场迫切需要一份关于AI回报价值的有力证明。而腾讯,率先给出了答卷。8月13日,腾讯控股发布2025年第二季度财报。尽管资本开支同比剧增119%,达

    标签:
    ai智能
    腾讯
  • Meta用亿元薪酬发起「人才狙击」能否买来一个AI未来?

    文/二风来源/节点财经2025年的硅谷,一场没有硝烟的战争正以前所未有的烈度上演。这场战争的核心武器不是代码或芯片,而是人——那些全球仅有数千名、能够构建未来人工智能基础模型的顶尖大脑。在这场激烈的人才争夺战中,Meta及其首席执行官马克·扎克伯格(MarkZuckerberg)正扮演着最具侵略性的

    标签:
    ai智能
  • 腾讯AI梦:克制的雄心

    关乎14亿用户的深刻变化

    标签:
    ai智能
  • Manus「撤出」中国,昔日AI Agent新星为何仓促离场?

    文/道哥大举裁员、清空账号、国内IP无法访问——曾被誉为“中国AIAgent希望之星”的Manus,在估值飙至5亿美元的高光时刻“闪离”中国市场。近日,Manus“裁员、出走”的消息在媒体端大量发酵。消息称,Manus公司总部将由中国迁至新加坡,其国内团队也将大幅裁撤——原有120人规模团队除40余

    标签:
    ai智能
  • GDPS2025赛场直击!开普勒大黄蜂助力华理斩获搬运赛项桂冠

    12月12日-14日,2025全球开发者先锋大会暨国际具身智能技能大赛(GDPS2025)于上海张江科学会堂举行,大会以具身智能竞技为核心,融合了技术比拼、产业展示与科普体验,为全球观众呈现出具身智能的现在与未来。上海开普勒机器人有限公司(以下简称"开普勒机器人")携明星产品K2"大黄蜂"亮相,并参

    标签:
    GDPS
    2025
  • 弈动 Dynamic·数智跃迁 博弈无界|2025TechWorld智慧安全大会在京召开

    在数字化与智能化深度交织的时代浪潮中,安全的边界不断延展,技术的演进正引领产业迈向新一轮变革。10月24日,以“弈动Dynamic·数智跃迁博弈无界”为主题的2025TechWorld智慧安全大会在北京盛大召开。来自国家部委、院士学者、高校科研机构和企业的权威专家与业界精英齐聚北京,共议AI安全、数

    标签:
    弈动
  • 瓯江论道:AI赋能绿色发展

    2025年10月25日,2025世界青年科学家峰会之人工智能(AI)融合创新发展论坛在浙江温州成功举办。本次论坛由国际院士科创中心主办,中国投资协会能源投资专业委员会、温港院士科创中心承办,中国电工技术学会、中科先进技术温州研究院与温州市电力工程学会提供支持,以“瓯江论道-AI赋能绿色发展”为主题,

    标签:
    ai技术
  • AI云“分野”:阿里云们“卖铲”,火山引擎奇袭“MaaS”

    AI云“分野”:阿里云们“卖铲”,火山引擎奇袭“MaaS”

    标签:
    阿里巴巴
  • 未来5年,中国AI的“大洗牌”和“内循环”

    我觉得我们AI的目标是:从芯片设计到软件生态,全链路自主开发,建立可控的世界级AI体系。所以这是俺对未来5年中国AI圈的展望和判断。(1)2026年,英伟达造车、国产开车26年国产芯片会在推理和垂直场景上发力。以DeepSeek为代表,大多数AI大模型会以软件弥补硬件不足,所以训练和推理分开,训练就

  • H20芯片开卖即叫停,英伟达如何解围?

    文/道哥在深陷“后门”风波、接受网信办问询之后,英伟达的“特供版”H20芯片,又有了新消息。近日,美国科技媒体《TheInformation》援引知情人士消息称,英伟达已悄然向其关键供应商——包括负责封装的安靠科技、供应高带宽内存的三星电子、以及承担后端处理的富士康发出指令,要求暂停所有与H20AI

    标签:
    英伟达