1. 创业头条
  2. 前沿领域
  3. AI智能
  4. 正文

大模型争霸的下一站:不仅是超越GPT-4,更是寻求模型之间的平衡应用

 2024-05-07 08:51  来源:A5专栏  我来投稿 撤稿纠错

  域名预订/竞价,好“米”不错过

文 | 智能相对论

作者 | 沈浪

知名科学杂志《Nature》发表了一篇关于大模型规模参数大小争议的文章《In Al, is bigger always better?》——AI大模型,越大越好吗?随着大模型应用走向实践,这一问题不可避免地成为了当前AI行业发展的焦点与争议。

有人认为,大模型当然是越大越好,参数越大,性能越优。也有人认为,小模型更好,消耗更小,更能精准地解决专业问题。两相对比之下,各有各的道理,悬而未决,究竟什么才是AI大模型发展的出路?

这一问题或许在日前商汤科技举办的技术交流日活动上有所解答。在活动现场,商汤科技发布了行业首个“云、端、边”全栈大模型产品矩阵,以满足不同规模场景的应用需求,对大模型的场景应用提出了新的思路,并且全新升级了“日日新SenseNova 5.0”大模型体系,综合能力全面对标GPT-4 Turbo。

当然,在当前节点上,领先的意义已经不仅仅是超越GPT-4,更是探索出能解决实际应用问题的有效路径。

01、离谱or靠谱?日日新端侧大模型“暴打”GPT-4

在技术交流日活动的现场,商汤科技以一个很有趣的画面阐释了大模型与小模型之间的差别。基于拳皇游戏的画面演示,商汤科技将自家的SenseChat-Lite 版本日日新端侧⼤模型与GPT-4进行PK。

一开始,GPT-4还能略占上风,但是SenseChat-Lite出拳速度更快,随后各种连招打到他根本反应不过来,只得被商汤科技的模型“暴打”,直接K.O出局。

这一结局似乎太离谱了?商汤科技对此做了解释:实际上其中的差距并非模型能力强弱问题,而是在不同的适用场景之下小模型决策速度快。当大模型还在计算的时候,小模型已经完成了判断并且出拳了,而且实实在在打到了对手身上。

正所谓,“天下武功,唯快不破”!对比大模型,小模型在具体的场景应用中有着更明显的决策优势。

因此,业内正在形成一个全面的共识:在实际应用中,大模型并非越大越好,而是得看具体场景需求。前不久,美国AI公司Anthropic发布Claude 3系列模型,一度超越GPT-4,登顶全球最强大模型。其中Claude 3系列就给出了不同量级的模型产品,包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,以便适用于不同的企业和场景。

同样的,基于这一思路,商汤科技也在搭建完善的基模型体系与小模型系统方案,并发布了一系列的垂类大模型和端侧大模型。其中,SenseChat-Lite版本端侧大模型就可以面向手机、平板、VR 眼镜、智能汽车等提供轻量、高效的大模型能力,结合端云解决方案,及时适应变化的环境和需求,保持高性能和准确性。

对比来说,中国更注重实践。商汤科技在这个思路上给出的解决方案更具有主动性和服务意识以及更有实践价值。具体的,商汤端侧大模型不仅是参数量级小,还讲究端侧部署与端侧处理能力的强化,在解决实际问题上响应更快速。

与此同时,商汤科技还面向金融、代码、医疗、政务等多个领域推出了边缘产品“商汤企业级大模型一体机”,在实际场景应用中更能满足专业化需求,主动贴合客户需求。比如,“大医”医疗健康大模型一体机就可以在医疗机构内部一键部署大模型应用,实现“开箱即用”,并有效针对智能问诊、导诊、病历结构化、影像报告解读等场景,支持智能调整回复内容的语言风格、详略程度、格式要求等。

当然,这也是目前商汤科技在AI大模型领域领先行业的关键点。同样的思路,以小模型为应用焦点,商汤比别人多走了几步,提出了软硬兼顾的解决方案。

02、在尺度定律之下,没有永恒的“最强”,唯有“日日新”

从经济性而言,小模型更利于企业应用与解决实际问题。那么,是否对于AI行业而言,就不需要训练大模型了?

实则不然。

在技术交流日活动现场,商汤科技提到了一个同为业内共识的理论:尺度定律。在普遍的认知中,以尺度定律为参考,随着模型的参数变大、数据量变大、训练时长加长,则算法性能会越来越好。

OpenAl于2020年曾发布一篇论文《Scaling Laws for Neural Language Models》,其中也有类似的观点,即模型性能随着模型参数大小的增长而变好。因此,在后续的大模型迭代中,OpenAI通过构建一个巨大的海量数据集,再简单增加GPT模型的深度,就做出了具有惊人的涌现能力的大模型产品。

对此,很多厂商也作了相关验证,包括谷歌、商汤科技等。其中,谷歌曾精调了三个尺寸的Minerva模型,分别使用了80亿,620亿和5400亿个参数的预训练PaLM模型。

结果发现,Minerva的性能随着规模的扩大而提高。在整个MATH数据集上,最小模型的准确率为25%,中型模型达到43%,最大模型突破50%大关。

由此,基于尺度定律的认知,他们发现自家的模型产品在一定测试级上超越GPT-4的能力,并非不可能。如今,商汤科技发布的最新的“日日新SenseNova 5.0”大模型体系,其性能就超越了GPT-4。

其中,日日新·商量大模型5.0主模型在语言、知识、推理、数学、代码等领域的能力,在主流客观评测上就达到或超越了GPT-4 Turbo,在聊天、多轮对话、信息提取、写作等场景能和GPT-4 Turbo相媲美。

更值得一提的是,日日新·商量多模态大模型的图文感知能力达到了全球领先水平,在多模态大模型权威综合基准测试MMBench中综合得分排名首位,并在多个知名多模态榜单MathVista、AI2D、ChartQA、TextVQA、DocVQA、MMMU 取得领先成绩。

换句话说,在尺度定律的认知下,GPT-4被超越是迟早的事情,AI大模型领域没有永恒的“最强”。

当然,若要登顶最强,虽说可行,但绝不简单。大模型的参数争议,其中就有能耗的问题。谷歌曾坦言,PaLM的训练在2个月内消耗了大约300个美国家庭一年的电力消耗,其中所需要的算力、数据等基础设施绝非常规企业可以负担。

在这一点上,商汤科技秉持“大模型+大算力”的“双轮驱动”战略布局又一次为其拓宽了道路。其中,SenseCore商汤大装置作为商汤科技前瞻决策所打造的高效率、低成本、规模化的新一代AI基础设施,可以支撑超过20个千亿超大模型同时训练,并支持万亿参数大模型的全生命周期生成,为大模型的打造提供了非常关键的支撑。

简单来说,虽说有尺度定律作为理论支持,但是以SenseCore商汤大装置为代表的大算力才是商汤科技能超越GPT-4的底气。从这个角度来看,商汤科技做AI,比大多企业要更加纯粹且彻底。

03、大模型的最优解,是场景平衡

从国内外的实验与实践来看,模型的大小之争意义不大,离开基础理论和场景应用去抛弃任何一方都不可取。因此,目前主流的AI厂商在迭代和发布系列模型时,往往都会推出主模型与小模型以及垂类专业模型,根据场景需求按需提供服务。

这一点将在接下来的时间里拉开专业AI服务商之间的差距。目前,日日新SenseNova5.0大模型体系采用了混合专家模式,这样做的目的在于通过将模型分割成多个具有专门功能的模块,使得模型在推理过程中能更有效地利用计算资源,并可能提高模型的泛化能力和应对复杂任务的性能。

具体来看,商汤琼宇发布的3D高斯泼溅技术,就具备轻量化的web渲染能力,可以产生更轻量的模型资产,使城市级三维模型的构建和编辑重建效果更加真实,成本更低,也可以应用在更多场景。

这是混合专家模式思想在实际应用中的体现,通过不同技术和模型组件之间的配合,实现了对特定任务定制化处理和资源优化,从而加速大模型在不同场景中的应用,实现AI普惠。目前,琼宇已服务客户超过60个,实现了15个城市120多种场景的重建。

因此,当我们把目光投递到实际中的场景问题,就会发现大模型和小模型均有用武之地,问题则在于如何去平衡地调配资源,实现最优解。由此来看,商汤科技对混合专家模式的应用,可以视为是一种领先行业的熟练决策。

未来不属于大模型或小模型,而是大小模型之间的平衡。因此,“AI大模型是否越大越好”类似的问题不必纠结,但需要面对,即如何去打造大模型,又如何把大模型的能力调配出小模型服务好市场,会是各大厂商接下来的必修课程。

*本文图片均来源于网络

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关标签
大模型

相关文章

  • 解密Kimi:大模型应用当红顶流是如何练成的?

    抛开营销战,或许在中国也可以探索新的大模型应用聚合方式、供给方式以及商业利润分配的方式,对大模型公司来说,这将是一个新议题。

    标签:
    大模型
  • 大模型的现在进行时:走出对话框,走向产业端

    大模型热潮涌动了一年多后,越来越多人平复了激动的情绪,开始从客观的视角重新思考大模型的价值和机会。红杉资本在AlAscent2024的开场演讲中提到,大模型的创造能力和推理能力,第一次实现了以类似人类的方式进行交互,将支撑起数十万亿美元的市场。然而和AGI的遥远梦想相比,大模型的创业者们却不得不正视

    标签:
    大模型
  • 李彦宏放话:百度AI大模型绝不抢开发者饭碗

    关注卢松松,会经常给你分享一些我的经验和观点。昨晚,李彦宏内部讲话称:AI大模型开源意义不大,百度绝不抢开发者饭碗。但你一定要说话算话哦,可千万别说:“我永远不做手机,谁再敢提做手机就给我走人”,结果5年后自己的手机销量排名第一。如果百度也这么干的话估计AI也没人用了。李彦宏认为:从商业模式的角度来

    标签:
    大模型
  • 360 AI员工“红衣”入职事业部 承担多项安全运营工作

    近日,科技巨头360公司宣布,其全新AI员工“红衣”正式入职事业部,标志着公司向智能化、自动化方向迈出了坚实的一步。据悉,“红衣”由360安全大模型支持,具备高度智能化和自主学习能力,能够在多个领域提供高效、精准的服务。“红衣”是首位正式入职的数字安全专家,由360安全大模型支持,在安全运营工作中,

    标签:
    大模型
  • AI大模型博鳌破局:端云结合,驱动新质生产力

    在“博鳌时刻”,vivo蓝心大模型等被明确定调为,是打造“新质生产力”的孕育沃土。作者|杨铭编辑|刘珊珊海阔风清,椰林葱郁中,风口上的AI大模型,站上博鳌亚洲论坛2024年年会多个主题分论坛的C位。“未来是属于AI大模型的,千行百业将被重塑或被革新挑战。”众多嘉宾、参会人士在博鳌的激昂热情,再次明确

    标签:
    大模型
  • OpenAI发布GPT-4o 能读取人类情绪

    近日,OpenAI宣布推出其最新旗舰生成式AI模型GPT-4o。相较于GPT-4Trubo,GPT-4o速度更快、价格也更便宜据悉,ChatGPT可以读取人类的情绪,但读取过程有一点困难。OpenAI,是一家位于美国旧金山的人工智能研究公司,现由营利性公司OpenAILP及非营利性母公司OpenAI

    标签:
    chatgpt
  • ChatGPT、Gemini、通义千问等一众大语言模型,哪家更适合您?

    随着人工智能技术的飞速发展,大语言模型(LargeLanguageModels,LLMs)在各行各业的应用日益广泛,尤其是在软件开发、数据分析、客户服务等领域。蘑菇云创客空间[445期开放夜]就以“ChatGPT、Gemini、通义千问等一众大语言模型,哪家更适合您”这样的主题,开展了一次深度的大语

  • 体验了下钉钉AI助理,真羡慕现在的“打工人”...

    对于万千打工人来说,AI不会替代我们,反而会成为工作中重要的帮手

    标签:
    钉钉
  • 历时400多天,国产大模型全面赶超GPT-4?

    赶超GPT-4的阶段性升级,可以看作是国产大模型有序迭代部署、不断拉近差距的标志,切莫像手机跑分那样,在过度营销的作用下,沦为被群嘲的对象。

    标签:
    大模型
  • 微博COO王巍:微博已接入阿里云通义大模型,是通义最早一批外部客户

    5月9日,记者获悉,微博已接入阿里云通义大模型,提升内容生产效率和社区活跃度。微博不仅是阿里云最早一批上云客户,也是阿里云通义大模型的最早客户。微博COO、新浪移动CEO王巍表示,AIGC发展速度远超想象,包括通义2.5在内,已涌现出不少大模型能力超越GPT4。同时他指出,大模型开源势不可挡。“阿里

  • 通义灵码推出企业版,底座模型CodeQwen1.5登顶权威榜单

    5月9日阿里云AI峰会,通义灵码宣布推出企业版,满足企业用户的定制化需求,帮助企业提升研发效率。通义灵码是国内用户规模第一的智能编码助手,基于SOTA水准的通义千问代码模型CodeQwen1.5研发,插件下载量已超350万。通义灵码熟练掌握Java、Python、Go、JavaScript、Type

    标签:
    通义千问
  • 通义千问APP更名为通义APP,免费开放通义全栈能力

    5月9日消息,通义大模型品牌升级,“通义千问APP”更名为“通义APP”,集成通义大模型全栈能力,免费为所有用户提供服务。通义APP以性能媲美GPT-4Turbo的基模为底座,并把通义实验室前沿的文生图、智能编码、文档解析、音视频理解、视觉生成等能力“Allinone”,成为每个人的全能AI助手。通

    标签:
    通义千问
  • 阿里云发布通义千问2.5,性能全面赶超GPT-4 Turbo

    5月9日消息,阿里云正式发布通义千问2.5,模型性能全面赶超GPT-4Turbo,成为地表最强中文大模型。同时,通义千问最新开源的1100亿参数模型在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B,成为开源领域最强大模型。相比通义千问2.1版本,通义千问2.5的理解能力、逻辑推理、指

    标签:
    通义千问
  • 通义大模型通过阿里云服务企业超9万,开源模型下载超700万

    5月9日消息,阿里云公布最新数据,通义大模型通过阿里云服务企业超9万,通义开源模型累计下载量突破700万。通义落地应用进程加速,现已进入PC、手机、汽车、航空、天文、矿业、教育、医疗、餐饮、游戏、文旅等领域,成为最受中国企业欢迎的大模型。阿里云AI峰会现场,小米旗下的人工智能助手“小爱同学”已与阿里

    标签:
    通义千问
  • 阿里云发布通义千问2.5, 中文能力地表最强

    通义大模型发布一周年之际,迎来重要的历史性时刻。5月9日,阿里云正式发布通义千问2.5,模型性能全面赶超GPT-4Turbo,成为地表最强中文大模型。同时,通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Llama-3-70B,成为开源领域最强大模型。历经一年多追赶,国产大模型终于进入

    标签:
    通义千问

编辑推荐