1. 创业头条
  2. 前沿领域
  3. AI智能
  4. 正文

历时400多天,国产大模型全面赶超GPT-4?

 2024-05-10 13:56  来源:A5专栏  我来投稿 撤稿纠错

  阿里云优惠券 先领券再下单

稍微留意下近期的新闻,“赶超GPT-4”正在成为国产大模型的新热点。

百度文心一言、商汤日日新以及阿里云刚刚发布的通义千问2.5,均已迈入“全面赶超GPT-4”阵营。

把时间线稍微拉长一些的话,过去大半年时间里,“超越GPT-4”的消息可谓屡见不鲜,即使在报道中刻意加上了多项基准、部分指标等前缀,依然赚足了眼球,成为国产大模型佐证自身能力的有力指标。

简单做个复盘的话,国产大模型对GPT-4的追赶已经进行了400多天,其中“赶超进程”可以粗分为三个阶段。

第一阶段:部分性能超越GPT-4

2023年3月14日,OpenAI正式推出了GPT-4,彼时大多数国产大模型还未开放,少数内测大模型的比较对象还是GPT-3。作为业界标杆的GPT-4,就像是科幻照进了现实,被无数人捧上神坛。

但在短短半年后,GPT-4就出现在了国产大模型厂商的比较名单里。

2023年8月底,商汤科技对外公布了一则新进展:拥有1230亿个参数的“书生·浦语”,在全球51个知名评测集共计30万道问题集合上,测试成绩排名全球第二,并在综合考试agieval、知识问答commonsenseqa、阅读理解和推理的十项评测中位列第一,分数超过风头正盛的GPT-4。

2023年10月17日的“生成未来”发布会上,百度正式发布了文心大模型4.0版本,李彦宏在现场依次演示了大模型的理解、生成、逻辑和记忆四大核心能力的特点与应用场景。尽管没有给出评测数据,李彦宏却自信地表示:文心大模型4.0的综合水平,“与GPT-4相比毫不逊色”。

国产大模型赶超GPT-4的序幕正式拉开,此后一两个月里,不少大模型给了这样的营销口径:整体能力已经不输于GPT-3.5,并且在部分性能指标上开始超越GPT-4。

第二阶段:整体性能逼近GPT-4

时间来到2024年初,国内的“百模大战”进入收敛期,一些不被资本市场认可的大模型,渐渐成了一个数字,只有几家科技大厂和独角兽仍活跃在大模型一线。“活下来”的大模型,势必要在能力上证明自己。

综合性能逼近GPT-4,开始成为新的营销话术。

2024年1月中旬的智谱AI技术开放日上,正式发布了新一代基座大模型GLM-4。按照智谱AI官方的说法:在权威的英文测试榜单中,GLM-4已经整体逼近GPT-4,平均能达到GPT-4 90%以上的水平,在个别项目上表现持平;而在国内企业更加看重的中文任务上,GLM-4的表现全面超过GPT-4。

同样是在2024年1月,科大讯飞发布了星火认知大模型V3.5,在逻辑推理、语言理解、文本生成、数学答题、代码、多模态等核心能力均显著提升,其中语言理解、数学能力已经超过GPT-4 Turbo,代码能力达到GPT-4 Turbo 96%,多模态理解达到GPT-4V 91%。“在中文理解方面,甚至遥遥领先。”

回头来看,智谱AI和科大讯飞的营销策略还是有些“保守”,百川智能在同一时间段发布的Baichuan 3,对外表示已经在CMMLU、GAOKAO等中文评测中超越GPT-4。

第三阶段:全面赶超GPT-4 Turbo

2023年11月的OpenAI首届开发者大会,GPT-4 Turbo可以说整个活动的焦点,不仅比GPT-4更聪明,文本处理的上限更高,推理的速度更快,价格也更便宜,国产大模型随即迎来了新的比较对象。

先是2024年4月份发布的日日新5.0,拥有6000亿参数,并在发布会上引用了OpenCompass的评测数据:日日新5.0达到或超越了GPT-4 Turbo版本,几乎全方位碾压了同期发布的 Llama 3-70B。

再然后就是阿里云刚刚发布的通义千问2.5,根据媒体报道中的说法:模型性能全面赶超GPT-4-Turbo,成为“地表最强”中文大模型;通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B,成为开源领域最强大模型。

可以笃定的是,日日新5.0和通义千问2.5只是个开始,后续将有更多国产大模型在能力上超越GPT-4-Turbo。

毕竟科大讯飞早已预热了上半年发布星火认知大模型V4.0的消息,将全面对标GPT-4系列;文心一言4.0的发布已经超过半年,不排除新版本正在准备中,且大概率会在性能上再上一个台阶……

“跑分”的意义在哪里?

不管是一开始的“部分性能超越”,还是现在进行中的“全面赶超”,依据都是第三方评测结果,或者说大模型厂商的主观判断。比如商汤和阿里云争相引用的OpenCompass,就是上海人工智能实验室开源的大模型评测平台。

对于一些大模型沉迷于刷榜、跑分的现象,上海人工智能实验室领军科学家林达华教授曾在媒体采访中直言:通过题海战术提高大模型成绩,对于模型实际能力的反应是失真的,影响了模型研发团队的改进方向和模型的商业落地,“高分低能”伤害的是机构本身;榜单上任何具体的名字只是大模型成长过程中无数次测试中的一次,一时的排名高低并不真正反映模型的能力。

何况很多大模型测试集为了公开透明,测试题目或者提纲都是公开的,大模型厂商不难通过“针对性的训练”来提高分数。只要将足够的的测试题喂给大模型,在开卷考试的机制下,分数总不会太低。

也就是说,分数高并不一定代表大模型的能力强。“跑分”的意义仅仅是让客户或开发者对大模型能力有一个初步的认识,最终的评估因素永远是“能不能解决问题”,“能不能在场景中带来实实在在的生产力”。

特别是在大模型走向落地应用的趋势下,一味炒作“超越GPT-4”、“跑分第一”,妄顾落地应用的实效,可能会适得其反。以大模型应用中比较常见的财报分析为例,如果大模型连一家企业的财报都看不懂,再高的计算分数也不会让客户信服,反而会被排除在合作名单外。

而参考中信证券等机构的研究报告,目前OpenAI的GPT-5正处于红队测试阶段,有望在今年夏天正式发布,可能在多模态理解、长文本输入、zero-shot学习等方面实现重大突破,且性能将远超GPT-4。即使国产大模型花费400多天追平了GPT-4,在相当长一段时间里,仍将处于追赶的姿态。

大模型的价值是解决日常问题的生产力工具,赶超GPT-4的阶段性升级,可以看作是国产大模型有序迭代部署、不断拉近差距的标志,切莫像手机跑分那样,在过度营销的作用下,沦为被群嘲的对象。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关标签
大模型

相关文章

  • 大模型争霸的下一站:不仅是超越GPT-4,更是寻求模型之间的平衡应用

    文|智能相对论作者|沈浪知名科学杂志《Nature》发表了一篇关于大模型规模参数大小争议的文章《InAl,isbiggeralwaysbetter?》——AI大模型,越大越好吗?随着大模型应用走向实践,这一问题不可避免地成为了当前AI行业发展的焦点与争议。有人认为,大模型当然是越大越好,参数越大,性

    标签:
    大模型
  • 解密Kimi:大模型应用当红顶流是如何练成的?

    抛开营销战,或许在中国也可以探索新的大模型应用聚合方式、供给方式以及商业利润分配的方式,对大模型公司来说,这将是一个新议题。

    标签:
    大模型
  • 大模型的现在进行时:走出对话框,走向产业端

    大模型热潮涌动了一年多后,越来越多人平复了激动的情绪,开始从客观的视角重新思考大模型的价值和机会。红杉资本在AlAscent2024的开场演讲中提到,大模型的创造能力和推理能力,第一次实现了以类似人类的方式进行交互,将支撑起数十万亿美元的市场。然而和AGI的遥远梦想相比,大模型的创业者们却不得不正视

    标签:
    大模型
  • 李彦宏放话:百度AI大模型绝不抢开发者饭碗

    关注卢松松,会经常给你分享一些我的经验和观点。昨晚,李彦宏内部讲话称:AI大模型开源意义不大,百度绝不抢开发者饭碗。但你一定要说话算话哦,可千万别说:“我永远不做手机,谁再敢提做手机就给我走人”,结果5年后自己的手机销量排名第一。如果百度也这么干的话估计AI也没人用了。李彦宏认为:从商业模式的角度来

    标签:
    大模型
  • 360 AI员工“红衣”入职事业部 承担多项安全运营工作

    近日,科技巨头360公司宣布,其全新AI员工“红衣”正式入职事业部,标志着公司向智能化、自动化方向迈出了坚实的一步。据悉,“红衣”由360安全大模型支持,具备高度智能化和自主学习能力,能够在多个领域提供高效、精准的服务。“红衣”是首位正式入职的数字安全专家,由360安全大模型支持,在安全运营工作中,

    标签:
    大模型
  • Manus官网突现“地区不可用”提示,中国区业务战略性调整引关注

    四个月前邀请码炒至10万元,如今官网变灰、社交账号清空,这家AI新贵的闪电迁移折射中国科技企业出海潮涌。7月11日,打开Manus官网的用户发现一则突兀提示:“Manus在你所在的地区不可用”。而就在不久前,这个位置还显示着“Manus中文版本正在开发中”的乐观声明。同时,Manus官方微博和小红书

    标签:
    ai智能
  • 摩尔线程估值超 250 亿,「中国英伟达」冲刺科创板

    文/十界来源/节点财经一场围绕算力自主的竞赛,正在科创板上演。近日,国产全功能GPU厂商摩尔线程递交科创板招股书,拟募资约80亿人民币,成为今年上半年科创板拟募资规模最大的冲刺者,也打响了“国产英伟达”上市的第一枪。据招股书显示,摩尔线程自2020年成立以来,主营全功能GPU芯片的研发与销售,以自主

  • 百川智能高管集体跑路!王小川的医疗AI还能赢吗?

    “AI大模型六小虎”百川智能危机重重。这是前搜狗CEO王小川创办的AI公司。昨天就爆出新闻,百川智能的联合创始人离职,这是王小川入局AI的第一道大坎。接下的成败非常关键:(1)拿下河北(2)学习科大讯飞百川智能离职高端概览:(1)2025年7月10日,百川智能技术联合创始人谢剑将离职。他是百川只能的

  • 百度智能云PaddleOCR 3.1正式发布:关键能力支持MCP

    百度AI团队今日正式推出PaddleOCR3.1版本,以突破性的多语言组合识别(MultilingualCompositionPerception,MCP)技术为核心,彻底重构复杂文档处理边界。此次升级标志着OCR领域首次实现对同一文档内任意混合语言文本的精准识别,为全球化企业、跨境业务及多元文化场

    标签:
    ai智能
    ai技术
  • 宇树科技加速冲刺科创板IPO,人形机器人龙头估值飙至120亿元

    “宇树已形成硬件、算法、场景联动的业务飞轮,自研率超95%的技术壁垒让其成为全球机器人赛道不可忽视的中国力量。”首程资本管理合伙人朱方文在追加投资时如是评价。7月7日,据每日经济新闻从宇树科技投资方处获悉,国内人形机器人领军企业宇树科技(UnitreeRobotics)已明确计划于科创板IPO,预计

    标签:
    宇树科技
  • OpenAI推出GPT-5:AI大统一时代的到来?

    推理与多模态的终极融合,将彻底终结用户在不同模型间切换的烦恼。7月7日,OpenAI正式确认将在今年夏季推出新一代人工智能模型GPT-5。这一突破性产品将整合现有的多个强大模型,特别是融合专注推理能力的“O系列”与具备多模态功能的“GPT系列”,为用户提供前所未有的统一体验。OpenAI开发者体验负

    标签:
    chatgpt
  • 中小AI企业,没有“高考”资格

    高考一结束,忙坏了海内外一众大模型。豆包、DeepSeek、ChatGPT、元宝、文心一言、通义千问……掀起了一波“AI赶考”大战。据悉,去年高考期间,大模型的成绩才勉强过一本线,今年集体晋升985。据悉,豆包甚至过了清北的录取线。头部大模型在高考“考场”上玩得不亦乐乎,中小AI创企的处境却日益尴尬

    标签:
    ai智能
  • 大模型抢滩高考志愿填报,能否顶替「张雪峰」们?

    文/二风来源/节点财经每年高考成绩放榜后,数千万考生和家长将迎来另一场硬仗——填报志愿。今年,这一领域迎来了AI的全面介入,多家互联网大厂和教育公司纷纷推出智能志愿填报产品,为考生提供院校和专业选择建议。据艾媒咨询数据,2023年中国高考志愿填报市场付费规模约9.5亿元,近九成考生愿意借助志愿填报服

    标签:
    大模型
  • 苹果AI掉队?现在唱衰或许还为时过早

    苹果还没从WWDC25的“群嘲”中走出,又迎来了一次新的痛击。据路透社报道,21日,苹果公司遭到股东集体起诉,被指在信息披露中低估了将先进生成式AI整合进语音助手Siri所需的时间,导致iPhone销量受影响、股价下滑,构成证券欺诈。在这份诉讼中,库克、首席财务官凯文·帕雷克及前首席财务官卢卡·马埃

  • DeepSeek、豆包向左,盘古大模型向右

    华为的盘古大模型终于推出新版本了。6月20日华为云计算CEO张平安宣布基于CloudMatrix384超节点的新一代昇腾AI云服务全面上线,盘古大模型5.5同步发布。不过,当前国内的AI大模型竞争可谓是相当激烈,华为的盘古大模型在众多大模型中并不是十分出众。华为云此次重磅推出的盘古大模型5.5能否从

编辑推荐