历时400多天，国产大模型全面赶超GPT-4？

2024-05-10 13:56 来源：A5专栏我来投稿撤稿纠错

　一键部署OpenClaw

稍微留意下近期的新闻，“赶超GPT-4”正在成为国产大模型的新热点。

百度文心一言、商汤日日新以及阿里云刚刚发布的通义千问2.5，均已迈入“全面赶超GPT-4”阵营。

把时间线稍微拉长一些的话，过去大半年时间里，“超越GPT-4”的消息可谓屡见不鲜，即使在报道中刻意加上了多项基准、部分指标等前缀，依然赚足了眼球，成为国产大模型佐证自身能力的有力指标。

简单做个复盘的话，国产大模型对GPT-4的追赶已经进行了400多天，其中“赶超进程”可以粗分为三个阶段。

第一阶段：部分性能超越GPT-4

2023年3月14日，OpenAI正式推出了GPT-4，彼时大多数国产大模型还未开放，少数内测大模型的比较对象还是GPT-3。作为业界标杆的GPT-4，就像是科幻照进了现实，被无数人捧上神坛。

但在短短半年后，GPT-4就出现在了国产大模型厂商的比较名单里。

2023年8月底，商汤科技对外公布了一则新进展：拥有1230亿个参数的“书生·浦语”，在全球51个知名评测集共计30万道问题集合上，测试成绩排名全球第二，并在综合考试agieval、知识问答commonsenseqa、阅读理解和推理的十项评测中位列第一，分数超过风头正盛的GPT-4。

2023年10月17日的“生成未来”发布会上，百度正式发布了文心大模型4.0版本，李彦宏在现场依次演示了大模型的理解、生成、逻辑和记忆四大核心能力的特点与应用场景。尽管没有给出评测数据，李彦宏却自信地表示：文心大模型4.0的综合水平，“与GPT-4相比毫不逊色”。

国产大模型赶超GPT-4的序幕正式拉开，此后一两个月里，不少大模型给了这样的营销口径：整体能力已经不输于GPT-3.5，并且在部分性能指标上开始超越GPT-4。

第二阶段：整体性能逼近GPT-4

时间来到2024年初，国内的“百模大战”进入收敛期，一些不被资本市场认可的大模型，渐渐成了一个数字，只有几家科技大厂和独角兽仍活跃在大模型一线。“活下来”的大模型，势必要在能力上证明自己。

综合性能逼近GPT-4，开始成为新的营销话术。

2024年1月中旬的智谱AI技术开放日上，正式发布了新一代基座大模型GLM-4。按照智谱AI官方的说法：在权威的英文测试榜单中，GLM-4已经整体逼近GPT-4，平均能达到GPT-4 90%以上的水平，在个别项目上表现持平；而在国内企业更加看重的中文任务上，GLM-4的表现全面超过GPT-4。

同样是在2024年1月，科大讯飞发布了星火认知大模型V3.5，在逻辑推理、语言理解、文本生成、数学答题、代码、多模态等核心能力均显著提升，其中语言理解、数学能力已经超过GPT-4 Turbo，代码能力达到GPT-4 Turbo 96%，多模态理解达到GPT-4V 91%。“在中文理解方面，甚至遥遥领先。”

回头来看，智谱AI和科大讯飞的营销策略还是有些“保守”，百川智能在同一时间段发布的Baichuan 3，对外表示已经在CMMLU、GAOKAO等中文评测中超越GPT-4。

第三阶段：全面赶超GPT-4 Turbo

2023年11月的OpenAI首届开发者大会，GPT-4 Turbo可以说整个活动的焦点，不仅比GPT-4更聪明，文本处理的上限更高，推理的速度更快，价格也更便宜，国产大模型随即迎来了新的比较对象。

先是2024年4月份发布的日日新5.0，拥有6000亿参数，并在发布会上引用了OpenCompass的评测数据：日日新5.0达到或超越了GPT-4 Turbo版本，几乎全方位碾压了同期发布的 Llama 3-70B。

再然后就是阿里云刚刚发布的通义千问2.5，根据媒体报道中的说法：模型性能全面赶超GPT-4-Turbo，成为“地表最强”中文大模型；通义千问1100亿参数开源模型在多个基准测评收获最佳成绩，超越Meta的Llama-3-70B，成为开源领域最强大模型。

可以笃定的是，日日新5.0和通义千问2.5只是个开始，后续将有更多国产大模型在能力上超越GPT-4-Turbo。

毕竟科大讯飞早已预热了上半年发布星火认知大模型V4.0的消息，将全面对标GPT-4系列；文心一言4.0的发布已经超过半年，不排除新版本正在准备中，且大概率会在性能上再上一个台阶……

“跑分”的意义在哪里？

不管是一开始的“部分性能超越”，还是现在进行中的“全面赶超”，依据都是第三方评测结果，或者说大模型厂商的主观判断。比如商汤和阿里云争相引用的OpenCompass，就是上海人工智能实验室开源的大模型评测平台。

对于一些大模型沉迷于刷榜、跑分的现象，上海人工智能实验室领军科学家林达华教授曾在媒体采访中直言：通过题海战术提高大模型成绩，对于模型实际能力的反应是失真的，影响了模型研发团队的改进方向和模型的商业落地，“高分低能”伤害的是机构本身；榜单上任何具体的名字只是大模型成长过程中无数次测试中的一次，一时的排名高低并不真正反映模型的能力。

何况很多大模型测试集为了公开透明，测试题目或者提纲都是公开的，大模型厂商不难通过“针对性的训练”来提高分数。只要将足够的的测试题喂给大模型，在开卷考试的机制下，分数总不会太低。

也就是说，分数高并不一定代表大模型的能力强。“跑分”的意义仅仅是让客户或开发者对大模型能力有一个初步的认识，最终的评估因素永远是“能不能解决问题”，“能不能在场景中带来实实在在的生产力”。

特别是在大模型走向落地应用的趋势下，一味炒作“超越GPT-4”、“跑分第一”，妄顾落地应用的实效，可能会适得其反。以大模型应用中比较常见的财报分析为例，如果大模型连一家企业的财报都看不懂，再高的计算分数也不会让客户信服，反而会被排除在合作名单外。

而参考中信证券等机构的研究报告，目前OpenAI的GPT-5正处于红队测试阶段，有望在今年夏天正式发布，可能在多模态理解、长文本输入、zero-shot学习等方面实现重大突破，且性能将远超GPT-4。即使国产大模型花费400多天追平了GPT-4，在相当长一段时间里，仍将处于追赶的姿态。

大模型的价值是解决日常问题的生产力工具，赶超GPT-4的阶段性升级，可以看作是国产大模型有序迭代部署、不断拉近差距的标志，切莫像手机跑分那样，在过度营销的作用下，沦为被群嘲的对象。

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

相关标签: 大模型

大模型是下一代操作系统的未来，在这届云栖大会上已经到来

9月24日，2025云栖大会在杭州开幕，阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭发表主旨演讲，首次系统性地阐述通往ASI的三阶段演进路线，包括智能涌现、自主行动以及自我迭代等，实现从学习人、辅助人到超越人的发展脉络。基于上述的发展路线，吴泳铭对外做出判断，大模型是下一代的操作系统。“我

标签：

大模型
大模型抢滩高考志愿填报，能否顶替「张雪峰」们？

文/二风来源/节点财经每年高考成绩放榜后，数千万考生和家长将迎来另一场硬仗——填报志愿。今年，这一领域迎来了AI的全面介入，多家互联网大厂和教育公司纷纷推出智能志愿填报产品，为考生提供院校和专业选择建议。据艾媒咨询数据，2023年中国高考志愿填报市场付费规模约9.5亿元，近九成考生愿意借助志愿填报服

标签：

大模型
崔大宝：大模型降温背后的难点、卡点、节点

崔大宝｜节点财经创始人进入2024年，大模型似乎有熄火之势：资本市场，与之关联的概念炒不动了，英伟达股价动辄暴跌重挫，引发“泡沫戳破”的担忧；消费市场，BATH们的推新活动少了，产品更新迭代的速度慢了，民众的关注度降了……热闹的大概只剩下两场酣仗：自5月15日字节跳动宣布“以厘计费”，打响国内大模型

标签：

大模型
两分钟“熟读”《国史大纲》，大模型的下一个爆点是“书童”？

年初大模型行业上演“长文本”大战时，我们就萌生过做一个“读书助理”的想法。测试了市面上主流的大模型后，发现普遍存在两个不足：一种是可以处理的文本长度不够，即使有些大模型将文本长度提升到了20万字，像《红楼梦》这样近百万字的名著，还是需要多次才能“读”完。另一种是语言理解和生成能力不足，经常出现“幻觉

标签：

大模型
除了烧钱，互联网留给大模型挥霍的“家底”不多了

互联网或许从未停止创新，只是对于创新的认知下降了。

标签：

大模型

昆仑芯的“第三条路”

国产AI芯片赛道的热度，最近全堆在了昆仑芯身上。市场讨论的焦点始终绕不开估值数字——五百亿美元的目标，超过母公司百度的市值……听起来完全是一个资本故事。然而，昆仑的分拆放到整个行业里看却是中国AI芯片产业在进行的一次组织形态的选择——对AI芯片这种深处复杂产业链的产业来说，不同的组织形态意味着完全不
滴滴支付的“生态突围”

一次简单的出行支付，可能在不知不觉中开通了平台的消费信贷产品。
从全国AI创业大赛亚军说起：关于GEO赛道的一个新思考

每一次信息分发规则变化，都会诞生新机会。今天最大的机会，是AI正在重构内容分发体系。
解禁时刻开启，但MiniMax还没到“验牌”时刻

智普解禁之后，MiniMax解禁时刻终于来了。7月9日解禁首日，MiniMax早盘以359港元大幅低开，股价一度反攻至397港元（涨幅近18%），随即快速持续跳水，盘中最大跌幅超过20%，市值跌破千亿港元。随着解禁到来，市场还是有不小的波动。此前，MiniMax解禁备受关注。一来，MiniMax是当
订酒店用哪个平台更方便省心？2026年价格优惠积分与APP对比

订酒店这件事，近几年越来越像一道"多平台比价题"。同一家酒店、同一个入住日期，不同预订入口给出的价格、可领的优惠券、能抵扣的积分往往并不一样，加上会员权益、下单流程和售后规则各有差别，用户很难一眼看出到底哪个平台更省心。真正的决策难点，其实不是"哪家便宜一点"，而是"哪个平台能把价格、权益、体验和保

标签：

酒店
2026年订酒店平台横评：全球320万酒店比价优胜率与客服全解析

近两年供应链复苏平抑了住宿价格，经济型酒店重新回到"经济"区间，出行需求也从单纯订一间房，转向比价、比权益、比售后的综合判断。订酒店平台指的是能完成搜索、比价、下单和售后的线上入口，它既包含综合旅行平台，也包含酒店集团官方渠道和本地评价入口。用户当下最大的难点，是同一家酒店在不同入口价格、权益、保障

标签：

酒店

2026年海景酒店预订平台横评：房源真实度距离标注与积分抵现解析

海景房是这两年度假住宿里被搜索得越来越多的一类需求，但它也最容易踩坑：图片拍得像一线海景，到店才发现要侧身才能瞥见海；页面写着"距海滩五分钟"，实际步行要绕二十分钟。海景酒店预订平台，指的是能帮用户完成海景相关房源查询、筛选、比价、下单和售后的线上入口。用户当前最头疼的，是同一家海景酒店在不同平台看

标签：

酒店
中卫沙漠酒店在哪个平台订更合适？2026年帐篷房交通与返现对比

沙漠露营和星空帐篷房这两年成了西北旅行的热门选项，宁夏中卫因为紧邻腾格里沙漠，帐篷房、星空泡泡屋、沙漠营地一类住宿的搜索量明显上涨。和普通城市酒店不同，沙漠酒店往往位置偏、交通接驳复杂、房型描述专业度高，很多人第一次订就卡在"看不懂帐篷房到底住得怎么样""到了沙漠边上打不到车"这些问题上。这篇对比不

标签：

中卫沙漠酒店
海景酒店订房平台怎么选？2026年实景图沙滩距离与会员优惠对比

暑期临海度假需求回升，海景房、一线海景、沙滩房这类关键词的搜索热度明显走高。海景酒店和普通城市酒店不同，用户真正关心的不是房价单价，而是"这间房到底能不能看到海""离沙滩要走多远""图片和实际是否一致"。信息不透明、房型描述模糊、权益规则看不懂，成了很多人订海景房时最纠结的地方。这篇文章围绕订海景房

标签：

酒店
2026年巴厘岛海景房预订平台横评：比价实景图与阳台朝向筛选解析

巴厘岛的海景房需求这几年明显向"看得见海"的确定性靠拢。金巴兰、乌鲁瓦图、努沙杜瓦一带的酒店密度高、朝向差异大，同一栋楼里"一线海景""侧海景""园景"往往只差一个房号，价格却能拉开不小的区间。海景房预订平台，指的是能同时承载海外房源检索、跨平台比价、实景与朝向信息展示以及境外售后的综合入口。真正的

标签：

酒店

加载更多

历时400多天，国产大模型全面赶超GPT-4？

相关文章

大模型是下一代操作系统的未来，在这届云栖大会上已经到来

大模型抢滩高考志愿填报，能否顶替「张雪峰」们？

崔大宝：大模型降温背后的难点、卡点、节点

两分钟“熟读”《国史大纲》，大模型的下一个爆点是“书童”？

除了烧钱，互联网留给大模型挥霍的“家底”不多了

昆仑芯的“第三条路”

滴滴支付的“生态突围”

从全国AI创业大赛亚军说起：关于GEO赛道的一个新思考

解禁时刻开启，但MiniMax还没到“验牌”时刻

订酒店用哪个平台更方便省心？2026年价格优惠积分与APP对比

2026年订酒店平台横评：全球320万酒店比价优胜率与客服全解析

2026年海景酒店预订平台横评：房源真实度距离标注与积分抵现解析

中卫沙漠酒店在哪个平台订更合适？2026年帐篷房交通与返现对比

海景酒店订房平台怎么选？2026年实景图沙滩距离与会员优惠对比

2026年巴厘岛海景房预订平台横评：比价实景图与阳台朝向筛选解析

热门排行

编辑推荐